Các kỹ thuật xử lý video như nén video..... một tài liệu thú vị khi bạn mới tìm hiểu về xử lý video
Trang 1Kiến trúc xử lý video
Tích hợp hệ thống phòng thí nghiệm C3I Liên bang Thụy Sĩ Viện Công nghệ, EPFL
Câu hỏi đầu tiên chúng tôi muốn trả lời là: chúng tôi có nghĩa là hiện nay để xử lý video? Trong quá khứ, nhiềuhơn hoặc ít hơn cho đến cuối những năm 80 có hai thế giới khác biệt: một thế giới truyền hình analog và một máytính thế giới kỹ thuật số Tất cả các chế biến truyền hình từ máy ảnh để nhận được dựa trên xử lý tương tự,tương tự điều chế và ghi âm analog Với sự tiến bộ của công nghệ kỹ thuật số, một phần của quá trình chế biếntương tự có thể được thực hiện bởi các mạch kỹ thuật số với các lợi thế phù hợp về khả năng tái của các mạchdẫn đến chi phí và ổn định lợi thế, và nhạy cảm với tiếng ồn dẫn đến lợi thế chất lượng Vào cuối những năm 80hoàn toàn khả năng xử lý video mới trở nên khả thi bởi các mạch kỹ thuật số Ngày nay, hình ảnh nén và giải nén
là chi phối xử lý video kỹ thuật số trong thời hạn tầm quan trọng và phức tạp của các chuỗi tất cả các TV
Hình 1 Schematic đại diện của một chuỗi truyền hình
Trong việc xử lý kỹ thuật số trong tương lai gần sẽ được sử dụng để vượt qua từ truyền hình độ phân giải tiêuchuẩn HDTV nén và giải nén là phải, xem xét băng thông mà nó sẽ yêu cầu để truyền Các ứng dụng khác sẽ
Đư c dịch sang:
Tiếng Việt
Hiển thị văn bản gốc Tùy chọn ▼
Trang 2được tìm thấy ở cấp độ của máy ảnh để tăng chất lượng hình ảnh bằng cách tăng số bit từ 8 đến 10 hoặc 12 chomỗi điểm ảnh, hoặc bằng cách sử dụng xử lý thích hợp nhằm bồi thường các hạn chế cảm biến (tăng cường hìnhảnh của phi tuyến tính lọc và chế biến) Kỹ thuật số xử lý cũng sẽ nhập vào phòng thu để chỉnh sửa kỹ thuật số,ghi âm và 50/60 Hz chuyển đổi tiêu chuẩn Ngày nay, các thông tin liên lạc băng thông cao theo yêu cầu củavideo kỹ thuật số không nén cần thiết để chỉnh sửa và ghi lại hoạt động, giữa các thiết bị phòng thu hạn chế việc
sử dụng video kỹ thuật số đầy đủ và xử lý video kỹ thuật số ở mức độ phòng thu
Nén video
Tại sao nén video đã trở thành ứng dụng xử lý video chiếm ưu thế của truyền hình? Một kênh truyền hình analogchỉ cần 5 MHz kênh analog để truyền, ngược lại trong trường hợp của video kỹ thuật số với 8-bit A / D, 720pixels cho 576 dòng (54 MHz Tốc độ lấy mẫu), chúng tôi cần một kênh truyền dẫn với công suất 168,8 Mbit /s! Trong trường hợp của HDTV kỹ thuật số công suất: 10 bit A / D, 1920 điểm ảnh 1.152 dòng tăng to1.1 Gbit/ s! Không có ứng dụng giá cả phải chăng, về chi phí, do đó có thể mà không cần nén video
Những lý do này cũng đã nêu lên sự cần thiết của các tiêu chuẩn trên toàn thế giới để nén video để đạt được khảnăng tương tác và khả năng tương thích giữa các thiết bị và các nhà khai thác H.261 là tên cho các tiêu chuẩnnén video kỹ thuật số đầu tiên thiết kế đặc biệt cho các ứng dụng hội nghị truyền hình, MPEG-1 là tên một trongnhững thiết kế cho CD lưu trữ (lên đến 1,5 Mbit / s) ứng dụng, MPEG-2 cho truyền hình kỹ thuật số và HDTVtương ứng từ 4 đến 9 Mb / s cho truyền hình, hoặc lên đến 20 Mb / s cho HDTV, H.263 cho hội nghị truyềnhình với tốc độ bit rất thấp (16 - 128 kb / s) Tất cả các tiêu chuẩn này có thể được coi là tốt hơn như là một giađình tiêu chuẩn chia sẻ các thuật toán xử lý khá giống nhau và các tính năng
Tất cả đều được dựa trên triết lý cơ bản giống nhau:
Bộ giải mã phải đơn giản
Đối với truyền hình HDTV trong khi chúng tôi có bộ mã hóa rất ít được sử dụng bởi các công ty đàitruyền hình (giới hạn chỉ cho mỗi kênh), chúng ta phải có một bộ giải mã trên mỗi bộ truyền hình
Cú pháp giải mã hoàn toàn được quy định
Điều này có nghĩa rằng bất kỳ video nén dòng bit có thể được giải mã mà không cần bất kỳ sự mơ hồmang lại kết quả cùng một đoạn video
Một bộ giải mã phải được tuân thủ QTI
Điều này có nghĩa là một bộ giải mã phải có khả năng để giải mã bất kỳ video bit dòng tôn trọng cú phápgiải mã
Cú pháp mã hóa được quy định cụ thể
Điều này có nghĩa là một bộ mã hóa phải mã hóa nội dung video trong một cú pháp tuân thủ QTI
Bộ mã hóa (tức là thuật toán mã hóa) không được quy định
Trang 3Điều này có nghĩa rằng các thuật toán mã hóa là một vấn đề cạnh tranh, bộ mã hóa có thể được tối ưuhóa nhằm đạt được chất lượng cao của nén video hoặc nhằm đơn giản hóa các thuật toán mã hóa để có
bộ mã hóa đơn giản Nó cũng có nghĩa là trong việc xử lý tương lai của sức mạnh xử lý hơn, chúng ta cóthể sử dụng nhiều hơn và tinh vi hơn và chế biến đòi hỏi các thuật toán mã hóa để tìm những lựa chọn tốtnhất của các cú pháp mã hóa có sẵn
Những nguyên tắc cơ bản của các tiêu chuẩn nén video có hậu quả rõ ràng mạnh mẽ trên kiến trúc thực hiện nénvideo Vì vậy, để hiểu việc xử lý chính và các vấn đề kiến trúc nén video chúng tôi một thời gian ngắn phân tíchchi tiết việc xử lý cơ bản của MPEG-2 tiêu chuẩn là gì
Nén video MPEG-2
MPEG-2 là một tiêu chuẩn đầy đủ quy định cụ thể tất cả các giai đoạn từ việc mua lại video lên đến giao diện vớicác giao thức truyền thông Hình 2 báo cáo một sơ đồ như thế nào MPEG-2 cung cấp sau khi một lớp nén vậnchuyển Âm thanh và video nén dòng suối bit được ghép và đặt trong các gói tin trong một định dạng phù hợpvới giao thông vận tải Điều này một phần chế biến có thể không được phân loại như xử lý video, và không đượcxem xét ở đây chi tiết
Hình 2 MPEG-2 sơ đồ luồng giao thông
Trang 4Hình 3 xử lý cơ bản cho MPEG-2 nén.
Hình 4 MPEG-2 trước khi lọc và giảm dư thừa không gian của DCT
Trang 5Hình 5 MPEG-2 không gian dự phòng giảm do lượng tử hóa và mã hóa entropy.
Các thuật toán cơ bản xử lý video MPEG-2 được báo cáo trong hình 3 Các thuật toán này cũng được tìm thấyvới một số biến thể trong tất cả các tiêu chuẩn nén khác được đề cập trước Giai đoạn đầu tiên là chuyển đổihình ảnh từ RGB định dạng để định dạng YUV và lọc tiếp theo và lấy mẫu của các thành phần chrominance đểmang lại màu sắc hình ảnh nhỏ hơn Sau đó, hình ảnh được phân chia thành khối điểm ảnh kích thước 8x8 vàkhối được nhóm lại trong vĩ mô khối kích thước 16x16 pixel Hai quá trình chính được áp dụng sau đó Một làgiảm sự dư thừa không gian, khác là giảm sự dư thừa thời gian
Trang 6Hình 6 MPEG-2 thời gian dự phòng giảm do dự đoán chuyển động bồi thường.
Sự dư thừa không gian được giảm áp dụng biến đổi DCT khối và sau đó entropy mã hóa bởi các bảng Huffmanlượng biến đổi hệ số Thời gian dự phòng được giảm bồi thường chuyển động áp dụng đối với vĩ mô khối theonhóm IBBP của cấu trúc hình ảnh
Trong biết thêm chi tiết (xem hình 4 và 5) dư thừa không gian được giảm áp dụng theo chiều ngang 8 lần và 8 lầntheo chiều dọc 1 8x1 DCT biến đổi Sau đó, biến đổi hệ số được lượng tử hóa, làm giảm đến số không nhỏ hệ
số tần số cao, quét zig-zag để bắt đầu từ hệ số DC ở góc trên bên trái của khối và mã hoá bằng cách sử dụngHuffman bảng gọi là Variable Length mã hóa (VLC)
Giảm thời gian dự phòng là quá trình làm giảm đáng kể tỷ lệ bit và cho phép để đạt được tỷ lệ nén cao Nó đượcdựa trên các nguyên tắc của việc tìm kiếm các khối vĩ mô hiện tại trong hình ảnh đã được truyền tại cùng một vịtrí trong hình ảnh hoặc thay thế bởi một vector chuyển động "được gọi là (xem hình 6) Kể từ khi một bản saochính xác của khối vĩ mô không được bảo đảm để được tìm thấy, vĩ mô khối có lỗi trung bình thấp nhất đượcchọn làm tài liệu tham khảo khối vĩ mô "Lỗi khối vĩ mô" sau đó được xử lý như vậy để giảm sự dư thừa khônggian, nếu có, bằng phương tiện của thủ tục nêu trên và truyền để có thể tái tạo lại mong muốn vĩ mô, khối xử lývector chuyển động "cho thấy các tài liệu tham khảo và các lỗi tương đối
Hình 7 báo cáo được gọi là MPEG-2 Group Cơ cấu tổ chức Hình ảnh cho thấy hình ảnh được xếp vào loại I(Intra), P (dự đoán) và B (Bi-hướng nội suy) Tiêu chuẩn này quy định cụ thể hình ảnh vĩ mô nội khối chỉ có thểđược xử lý để giảm sự dư thừa không gian, P hình ảnh khối vĩ mô cũng có thể được xử lý để giảm sự dư thừathời gian đề cập chỉ qua I hoặc P khung, hình ảnh B-block vĩ mô cũng có thể được xử lý bằng cách sử dụng mộtsuy của tài liệu tham khảo trong quá khứ và tương lai khối vĩ mô Rõ ràng là B-block vĩ mô cũng có thể được mãhóa như nội hoặc dự đoán nếu nó được tìm thấy thuận tiện cho việc nén Lưu ý rằng kể từ khi B hình ảnh có thể
sử dụng như là tài liệu tham khảo trong quá khứ và tương lai hoặc các khung hình P, để truyền tải MPEG-2 hìnhảnh khác nhau từ thứ tự hiển thị, hình ảnh B được truyền đi trong nén dòng bit sau khi các hình ảnh tôi và Ptương đối
Trang 7Hình 7 Cấu trúc của một GOP MPEG-2, hiển thị các tài liệu tham khảo hình dự đoán chuyển động bồi thường
của P và B hình ảnh
Phức tạp của xử lý Video MPEG
Vào cuối những năm 80 đã có rất nhiều cuộc thảo luận về sự phức tạp của việc thực hiện DCT biến đổi trongthời gian thực với tốc độ video Khối 8x8 đã được chọn thay vì 16x16 để làm giảm sự phức tạp của biến đổi.Mục tiêu chính là để tránh chế biến phức tạp ở phía bộ giải mã Với mục tiêu này, nhiều việc triển khai tối ưudành cho DCT đã xuất hiện trong cả hai hình thức của các chip chuyên dụng và phần mềm bằng cách sử dụnggiảm số lượng nhân và bổ sung
Ngày nay, kỹ thuật số công nghệ đã có nhiều tiến bộ về tăng tốc độ và hiệu suất xử lý mà DCT mã hóa hoặc giải
mã không còn là một vấn đề quan trọng Nếu chúng ta nhìn hình 8, chúng ta có thể tìm thấy một sơ đồ khối sơ đồmạch của một bộ giải mã MPEG-2 là rất tương tự như những người thân của các tiêu chuẩn nén khác Một bộđệm là cần thiết để nhận được tại một hằng số tốc độ bit nén bit trong quá trình giải mã được không phải là "tiêuthụ" với một tốc độ không đổi VLD là một chế biến tương đối đơn giản có thể được thực hiện bằng cách nhìnlên bảng hoặc những kỷ niệm Là một chế biến bit-khôn ngoan, nó không thể được song song và kết quả khákém hiệu quả được thực hiện trong các bộ vi xử lý mục đích chung Đây là lý do mà bộ vi xử lý đa phương tiệnmới như Philips "Trimedia" sử dụng đơn vị cụ thể VLC / VLD mã hóa entropy Các yếu tố tốn kém hơn của các
bộ giải mã MPEG-2 là những kỷ niệm cho việc lưu trữ của khung tham chiếu trong quá khứ và tương lai và xử lýcác luồng dữ liệu giữa các đơn vị chuyển động bù người xen vào và những kỷ niệm video tham khảo
Trang 8Hình 8: Sơ đồ khối của một bộ giải mã MPEG-2.
Đối với một bộ mã hóa MPEG-2, xem hình 9, tình hình là rất khác nhau Trước hết, chúng ta có thể nhận ra mộtcon đường thực hiện đầy đủ một bộ giải mã MPEG-2, cần thiết để tái tạo lại hình ảnh tham khảo khi chúng đượctìm thấy ở kích thước bộ giải mã Sau đó, chúng ta có một khối dự toán chuyển động (Bi-hướng chuyển độngước tính) có mục tiêu của việc tìm kiếm các vector chuyển động, và một khối lựa chọn và kiểm soát các phươngthức mã hóa khối vĩ mô Như đã thảo luận trong đoạn văn trước đó, cách nào để tìm các vector chuyển động tốtnhất cũng như cách để lựa chọn đúng mã hóa cho mỗi khối vĩ mô không được quy định theo tiêu chuẩn Vì vậy,các thuật toán rất đơn giản (với hiệu suất chất lượng hạn chế), hoặc cực kỳ phức tạp (với hiệu suất chất lượngcao) có thể được thực hiện cho các chức năng này Hơn nữa, MPEG-2 cho phép định nghĩa năng động của cấutrúc đảng Cộng hòa làm cho khả năng có thể có nhiều chế độ mã hóa Nói chung là những vấn đề quan trọngcủa một bộ mã hóa MPEG-2: dự toán chuyển động xử lý và xử lý các luồng dữ liệu phức tạp với các vấn đềbăng thông tương đối giữa những kỷ niệm khung ban đầu và mã hóa, xử lý tính toán chuyển động và kiểm soátcác đơn vị mã hóa
Chúng tôi cũng đã đề cập đến các phương thức mã hóa MPEG-2 là phức tạp hơn nhiều những gì có thể có vẻ
từ này mô tả ngắn gọn Trong thực tế, truyền hình hiện tại dựa trên hình ảnh interlaced và xử lý tất cả các chế độ
mã hóa có thể được áp dụng theo những cách khác biệt "khung" các khối và các khối vĩ mô hoặc "lĩnh vực" cáckhối và các khối vĩ mô Cũng áp dụng cho dự toán chuyển động mà chúng ta có thể sử dụng cả hai vectơ hoặckhung Hơn nữa tất cả các tài liệu tham khảo cho dự đoán có thể được thực hiện trên các điểm ảnh hình ảnhđúng sự thật hoặc trên điểm ảnh hình ảnh "ảo" thu được bằng cách nội suy song tuyến như trong hình 10
Trang 9Hình 9 Sơ đồ khối của một bộ mã hóa MPEG-2.
Hình 10: MPEG-2 khối tài liệu tham khảo vĩ mô có thể được thực hiện cũng "ảo" điểm ảnh (màu đỏ) thu được
bằng cách nội suy song tuyến tính, thay vì pixel hình ảnh từ raster ban đầu (màu xám)
Trong trường hợp này, vector chuyển động với một nửa độ chính xác điểm ảnh cần phải được ước tính Khảnăng sử dụng tất cả các chế độ mã hóa này có thể phần lớn làm tăng chất lượng của video nén, nhưng nó có thểtrở nên cực kỳ yêu cầu về chế biến phức tạp
Trang 10Thách thức của nhà thiết kế MPEG-2 mã hóa là tốt nhất thương mại-off giữa sự phức tạp của thuật toán thựchiện và chất lượng của video nén Các vấn đề kiến trúc và thuật toán liên quan rất chặt chẽ trong kiến trúc bộ mãhóa MPEG-2.
Video k thuật số và đồ họa máy tính
Trong video kỹ thuật số qua trên các máy tính là tương đương với đồ họa máy tính Khác nhau từ thế giới truyềnhình tất cả các xử lý là rõ ràng là kỹ thuật số chủ yếu là xử lý hình ảnh tổng hợp từ 2-D hoặc các mô hình 3-D.Khái niệm về thời gian thực ứng dụng đồ họa máy tính là xấp xỉ vì thường ứng dụng đã được dự định để chạycàng nhanh càng tốt trên các bộ vi xử lý có sẵn bằng cách sử dụng song song trong các máy gia tốc đồ họa chocác phép tính số học trên pixels
Hình 11: Trình tự các bước xử lý đồ họa máy tính điển hình
Hình 11 cho thấy một sơ đồ của các hoạt động đồ họa máy tính cơ bản Đối với mỗi hình ảnh, 2-D và 3-D môhình bao gồm các hình tam giác hoặc đa giác được đặt trong không gian ảo bởi các ứng dụng có thể được tươngtác Vị trí của mỗi đỉnh được tính theo sự biến đổi hình học của đối tượng và chiếu lên màn hình Các kết cấu, lậpbản đồ trên hình đa giác mỗi, được chuyển đổi theo mô hình ánh sáng tương ứng với vị trí của đa giác trongkhông gian Các điểm ảnh trên màn hình tương ứng với raster màn hình thu được từ các điểm ảnh kết cấu "gốc"trên hình đa giác bởi các hoạt động thích hợp lọc Cuối cùng, đa giác được hiển thị trên màn hình
Trang 11Hình 12 xử lý yêu cầu của nội dung đồ họa 3-D về điểm ảnh và đa giác mỗi giây.
Ứng dụng máy tính đồ họa mạnh mẽ dựa trên hiệu suất của card tăng tốc chuyên để điều trị song song với mộtmức độ cao của đường ống dẫn tất cả các hoạt động này rất nhiều nhưng đơn giản pixel Hình 12 báo cáo một
sơ đồ của các yêu cầu chế biến của đa giác / s và điểm ảnh / s nội dung đồ họa khác nhau
Truyền hình, đồ họa máy tính và đa phương tiện: MPEG-4?
MPEG-4 mới đa phương tiện tiêu chuẩn, được quy định như dự thảo tiêu chuẩn quốc tế ISO vào tháng 98, đang
cố gắng thách thức đầy tham vọng của thế giới của video và truyền hình tự nhiên với thế giới của đồ họa máy tính
và máy tính
MPEG-4, chúng tôi có thể tìm thấy trong thực tế, cả video nén tự nhiên và 2-D và 3-D mô hình Tiêu chuẩn nàydựa trên khái niệm của các dòng cơ bản đại diện và mang theo các thông tin của một "đối tượng" duy nhất có thể
là của bất kỳ loại "tự nhiên" hay "tổng hợp", âm thanh hoặc video
Hình 13, báo cáo một ví dụ về những gì có thể là nội dung của một cảnh MPEG-4 Tự nhiên và 2-D và 3-Dtổng hợp âm thanh hình ảnh đối tượng được nhận được bao gồm trong một cảnh như của một người xem giảthuyết
Trang 12Hình 13: Ví dụ về nội dung và xây dựng một cảnh MPEG-4.
Hình 14: Sơ đồ của MPEG-4 lớp hệ thống và giao diện với các lớp mạng
Hai cấp độ ảo là cần thiết để giao diện "dòng tiểu học" cấp với cấp độ mạng Đầu tiên là cần thiết để mỗi dòngmultiplex / demultiplex giao tiếp thành các gói và lần thứ hai để đồng bộ hóa từng gói tin và xây dựng các "tiểu
Trang 13dòng" mang thông tin "đối tượng" như trong hình 14.
Xử lý liên quan đến MPEG-4 lớp Hệ thống có thể không được xem xét như xử lý video là rất tương tự như việc
xử lý gói tin điển hình để truyền thông mạng
Một thiết bị MPEG-4 có thể được biểu đồ hóa như trong hình 15 Các mạng lưới thông tin liên lạc cung cấp cácdòng được demultiplexed vào một tập hợp các "tiểu dòng" Mỗi "tiểu dòng" được giải mã thành các đối tượng
âm thanh / video Sử dụng mô tả cảnh truyền với các dòng tiểu đối tượng tất cả được "sáng tác" trong bộ nhớvideo tất cả cùng nhau theo kích thước, xem góc độ và vị trí trong không gian và sau đó "trả lại" trên màn hình,
có thể được tương tác và có nguồn gốc 1 thượng nguồn dữ liệu do sự tương tác người dùng và gửi trả lại chocác bộ mã hóa MPEG-4
MPEG-4 hệ thống, do đó thực hiện không chỉ là MPEG-2 giống như cổ điển nén / giải nén xử lý và chức năngnhưng cũng xử lý đồ họa máy tính chẳng hạn như "thành phần" và "vẽ" Sự khác biệt chính so với video tự nhiêncủa MPEG-1, MPEG-2, H.263, là sự ra đời của "mã hóa hình dạng" tạo điều kiện cho việc sử dụng của các đốitượng video tùy tiện hình như minh họa trong Hình 16 Hình dạng thông tin mã hóa được dựa trên cấu trúc dữliệu vĩ mô, ngăn chặn và số học mã hóa thông tin đường viền liên quan tại mỗi khối ranh giới
Hình 15 Tác giả của chế biến và chức năng thực hiện trong một thiết bị đầu cuối MPEG-4