Luận văn thạc sĩ cách nén video trong hệ thống hội nghị truyền hình ứng dụng trong việc họp giao ban trực tuyến, tập huấn, đào tạo cán bộ trong ngành giáo dục tỉnh quảng ninh

ĐẠI HỌC THÁI NGUYÊNTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ NAM DƯƠNG CÁCH NÉN VIDEO TRONG HỆ THỐNG HỘI NGHỊ TRUYỀN HÌNH ỨNG DỤNG TRONG VIỆC HỌP GIAO BAN TRỰC TUYẾN, TẬP HUẤ

Trang 1

VŨ NAM DƯƠNG

CÁCH NÉN VIDEO TRONG HỆ THỐNG

HỘI NGHỊ TRUYỀN HÌNH ỨNG DỤNG TRONG VIỆC HỌP GIAO BAN TRỰC TUYẾN, TẬP HUẤN, ĐÀO TẠO CÁN BỘ TRONG NGÀNH GIÁO DỤC TỈNH QUẢNG NINH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2020

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ NAM DƯƠNG

CÁCH NÉN VIDEO TRONG HỆ THỐNG

HỘI NGHỊ TRUYỀN HÌNH ỨNG DỤNG TRONG VIỆC HỌP GIAO BAN TRỰC TUYẾN, TẬP HUẤN, ĐÀO TẠO CÁN BỘ TRONG NGÀNH GIÁO DỤC TỈNH QUẢNG NINH

Chuyên ngành: Khoa học máy tính

Mã số: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS TS Đỗ Năng Toàn

THÁI NGUYÊN - 2020

Trang 3

LỜI CAM ĐOAN

Tên tôi là: Vũ Nam Dương.

Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nộidung trong đề cương và yêu cầu của thầy giáo hướng dẫn Nếu sai tôi hoàntoàn chịu trách nhiệm trước hội đồng khoa học và trước pháp luật

Thái Nguyên, ngày 16 tháng 9 năm 2020

Tác giả luận văn

Vũ Nam Dương

Trang 4

LỜI CẢM ƠN

Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự độngviên, giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn PGS TS ĐỗNăng Toàn, luận văn với Đề tài “Cách nén video trong hệ thống hội nghịtruyền hình - Ứng dụng trong việc họp giao ban trực tuyến, tập huấn, đào tạocán bộ trong ngành giáo dục tỉnh Quảng Ninh”

Xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng PGS TS Đỗ NăngToàn đã tận tình chỉ dẫn, giúp đỡ tôi hoàn thành luận văn này

Phòng đào tạo Sau đại học Trường Đại học Công nghệ Thông tin vàTruyền thông đã giúp đỡ tôi trong quá trình học tập cũng như thực hiện luậnvăn

Sở Giáo dục và Đào tạo tỉnh Quảng Ninh, trường THPT Vũ Văn Hiếunơi tôi công tác đã tạo điều kiện tối đa cho tôi thực hiện khóa học này

Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên,khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện vàhoàn thành luận văn này

Thái Nguyên, ngày 16 tháng 9 năm 2020

Tác giả luận văn

Vũ Nam Dương

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC KÝ HIỆU, CÁC TỪ VIẾT TẮT v

LỜI MỞ ĐẦU 1

CHƯƠNG I KHÁI QUÁT VỀ HỘI NGHỊ TRUYỀN HÌNH VÀ BÀI TOÁN NÉN VIDEO 3

1.1 Khái quát về hội nghị truyền hình 3

1.1.1 Giới thiệu 3

1.1.2 Các thành phần của một hệ thống Hội nghị truyền hình 5

1.2 Bài toán nén video 6

1.2.1 Nén video trong hệ thống hội nghị truyền hình 6

1.2.2 Một số cách tiếp cận nén video trong Hội nghị truyền hình 8

CHƯƠNG II KỸ THUẬT NÉN VÀ GIẢI NÉN MPEG-4 H.264/AVC 21

2.1 Nguyên lý hoạt động cơ bản 21

2.1.1 Tổng quan về chuẩn nén 21

2.1.2 Sơ đồ mã hóa 36

2.1.3 Sơ đồ giải mã 37

2.2 Khối nén thời gian 38

2.2.1 Dự đoán một chiều (mã hóa ảnh Prediction) 38

2.2.2 Dự đoán hai chiều( mã hóa ảnh Bidiriectional Prediction) 39

2.2.3 Sơ đồ nguyên lý nén ảnh B 40

2.2.4 Bù chuyển động trong các slice B 40

2.2.5 Dự đoán liên ảnh (Inter-Frame) 43

2.2.6 Mã hóa ảnh SP (switching P) và SI (switching I) 46

2.3 Khối nén không gian 47

2.3.1 Chia ảnh thành các MacroBlock 48

2.3.2 Dự đoán trong ảnh (Intra-frame) 49

Trang 6

2.3.3 INTRA LUMA 4 x 4 50

2.3.4 INTRA LUMA 16 x 16 54

2.3.5 INTRA CHROMA 8x8 56

2.3.6 INTRA-PCM 56

2.3.7 Dự đoán trọng số 57

CHƯƠNG III CHƯƠNG TRÌNH THỬ NGHIỆM 59

3.1 Phân tích yêu cầu 59

3.1.1 Nén – giải nén của H.264/AVC 59

3.1.2 Lưu đồ giải thuật 63

3.2 Chương trình mô phỏng nén-giải nén của H.264/AVC bằng Matlab 64

3.3 Một số kết quả 66

PHẦN KẾT LUẬN 69

TÀI LIỆU THAM KHẢO 70

PHỤ LỤC 71

Trang 7

DANH MỤC KÝ HIỆU, CÁC TỪ VIẾT TẮT

Biến đổi Wavelet rời rạc (Discrete Wavelet

Transform)

FLC

GMC

ICT

Mã hóa có chiều dài cố định (Fixed-Length Code)

Bù chuyển động toàn phần (Global Motion

Compensation)Biến đổi nguyên Cosine rời rạc (Integer DiscreteCosine Transform)

IDCT Biến đổi ngược Cosine rời rạc (Inverse Discrete

Chuẩn nén ảnh JPEG2000

Kỹ thuật nén ảnh không tổn hao (không mất dữ liệu)

Kỹ thuật nén ảnh có tổn hao (có mất dữ liệu)

Đa khối (Macroblock)

Bù chuyển động (Motion Compensation)

ME Ước lượng chuyển động(Motion Estimate)

MSE Sai số bình phương trung bình (Mean Square Error)MPEG Nhóm chuyên gia nén ảnh động (Moving Pictures

Experts Group)

NAL Lớp trừu tượng mạng (Network Abstraction Layer)NNS Tìm ở khối gần nhất (Nearest Neighbors Search)

Trang 8

PCM Điều xung mã (Pulse Code Modulation)

PSNR Tỷ số tín hiệu đỉnh trên nhiễu (Peak Signal to Noise

Ratio)

QP Thông số lượng tử (Quantization Parameter)

(Red/Green/Blue)RLC Mã hoá dọc chiều dài (Run Length Coding)

VCL Lớp mã hóa Video (Video Coding Layer)

VLC Mã có chiều dài thay đổi (Variable Length Code)

VO Đối tượng Video (Video Object)

(International Organization for Standardization)IEC Ủy ban kỹ thuật điện quốc tế (International Electro-

technical Commission)

Trang 9

LỜI MỞ ĐẦU

Một trong những đặc điểm nổi bật của thời đại ngày nay là sự phát triển rất nhanh của khoa học và công nghệ Các cuộc cách mạng khoa học trên các lĩnh vực: tin học, truyền thông, công nghệ… không chỉ làm thay đổi mọi mặt của đời sống kinh tế - xã hội mà còn có tác động mạnh mẽ đến giáo dục và đào tạo, góp phần đổi mới phương pháp, nâng cao hiệu quả và chất lượng trong giáo dục Dưới ảnh hưởng của các cuộc cách mạng khoa học, nhiều phương tiện kỹ thuật dạy học hiện đại xuất hiện,việc sử dụng các phương tiện như: Hệ thống trang thiết bị nghe nhìn, thiết bị và bài giảng tương tác, học tập qua mạng, tìm kiếm và khai thác những tài nguyên vô cùng quý giá và bổ ích từ Internet… trong quá trình học và dạy học chính là yếu tố chính đòi hỏi phải có sự đổi mới môi trường giáo dục, đổi mới cách dạy và cách học ở mọi cấp học.

Hội nghị truyền hình như hiện nay đã đóng góp một phần làm cho khoảng cách địa lý đã không còn là trở ngại quá lớn Sử dụng giải pháp hội nghị truyền hình sẽ tiết kiệm được rất nhiều thời gian đi lại, học, họp và đào tạo đồng thời giải quyết được vấn đề chi phí đi lại, ăn ở, sinh hoạt của các đại biểu tham gia các buổi học, đào tạo tại các địa điểm khác nhau, giảm các rủi ro tai nạn trên đường đi cho những người tham gia Ngoài ra, có một chiến lược đúng đắn trong việc triển khai giải pháp này sẽ giúp cho tỉnh Quảng Ninh có một môi trường chia sẻ thông tin hiệu quả, tận dụng được tối đa các chi phí đầu tư.

Với hạ tầng truyền thông ngày càng được củng cố và phát triển, kinh phí thuê đường truyền ngày càng giảm thì việc triển khai hệ thống hội nghị truyền hình của tỉnh Quảng Ninh mang tính thực tiễn và khả thi rất cao, góp phần thành công trong công cuộc đổi mới và phát triển của tỉnh, của đất nước.

Tuy nhiên, với việc triển khai hệ thống hội nghị truyền hình trên nền tảng cơ

sở hạ tầng đang có thì việc các tín hiệu (video, hình ảnh, bài giảng ) được truyền đi thông qua các nhà mạng Internet Điều này sẽ làm ảnh hưởng đến chất lượng của các thông tin đi và đến Có nhiều giải pháp để giải quyết vấn đề này như: Tăng băng thông, nâng cấp các thiết bị, áp dụng các chuẩn nén để nén tín hiệu âm thanh

và hình ảnh xuống mức thấp nhất mà vẫn đảm bảo chất lượng… Với việc tăng băng

Trang 10

thông hay nâng cấp các thiết bị đòi hỏi chi phí lớn cũng như các thiết bị tiên tiến mới, vì vậy em lựa chọn phương pháp áp dụng các kỹ thuật nén mới để áp dụng cho bài toán này.

Hiện có rất nhiều các chuẩn nén để có thế áp dụng vào bài toán này, tuy nhiên

em chọn nghiên cứu chuẩn nén MPGE-4 H.264/AVC để đưa vào ứng dụng Để có thể đi sâu vào nghiên cứu chuẩn nén MPEG-4 H.264/AVC, thì chúng ta cần nắm được các thuật ngữ, các kỹ thuật cần thiết cho việc nén tín hiệu, cũng như là các ưu nhược điểm của các chuẩn nén trước đó đã mang lại.

Vì đây là một đề tài lý thuyết, nên bước quan trọng nhất của quá trình làm luận văn là tìm kiếm tài liệu và tổng hợp nó thành một chuỗi các kiến thức liên tục tránh lan man và yếu tố thuyết phục người tham khảo cũng rất quan trọng, do đó bên cạnh trình bày chi tiết về cách thức nén, em đã cố gắng mô phỏng một phần ưu điểm của chuẩn nén này nhằm góp phần sinh động cho đề tài.

TỔ CHỨC LUẬN VĂN

Luận văn được trình bày thành 3 chương và 1 phụ lục.

Chương I: KHÁI QUÁT VỀ HỘI NGHỊ TRUYỀN HÌNH VÀ BÀI TOÁN

NÉN VIDEO.

Chương II: KỸ THUẬT NÉN VÀ GIẢI NÉN MPEG-4 H.264/AVC

Chương III: CHƯƠNG TRÌNH THỬ NGHIỆM

Tuy nhiên, do kinh nghiệm còn hạn chế, đồng thời MPEG-4 H.264/AVC là một kỹ thuật còn trong giai đoạn nghiên cứu và phát triển, nên chắc chắn luận văn

sẽ không tránh khỏi sai sót, kính mong Quý Thầy Cô và bạn bè đồng nghiệp đóng góp ý kiến nhằm hoàn thiện tốt luận văn này.

Trang 11

CHƯƠNG I KHÁI QUÁT VỀ HỘI NGHỊ TRUYỀN HÌNH VÀ BÀI

TOÁN NÉN VIDEO 1.1 Khái quát về hội nghị truyền hình

1.1.1 Giới thiệu

Vào những năm 80 của thế kỷ XX, Hội nghị truyền hình đã mở ra mộthướng mới cho thế giới trong việc trao đổi thông tin khi các đối tượng cầngiao lưu ở các vị trí khác nhau mà không có khái niệm về mặt địa lý Khácvới các phương tiện trao đổi thông tin khác như điện thoại, dữ liệu, Hội nghịtruyền hình cho phép mọi người tiếp xúc với nhau, nói chuyện với nhau thôngqua tiếng nói và hình ảnh bằng hình ảnh trực quan Việc sử dụng công nghệhội nghị truyền hình, cho thấy hiệu quả sử dụng của nó đã đem lại lợi ích hiệuquả kinh tế rõ rệt, ứng dụng truyền hình cho việc giao lưu, gặp gỡ, hội nghị,hội thảo, đào tạo, chăm sóc sức khỏe từ xa trong ngành y tế, các lĩnh vực kháctrong nền kinh tế là sự hợp tác, nghiên cứu và phát triển không ngừng đã đemlại lợi ích và hiệu quả kinh tế vô cùng to lớn cho xã hội

Thế hệ đầu tiên của hệ thống thiết bị hội nghị truyền hình được thực hiện

qua mạng kỹ thuật số đa dịch vụ ISDN dựa trên tiêu chuẩn H.230 của Tổ chứcITU;

Thế hệ thứ hai của hệ thống thiết bị hội nghị truyền hình ứng dụng cho

máy tính cá nhân và công nghệ thông tin, và vẫn dựa vào mạng ISDN và cácthiết bị mã hoá/giải mã, nén/giải nén - CODEC;

Thế hệ thứ ba của hệ thống thiết bị hội nghị truyền hình ra đời trên cơ sở

mạng cục bộ LAN phát triển rất nhanh và có mặt ở khắp mọi nơi trên thế giới

Hiện nay, công nghệ truyền hình với chất lượng cao sử dụng chuẩn H.230

có tính ưu việt, đã và đang thay thế dần các phương tiện thông tin khác và đãđược ứng dụng vào tất cả các ngành kinh tế quốc dân từ quốc phòng, chăm sócsức khỏe, đào tạo, nghiên cứu khoa học, v.v và cuối cùng là một công nghệtruyền thông không thể thiếu được trong ngành kinh tế quốc dân Công nghệhiện đại nhất hiện nay của hệ thống thiết bị hội nghị truyền hình là sử dụng theotiêu chuẩn công nghệ H.323 qua giao thức IP Khi công nghệ HD (High

Trang 12

Definition) chính thức gia nhập thị trường Với chất lượng hình ảnh rõ nétgấp 10 lần so với chuẩn SD (Standard Definition), độ phân giải hình ảnh đạtđến 720p; Full HD 1080p, nén Video chuẩn H.264, âm thanh AAC-LD, hội

nghị truyền hình HD thực sự thoả mãn được nhu cầu "giao tiếp ảo" Công nghệ

HD giúp các tổ chức, doanh nghiệp thay thế các cuộc họp dày đặc bằng nhữngcuộc họp trực tuyến

Thế hệ thứ tư của hệ thống thiết bị truyền hình ra đời từ 2014 trên cơ sở một

loạt các tiến bộ vượt bậc về công nghệ thông minh của hãng Trueconf: (1) Áp

dụng được chuẩn nén H.264 SVC trong việc truyền nhận dữ liệu, giúp cho hìnhảnh âm thanh đạt chất lượng cao cấp về hình ảnh và âm thanh với yêu cầu băng

thông cực thấp (Full HD 30 fps 1080p chỉ yêu cầu băng thông là 1024 Kbps); (2)

Dùng công nghệ nhận dạng thông minh đối với siêu âm và hồng ngoại để tiếpnhận tín hiệu từ bút điện tử cảm ứng vào màn hình không cảm ứng, giúp chongười sử dụng có thể vẽ, xóa được bằng bút điện tử đa sắc màu trên màn hìnhbất kỳ (khung hình trắng hoặc chứa nội dung đang trình chiếu) Hình ảnh đang

vẽ sẽ được truyền ngay lập tức tới các đầu cầu khác và ghi lại được thành file

ảnh cùng với hình ảnh nền đã trình chiếu; (3) Dùng công nghệ nhận dạng thông

minh đối với âm thanh trong tín hiệu thu được từ micro đa hướng để phát hiện

ra tiếng người, đâu là âm thanh do va chạm vật chất gây ra (tạp âm), giúp cho hệthống ngay lập tức phát hiện điểm cầu có người phát biểu để tự động kích hoạtđiểm cầu đó trở thành điểm cầu chính, làm cho việc điều khiển các điểm cầu cóthể thực hiện hoàn toàn tự động (các điểm cầu đều không cần bật micro khi phát

biểu, không cần tắt micro khi ngừng phát biểu); (4) Dùng công nghệ nhận dạng

và phán đoán thông minh đối với hình ảnh để tự động điều chỉnh liên tục khuônhình của camera vừa đủ theo vị trí của những người dự họp, loại bỏ không gianthừa, tự đếm được số người dự họp theo từng giây Dùng công nghệ nhận dạng

và phán đoán đối với hình ảnh khuôn mặt người để tự động phát hiện chính xácngười phát biểu trong số những người dự họp và điều chỉnh camera quay chândung người phát biểu (khi người phát biểu di chuyển thì camera sẽ quay vàzoom theo người đó)

Trang 13

1.1.2 Các thành phần của một hệ thống Hội nghị truyền hình

Các hệ thống đào tạo cán bộ trực tuyến đa điểm gồm 3 thành phần cơbản: thiết bị đầu cuối (Thiết bị VCS), thiết bị điều khiển đa điểm (MCU), thiết

bị vượt tường lửa hoặc Gateway và Gatekeeper Ngoài ra còn có các thiết bịtùy chọn khác (thiết bị chia sẻ dữ liệu, thiết bị ghi hình lại hình ảnh VideoConferencing, thiết bị lập lịch và quản lý các khóa đào tạo, …)

- Thiết bị VCS: Có chức năng thu nhận hình ảnh, âm thanh (qua camera,micro) mã hóa chúng rồi chuyển qua giao diện mạng Các VCS còn có cổng giaotiếp với máy tính (PC, Laptop) cho phép kết nối và trình chiếu các tài liệu từ máytính vào phiên làm việc VCS sử dụng màn hình TV, màn hình máy tính hoặc máychiếu làm thiết bị hiển thị và có thể sử dụng bất kỳ hệ thống âm thanh nào có sẵn

- Thiết bị MCU: Có chức năng điều khiển đa điểm, cho phép kết nốinhiều VCS vào một phiên làm việc Hình ảnh, âm thanh từ các thiết bị VCS đượcnhận về, trộn và chia hình hiển thị theo yêu cầu của người quản lý hệ thống Ngòai

ra, MCU còn hỗ trợ kết nối các đầu cuối thoại (Voice only) Để đáp ứng yêu cầulàm việc đa phương tiện, đa mạng thiết bị MCU còn hỗ trợ chuyển mã(transcoding) các yếu tố liên qua đến chất lượng như: giao diện mạng, băng thông,chuẩn mã hóa Video/Audio, tốc độ khung hình…

Các yêu cầu trên đây chỉ cần thiết trong hệ thống đào tạo cán bộ trựctuyến đa điểm (3 điểm trở lên), trong trường hợp kết nối các khóa học 2 điểmcầu thì chỉ cần 2 thiết bị đầu cuối VCS tại 2 điểm

a) Thiết bị VCS (Thiết bị đầu cuối)

Có chức năng thu nhận hình ảnh, âm thanh (quay camera, micro) mã hóachúng rồi chuyển qua giao diện mạng Các VCS còn có cổng giao tiếp vớimáy tính (PC, Laptop) cho phép kết nối và trình chiếu các tài liệu từ máy tínhvào phiên làm việc của hệ thống.VCS sử dụng màn hình TV, màn hình máytính hoặc máy chiếu làm thiết bị hiển thị và có thể sử dụng bất kỳ hệ thống âmthanh nào có sẵn

Trang 14

b) Thiết bị MCU (Thiết bị điều khiển đa điểm)

Có chức năng điều khiển đa điểm, cho phép kết nối nhiều VCS vào mộtphiên làm việc Hình ảnh, âm thanh từ các thiết bị VCS được nhận về, trộn vàchia hình hiển thị theo yêu cầu của người quản lý hệ thống Ngoài ra, MCUcòn hỗ trợ kết nối các đầu cuối thoại (Voice only) vào phiên làm việc của hệthống Để đáp ứng yêu cầu làm việc đa phương tiện, đa mạng thiết bị MCUcòn hỗ trợ chuyển mã (transcoding) các yếu tố liên qua đến chất lượng của hệthống như: giao diện mạng, băng thông, chuẩn mã hóa Video/Audio, tốc độkhung hình…

1.2 Bài toán nén video

1.2.1 Nén video trong hệ thống hội nghị truyền hình

Giải pháp HNTH hiện nay có hai công nghệ chính là công nghệ SD(Standard Definition) và công nghệ HD (High Definition), Full HD

Công nghệ SD là công nghệ truyền hình cho chất lượng thông thườngđược phát triển từ những năm 80, công nghệ HD là công nghệ truyền hìnhchất lượng cao Công nghệ SD là công nghệ truyền hình từ thế hệ thứ hai,trong khi đó công nghệ HD là công nghệ truyền hình mới nhất chính thức ramắt từ năm 2006 Hiện nay các hãng sản xuất thiết bị truyền hình trên thế giớitập trung phát triển công nghệ HD và Full HD

Giao thức HD là giao thức video chất lượng cao nhất hiện nay, Với HD

nó cho phép các thiết bị kết cuối kết nối đến trung tâm HNTH với độ phângiải 1280x720 (720p) và tốc độ nằm trong khoảng từ 384Kbps đến 8Mbps.Việc thiết lập HNTH trên nền HD yêu cầu các đối tượng tham gia kết nối đếntrung tâm tốc độ bằng nhau và đều có khả năng HD (hay phải là thiết bị HD)

So sánh trên cho thấy truyền hình HD có độ phân giải cao gấp 10 lần độ phân giải truyền hình SD Ví dụ sau so sánh chất lượng hình ảnh giữa HD và SD:

Trang 15

Công nghệ SD Công Nghệ HD

HD cung cấp nhiều nội dung thông tin hơn với màn hình 16:9, côngnghệ HD mang lại thêm 20% thông tin so với công nghệ SD cho khả năngbao quát cao hơn, nội dung thông tin nhiều hơn

Nhiều thông tin hơn với màn hình 16:9 :

SD (Standard Definition)

HD (High Definition)

Bảng sau là sự so sánh giữa công nghệ HD và công nghệ SD:

Trang 17

1.2.2 Một số cách tiếp cận nén video trong Hội nghị truyền hình

Kỹ thuật nén ảnh số đang đóng một vai trò cực kỳ quan trọng trong các

hệ thống viễn thông và multimedia để giải quyết vấn đề băng thông củađường truyền Các kỹ thuật nén video đều cố gắng làm giảm lượng thông tincần thiết cho một chuỗi các bức ảnh mà không làm giảm chất lượng của nóđối với người xem Nói chung, tín hiệu video thường chứa đựng một lượnglớn các thông tin thừa, chúng thường được chia thành hai loại: thừa tĩnh bêntrong từng frame (statistical) và thừa động giữa các frame (subjective) Mụcđích của nén video là nhằm làm giảm số bit khi lưu trữ và khi truyền bằngcách phát hiện để loại bỏ các lượng thông tin dư thừa này và dùng các kỹthuật Entropy mã hoá để tối thiểu hoá lượng tin quan trọng cần giữ lại

Nén video được chia thành hai họ lớn: Nén không tổn hao và nén tổn hao

 Nén không tổn hao là quy trình biểu diễn các ký hiệu trong dòng bitnguồn thành dòng các từ mã sao cho ảnh được khôi phục hoàn toàn giống ảnh gốc,các thuật toán chỉ phụ thuộc vào cách thống kê nội dung dữ liệu và thường dựatrên việc thay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký tự đặc biệtkhác ngắn hơn mà không quan tâm đến ý nghĩa của dòng bit dữ liệu, nên đòi hỏiphải có thiết bị lưu trữ và đường truyền lớn hơn

 Nén có tổn hao, tức là ảnh được khôi phục không hoàn toàn giốngảnh gốc, dạng nén này thích hợp cho việc lưu trữ và truyền ảnh tĩnh, ảnh video quamột mạng có băng thông hạn chế Các dạng nén này thường có hệ số nén cao hơn(từ 2:1 đến 100:1) và gây nên tổn hao dữ liệu và sự suy giảm ảnh sau khi giải nén

do việc xóa và làm tròn dữ liệu trong một khung hay giữa các khung Nó liên quanđến việc dùng các phép biến đổi tín hiệu từ miền này sang miền khác

Trong thực tế phương pháp nén tổn hao thường được sử dụng nhiều hơn

và các kỹ thuật nén tổn hao thường sử dụng như: mã hóa vi sai, biến đổicosin rời rạc DCT, lượng tử vô hướng, quét zig-zag, mã hóa Entropy…

Trang 18

1.2.2.1 Quá trình biến đổi

Giải nén

T -1

Tín hiệu ngõ vàoHìnhđượcI.1.Môbiếnhìnhđổihệ thốngnhằmnénmụctổnhaođích.

biểu diễn một số liệu khác thích hợp để nén hơn so với tín hiệu nguồn Ở phía

giải mã tín hiệu nén sẽ được biến đổi ngược lại để thu tín hiệu gốc Một số phép

biến đổi được áp dụng phổ biến hiện nay như:

1.2.2.2 Điều xung mã vi sai DPCM

Các phương pháp nén dùng DPCM dựa trên nguyên tắc phát hiện sự

giống nhau và khác nhau giữa các điểm ảnh gần nhau để loại bỏ các thơng tin

dư thừa Trong DPCM chỉ cĩ phần khác nhau giữa mẫu - mẫu được truyền

đi, sự khác nhau này được cộng vào giá trị mẫu đã giải mã hiện hành ở phía

giải mã để tạo ra giá trị mẫu phục hồi Hình I.2 mơ tả sơ đồ khối của bộ mã

hĩa và giải mã DPCM

Hình I.2 Bộ mã hóa và bộ giải mã DPCM

Trang 20

1.2.2.3 Mã hóa biến đổi

Nhằm biến đổi các hệ số trong miền thời gian (video số), không gian 2D(bức ảnh tĩnh) thành các hệ số trong miền tần số Các hệ số này ít tương quanhơn có phổ năng lượng tập trung hơn, thuận tiện cho việc loại bỏ thông tin

dư thừa

Biến đổi cosin rời rạc (DCT)

Vì ảnh gốc có kích thước rất lớn cho nên trước khi đưa vào biến đổiDCT, ảnh được phân chia thành các MB biểu diễn các mức xám của điểmảnh Việc phân khối này sẽ làm giảm được một phần thời gian tính toán các hệ

số chung, mặt khác biến đổi cosin đối với các khối nhỏ sẽ làm tăng độ chínhxác khi tính toán với dấu phẩy tĩnh, giảm thiểu sai số do làm tròn sinh ra Phépbiến đổi DCT cơ bản hoạt động dựa trên cơ sở ma trận vuông của mẫu sai số

dự đoán, kết quả cho ta một ma trận Y là những hệ số DCT được minh họanhư sau: Y = AXAT

Trong đó A là ma trận hệ số biến đổi, các thành phần của A như sau:

Trang 22

cos 0

1 cos 0

Biến đổi Hadamard

Là một ví dụ tổng quát hóa của biến đổi Fourier rời rạc, nó thực hiện cácphép toán cộng và trừ trên các ma trận 2m x 2m trực giao, đối xứng, tuyến

tính…được định nghĩa theo công thức sau:

trong đó Hn là ma trận NxN với N = 2m , m thường là các giá

trị 1, 2 ,3 tương ứng với các khối 2x2, 4x4, và 8x8, Hn được tạo ra từ phép

toán Kronecker như sau: H n = n lần.

Sau khi thực hiện biến đối DCT, các hệ số sẽ được lượng tử hoá dựa trên

một bảng lượng tử Q(u,v) với 0≤u, v≤ n-1, n là kích thước khối Bảng này được

định nghĩa bởi từng ứng dụng cụ thể, các phần tử trong bảng lượng tử có giá trị

Trang 23

kết quả này sau đó sẽ được làm tròn xuống số nguyên gần nhất Các hệ số nănglượng thấp này, tượng trưng cho các sự thay đổi pixel - pixel cỡ nhỏ, có thể bịxóa mà không ảnh hưởng đến độ phân giải của ảnh phục hồi Tại bộ mã hoá sẽ

có một bảng mã và bảng các chỉ số nội bộ, từ đó có thể ánh xạ các tín hiệu ngõ

Trang 24

vào để chọn được các từ mã tương ứng một cách tốt nhất cho tập hợp các hệ

số được tạo ra Có 2 loại lượng tử hóa chủ yếu:

1.2.2.5 Lượng tử hóa vô hướng

Lượng tử từng giá trị một cách độc lập hay nói cách khác là ánh xạ một

mẫu của tín hiệu ngõ vào tạo thành một hệ số lượng tử ở ngõ ra Đây là một

quá trình tổn hao vì khi giải lượng tử, không thể xác định chính xác giá trị

gốc từ số nguyên đã được làm tròn Lượng tử hóa thuận theo công thức FQ =

round(X/QP)

Lượng tử hóa ngược theo công thức Y = FQ*QP Với QP là bước nhảy

lượng tử Ví dụ quá trình giải lượng tử cho một tín hiệu ngõ vào như sau:

1.2.2.6 Lượng tử hóa VECTOR

Là một quá trình biểu diễn một tập vector (mỗi vector gồm nhiều giá trị)

bằng một tập các số hữu hạn các ký hiệu ở ngõ ra, bảng mã ánh xạ sẽ có các giá

Trang 26

 Phân chia bức ảnh gốc thành các phân vùng MxN pixel

 Chọn vector thích ứng nhất từ bảng mã

 Truyền chỉ số của vector thích ứng đến bộ giải mã

 Tại bộ giải mã, ảnh cấu trúc lại sẽ xấp xỉ với phân vùng đã lựa chọn vector lƣợng tử

Và sơ đồ khối của lƣợng tử vector nhƣ sau:

Hình I.3 Quá trình lượng tử vector

1.2.2.7 Quá trình mã hóa

Bộ mã hóa có chức năng loại bỏ độ dƣ thừa trong các ký tự ở ngõ ralƣợng tử hóa và ánh xạ các ký tự này thành các từ mã tạo thành dòng bit ởngõ ra bằng các loại mã hóa nhƣ: mã hóa dự đoán, mã hóa VLC, mã hóa sốhọc nhị phân, mã hóa theo hình dạng…

Mã hóa độ dài thay đổi (VLC)

Kỹ thuật mã hóa độ dài thay đổi VLC dựa trên xác suất các giá trị biên

độ giống nhau trong một ảnh để lựa chọn các từ mã để mã hoá Bộ mã hóa có

độ dài thay đổi ánh xạ các ký hiệu ngõ vào thành một chuỗi từ mã có độ dàithay đổi ở ngõ ra nhƣng chứa số lƣợng bít nguyên Các ký hiệu có xác suấtcao sẽ đƣợc gán từ mã có độ dài ngắn, còn các ký hiệu có xác suất thấp sẽ

Trang 27

được gán từ mã có độ dài lớn hơn, do đó nó sẽ làm tối thiểu chiều dài trungbình của từ mã Tại phía giải nén có các chỉ định mã giống nhau được dùng

để khôi phục lại các giá trị dữ liệu gốc Các loại mã hóa VLC cơ bản như: mãhóa Huffman, mã hoá RLC, mã hóa Exp-Golomb…

Mã hóa Huffman

Mã hóa Huffman là mã hóa thõa mãn tối ưu tính prefix và phương pháp mãhóa thường dựa vào mô hình thống kê Dựa vào dữ liệu gốc, người ta tính xácsuất xuất hiện của các ký tự Việc tính toán xác suất được thực hiện bằng cáchduyệt tuần tự tệp gốc từ đầu đến cuối và các ký tự nào có xác suất càng cao thì từ

mã càng ngắn nên giảm chiều dài trung bình của từ mã một cách rõ rệt

Mã hóa Huffman thường được biểu diễn dưới dạng cây mã như sau:

0

0 1

u5 u6

Hình I.4 Cây mã Huffman

Các bước thực hiện mã hóa Huffman

Bước 1: Các nguồn tin được liệt kê trong cột theo thứ tự xác suất xuất hiện giảm dần

Bước 2: Hai tin cuối có xác suất nhỏ nhất được hợp thành tin phụ mới

có xác suất bằng tổng xác suất các tin hợp thành

Bước 3: Các tin còn lại (N-2) với tin phụ mới được liệt kê trong cột phụ thứ nhất theo thứ tự xác suất giảm dần

Trang 28

Bước 4: Quá trình cứ thế tiếp tục cho đến khi hợp thành một tin phụ có xác suất xuất hiện bằng 1.

Trang 29

Mã hố mức dọc chiều dài (RLC)

Thơng thường dữ liệu hay cĩ sự trùng lặp, chẳng hạn nếu một bức ảnh

cĩ cùng một màu, độ chĩi thì những vùng bên cạnh ảnh đĩ cũng giống nhưvậy Do đĩ cĩ thể mã hĩa bằng một từ mã đặc biệt nhằm chỉ báo sự bắt đầu

và kết thúc của giá trị lặp lại, mỗi hệ số khác 0 sau giá trị DC được phát hiện

sẽ được gán một từ mã gồm 2 thơng số: số lượng bit 0 đứng trước đĩ và mứccủa nĩ sau khi lượng tử, để tạo ra từ mã là một đơi (level và run), trong đĩLevel biểu thị giá trị của bit và Run biểu thị số lần lặp lại của bit Khi dữ liệutruyền cĩ sự trùng lặp thì truyền từ mã này thay cho nĩ Hình I.5 minh họa

mã hĩa RLC như sau :

Hình I 5 Minh họa mã hóa RLC

Từ dữ liệu đầu vào, giá trị 028 lặp lại 5 lần được mã hĩa bằng 3 từ mã ở

dữ liệu đầu ra Giá trị đầu tiên 255 đại diện cho cách mã hĩa RLC, giá trị thứ

2 là giá trị được lặp lại, giá trị thứ 3 là số lần lặp lại, nên thay vì truyền từ mãdài, ta chỉ cần truyền 255 028 3

1.2.2.8 Mã hĩa số học

Điểm bất lợi cơ bản của mã hĩa dọc chiều dài là việc tạo ra bảng tra chứatồn bộ số lượng bit trên mỗi mẫu nên khơng thật sự tối ưu, vì số lượng

Trang 30

bit tối ưu nhất cho một ký tự tùy thuộc vào nội dung thông tin, mà thường lànhững số rất nhỏ Đối với những ký tự có xác xuất lớn hơn 0.5 thì hiệu suấtnén không cao, nó chỉ hiệu quả khi mã hóa những ký hiệu này bằng một từ mãbit đơn Còn mã hóa số học thì dựa vào xác suất của nội dung thông tin nêncòn có tên gọi là mã hóa số học thích nghi theo nội dung, mã hóa số học sửdụng các đặc tính về không gian và thời gian để ước lượng khoảng xác suất

Nó biến đổi luồng dữ liệu vào thành một phân số đơn lẻ, và sử dụng phân sốtối ưu nhất để mã hóa dữ liệu, do đó hiệu quả nén của nó có thể đạt mức tối đa

mà giảm chi phí đầu tư cho lưu trữ

Giả sử ta có 5 giá trị vector chuyển động (−2, −1, 0, 1, 2) và xác suất của

nó như bảng dưới đây Mỗi vector sẽ được gán một ngưỡng trong khoảng từ0.0 đến 1.0 tùy thuộc vào xác suất xuất hiện của chúng Ví dụ giá trị “-2” cóxác suất là 0.1 sẽ nằm trong khoảng từ 0->0.1 tức là bằng 10% của khoảng [01], tương tự giá trị “-1” có xác suất là 0.2 sẽ nằm trong khoảng từ 0.1->0.3tức là bằng 20% … Như vậy việc phân chia vùng riêng cho từng giá trị xácsuất sẽ thuận tiện cho việc mã hóa

Vector Xác suất Lượng tin trung bình = Khoảng chia nhỏ

Trang 31

Ví dụ quá trình mã hóa cho chuỗi vector (0, −1, 0, 2) như sau:

Cài phạm vi bắt đầu 01.0

Tìm khoảng con tương ứng

(0) 0.3 0.7cho ký hiệu đầu tiên

Cài lại khoảng mới cho 0.3 0.7

khoảng con

(-1) 0.1

Cài lại khoảng bắt đầu mới 0.34 0.42 0.34 = 10%

Sau mỗi lần mã hóa một ký hiệu thì phạm vi Low High càng nhỏ dần

như minh họa ở hình I.6 Số lượng bit cần thiết để nén chuỗi dữ liệu được

tính bởi công thức:

log2(1/P0) + log2(1/P−1) + log2(1/P0) + log2(1/P2) = 8.28bits

Toàn bộ chuỗi dữ liệu có thể được truyền đi bởi bất kỳ một giá trị phân

số nào nằm trong khoảng 0.3928-0.396, giả sử giá trị 0.394 có thể được mã

Trang 32

hóa nhƣ là một phân số có dấu chấm tĩnh bằng từ mã 9 bit, do đó chuỗi vector(0, -1, 0, 2) sẽ đƣợc nén bằng từ mã 9bits.

Trang 33

Hình I.6 Minh họa sự sắp xếp trong khoảng [0-1] thành những vùng nhỏ hơn sau mỗi ký hiệu được mã hóa.

Hiệu quả của mã hóa Entropy có được như mong muốn hay không là tùy thuộc vào độ chính xác trong xác suất của ký hiệu Quá trình giải mã số học

Quá trình giải mã Phạm vi Khoảngchia Ký hiệu giải

Cài phạm vi bắt đầu 0 1

0.3 0.7 0cho ký hiệu đầu tiên

Cài lại khoảng mới cho 0.3 0.7

khoảng con

0.34 0.42 -1cho ký hiệu tiếp theo

Cài lại khoảng bắt đầu mới 0.34 0.42

nằm trong khoảng trước đó

Cài lại khoảng bắt đầu mới 0.364→0.3

nằm trong khoảng trước đó 96

Trang 34

Tìm khoảng tiếp theo 0.3928→ 0.396 2

Trang 35

1.2.2.9 Tiêu chuẩn đánh giá chất lượng ảnh nén

Đánh giá chất lượng video thông qua các giá trị cung cấp bởi hệ thống xử

lý, và việc suy giảm chất lượng tín hiệu có thể nhìn thấy được (thông thườngchúng được so sánh với tín hiệu gốc) Qua hệ thống ta có thể thấy được nhữngthay đổi về hình dạng, việc định chuẩn chất lượng video là rất quan trọng Đểđánh giá chất lượng của bức ảnh (hay khung ảnh video) ở đầu ra của bộ mã hoá,người ta thường sử dụng các tham số truyền thống sau để đánh giá:

 Sai số bình phương trung bình – MSE (mean square error) định nghĩa

cho cường độ sai khác giữa ảnh gốc và ảnh dự đoán

Thông thường, nếu PSNR ≥ 40dB thì hệ thống mắt người gần như

không phân biệt được giữa ảnh gốc và ảnh khôi phục, tức là ảnh nén có chấtlượng xuất sắc

Trang 36

KẾT LUẬN

Qua nội dung chương 1, có thể thấy triển khai học tập, giao ban, tậphuấn bằng Hội nghị truyền hình khẳng định được ưu việt vượt trội so vớiphương pháp truyền thống và là xu hướng tất yếu của tương lai

Khi áp dụng Hội nghị truyền hình vào việc giao ban, tập huấn, đào tạocán bộ trong ngành giáo dục tỉnh Quảng Ninh sẽ phát sinh việc truyền các tínhiệu giữa các điểm cầu cần đảm bảo sự trung thực, sắc nét, kịp thời Tuynhiên, nhờ sự trợ giúp của các kỹ thuật mã hóa, nén video việc truyền tín hiệugiữa các điểm cầu luôn được đảm bảo với các kỹ thuật nén video mới đƣợcphát triển và nghiên cứu ngày càng tiên tiến hơn nhƣ: MPEG-1, MPEG-2,MPEG-4…Cơ sở toán học cho các phương pháp mã hóa, nén video đượcluận văn lựa chọn hướng đến sẽ được trình bày chi tiết trong chương 2

Trang 37

CHƯƠNG II KỸ THUẬT NÉN VÀ GIẢI NÉN MPEG-4 H.264/AVC

2.1 Nguyên lý hoạt động cơ bản

Hình II.1 Quá trình phát triển của kỹ thuật nén MPEG qua các giai đoạn

Thuật ngữ MPEG viết tắt của cụm từ Moving Picture Experts Group là 1nhóm chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âmthanh theo chuẩn ISO/IEC từ năm 1988 Cho đến nay nhóm làm việc MPEG

đã phát triển và phát hành nhiều tiêu chuẩn nén cho các loại ứng dụng khácnhau, nhưng nổi bật là các chuẩn MPEG-1, MPEG-2, MPEG-4, vàH.264/AVC MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IECJTC1 SC29 WG11

TIÊU CHUẨN MPEG-1

Chuẩn MPEG-1 xuất hiện vào 11/1992 là chuẩn khởi đầu cho việc nén cácảnh động và đây cũng là nền tảng phát triển cho các chuẩn nén khác trong họ

MPEG, nó được mệnh danh là chuẩn “khởi động thiết bị số“ MPEG-1 định

Trang 38

nghĩa một tiêu chuẩn chuẩn mã hoá video và âm thanh lưu trữ trong CD-ROM,đĩa Winchester với tốc độ vào khoảng 1,5Mbit/s, độ phân giải hình ảnh là 352 x

Trang 39

240 (30 frame/s) hay 352x288 (25 frame/s) Chuẩn MPEG-1 được ứng dụngtrong các phần mềm huấn luyện bằng máy tính, các game hành động, videochất lượng VHS, Karaoke

Tín hiệu video số MPEG-1 bao gồm một tín hiệu chói Y và 2 tín hiệumàu Cr, Cb với tỷ số lấy mẫu là 2:1 Trước khi mã hóa các ảnh có thể đượcsắp xếp lại theo trật tự giải mã mới vì bộ giải mã chỉ có thể giải mã được ảnh

B sau khi đã giải mã ảnh P và I Sau quá trình giải mã, các ảnh được sẽ đượcsắp xếp lại như cũ

Sau khi chọn kiểu ảnh, bộ mã hoá sẽ đánh giá chuyển động cho mỗi khối

MB và tạo ra một vector chuyển động cho một ảnh P và 2 vector chuyển độngcho ảnh B

Tùy thuộc kiểu ảnh mà tín hiệu sai số được phát hiện bằng cách tìm rasai số giữa dự đoán bù chuyển động và dữ liệu hiện tại trong mỗi MB Tínhiệu sai số dự đoán được chuyển đến khối DCT 8x8 và bộ lượng tử để tạo hệ

số lượng tử Một bộ điều khiển tốc độ bit có nhiệm vụ điều chỉnh dữ liệu ngõ

ra thông qua điều chỉnh bước lượng tử Các hệ số này được quét theo ma trậnZig-Zag và mã hoá bằng mã Entropy rồi mới đưa ra kênh truyền

Các đặc điểm của tiêu chuẩn MPEG-1

 Cấu trúc lấy mẫu 4:2:0

 Chỉ có khả năng quét liên tiếp

 Biểu diễn mẫu bằng từ mã 8 bits, độ chính xác của quá trình lượng tử

và biến đổi DCT là 9 bits

 Sử dụng phương pháp DPCM để lượng tử hóa cho hệ số DC Bùchuyển động cho các MB 16x16 trong cùng một khung hình hoặc giữa các khungvới nhau

 Độ chính xác dự đoán chuyển động là 1 pixel

 Chuẩn MPEG-1 có 4 kiểu ảnh đó là Intra, Predicted, Bidirectional vàảnh D (DC coded picture) Nó gần giống ảnh I nhưng chỉ có thành phần một chiều

ở đầu ra DCT được thể hiện Nó cho phép dò nhanh nhưng cho chất lượng ảnhthấp

Trang 40

Cấu trúc dòng bit của MPEG-1

Chuẩn MPEG-1 định nghĩa một kiểu phân cấp cấu trúc trong dữ liệuVideo và đây cũng là cấu trúc dữ liệu chung cho cả chuẩn MPEG về sau Cấutrúc dữ liệu như sau:

+ Khối (Block) gồm 8x8 pixels tín hiệu chói và màu được định nghĩa dùng cho nén DCT

+ Tổ hợp khối (Macroblock) gồm các khối Y, Cb và Cr tương ứng vớinội dung thông tin của một khối 16x16 pixel của thành phần chói hoặc khối 8x8của 2 thành phần màu trong hình ảnh gốc Một MB bao gồm 6 khối trong

đó có 4 khối Y, 1 khối Cb và 1 Cr như hình vẽ, các khối sẽ được đánh số thứ

tự bắt đầu bằng 1

+ Mảng (Slice) gồm nhiều MB Kích thước slice lớn nhất là 1 ảnh, nhỏnhất là 1 MB Thứ tự các MB bên trong slice được xác định từ trái qua phải, trênxuống dưới Phần header của slice chứa thông tin về vị trí của mảng trong toàn bộảnh và hệ số của bộ lượng tử Slice rất quan trọng trong việc định lỗi, nếu dòng dữliệu có chứa lỗi, bộ giải mã có thể bỏ qua và tiếp tục ở slice kế tiếp Nhiều slicetrên dòng dữ liệu cho phép che giấu lỗi tốt hơn và được dùng để cải thiện chấtlượng hình ảnh

+ Ảnh (Picture): gồm nhiều slice cho phép bộ giải mã xác định loại mãhóa khung Thông tin header để chỉ thứ tự truyền khung để bộ giải mã sắp xếp lạicác ảnh đúng thứ tự, ngoài ra thông tin header còn chứa các thông tin về đồng bộ,

độ phân giải, phạm vị của vector chuyển động …

+ Nhóm ảnh (GOP): gồm nhiều ảnh bắt đầu từ ảnh I Chỉ báo điểm bắtđầu cho việc biên tập và việc tìm kiếm Phần header chứa mã điều khiển và mãthời gian 25 bit cho thông tin định thời.Cấu trúc của một GOP được mô tả bằng 2tham số:

- N: là các ảnh trong GOP

Định dạng
Số trang	107
Dung lượng	2,93 MB

Luận văn thạc sĩ cách nén video trong hệ thống hội nghị truyền hình ứng dụng trong việc họp giao ban trực tuyến, tập huấn, đào tạo cán bộ trong ngành giáo dục tỉnh quảng ninh​

Luận văn thạc sĩ cách nén video trong hệ thống hội nghị truyền hình ứng dụng trong việc họp giao ban trực tuyến, tập huấn, đào tạo cán bộ trong ngành giáo dục tỉnh quảng ninh