Nghiên cứu hiệu năng mạng LORAWAN trong internet vạn vật

Nguyên lý của việc nén video dựa trên các kỹ thuật giảm các dư thừa thông tin sau: - Dư thừa thông tin trong miền không gian Spatial redundancy: Dư thừa thông tin trong miền không gian x

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

NGUYỄN QUANG HUY

NGHIÊN CỨU VÀ ĐÁNH GIÁ MỘT SỐ THUẬT TOÁN ƯỚC LƯỢNG CHUYỂN ĐỘNG TRONG MÃ HÓA VIDEO

LUẬN VĂN THẠC SĨ KỸ THUẬT

(Theo định hướng ứng dụng)

HÀ NỘI - 2021

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

NGUYỄN QUANG HUY

NGHIÊN CỨU VÀ ĐÁNH GIÁ MỘT SỐ THUẬT TOÁN ƯỚC

LƯỢNG CHUYỂN ĐỘNG TRONG MÃ HÓA VIDEO

CHUYÊN NGÀNH : KỸ THUẬT VIỄN THÔNG

MÃ SỐ: 8.52.02.08

LUẬN VĂN THẠC SĨ KỸ THUẬT (KỸ THUẬT VIỄN THÔNG)

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VŨ HỮU TIẾN

HÀ NỘI - 2021

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả mô phỏng nêu trong luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác

Hà Nội, tháng 12 năm 2021

Tác giả luận văn

Nguyễn Quang Huy

Trang 4

LỜI CẢM ƠN

Để hoàn thành luận văn này lời đầu tiên tôi xin tỏ lòng biết ơn sâu sắc đến TS.Vũ Hữu Tiến đã tận tình hướng dẫn và chỉ bảo trong suốt quá trình thực hiện Tôi chân thành cảm ơn các Thầy, Cô trong khoa Đào Tạo Sau Đại Học, Học viện Công nghệ Bưu chính Viễn thông Hà Nội đã tận tình giúp đỡ tôi trong quá trình hai năm tôi học tập và nghiên cứu

Cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, bạn bè, các anh chị học viên và những người đã luôn ở bên cổ vũ tinh thần, tạo điều kiện thuận lợi cho em để em có thể học tập tốt và hoàn thiện luận văn

Hà Nội, ngày 1 tháng 12 năm 2021

Nguyễn Quang Huy

Trang 5

MỤC LỤC

MỞ ĐẦU 1

CHƯƠNG I: TỔNG QUAN VỀ MÃ HÓA VIDEO 2

1.1 Tổng quan 2

1.2 Nguyên tắc mã hóa video 2

1.2.1 Kỹ thuật giảm dư thừa thông tin trong miền không gian 3

1.2.2 Kỹ thuật giảm dư thừa thông tin trong miền thời gian 7

1.2.3 Sơ đồ tổng quát mã hóa video 11

1.3 Giải mã hóa video 14

1.4 Các tiêu chuẩn cho mã hóa tín hiệu video 15

1.5 Kết luận chương 17

CHƯƠNG II: NGHIÊN CỨU CÁC THUẬT TOÁN ƯỚC LƯỢNG CHUYỂN ĐỘNG TRONG MÃ HÓA VIDEO 19

2.1 Thuật toán tìm kiếm theo khối BMA (Block Matching Algorithm) 19

2.1.1 Thuật toán tìm kiếm đầy đủ FSA (Full Search Algorithm) 22

2.1.2 Thuật toán tìm kiếm nhanh (Fast Search Algorithm) 23

2.2 Thuật toán tìm kiếm ba bước TSS (Three-step search algorithm) 24

2.3 Thuật toán Diamond Search 28

2.4 Thuật toán TZ search 30

2.5 Thuật toán OTA (One-at-a-time Search Algorithm) 37

2.6 Kết Luận chương 40

CHƯƠNG III: MÔ PHỎNG VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN ƯỚC LƯỢNG CHUYỂN ĐỘNG TRONG MÃ HÓA VIDEO 41

3.1 Giới thiệu phần mềm mô phỏng 41

3.2 Các thông số đánh giá 42

3.2.1 Tỷ lệ tín hiệu trên nhiễu đỉnh (Peak Signal-to-Noise Ratio) 42

3.2.2 Số lượng bit dùng để mã hóa trong một giây (Bitrate) và thời gian mã hóa 43

3.3 So sánh và đánh giá các thuật toán thông qua phần mềm mô phỏng 43

3.3.1 Các chuỗi video dùng để đánh giá 43

3.3.2 Kết quả mô phỏng 45

3.4 Kết luận 48

KẾT LUẬN VÀ KIẾN NGHỊ 49

TÀI LIỆU THAM KHẢO 50

Trang 6

ii

DANH MỤC HÌNH ẢNH

Hình 1.1: Sơ đồ khối của bộ CODEC dpcm trong xử lý video 4

Hình 1.2: Mã hóa biến đổi 5

Hình 1.3: Biểu diễn bộ lượng tử (a) UTQ và (b) UTQ-DZ 6

Hình 1.4: Dự đoán bù chuyển động 8

Hình 1.5: (a) Sự khác biệt giữa khung hình hiện thời và trước đó; (b) Khung hình dư thừa 8 Hình 1.6: Vùng tìm vector chuyển động của macroblock hiện thời 9

Hình 1.7: (a) Khung hình tham chiếu, (b) khung hình đích 10

Hình 1.8: Sơ đồ nguyên lý tổng quát của các bộ mã hóa video 12

Hình 1.9: Sơ đồ giải mã hóa tín hiệu video 15

Hình 1 10: Một số tiêu chuẩn mã hóa Video 17

Hình 2.1: Ước lượng chuyển động theo khối 20

Hình 2.2: Thuật toán tìm kiếm đầy đủ 23

Hình 2.3: Mô phỏng tìm kiếm ba bước 26

Hình 2.4: Hai đường tìm kiếm khác nhau của MTSS 27

Hình 2.5: Thuật toán Diamond Search 29

Hình 2.6: Mô tả toàn bộ thuật toán TZ search 30

Hình 2.7: Tìm khối có RDcost nhỏ nhất 31

Hình 2.8: Mô hình tìm kiếm kim cương 32

Hình 2.9: 7 vòng tìm kiếm trong TZ search 32

Hình 2.10: Tìm kiếm 2 điểm lân cận 34

Hình 2.11: các mẫu tìm kiếm của tìm kiếm raster với khoảng cách 5 pixel 35

Hình 2.12: một ví dụ cho tìm kiếm sàng lọc raster 36

Hình 2.13: Thuật toán OTA 38

Hình 2.14: Thuật toán NOTA 39

Hình 3.1: Giao diện mô phỏng 41

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

Từ/Cụm từ

AVC Advanced Video Coding Nâng cao mã hóa video

BD PSNR Bjontegaard delta PSNR Chênh lệch trung bình PSNR BMA Block Matching Algorithm Thuật toán kết hợp khối BMME Block Matching Motion Estimation Kỹ thuật đối sánh khối

CABAC Context-Adaptive Binary

Arithmetic Coding

Mã hóa số học nhị phân thích nghi dựa trên ngữ cảnh

CAVLC Context – Adaptive Variable Length

Coding

Mã hóa độ dài biến đổi thích nghi ngữ cảnh

Code Modulation Điều chế xung mã sai phân FSA Full Search Algorithm Thuật toán tìm kiếm đầy đủ IDCT inverse Discrete Cosine Transform) Biến đổi cosin rời rạc ngược

Organization Tổ chức tiêu chuẩn quốc tế

bản của H.264

MPEG The Moving Picture Experts Group Nhóm chuyên gia ảnh động MSE Mean Squared Error Sai số bình phương trung bình NAL Network Abstraction Layer Lớp trừu tượng hóa mạng OTA One-at-a-time Search Algorithm Thuật toán tìm kiếm một lần PSNR Peak Signal-to-Noise Ratio Tỉ số tín hiệu trên nhiễu đỉnh

QP Quantisation Parameter Tham số lượng tử

RDO Rate-Distortion Optimization Tối ưu hóa lệ nén và độ méo SAD Sum of Absolute Differences Tổng số chênh lệch tuyệt đối

TSS Three - step search algorithm Thuật toán tìm kiếm ba bước

Trang 8

iv

DANH MỤC BẢNG BIỂU

Bảng 3.1: các chuỗi video đầu vào 43

Bảng 3.2 Các tham số của của môi trường mô phỏng 45

Bảng 3.3: Kết quả mô phỏng so sánh các thuật toán ước lượng chuyển động 46

Bảng 3.4: Kết quả mô phỏng sau khi thay đổi Dist 48

Trang 9

MỞ ĐẦU

Cách mạng công nghiệp lần thứ tư đã bắt đầu, cuộc cách mạng tập trung vào phát triển công nghệ kỹ thuật số, các thiết bị máy móc công nghiệp tự động hóa trở nên phổ biến Và với sự trợ giúp của công nghệ 5G các khái niệm như Internet vạn vật, trí tuệ nhân tạo, big data đang dần quen thuộc với người dùng Các nền tảng giải trí, học tập online… phát triển mạnh kèm theo đó là yêu cầu về lưu trữ và truyền tải dần quan trọng hơn, nhu cầu cầu sử dụng đã vượt qua vấn đề xem thông tin và đến nhu cầu hình ảnh âm thanh chất lượng cao tạo cảm giác sống động cho người dùng Cùng với yêu cầu về chất lượng ngày càng khắt khe hơn tạo ra nhiều chuẩn video 4K, 8K Các mạng truy cập đa dạng hơn WLAN, mạng di động 4G, 5G tuy nhiên với các giới hạn về tốc độ truyền, giới hạn băng thông khiến việc đòi hỏi dữ liệu truyền đi phải thấp nhất mà không ảnh hưởng tới chất lượng thông tin, từ đây các chuẩn nén được ra đời như MPEG, H.264, H265… và rất nhiều các chuẩn nén mới đang được nghiên cứu và phát triển nhằm đem đến trải nghiệm tốt nhất khi sử dụng

Sự đa dạng về các chuẩn nén cũng khiến việc đánh giá lựa chọn các chuẩn trở thành một bài toán mới, khi các chuẩn nén này đôi khi không đáp ứng được nhu cầu

sử dụng hay gây lãng phí trong truyền tải và cả phần cứng Vì lý do trên học viên

quyết định chọn đề tài: “Nghiên cứu và đánh giá một số thuật toán ước lượng

chuyển động trong mã hóa video” làm luận văn thạc sĩ

Nội dung luận văn gồm các phần:

Chương I: Tổng quan về mã hóa Video

Chương II: Nghiên cứu các thuật toán ước lượng chuyển động trong mã hóa Video

Chương III: Mô phỏng và đánh giá các thuật toán ước lượng chuyển động trong

mã hóa Video

Trang 10

Việc tiếp nhận thông tin qua video không chỉ giúp người dùng dễ dàng tiếp nhận thông tin mà còn giảm thời gian tiếp thu so với sách báo Từ đó mở ra một kênh phương tiện tiếp nhận thông tin mới qua các kênh tin tức truyền hình, các bộ phim điện ảnh…Ngoài ra video còn góp phần trong an ninh qua các camera giám sát được

sử dụng ở mọi đơn vị và nhà riêng Và còn rất nhiều các lĩnh vực sử dụng video như nghiên cứu khoa học, quân sự, y khoa…

Từ sự thuận tiện và phổ biến của video việc mã hóa và truyền tín hiệu video đóng vai trò quan trọng, giải quyết các bài toán về dữ liệu lưu trữ, tốc độ đường truyền

Về cơ bản kỹ thuật mã hóa video là làm giảm bớt các thông tin không cần thiết trong video mà không làm ảnh hưởng đến chất lượng trải nghiệm của người xem Lượng thông tin dư thừa trong video gồm hai loại là dư thừa thông tin trong miền không gian (trong mỗi khung hình) và dư thừa thông tin trong miền thời gian (trong các khung hình liên tiếp) Mã hóa video làm giảm số bit khi lưu trữ hoặc khi truyền Các kỹ thuật mã hóa entropy được sử dụng để làm giảm lượng thông tin dư thừa và giữ lại các tin quan trọng

1.2 Nguyên tắc mã hóa video

Các nghiên cứu trước đây đã chỉ ra rằng giữa các khung hình trong chuỗi video

và giữa các pixel trong cùng một khung hình có một mối tương quan nhất định Dựa vào các mối tương quan này chúng ta có thể thực hiện việc nén tín hiệu video mà

Trang 11

không làm ảnh hưởng tới độ phân giải của ảnh Ngoài ra, khai thác đặc điểm của mắt người là kém nhạy cảm với một số thông tin hình ảnh theo không gian và thời gian nên có thể loại bỏ thông tin này trong quá trình nén Đây chính là kỹ thuật nén tổn hao để tiết kiệm băng thông trong khi vẫn đảm bảo chất lượng video ở mức có thể chấp nhận được Nội dung được tham khảo tại tài liệu [1]

Trong quá trình nén ảnh tĩnh, kỹ thuật nén sử dụng mối tương quan theo không gian giữa các pixel trong ảnh Kỹ thuật này gọi là nén “trong ảnh” (Intraframe) Thuật ngữ này có hàm ý rằng trong quá trình nén ảnh, thông tin được sử dụng chỉ trong phạm vi nội tại bức ảnh đó Đây là kỹ thuật cơ bản của chuẩn nén JPEG sẽ được giới thiệu trong phần sau Trường hợp nếu mối tương quan theo thời gian được khai thác thì kỹ thuật nén được gọi là nén “ngoài ảnh” (Interframe) Khi đó thông tin được sử dụng để nén ảnh có thể nằm trên một bức ảnh trước hoặc sau trong chuỗi video Đây

là kỹ thuật được sử dụng trong các chuẩn nén video như H.261, H.263, MPEG -1, 2

và 4 Nguyên lý của việc nén video dựa trên các kỹ thuật giảm các dư thừa thông tin sau:

- Dư thừa thông tin trong miền không gian (Spatial redundancy): Dư thừa thông tin trong miền không gian xuất hiện giữa các pixel trong cùng một khung hình (ví dụ sự tương đồng giữa các pixel) Thông tin dư thừa được loại bỏ bằng kỹ thuật mã hóa biến đổi (transform coding)

- Dư thừa thông tin trong miền thời gian (Temporal redundancy): Loại thông tin

dư thừa này xuất hiện khi giữa các khung ảnh liên tiếp có những thông tin tương đồng Để giảm dư thừa này người ta dùng kỹ thuật mã hóa sự khác biệt giữa các khung hình

- Dư thừa thông tin trong dữ liệu ảnh sau khi nén: Để loại bỏ dư thừa này người

ta dùng mã entropy, cụ thể là mã có độ dài thay đổi (Variable Length Coding)

1.2.1 Kỹ thuật giảm dư thừa thông tin trong miền không gian [1]

a Mã hóa bằng phương pháp dự đoán

Tại thời điểm ban đầu, phương pháp giảm dư thông không gian được đưa ra dựa trên việc dự báo giá trị của các pixel hiện tại dựa vào giá trị của pixel đã được mã hóa

Trang 12

4

trước đó Phương pháp này được gọi là “Điều chế xung mã sai phân” (Differential Pulse Code Modulation – DPCM) Hình 1.1 mô tả sơ đồ khối của bộ mã hóa này Theo sơ đồ, sự sai khác giữa giá trị của pixel hiện tại và giá trị dự đoán từ bộ dự đoán được lượng tử và mã hóa trước khi truyền đi Tại phía giải mã, sự sai khác này được cộng với giá trị dự đoán từ bộ dự đoán để khôi phục lại giá trị đúng của pixel hiện tại Trong trường hợp bộ lượng tử không được sử dụng thì kỹ thuật này được gọi là mã hóa không tổn hao (loss-less coding)

Hình 1.1: Sơ đồ khối của bộ CODEC dpcm trong xử lý video

Bộ dự đoán cho kết quả tốt nhất nếu quá trình dự báo được dựa trên những giá trị của các pixel liền kề đã được mã hóa trước đó Các pixel liền kề có thể nằm trong cùng khung hình (mã hóa nội ảnh) hoặc có thể nằm trong khung hình trước (mã hóa liên ảnh) Nếu bộ dự đoán sử dụng cả hai kỹ thuật trên thì được gọi là “mã hóa dự đoán lai” (Hybrid predictive coding)

Trang 13

b Mã hóa bằng phương pháp biến đổi

Hình 1.2 mô tả các bước trong quá trình mã hóa bằng biến đổi các giá trị của

các điểm ảnh trong khung hình từ miền không gian sang miền tần số

Hình 1.2: Mã hóa biến đổi

Tương tự như trong mã hóa hình ảnh tĩnh, trong mã hóa tín hiệu video, biến đổi DCT cũng được sử dụng Tuy nhiên, chúng ta lưu ý rằng phép biến đổi các giá trị từ miền không gian pixel sang miền không gian khác chưa phải là nén tín hiệu Một khối 64 pixel qua phép biến đổi DCT ta thu được 64 hệ số DCT Do tính trực giao của phép biến đổi, năng lượng trên cả hai miền pixel và miền không gian sau biến đổi đều bằng nhau

Tuy nhiên, phép biến đổi làm cho năng lượng của ảnh được tập trung chủ yếu trong vùng của các hệ số DCT gần với hệ số 1 chiều (vùng tần số thấp) trong khi phần lớn các hệ số khác mang năng lượng ít hơn Hệ số DC có giá trị cao nhất Các

hệ số AC càng xa hệ số DC thì giá trị càng bé Dựa vào đặc điểm của mắt người là

ít nhạy cảm với các hình ảnh bị méo ở tần số cao nên bộ lượng tử được sử dụng nhằm loại bỏ đi các hệ số AC tại vùng tần số này Hình 1.2 biểu diễn các giá trị đầu vào và đầu ra của bộ lượng tử Như ta thấy, với các hệ số có giá trị nhỏ sau khi qua

bộ lượng tử sẽ bị nén về mức 0 Đây chính là quá trình loại bỏ những hệ số DCT ở vùng tần số cao

Người ta chia bộ lượng tử ra làm hai loại: bộ lượng tử đồng nhất (Uniform quantiser – UTQ) và bộ lượng tử đồng nhất có dead zone (UTQ-DZ) Các hệ số DC của chế độ nén nội ảnh được lượng tử bởi UTQ trong khi các hệ số AC và hệ số DC của chế độ nén liên ảnh được lượng tử bởi UTQ-DZ Lý do là UTQ-DZ làm cho nhiều hệ số AC trở thành giá trị 0 nên hệ số nén sẽ cao hơn

Trang 14

6

Hình 1.3: Biểu diễn bộ lượng tử (a) UTQ và (b) UTQ-DZ

Trong bộ lượng tử UTQ, các hệ số F(u,v) được lượng tử bởi công thức:

𝐼(𝑢, 𝑣) = ⌊𝐹(𝑢, 𝑣) ± 𝑞

Trang 15

Giá trị I(u,v) gọi là các chỉ số lượng tử (quantization index) Tại phía giải mã, các hệ số được giải lượng tử theo công thức:

1.2.2 Kỹ thuật giảm dư thừa thông tin trong miền thời gian

Kỹ thuật giảm dư thừa thông tin trong miền thời gian được thực hiện dựa trên việc tìm ra sự khác nhau giữa các khung hình liên tiếp Đây chính là thuật toán mã hóa liên ảnh Đối với các đối tượng tĩnh trong ảnh, sự khác biệt gần như bằng 0 Do vậy những đối tượng này không cần nhiều thông tin để mã hóa Ngược lại, đối với các đối tượng chuyển động nhiều, sự khác biệt giữa các khung hình là rất lớn Điều này đồng nghĩa với việc chúng ta cần nhiều thông tin để mã hóa Để làm giảm lượng thông tin này, người ta tiến hành thêm một bước trung gian gọi là ước lượng chuyển động (motion estimation) cho các đối tượng trong hình dựa bằng cách so sánh khung hình hiện tại và khung hình trước đó Quá trình ước lượng chuyển động sẽ cho kết quả là các vector chuyển động Dựa vào các vector này và khung hình trước đó, khung hình hiện tại sẽ được dự đoán Quá trình này được gọi là “bù chuyển động” (motion compensated) Như vậy, sự khác biệt giữa khung hình hiện tại và khung hình dự đoán

sẽ được giảm đi so với sự khác biệt giữa khung hình hiện thời và khung khung hình trước đó Hình 1.4 mô tả quá trình tạo ra khung hình dư thừa (residual frame) bằng cách lấy khung hình hiện tại trừ cho khung hình dự đoán

Trang 16

8

Hình 1.4: Dự đoán bù chuyển động

Hình 1.5 biểu diễn sự khác biệt của khung hình hiện thời với khung hình trước

đó (a) và với khung hình dư thừa (b) Ta nhận thấy khung hình (a) mang nhiều nội dung hơn khung hình (b) Vì vậy, khi nén khung hình (b) sẽ có hiệu quả nén cao hơn

so với việc nén khung hình (a)

Hình 1.5: (a) Sự khác biệt giữa khung hình hiện thời và trước đó; (b) Khung

hình dư thừa

Trang 17

a Ước lượng chuyển động

Mục đích của quá trình ước lượng chuyển động là để tìm ra vector chuyển động Trong các tiêu chuẩn mã hóa video, thuật toán BMA (Block Matching Algorithm) thường được sử dụng để ước lượng chuyển động Trong thuật toán này, một khung

hình được chia thành các khối có kích thước N x N pixel

Mỗi khối pixel này sẽ được di chuyển quanh vị trí ban đầu một khoảng w pixel

để tìm ra vị trí của khối giống với nó nhất trong khoảng (N+2w) x (N+2w) có cùng tọa độ nhưng ở khung hình trước đó Khoảng cách từ tâm hình vuông (N+2w) x

(N+2w) tới tọa độ khối tìm được chính là khoảng chuyển động của khối pixel N x N

Hình 2 43 mô tả vùng tìm kiếm vector chuyển động của khối hình (macroblock) hiện thời

Hình 1.6: Vùng tìm vector chuyển động của macroblock hiện thời

Trang 18

10

Hình 1.7: (a) Khung hình tham chiếu, (b) khung hình đích

Khung hình hiện tại còn được gọi là khung hình đích (target frame) và khung hình trước đó (hoặc khung hình sau đó) được gọi là khung hình tham chiếu (reference frame) Như vậy, các khối hình NxN trong khung hình đích được dự đoán từ các khối hình tham chiếu Khoảng dịch chuyển giữa khối hình tham chiếu và khối hình đích được gọi là vector chuyển động (Motion vector – MV) Hình 1.7 mô tả trường hợp

dự đoán tiến (forward prediction) trong đó khung hình tham chiếu là khung hình trước của khung hình hiện thời Nếu khung hình tham chiếu là khung hình sau của khung hình hiện thời thì được gọi là dự đoán lùi (backward prediction) Sự khác biệt giữa hai khối hình đích và tham chiếu được gọi là khối hình lỗi dự đoán

Để tìm và đánh giá mức độ giống nhau giữa hai khối hình đích và khối hình tham chiếu, chúng ta sử dụng một số phương pháp như sử dụng hàm tương quan chéo (Cross correlation function - CCF), hàm trung bình bình phương lỗi (Mean Square Error – MSE) và hàm trung bình tuyệt đối của lỗi (Mean absolute error – MAE) Khối hình tham chiếu giống với khối hình đích sẽ có CCF lớn nhất hoặc có MSE và MAE nhỏ nhất Trong thực tế, các chuẩn mã hóa video thường sử dụng phương pháp MSE hoặc MAE:

Trang 19

hình tham chiếu của trước đó

Để xác định được khối pixel giống nhất, chúng ta cần thực hiện (2w+1)2 phép

so sánh Do vậy, phương pháp MAE thường hay được sử dụng hơn MSE để giảm sự phức tạp trong tính toán

b Bù chuyển động

Sau quá trình ước lượng chuyển động ta có được vector chuyển động của các đối tượng trong khối pixel N x N của khung hình đích Dựa vào các vector chuyển động, các khối pixel N x N trong khung hình tham chiếu được dịch chuyển theo hướng

và độ lớn của vector chuyển động đã chỉ ra Quá trình này được gọi là bù chuyển động Kết quả của quá trình này là một khung hình mới được cho là giống với khung hình hiện thời Tuy nhiên, đây vẫn chỉ là quá trình dự đoán nên khung hình dự đoán

sẽ không thể giống hoàn toàn với khung hình hiện thời

1.2.3 Sơ đồ tổng quát mã hóa video

Về cơ bản các bộ mã hóa video như MPEG, H261, H264… đều có nguyên lý

hoạt động tổng quát như hình

Trang 20

Quá trình dự đoán đóng vai trò rất quan trọng vì nếu dự đoán càng chính xác thì giá trị khác biệt sẽ càng nhỏ và do đó cần ít thông tin để truyền đi Đối với trường hợp chuỗi ảnh tĩnh, giá trị dự đoán của các pixel trong khung hình hiện tại sẽ là các pixel cùng tọa độ trong khung hình trước đó

Trong chế độ mã hóa nội ảnh, giá trị dự đoán được dựa trên các khối hoặc các pixel liền kề trước đó trong cùng một khung hình Chế độ này được áp dụng cho khung hình đầu tiên của một nhóm các khung hình hoặc áp dụng trong việc mã hóa ảnh tĩnh JPEG sẽ được đề cập chi tiết trong phần sau

b) Ước lượng chuyển động

Lượng dữ liệu truyền đi sẽ rất lớn nếu với mỗi pixel đều có một vector chuyển động Thay vào đó, người ta sẽ gán cho mỗi nhóm pixel (block) một vector chuyển động Trong các chuẩn mã hóa, mỗi nhóm pixel là một hình vuông có kích thước

Trang 21

16x16 (được gọi là một Macroblock - MB) được ước lượng chuyển động và được bù

chuyển động Thông thường, việc ước lượng chuyển động được thực hiện trên kênh chói (kênh Y) của các khung hình

c) Inter/Intra switch

Inter/Intra switch có tác dụng chuyển đổi giữa hai chế độ liên ảnh và nội ảnh Trong chuẩn mã hóa ảnh JPEG, tất cả các MB trong ảnh được mã hóa ở chế độ nội ảnh Với các chuẩn mã hóa video như H.26x và MPEG, một số loại khung hình được

mã hóa ở chế độ nội ảnh, một số loại khung hình được mã hóa ở chế độ liên ảnh Ngoài ra, trong cùng một khung hình liên ảnh, một số MB được mã hóa ở chế độ nội ảnh để tối ưu hóa tỷ lệ mã hóa

d) DCT

Trên kênh Y và hai kênh màu U, V, mỗi MB được chia thành các khối nhỏ hơn

có kích thước 8x8 Như vậy, sẽ có 4 khối 8x8 thuộc kênh Y và một số khối thuộc kênh màu tùy theo độ phân giải của ảnh Mỗi khối 8x8 này sẽ được biến đổi DCT để

có được một ma trận 8x8 các hệ số của biến đổi DCT

d) Lượng tử hóa

Có hai loại lượng tử hóa Một loại có dead zone được sử dụng cho các hệ số AC

và hệ số DC của các MB mã hóa liên ảnh Loại còn lại không có dead zone được sử dụng cho các hệ số DC của MB nội ảnh Khoảng giá trị của các hệ số được lượng tử

có thể từ -2047 đến +2047 Với bộ lượng tử có dead zone, nếu trị tuyệt đối của các

hệ số nhỏ hơn bước lượng tử q thì sẽ được gán bằng 0 Ngược lại, giá trị của các hệ

số sau lượng tử sẽ trong khoảng từ 1 đến 31

e) Variable Length Coding

Các hệ số sau khi được lượng tử sẽ được mã hóa bằng mã có độ dài thay đổi Ngoài ra, giá trị của vector chuyển động cũng được mã hóa bằng mã này cùng với các hệ số lượng tử

f) Giải lượng tử và biến đổi DCT ngược

Để tái tạo khung hình hiện thời, các hệ số DCT sau lượng tử được giải lượng tử

và biến đổi DCT ngược Sau đó, các giá trị này được cộng với khung hình trước đó

Trang 22

mã hóa sẽ ít đi vì các hệ số DCT bị giảm đi Ngược lại, với những video có ít chuyển động thì bộ lượng tử sẽ giảm mức lượng tử để cải thiện chất lượng video Quá trình

này được gọi là ổn định tốc độ bit (Constant Bit Rate) Với những bộ mã hóa có tốc

độ bit thay đổi (Variable Bit Rate– VBR) thì bộ đệm không được sử dụng và mức

lượng tử được giữ nguyên trong suốt quá trình mã hóa

1.3 Giải mã hóa video

Quá trình giải mã hóa video giống như các bước mã hóa video nhưng ngược lại Hình 1.9 mô tả quá trình giải mã hóa tín hiệu video Ban đầu dữ liệu nhận được là các tín hiệu mã hóa được tách thành hai phần: dữ liệu mã hóa giá trị khác biệt và dữ liệu mã hóa giá trị vector chuyển động Vector chuyển động sẽ được đưa vào bộ dự đoán để dự đoán khung hình hiện tại Dữ liệu mã hóa giá trị khác biệt giữa khung hình hiện tại và khung hình trước đó lần lượt được giải mã entropy, giải lượng tử, biến đổi DCT ngược Sau khi biến đổi DCT ngược ta sẽ được khung hình là hiệu số của khung hình hiện tại và khung hình dự đoán Sau khi được cộng với khung hình

dự đoán, ta sẽ thu được khung hình tái tạo của khung hình hiện tại

Trang 23

Hình 1.9: Sơ đồ giải mã hóa tín hiệu video

1.4 Các tiêu chuẩn cho mã hóa tín hiệu video

Hầu hết các ứng dụng video hiện nay đều hỗ trợ một vài chuẩn nén quốc tế Trên thế giới hiện nay có hai tổ chức đưa ra các tiêu chuẩn cho mã hóa video là Tổ chức Viễn thông quốc tế (International Standards Organisation – ISO) và Hiệp hội Viễn thông quốc tế (International Telecommunications Union – ITU) Tiêu chuẩn do ITU đưa ra tập trung vào các ứng dụng video thời gian thực, ứng dụng thoại video Nhóm đưa ra các tiêu chuẩn này của ITU có tên là VCEG (Video Coding Experts Group) và các tiêu chuẩn đã được đề xuất bởi nhóm bao gồm:

✓ H.261 (1990): Sử dụng cho ứng dụng thoại video qua các kênh có tốc độ bit không đổi Ví dụ như kênh ISDN với tốc độ các kênh px64 kbps

✓ H.263 (1995): Sử dụng cho ứng dụng thoại video qua mạng chuyển mạch kênh

và mạng chuyển mạch gói với tốc độ bit thấp từ 20-30 kbps đến tốc độ cao vài Mbps

✓ H.263+ (1998), H.263++ (2001): Mở rộng của chuẩn H.263 và có hiệu suất nén cao hơn để hỗ trợ các ứng dụng thoại video qua mạng các mạng không phải mạng chuyển mạch kênh và chuyển mạch gói

✓ H.26L: Sử dụng cho các ứng dụng giao tiếp video qua các kênh có tốc độ bit

từ 20 kbps đến các kênh có tốc độ bit cao

Trang 24

16

Cùng với ITU, ISO cũng đưa ra một số chuẩn nén hỗ trợ lưu trữ và các ứng dụng video Có hai nhóm của ISO tham gia vào việc đề xuất các chuẩn: JPEG (Joint Photographic Experts Group) và MPEG (Moving Picture Expert Group)

✓ JPEG (1992): Sử dụng cho việc nén các ảnh tĩnh

✓ MPEG-1 (1993): Sử dụng cho nén video và audio để lưu trữ trên các đĩa ROM (tốc độ bit là 1.4 Mbps)

CD-✓ MPEG-2 (1995):được ứng dụng trong truyền hình số mặt đất với mỗi thiết bị khác nhau, sẽ có các bộ mã hoá và giải mã khác nhau nhằm giảm băng thông đường truyền

✓ MPEG-4 (1998): Sử dụng cho các ứng dụng trên các thiết bị đầu cuối đa phương tiện để nén và truyền video và audio qua mạng với tốc độ bit từ 20-30kbps hoặc cao hơn

✓ JPEG-2000 (2000): Sử dụng cho việc nén ảnh tĩnh nhưng có hiệu suất cao hơn JPEG

Sau khi đề xuất chuẩn nén MPEG-4, nhóm MPEG đã đưa ra tiếp hai tiêu chuẩn MPEG-7 và MPEG-21 là các khung làm việc cho các ứng dụng đa phương tiện:

✓ MPEG-7: Giao diện mô tả nội dung đa phương tiện Đây là tiêu chuẩn mô tả kiểu dữ liệu đa phương tiện cho các ứng dụng truy cập thông tin đa phương tiện hơn là cơ chế cho việc mã hóa và nén video MPEG-7 được đưa ra vào năm 2001

✓ MPEG-21: Khung làm việc đa phương tiện MPEG-21 định nghĩa ra các phần

tử chính bao gồm mô tả nội dung, xử lý nội dung, quản lý nội dung, mạng và thiết bị đầu cuối trong mạng đa phương tiện Mục đích của MPEG-21 là tích hợp các công nghệ để tạo ra, phân phối và giải mã dữ liệu đa phương tiện MPEG-21 được đưa ra vào năm 2000

Vào năm 2003, sự ra đời của chuẩn H.264/MPEG-4 Part 10 hay còn gọi AVC (Advanced Video Coding) đã đánh dấu sự hợp tác hiệu quả giữa hai nhóm VCEG và

Trang 25

MPEG Mục đích của dự án H.264/AVC là tạo ra một tiêu chuẩn có khả năng cung cấp video có chất lượng tốt nhất với tốc độ bit thấp hơn đáng kể hơn so với các tiêu chuẩn trước đó như MPEG-2, MPEG-4, H.263, mà không làm tăng sự phức tạp của

hệ thống Các ứng dụng của H.264/AVC bao gồm:

✓ Truyền hình quảng bá qua mạng cáp, vệ tinh, mạng IP

✓ Ứng dụng tương tác hoặc lưu trữ trên các phương tiện như đĩa quang, đĩa từ, DVD,…

✓ Dịch vụ thoại video qua ISDN, Ethernet, LAN, DSL, vô tuyến và mạng di động

✓ Dịch vụ VoD hay các dịch vụ đa phương tiện qua mạng cáp, DSL, ISDN, LAN

và mạng di động

✓ Dịch vụ nhắn tin đa phương tiện qua mạng IP

Hình 1.10 mô tả tóm tắt các chuẩn do hai tổ chức ISO và ITU đã đưa ra

Hình 1.10: Một số tiêu chuẩn mã hóa Video

1.5 Kết luận chương

Kết thúc chương I chúng ta đã hiểu được kiến thức tổng quát về mã hóa video, nguyên lý hoạt mã hóa dựa trên nguyên tắc loại bỏ các dư thừa trong video và các

Trang 27

CHƯƠNG II: NGHIÊN CỨU CÁC THUẬT TOÁN ƯỚC LƯỢNG CHUYỂN ĐỘNG TRONG MÃ HÓA VIDEO

2.1 Thuật toán tìm kiếm theo khối BMA (Block Matching Algorithm) [2-4]

Có hai kỹ thuật khác nhau của ước lượng chuyển động, đó là Thuật toán đệ quy Pel (PRA) và Thuật toán so khớp khối (BMA) Trong PRA, có một quy trình lặp đi lặp lại của ME cho các pixel riêng lẻ bằng các phương pháp gradient

Mặt khác, BMA giả sử rằng tất cả các pixel trong một khối có cùng hoạt động chuyển động Trong BMA, chuyển động được ước tính trên cơ sở các khối hình chữ nhật và một Vectơ chuyển động (MV) được tạo cho mỗi khối

So với BMA, PRA liên quan đến tính toán nhiều hơn phức tạp và ít thường xuyên hơn, và do đó rất khó thực hiện trong phần cứng BMA phù hợp hơn cho việc thực hiện phần cứng đơn giản vì đều đặn và đơn giản

Ngoài ra, BMA được chấp nhận trong tất cả các tiêu chuẩn mã hóa video vì hiệu suất của nó Trong quá trình BMA, người ta bắt buộc phải tìm ra một MB trong hệ quy chiếu trong một khu vực tìm kiếm nhất định, tương tự nhất với MB trong khung hiện tại (MB hiện tại)

Do một phạm vi tìm kiếm nhất định, một cửa sổ như cấu trúc được hình thành trong hệ quy chiếu, được gọi là Cửa sổ Tìm kiếm (SW) Đối với phạm vi tìm kiếm [−p , + p] và MB có kích thước N × N, quan hệ không gian-mối quan hệ giữa MB hiện tại và SW được thể hiện trong Hình 2.1

Quá trình đối sánh giữa block hiện thời với một trong các block ứng cử viên được quy về một điểm được tìm kiếm trong cửa sổ tìm kiếm Nếu tìm tất cả các điểm trong cửa sổ tìm kiếm thì đảm bảo sẽ tìm được điểm có độ méo nhỏ nhất

Trang 28

20

Hình 2.1: Ước lượng chuyển động theo khối

Sự kết hợp tiêu chí của BMA có tác động trực tiếp đến hiệu quả mã hóa và tính toán sự phức tạp Nhiều tiêu chí phù hợp đã được đề xuất trong tài liệu, ví dụ: sai số bình phương, Tổng số chênh lệch tuyệt đối (SAD), phân loại chênh lệch pel, v.v Trong số các tiêu chí đối sánh được đề xuất khác nhau, tính toán SAD chỉ yêu cầu một vài bước tính toán đơn giản

Trang 29

Để khung hình được nén trông như bản gốc, block thay thế phải càng giống block mà nó thay thế càng tốt Vì vậy, tiêu chí phù hợp hay hàm méo được sử dụng

để xác định sự giống nhau giữa block hiện thời và block ứng cử viên

• Sai số bình phương trung bình MSE

MSE của một block gồm các pixel được tính với độ dịch chuyển (𝑤𝑥, 𝑤𝑦) trong khung hình tham chiếu có công thức như sau:

• Tổng trị tuyệt đối sự sai khác SAD

Giống như tiêu chuẩn MSE, SAD cũng coi các giá trị sai khác là dương, nhưng thay vì lấy tổng của bình phương

Đánh giá SAD cho một vị trí nhất định (m, n) trong SW được thực hiện như: 𝑆𝐴𝐷(𝑚, 𝑛) = ∑ ∑|𝑐𝑢𝑟(𝑖, 𝑗) − 𝑟𝑒𝑓(𝑖 + 𝑚, 𝑗 + 𝑛)|

Trong đó −p ≤ m, n ≤ + p Ngoài ra, cur (i, j) là MB hiện tại có kích thước N ×

N tại vị trí tọa độ (i, j), trong khi ref (i + m, j + n) là khối tham chiếu bên trong SW tại vị trí tọa độ (i + m, j + n) và p là phạm vi tìm kiếm trong cả hai các chỉ dẫn Thuật ngữ | cur (i, j) - ref (i + m, j + n) | được gọi là sự biến dạng là sự khác biệt tuyệt đối

về cường độ giữa cur pixel hiện tại (i, j) và tham chiếu pixel tham chiếu (i + m, j + n)

Biểu thức SAD (m, n) cho kết quả tổng của tất cả các biến dạng cho MB hiện tại tại vị trí tìm kiếm (m, n) Ứng cử viên tìm kiếm, có SAD nhỏ nhất, được chọn là

Định dạng
Số trang	59
Dung lượng	1,7 MB