Xây dựng ứng dụng truyền video trên thiết bị cầm tay (PDA) qua môi trường mạng không dây

ATM Phương thức truyền đồng bộ được sử dụng trong truyền thông AVI Một định dạng đa phương tiện do Microsoft đưa ra CIF Một định dạng hình ảnh màu – Common Intermediate Format CODEC Một

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ HÙNG DŨNG

XÂY DỰNG ỨNG DỤNG TRUYỀN VIDEO TRÊN THIẾT

BỊ CẦM TAY (PDA) QUA MÔI TRƯỜNG MẠNG KHÔNG

Trang 3

MỤC LỤC

THUẬT NGỮ 3

DANH SÁCH BẢNG BIỂU 5

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 6

MỞ ĐẦU 8

CHƯƠNG 1: TỔNG QUAN VỀ NÉN VIDEO 10

1.1 Giới thiệu về nén Video 10

1.1.1 Giới thiệu 10

1.1.2 Tại sao lại phải nén Video 13

1.1.3 Nén Video 14

1.2 Các chuẩn nén Video hiện đại 15

1.2.1 MPEG 1 15

1.2.2 MPEG 2 19

1.2.3 MPEG 4 24

1.2.4 H.261 34

1.2.5 H.263 36

1.2.6 H.264 45

CHƯƠNG 2: STREAMING VIDEO 50

2.1 Tổng quan về Streaming Media 50

2.1.1 Lịch sử 50

2.1.1 Băng thông và dung lượng lưu trữ streaming 51

2.2 Tổng quan về Streaming Video 52

2.2.1 Streaming Video là gì? 52

2.2.2 Tại sao phải sử dụng Streaming Video? 53

2.2.3 Các phương thức Streaming 54

2.2.4 Mô hình Streaming 56

2.3 Các giao thức Streaming Video 58

2.3.1 Giao thức truyền thời gian thực (RTP) 58

2.3.1 Giao thức điều khiển truyền thời gian thực (RTCP) 60

2.4 Streaming Video trên mạng không dây 61

Trang 4

2.4.2 Nâng cao chất lượng Streaming Video qua kết nối không dây 62

CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH ỨNG DỤNG 65

3.1 Thiết bị hỗ trợ kỹ thuật số cá nhân - PDA 65

3.1.1 Tổng quan về PDA? 65

3.1.2 Lịch sử phát triển 65

3.1.3 Đặc điểm của thiết bị PDA 66

3.1.4 Hệ điều hành 67

3.2 Giao thức H.323 68

3.2.1 Tổng quan về H.323 68

3.2.2 Các thành phần của H.323 69

3.2.3 Các giao thức được tham chiếu bởi H.323 75

3.2.4 Ưu điểm của H.323 75

3.3 Mạng không dây 76

3.3.1 Giới thiệu 76

3.3.2 Lịch sử phát triển 76

5.3.3 Lợi ích của mạng không dây 77

3.3.4 Nhược điểm của mạng không dây 78

3.3.5 Kiến trúc của một mạng không dây 79

3.3.6 Các kiểu mạng không dây 81

3.3.7 Các chuẩn mạng không dây hiện đại 82

3.4 Xây dựng chương trình thử nghiệm 83

3.4.1 Yêu cầu chung 83

3.4.2 Mô hình kiến trúc của chương trình 83

3.4.2 Đánh giá kết quả 91

KẾT LUẬN 92

Những kết quả thu được 92

Những hướng phát triển tiếp theo 93

TÀI LIỆU THAM KHẢO 94

Trang 5

THUẬT NGỮ

API Application Programming Interface – giao diện lập trình ứng dụng -

hỗ trợ các hàm, các lớp viết sẵn của hệ thống

ATM Phương thức truyền đồng bộ được sử dụng trong truyền thông

AVI Một định dạng đa phương tiện do Microsoft đưa ra

CIF Một định dạng hình ảnh màu – Common Intermediate Format

CODEC Một thiết bị hay chương trình mã hóa và giải mã dữ liệu số

DSL Là công nghệ phổ biến truyền dữ liệu số hóa qua mạng có dây

HTTP Một giao thức truyền và nhận thông tin trên WWW

IETF Tổ chức kỹ thuật Internet (Internet Engineering Task Force)

ISDN Mạng dịch vụ tích hợp kỹ thuật số

JPEG Một định dạng ảnh hay một chuẩn nén ảnh chụp phổ biến

Trang 6

MP3 Một định dạng âm thanh – Âm thanh MPEG-1 Lớp 3

MPEG Nhóm chuyên gia hình ảnh chuyển động, một ủy ban của ISO/IEC MPEG-1 Chuẩn mã hóa đa phương tiện

MPEG-2 Chuẩn mã hóa đa phương tiện

MPEG-4 Chuẩn mã hóa đa phương tiện

PDA Thiết bị hỗ trợ kỹ thuật cá nhân

QCIF Định dạng ảnh – Quarter Common Intermediate Format

RTCP Giao thức điều khiển truyền thời gian thực

RTP Giao thức truyền thời gian thực

RTSP Giao thức Streaming thời gian thực

TCP Giao thức điều khiển truyền dữ liệu

Trang 7

DANH SÁCH BẢNG BIỂU

Bảng 1: Các mô tả MPEG-2 21Bảng 2: Các chuẩn mạng không dây hiện đại 82

Trang 8

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1-1: Khung hình Video (ví dụ về các vùng đồng nhất) 11

Hình 1-2: Khung hình Video (nền đã được lọc –filter) 11

Hình 1-3: Khung hình Video 2 12

Hình 1-4: Bộ mã hóa / Giải mã (CODEC) 14

Hình 1-5: Tương quan không gian và thời gian trong một đoạn video 15

Hình 1-6: Nguyên mẫu ISO/ bộ giải mã IEC 11172 17

Hình 1-7: Mẫu cấu trúc hình ảnh theo thời gian 18

Hình 1-8: Cấu trúc cơ bản của bộ mã hóa âm thanh 19

Hình 1-9: Mô hình của các hệ thống MPEG-2 20

Hình 1-10: Cấu trúc của một khối dữ liệu âm thanh MPEG-2 22

Hình 1-11: Mô hình tham chiếu DSM-CC 23

Hình 1-12: Cấu hình tham chiếu cho Giao diện thời gian thực 24

Hình 1-13: Ví dụ vể một cảnh MPEG-4 27

Hình 1-14: Mô hình lớp hệ thống MPEG-4 28

Hình 1-15: Quan hệ giữa các phiên bản MPEG-4 31

Hình 1-16: Bộ mã hóa H.261 35

Hình 1-17: Bộ giải mã H.261 36

Hình 1-18: Sơ đồ khối codec của H.263 38

Hình 1-19: Minh họa một hệ thống mã hóa/giải mã video 39

Hình 1-20: Bộ mã hóa H.263 40

Hình 1-21: Bộ giải mã H.263 42

Hình 2- 1: Kiến trúc của một ứng dụng truyền dữ liệu thời gian thực 61

Hình 3-1: Minh họa một thiết bị PalmPilot sử dụng hệ điều hành Palm OS 68

Hình 3-2: Giao thức H.323 72

Hình 3-3: H.323/PSTN Gateway 73

Trang 9

Hình 3-4: H.323/ISDN Gateway 73

Hình 3-5: Vùng H.323 74

Hình 3-6: Kiến trúc mạng không dây 79

Hình 3-7: Mạng không dây ngang hàng hoặc ad-hoc 81

Hình 3-8: Mô hình kiến trúc chương trình thử nghiệm 84

Hình 3-9: Mô hình kế thừa của lớp H.323 85

Hình 3- 10: Cây kế thừa của lớp Kênh H323 86

Hình 3-11: Cây kế thừa của lớp H323Codec 86

Hình 3-12: Cây kế thừa của lớp H323SignalPDU 87

Hình 3-13: Cây kế thừa lớp PSocket 89

Trang 10

MỞ ĐẦU

Hiện nay, truyền video trong các môi trường mạng tốc độ bit thấp ngày càng trở nên phổ biến và trở thành yêu cầu cấp thiết trong một số lĩnh vực của xã hội Một số ứng dụng điển hình có thể kể đến là: ứng dụng hội nghị truyền hình qua mạng intranet và internet (Video Conferencing) được sử dụng trong công tác điều hành; ứng dụng chẩn đoán hình ảnh trong y học (Telemedicine); các ứng dụng truyền video thời gian thực được sử dụng trong lĩnh vực đào tạo trực tuyến …

Sự ra đời và phát triển mạnh mẽ của công nghệ không dây (wireless) và các thiết bị cầm tay (như thiết bị hỗ trợ kỹ thuật cá nhân PDA, máy tính cầm tay Pocket PC, các điện thoại di động có sử dụng hệ điều hành …) đã mở ra một cách thức khai thác công nghệ mới, khác với cách thức truyền thống (làm việc tại văn phòng và sử dụng các mạng có dây để khai thác các dịch vụ) và thật sự đem lại nhiều sự thuận tiện và hiệu quả cho người sử dụng Chỉ với một thiết bị cầm tay hỗ trợ công nghệ kết nối mạng không dây, người dùng có thể làm việc, duyệt web và khai thác các dịch vụ giải trí tại bất kỳ nơi nào, trong đó các ứng dụng và dịch vụ video đóng một vai trò quan trọng

 Tính cấp thiết của đề tài: truyền video qua các môi trường mạng tốc độ bit

thấp là một công nghệ hiện đại, có ứng dụng trong nhiều lĩnh vực, nổi cộm là các ứng dụng hội nghị truyền hình, các dịch vụ giải trí, đào tạo trực tuyến … Đặc biệt đối với các ứng dụng trên các thiết bị hỗ trợ kỹ thuật cầm tay chạy trong môi trường mạng không dây

 Ý nghĩa khoa học: Nghiên cứu truyền video trên thiết bị cầm tay qua môi

trường mạng không dây cho phép xây dựng được các ứng dụng và dịch vụ hiệu quả Kết quả thu được sẽ là cơ sở cho việc phát triển một số ứng dụng được đánh giá là sẽ rất phổ biến trong tương lai

 Phạm vi nghiên cứu: Luận văn nghiên cứu phần cơ sở lý thuyết của các

phương pháp nén video, cơ sở lý thuyết về Streaming video và chuẩn công

Trang 11

nghệ về tổ chức, truyền dữ liệu video qua các hệ thống mạng tốc độ bit thấp với nhiều người dùng tham gia Đặc biệt là trên môi trường mạng không dây với thiết bị cầm tay PDA

 Kết quả đạt được: Luận văn trình bày cơ sở lý thuyết của các phương pháp nén

video như các chuẩn MPEG, chuẩn H.26x; Streaming video và chuẩn H.323 Đây là các lý thuyết cơ sở cho việc xây dựng các ứng dụng truyền video Luận văn cũng đã xây dựng được chương trình thử nghiệm truyền video thời gian thực kết nối hai thiết bị cầm tay (Pocket PC) qua môi trường mạng không dây

 Nội dung luận văn bao gồm:

- Chương 1 Tổng quan về nén Video – Trình bày về sự cần thiết phải

nén video và các lý thuyết về các chuẩn nén Video hiện đại

- Chương 2 Video streaming – Trình bày các khái niệm về video

streaming, các giao thức truyền dữ liệu thời gian thực Đây là các cơ sở cho việc xây dựng ứng dụng truyền dữ liệu video trong các ứng dụng và dịch vụ trên mạng

- Chương 3 Xây dựng chương trình ứng dụng – Giới thiệu về các

công nghệ thiết bị PDA, giao thức chuẩn H.323 và xây dựng kiến trúc chương trình thử nghiệm

- Kết luận - Cho biết những kết quả, hạn chế và hướng phát triển của

luận văn

Trang 12

CHƯƠNG 1: TỔNG QUAN VỀ NÉN VIDEO

1.1 Giới thiệu về nén Video

1.1.1 Giới thiệu

Với sự phát triển mạnh mẽ của công nghệ thông tin như hiện nay, đặc biệt là khả năng kết nối mạng internet (qua mạng có dây và không dây) với băng thông ngày càng nâng cao Bên cạnh đó, nhu cầu sử dụng các dịch vụ và ứng dụng âm thanh, hình ảnh và video ngày càng nhiều, điều này nói lên được tầm quan trọng của việc tối ưu hóa chất lượng dữ liệu đa phương tiện khi được truyền đi trên mạng, trong đó nén dữ liệu video là một trong những việc làm hết sức cần thiết

Việc nén dữ liệu video đem lại hai ưu điểm sau:

- Nâng cao khả năng sử dụng video số hóa trong các môi trường trao đổi và lưu trữ Ví dụ, với tốc độ đường truyền internet như hiện nay vẫn không đủ

để hỗ trợ thực hiện dữ liệu video không nén theo thời gian thực (thậm chí trong cả tường hợp video ở tốc độ và kích thước khung hình thấp) trong khi

đó một đĩa DVD chỉ có thể lưu được một đoạn video có độ dài vài giây với chất lượng hình ảnh và độ phân giải của Tivi

- Nâng cao hiệu quả sử dụng các tài nguyên lưu trữ và truyền video Nếu có một kênh truyền tốc độ cao, chúng ta có thể thực hiện truyền video nén với

độ phân giải và chất lượng cao hoặc có thể truyền trên nhiều kênh thay vì đơn kênh

Với các ưu điểm trong lưu trữ và truyền dữ liệu, nén dữ liệu video được coi là một thành phần quan trọng trong hầu hết tất các các ứng dụng và dịch vụ đa phương tiện hiện nay và trong những năm tiếp theo

Trang 13

Hình 1-1: Khung hình Video (ví dụ về các vùng đồng nhất)

Hình 1-2: Khung hình Video (nền đã đƣợc lọc –filter)

Trang 14

Hình 1-3: Khung hình Video 2 Một tín hiệu mang thông tin có thể được nén bằng cách bỏ đi các bit dư thừa Trong một hệ thống nén không mất dữ liệu, các bit dư thừa thống kê sẽ bị loại bỏ do đó tín hiệu ban đầu có thể được khôi phục lại một cách hoàn hảo tại điểm nhận Tuy nhiên, tại thời điểm hiện nay, hầu hết các phương thức nén không mất dữ liệu hình ảnh và video chỉ đạt kết quả vừa phải, không có khả năng khôi phục 100% so với tín hiệu ban đầu Hầu hết các kỹ thuật nén video được sử dụng hiện nay đều dựa trên nguyên tắc mất dữ liệu khi nén Mục đích của các thuật toán nén video là nâng cao hiệu năng nén trong khi mong muốn giảm thiểu sự méo và giảm chất lượng trong quá trình nén Các thuật toán nén thực hiện loại bỏ phần dư thừa trong các vùng dữ liệu theo thời gian, không gian và/hoặc tần suất xuất hiện Hình 1-1 thể hiện ví dụ về một khung video đơn Với các vùng được khoanh, ít có sự biến đổi về nội dung hình ảnh và do đó đây là sự dư thừa về mặt không gian của dữ liệu Hình 1-2 thể hiện cùng khung hình sau khi vùng ảnh nền đã được lọc (làm mịn), loại bỏ một số nội dung với tần suất xuất hiện cao Hệ thần kinh và mắt người rất nhạy cảm đối với các nội dung có tần suất xuất hiện thấp hơn và do đó hình ảnh vẫn có thể được nhận biết trong khi một số nhiều thông tin đã được loại bỏ [6] Hình 1-3 thể hiện khung hình tiếp theo trong đoạn video Hình ảnh minh họa này được lấy từ một

Trang 15

nguồn máy quay camera với tỷ lệ 25 khung hình/giây và do đó có rất ít thay đổi giữa hai khung hình trong một khoảng thời gian 1/25 giây Điều này cho thấy rất rõ ràng về sự dư thừa của dữ liệu Bằng cách loại bỏ các dữ liệu dư thừa (như dữ liệu không gian, tần suất xuất hiện và/hoặc thời gian), chúng ta có thể nén dữ liệu một cách đáng kể Hơn nữa còn có thể nén video bằng cách mã hóa dữ liệu bằng lược đồ

mã entropy như mã Huffman hoặc mã số học

Nén hình ảnh và video đã trở thành một vấn đề nóng bỏng trong các nghiên cứu và phát triển trong vòng hai mươi năm nay và cũng đã có rất nhiều các thuật toán và hệ thống khác nhau được xây dựng để thực hiện điều này Một vấn đề được đặt ra là làm thế nào có thể thống nhất được cách thức nén/giải nén, nâng cao khả năng sử dụng các sản phẩm từ nhiều nhà sản xuất khác nhau cũng như giao tiếp, trao đổi với nhau một cách hiệu quả Các tiêu chuẩn quốc tế cho nén hình ảnh và video đã được

ra đời như JPEG, MPEG và các chuẩn H.26x

1.1.2 Tại sao lại phải nén Video

Do dữ liệu video được ghi trên các phương tiện lưu trữ như đĩa CD và DVD hoặc truyền trên mạng, kích thước của dữ liệu video số hóa là một vấn đề quan trọng trong công nghệ đa phương tiện Mặt khác, do sự đòi hỏi băng thông lớn của các tín hiệu video thô (raw video), các ứng dụng video khi chạy sẽ chiếm rất nhiều tài nguyên về băng thông nếu các khung hình video được truyền ở dạng không nén Ví

dụ, giả sử rằng một khung hình video được biểu diễn trọng một lưới rời rạc các điểm ảnh với độ phân giải 176 điểm ảnh trên một dòng và 144 dòng trên một hình Nếu màu của hình ảnh được biểu diễn bởi hai khung màu, và mỗi khung có độ phân giải một nửa của hình ảnh chói thì mỗi khung video sẽ cần xấp xỉ 38 kbyte để biểu diễn nội dung của nó trong khi mỗi thành phần màu và độ chói được biểu diễn bởi 8-bit Nếu các khung video được truyền ở dạng không nén với tỷ lệ 25 khung hình / giây thì tốc độ dữ liệu thô cho một cảnh video sẽ vào khoảng 7.6 Mbit/giây và một đoạn video có độ dài một phút sẽ yêu cầu băng thông là 57 Mbyte Đối với một định dạng video CIF ở độ phân giải 352x288 điểm ảnh, với 8-bit đối với mỗi thành phần

Trang 16

màu hoặc độ chói và độ phân giải một nửa thì mỗi hình ảnh sẽ cần 152 kbyte bộ nhớ để biểu diễn nội dung số hóa Với cùng tỷ lệ hình ảnh như trên, tốc độ dữ liệu video thô cho một cảnh vào khoảng 30 Mbit/s và một đoạn phim có độ dài một phút

sẽ yêu cầu băng thông khoảng 225 Mbyte Do đó, dữ liệu video số hóa cần phải được nén trước khi truyền để bảo đảm yêu cầu băng thông tối thiều của các dịch vụ hoặc ứng dụng đa phương tiện [1]

1.1.3 Nén Video

Nén là một quá trình “cô đọng” dữ liệu thành dữ liệu mới có tổng số bit nhỏ hơn Nén video (mã hóa video) là một quá trình “cô đọng” một cảnh video số hóa với số lượng bit nhỏ hơn Video số hóa “thô” hay không nén thông thường yêu cầu một tỷ

lệ bit lớn (khoảng 216 Mbits cho một giây video không nén với chất lượng TV) và

do đó nén dữ liệu là cần thiết cho việc lưu trữ và truyền tín hiệu video

Nén dữ liệu đòi hỏi có hai hệ thống, bộ nén (bộ mã hóa) và bộ giải nén (bộ giải mã)

Bộ mã hóa chuyển đổi dữ liệu nguồn thành một mẫu nén (giảm bớt số lượng bit) ưu tiên cho việc truyền hoặc lưu trữ và bộ giải mã có nhiệm vụ chuyển đổi từ mẫu nén

về dạng biểu diễn ban đầu của dữ liệu video Cặp bộ mã hóa/giải mã thông thường

được mô tả như một CODEC (enCOder/ DECoder) (Hình 1-4)

Hình 1-4: Bộ mã hóa / Giải mã (CODEC)

Hầu hết các phương thức mã hóa đều sử dụng cả dữ liệu không gian và thời gian dư thừa trong khi mã hóa Trong một vùng thời gian, thường có độ tương quan cao (giống nhau) giữa các khung video được chụp gần như trong cùng một thời điểm Các khung liền kề nhau về mặt thời gian thường có độ tương quan cao, đặc biệt nếu tốc độ mẫu theo thời gian (tỷ lệ khung hình trên giây) lớn Trong một vùng theo không gian, thông thường có độ tương quan cao giữa các điểm ảnh (các mẫu) ở gần

Trang 17

nhau Ví dụ giá trị của các mẫu liền kề nhau thông thường rất giống nhau (Hình 5)

1-Hình 1-5: Tương quan không gian và thời gian trong một đoạn video

1.2 Các chuẩn nén Video hiện đại

1.2.1 MPEG 1

MPEG-1 định nghĩa một nhóm các mã âm thanh - hình ảnh (AV – Audio và Video)

và các chuẩn nén được công nhận bởi MPEG (Nhóm chuyên gia hình ảnh động - Moving Picture Experts Group) [20] MPEG-1 video thường được dùng cho định dạng Video CD (VCD) Độ phân giải và tốc độ bit của chuẩn VCD bằng xấp xỉ so với băng từ VHS Âm thanh MPEG-1 Lớp 3 là tên đầy đủ của định dạng âm thanh rất phổ biến MP3 (MPEG-1 audio layer 3) Ngày nay, với sự phát triển nhanh của công nghệ phần cứng của các thiết bị mã hóa, ngày càng có nhiều định dạng âm thanh tiên tiến được phát triển như MPEG-2 và MPEG-4 Các định dạng mới này

Trang 18

ngày càng phức tạp và yêu cầu các thiết bị phần cứng cao hơn, tuy nhiên chúng tỏ ra rất hiệu quả về mặt chất lượng

MPEG-1 bao gồm một số thành phần như sau:

1 Phần 1: Đồng bộ và trộn video - âm thanh

2 Phần 2: Codec nén cho các tín hiệu video không kết hợp

3 Phần 3: Codec nén cho mã hóa tín hiệu âm thanh Chuẩn định nghĩa mã hóa

âm thanh MPEG ở ba mức một cách phức tạp:

a MP1 hoặc MPEG-1 Phần 3 Lớp 1 (MPEG-1 Audio Layer 1)

b MP2 hoặc MPEG-1 Phần 3 Lớp 2 (MPEG-1 Audio Layer 2)

c MP3 hoặc MPEG-1 Phần 3 Lớp 3 (MPEG-1 Audio Layer 3)

4 Phần 4: Các thủ tục kiểm thử

5 Phần 5: Phần mềm tham chiếu

Trong đó:

Phần 1 có nhiệm vụ đánh địa chỉ các vấn đề xảy ra khi kết hợp một hoặc nhiều

dòng dữ liệu (data stream) từ các phần âm thanh và Video của chuẩn MPEG-1 với thông tin thời gian để tạo thành một dòng đơn như trong Hình 1-6 dưới đây Đây là một chức năng quan trọng vì khi kết hợp thành một dòng đơn, tất cả dữ liệu sẽ trong một mẫu, điều này sẽ rất phù hợp với việc lưu trữ và truyền dữ liệu số

Trang 19

Hình 1-6: Nguyên mẫu ISO/ bộ giải mã IEC 11172

Phần 2 xác định một biểu diễn mã hóa có thể được sử dụng cho việc nén video

Có một số kỹ thuật được sử dụng để nén dữ liệu với tỷ lệ cao Đầu tiên sẽ lựa chọn một độ phân giải không gian thích hợp cho tín hiệu Thuật toán được dùng sẽ sử dụng khối chuyển động bù để làm giảm các dữ liệu dư thừa về mặt thời gian Bù chuyển động được sử dụng cho việc ước lượng hình ảnh hiện tại từ hình ảnh trước

đó, và cho việc dự đoán hình ảnh hiện tại từ một hình tiếp theo, hoặc sử dụng cho việc ước lượng nội suy từ các hình ảnh trước và sau Tín hiệu sai, lỗi dự đoán sẽ được nén bằng cách sử dụng phép biến đổi cosin rời rạc (DCT) để loại bỏ tương quan không gian và sau đó sẽ được lượng tử Cuối cùng, các vector chuyển động được kết hợp với thông tin DCT và được mã hóa bằng cách sử dụng Mã độ dài biến thiên

Hình dưới đây minh họa khả năng kết hợp của ba kiểu hình ảnh chính được sử dụng trong chuẩn

Trang 20

Hình 1-7: Mẫu cấu trúc hình ảnh theo thời gian

Phần 3 xác định một biểu diễn mã hóa được sử dụng cho nén âm thanh – cả âm

dạng mono và stereo Thuật toán được minh họa trong Hình 1-8 dưới đây Các mẫu

âm thanh đầu vào được đưa vào bộ mã hóa Bộ đánh địa chỉ (mapping) sẽ tạo ra một mẫu con đã được lọc từ dòng âm thanh đầu vào Mô hình hệ tâm lý âm thanh (psychoacoustic model) tạo ra một tập các dữ liệu để điều khiển bộ lượng tử và mã hóa Khối lượng tử và mã hóa tạo ta tập các ký hiệu mã hóa từ mẫu dữ liệu đầu vào

đã được đánh địa chỉ Khối đóng gói khung (frame packing) lắp ráp các dòng bit từ

dữ liệu đầu ra của các khối khác đồng thời thêm một số thông tin khác (ví dụ, tương quan lỗi) nếu cần thiết

Trang 21

Hình 1-8: Cấu trúc cơ bản của bộ mã hóa âm thanh

Phần 4 chỉ ra cách kiểm thử có thể được thiết kế để xác định khi nào dòng bit và bộ

giải mã đáp ứng được các yêu cầu trong phần 1, 2 và 3 của chuẩn MPEG-1

Phần 5, phần mềm tham chiếu

1.2.2 MPEG 2

MPEG-2 là một chọn lựa cho các chuẩn mã hóa và nén âm thanh - hình ảnh (AV),

được sự đồng ý của MPEG (Moving Picture Experts Group) và được công bố là chuẩn quốc tế ISO/IEC 13818 [21] MPEG-2 thường được sử dụng để giải mã âm thanh và hình ảnh cho các tín hiệu lan truyền, bao gồm cả lan truyền qua vệ tinh và truyền hình cáp MPEG-2, mặc dù có một vài sự thay đổi, nhưng vẫn là định dạng

mã hóa chuẩn được các công ty sản xuất phim DVD sử dụng Ở những nơi mà bản quyền phần mềm được bảo hộ thì việc sử dụng MPEG-2 yêu cầu phải chi trả tiền bản quyền cho các nhà sáng chế thông qua Hiệp hội bản quyền MPEG

MPEG-2 hiện nay là một chuẩn gồm 9 phần Ba phần đầu của MPEG-2 đã đáp ứng được chuẩn quốc tế, những phần khác ở những cấp độ hoàn thiện khác nhau

Phần 1 của MPEG-2 xác định địa chỉ liên kết của một hoặc nhiều luồng hình ảnh

hoặc âm thanh cơ bản, hoặc các dữ liệu khác vào một hoặc nhiều luồng phù hợp để

Trang 22

lưu trữ hay truyền tải Nó được chỉ rõ trong 2 kiểu: Luồng chương trình (Program Stream) và Luồng truyền (Transport Stream) Mỗi kiểu được lựa chọn cho những tập ứng dụng khác nhau

Hình 1-9: Mô hình của các hệ thống MPEG-2 Luồng chương trình cũng tương tự như Hệ thống đa thành phần MPEG-1 Nó trả về kết quả từ việc liên kết một hoặc nhiều Dòng cơ sở gói (PES-Packetised Elementary Streams) với cơ sở thời gian thông thường vào một luồng đơn Luồng chương trình được thiết kể để sử dụng trong các môi trường lỗi tương đối và phải phù hợp với các chương trình ứng dụng có thể liên quan tới các phần mềm xử lý Các gói luồng chương trình có thể biến thiên và tương đối dài

Luồng truyền liên kết một hoặc nhiều PES với một hoặc nhiều cơ sở thời gian độc lập thành một luồng đơn Các luồng cơ bản chia sẻ một cơ sở thời gian thông thường từ một chương trình Luồng truyền được thiết kế để sử dụng trong các môi trường mà các lỗi có thể xảy ra (ví dụ, mất điện khi lưu trữ hay truyền tải dữ liệu) Gói luồng truyền dài 188 byte

Trang 23

Phần 2 của MPEG-2 xây dựng trên khả năng nén hình ảnh rất mạnh của chuẩn

MPEG-1 để phát triển hàng hoạt các công cụ mã hóa Chúng đƣợc gom lại trong các bản mô tả sơ lƣợc để phát triển các chức năng khác nhau Chỉ có các liên kết đƣợc đánh dấu “X” là có thể nhận diện bởi chuẩn

Bản mô tả sơ lƣợc 4:2:2 lần cuối đƣợc phê chuẩn vào tháng một năm 1996 và hiện tại là một phần không thể thiếu của MPEG-2 Video

Multiview Profile (MVP) là một bản mô tả sơ lƣợc tổng quát hiện đang đƣợc phát triển Bằng việc sử dụng các công cụ mã hóa MPEG-2 Video sẵn có, nó có khả năng giải mã một chuỗi hình ảnh kém chất lƣợng đƣợc cung cấp bởi 2 máy quay quay cùng một cảnh với một góc hẹp giữa chúng Bản mô tả này đƣợc phê chuẩn lần cuối vào tháng 7 năm 1996

Trang 24

Phần 3 của MPEG-2 là một sự mở rộng đa kênh tương thích ngược của chuẩn

1 Audio Hình 1-10 dưới đây thể hiện cấu trúc của một khối dữ liệu

MPEG-2 Audio

Hình 1-10: Cấu trúc của một khối dữ liệu âm thanh MPEG-2

Phần 4 và 5 của MPEG-2 phù hợp với phần 4 và 5 của MPEG-1 Chúng được phê

chuẩn lần cuối vào tháng 3 năm 1996

Phần 6 của MPEG-2 - Digital Storage Media Command and Control (DSM-CC) là

một đặc điểm kỹ thuật của tập các giao thức hỗ trợ các chức năng và toán tử điều khiển để quản lý luồng bít MPEG-1 và MPEG-2 Các giao thức này có thể được sử dụng để hỗ trợ các ứng dụng trong các môi trường mạng đơn tính hay hỗn hợp Trong mẫu DSM-CC, một luồng được bắt đầu từ một máy chủ và phân tán tới một

Trang 25

máy khách Cả máy chủ và máy khách đều được coi là người sử dụng của mạng DSM-CC DSM-CC định nghĩa một thực thể hợp lý gọi là quản lý phiên và tài nguyên (SRM) Nó cung cấp một trình quản lý tập trung của các Phiên và Tài nguyên DSM-CC (xem Hình 1-11)

Hình 1-11: Mô hình tham chiếu DSM-CC

Phần 6 được phê chuẩn như một chuẩn quốc tế vào tháng 7 năm 1996

Phần 7 của MPEG-2 là một đặc điểm kỹ thuật của thuật toán mã hóa âm thanh đa

kênh không bắt buộc phải tương thích ngược với MPEG-1 Audio Chuẩn này được phê chuẩn vào tháng 4 năm 1997

Phần 8 của MPEG-2 lúc đầu được dự tính cho việc mã hóa hình ảnh khi các mẫu

đầu vào là 10 bít

Phần 9 của MPEG-2 là một đặc tính kỹ thuật của giao diện thời gian thực cho các

bộ giải mã luồng truyền Nó có thể được sử dụng để thích nghi với tất cả các mạng phù hợp có chứa các luồng truyền

Trang 26

Hình 1-12: Cấu hình tham chiếu cho Giao diện thời gian thực

Phần 9 được phê chuẩn lần cuối như một chuẩn quốc tế vào tháng 7 năm 1996 Phần 10 là một phần kiểm tra sự thích nghi của DSM-CC

1.2.3 MPEG 4

1.2.3.1 Tổng quan

MPEG-4 là một chuẩn ISO/IEC được phát triển bởi MPEG cùng với sự cố gắng nghiên cứu từ hàng trăm các phòng thí nghiệm và hàng nghìn các nhà nghiên cứu trên thế giới MPEG-4 với tên gọi là ISO/IEC 14496 được hoàn thành vào tháng 8 năm 1998 và trở thành chuẩn quốc tế chính thức vào đầu năm 2000 Hiện nay cũng

đã có một số phần mở rộng được thêm vào và vẫn đang trong quá trình nâng cấp, phát triển [22]

MPEG-4 đã áp dụng thành công trong ba lĩnh vực sau:

 Truyền hình kỹ thuật số;

 Các ứng dụng đồ họa tương tác (nội dung tổng hợp);

 Đa phương tiện tương tác (WWW, phân phối và truy cập nội dung)

MPEG-4 đưa ra các thành phần công nghệ đã được chuẩn hóa cho phép tích hợp được với các sản phẩm, các mô hình truy cập và phân phối dữ liệu của ba lĩnh vực trên

1.2.3.2 Tính năng của chuẩn MPEG-4

Chuẩn MPEG-4 đưa ra một tập các công nghệ nhằm đáp ứng các yêu cầu của tác giả, các nhà cùng cấp dịch cũng như người dùng cuối

Trang 27

 Đối với các tác giả, MPEG-4 cho phép sản xuất các nội dung có đặc tính có thể sử dụng lại và có tính mềm dẻo cao

 Đối với các nhà cung cấp dịch vụ mạng, MPEG-4 đưa ra các thông tin có tính trong suốt, dễ dàng có thể biểu diễn và biên dịch vào trong các nội dung Ngoài ra, với việc hỗ trợ chức năng Chất lượng dịch vụ (QoS), MPEG-4 đem lại chất lượng cao về mặt nội dung, tính tin cậy và khả năng tối ưu hóa cho việc truyền dữ liệu trong các mạng không đồng nhất

 Đối với người dùng cuối, MPEG-4 đưa ra các tương tác nội dung ở mức cao cũng như đưa các nội dung đa phương tiện vào các mạng thế hệ mới

MPEG-4 đưa ra các cách thức đã được chuẩn hóa để:

1 biểu diễn các đơn vị âm thanh, nội dung hình ảnh (các “đối tượng truyền thông”) Các đối tượng này có thể là tự nhiên hoặc tổng hợp (có thể được ghi lại bởi camera và microphone hoặc được sinh ra băng máy tính);

2 mô tả thành phần cấu thành của các đối tượng trên để tạo ra các đối tượng truyền thông phức hợp phục vụ trong lĩnh vực nghe nhìn;

3 ghép nối và đồng bộ với các đối tượng truyền thông, do đó chúng có thể được truyền trên các kênh mạng; và

4 tương tác với dữ liệu nghe nhìn được sinh ra tại các bộ nhận tín hiệu

Phần sau đây sẽ mô tả các chức năng của MPEG-4 bằng cách sử dụng tìn huống được mô tả trong Hình 1-13

Mã hóa biểu diễn các đối tượng truyền thông

Các đoạn MPEG-4 thuộc về lĩnh vực nghe nhìn bao gồm một số đối tượng truyền thông được tổ chức theo cấu trúc phân cấp Tại mức lá của cây phân cấp, ta thấy một số đối tượng truyền thông gồm:

 Hình ảnh tĩnh (ví dụ, hình nền cố định);

 Các đối tượng video (ví dụ, một người đang nói chuyện – không có nền);

Trang 28

 Các đối tượng âm thanh (ví dụ, âm thanh liên quan đến một người nào đấy, nhạc nền);

MPEG-4 tiêu chuẩn hóa một số đối tượng truyền thông như trên, khả năng biểu diễn

cả kiểu nội dung tự nhiên và tổng hợp theo không gian hai hoặc ba chiều

Kết cấu của các đối tượng truyền thông

Hình 1-13 mô tả cách mà một cảnh trong MPEG-4 được mô tả như các đối tượng độc lập Trong hình chứa các đối tượng truyền thông ghép được tạo thành từ một nhóm các đối tượng truyền thông gốc Các đối tượng truyền thông gốc tương ứng với các lá trong một cây trong khi các đối tượng ghép được biểu diễn như các cây con.Ví dụ, một đối tượng trực quan được xem như một người đang nói kết hợp với

âm thanh tương ứng sẽ tạo nên một đối tượng truyền thông ghép mới chứa cả thành phần âm thanh và hình ảnh của người đang nói đó Những nhóm này cho phép tác giả có thể xây dựng các cảnh phức hợp và cho phép người sử dụng thao tác được với các (tập) đối tượng một cách có ý nghĩa

Nhìn chung, MPEG-4 đưa ra cách chuẩn hóa để mô tả một cảnh Ví dụ, để

 Đặt các đối tượng media ở bất cứ đâu trong một hệ thống kết hợp nào đó;

 Biến đổi để thay đổi hình dạng hoặc sự xuất hiện tín hiệu âm thanh của các đối tượng media;

 Nhóm các đối tượng media gốc để tạo thành một đối tượng media ghép;

 Áp dụng dữ liệu dạng stream vào các đối tượng media và cho phép thay đổi các thuộc tính của chúng;

 Thay đổi, tương tác các điểm quan sát và nghe của người dùng trong một cảnh

Sự mô tả cảnh dựa trên một số khái niệm từ ngôn ngữ Mô hình hóa hiện thực ảo (Virtual Reality Modeling language - VRML) theo cấu trúc và chức năng của các đối tượng

Trang 29

Hình 1-13: Ví dụ vể một cảnh MPEG-4

Mô tả và đồng bộ dữ liệu streaming các đối tượng media

Các đối tƣợng media cần phải sử dụng dữ liệu dạng streaming, dữ liệu này đƣợc

„chuyên chở‟ trong một hoặc nhiều dòng cơ sở (elementary streams) Một bộ mô tả

có thể xác định tất cả các stream liên quan tới một đối tƣợng media Điều này cho phép các dữ liệu đã đƣợc mã hóa theo cấu trúc phân cấm đƣợc quản lý tốt Mỗi bộ

mô tả lại đƣợc mô tả bởi một tập các bộ mô tả cho các thông tin cấu hình Ví dụ, để xác định các tài nguyên bộ giải mã yêu cầu và tính chính xác của thông tin thời gian

Trang 30

mã hóa Hơn nữa, các bộ mô tả có thể mang theo các thông tin cần thiết cho cho QoS (ví dụ, tốc độ bit tối đa, tỷ lệ lỗi, quyền ƣu tiên, …)

Việc đồng bộ các dòng cơ sở này đƣợc thực hiện thông qua việc gán nhãn thời gian của từng đơn vị truy cập riêng rẽ trong các dòng cơ sở Lớp đồng bộ thực hiện quản

lý việc xác định của các đơn vị truy cập gán nhãn thời gian này Với tính độc lập về kiểu media, lớp này cho phép xác định kiểu đơn vị truy cập (ví dụ, các khung hình video hay âm thanh, các câu lệnh mô tả cảnh) trong các dòng cơ sở, khôi phục các đối tƣợng media hoặc cơ sở thời gian của mô tả cảnh cũng nhƣ cho phép đồng bộ chúng Cú pháp của tầng này có thể cấu hình đƣợc theo một số cách, cho phép sử dụng trong một loạt các hệ thống

Truyền nhận dữ liệu streaming

Sự truyền nhận đồng bộ của thông tin streaming từ nguồn tới đích sử dụng QoS khác nhau đƣợc xác định theo lớp đồng bộ và lớp truyền nhận chứa một bộ trộn dữ liệu hai lớp nhƣ đƣợc mô tả trong Hình 1-14

Hình 1-14: Mô hình lớp hệ thống MPEG-4 Với hệ thống đƣợc mô tả trong Hình 1-14, có thể:

Trang 31

 Xác định các đơn vị truy cập, chuyển các tem thời gian và khóa thông tin tham chiếu cũng như xác định mất dữ liệu

 Lựa chọn các dữ liệu xen kẽ từ các dòng cơ sở khác nhau vào các dòng FlexMux

 Truyền thông tin điều khiển tới:

o Chỉ ra QoS yêu cầu cho mỗi dòng cơ sở và dòng FlexMux;

o Dịch các yêu cầu QoS vào các tài nguyên mạng thực tế;

o Kết hợp các dòng cơ sở vào các đối tượng media

 Truyền bản đồ địa chỉ của các dòng cơ sở tới các kênh FlexMux và TransMux

Tương tác với các đối tượng media

Một cách tổng quát thì người dùng có thể xem một cảnh được soạn theo kịch bản của tác giả Mức độ xem phụ thuộc vào mức độ cho phép của tác giả Tuy nhiên, người dùng cũng có thể thao tác với cảnh này Các thao tác người dùng cho phép gồm:

 Thay đổi điểm quan sát/nghe của cảnh;

 Kéo các đối tượng trong một cảnh tới một vị trí khác;

 Khởi động một loạt các sự kiên bằng cách bấm chuột trên các đối tượng cụ thể Ví dụ, chạy hoặc dừng một dòng video;

 Lựa chọn ngôn ngữ ưa thích khi các đĩa media hỗ trợ đa ngôn ngữ

Quản lý và xác định quyền sở hữu

Điều quan trọng là phải cho phép xác định quyền sở hữu trên các đối tượng

MPEG-4 Do đó, MPEG đã làm việc với đại diện của các ngành công nghiệp để định nghĩa

cú pháp và các công cụ hỗ trợ cho việc này Các thông tin mô tả một cách chi tiết về

Trang 32

việc xác định quyền sở hữu được thể hiện trong tài liệu „Quản lý và bảo vệ quyền tác giả trong MPEG-4‟, tài liệu này được xuất bản trên trang Web của MPEG MPEG-4 kết hợp chặt chẽ việc xác nhận quyền sở hữu bằng cách lưu các định danh duy nhất, các định danh này được cấp bởi các hệ số quốc tế (ví dụ, ISAN, ISRC, vv ) Các số này có thể được sử dụng để xác định quyền sở hữu tác giả của một đối tượng media Do không phải tất cả dữ liệu đều được xác định bằng một con số, MPEG-4 phiên bản 1 đã đưa ra khả năng xác định quyền sở hữu bởi một cặp khóa (ví dụ, »tác giả«/»John Smith«) Hơn nữa, MPEG-4 còn đưa ra một giao diện chuẩn dùng cho việc tích hợp chặt chẽ vào lớp các hệ thống Với chuẩn này, các hệ thống kiểm soát quyền sở hữu có thể được dễ dàng hợp nhất với phần chuẩn hóa của bộ giải mã

1.2.3.3 Các phiên bản MPEG-4

MPEG-4 phiên bản 1 được phê chuẩn bởi MPEG vào tháng 11 năm 1998 và phiên bản 2 vào một năm sau đó Sau hai phiên bản chính này, đã có rất nhiều các công cụ được bổ sung thêm Các công cụ và hồ sơ của một phiên bản bất kỳ không bao giờ

bị thay thế trong các phiên bản tiếp theo Hình 1-15 dưới đây mô tả mối quan hệ giữa các phiên bản Phiên bản 2 là một sự mở rộng và tương thích với phiên bản 1,

và phiên bản 3 là sự mở rộng và tương thích với phiên bản 2, cũng tương tự đối với các phiên bản sau Phiên bản của các thành phần chính của chuẩn MPEG-4 (Hệ thống, âm thanh, Video, DMIF) đều được đồng bộ họa, do đó mỗi phần khác nhau

có đường dẫn riêng

Trang 33

Hình 1-15: Quan hệ giữa các phiên bản MPEG-4 Lớp Hệ thống (System) của các phiên bản sau tương thích với tất cả phiên bản trước

đó Trong phạm vi của Hệ thống, Âm thanh và Trực quan, các phiên bản mới chỉ thêm các Hồ sơ mà không thay đổi các Hồ sơ trước đó

1.2.3.4 Các tính năng chính của MPEG-4

Giao vận

Theo lý thuyết, MPEG-4 không định nghĩa các tầng giao vận Tuy nhiên, trong một

số trường hợp đặc biệt thì tầng giao vận được định nghĩa

 Chuyển vận MPEG-2 qua dòng chuyển vận (đây là một sửa đổi của các hệ thống MPEG-2)

 Chuyển vận qua IP (Khi phối hợp với IETF - Internet Engineering Task Force)

DMIF

DMIF là một Khung công việc tích hợp truyền nhận đa phương tiện (Delivery Multimedia Integration Framework) và là giao diện giữa tầng ứng dụng và tầng chuyển vận bảm đảm cho những người phát triển ứng dụng MPEG-4 không phải lo lắng gì về việc chuyển vận Một ứng dụng đơn có thể chạy trên nhiều tầng chuyển vận khác nhau khi được được hỗ trợ bởi quyền DMIF cụ thể

Trang 34

MPEG-4 DMIF hỗ trợ các tính năng sau:

 Giao diện ứng dụng MPEG-4 DMIF trong suốt bất kể thiết bị tương tác là ở

xa, thiết bị lưu trữ nội bộ hay quảng bá

 Kiểm soát việc thiết lập các kênh FlexMux

 Sử dụng các mạng đồng nhất giữa các máy tương tác: IP, ATM, điện thoại di động, PSTN, ISDN băng thông hẹp

 Hỗ trợ cho các mạng di dộng được phát triển cùng với ITU-T

 Các câu lệnh người dùng với các thông điệp báo nhận

 Quản lý thông tin đồng bộ tầng MPEG-4

Hệ thống

Như đã mô tả ở phần trên, MPEG-4 định nghĩa một loạt các công cụ cho các thuật toán nén âm thanh và thông tin video, hình ảnh tiên tiến Các dòng dữ liệu (Dòng cơ sở) là kết quả của quá trình nén có thể được truyền hoặc lưu trữ một cách riêng rẽ cũng như có thể sử dụng để biên soạn hoặc trình diễn đa phương tiện tại phía người nhận

Phần hệ thống của MPEG-4 chỉ ra mô tả về mối quan hệ giữa các thành phần nghe nhìn cấu thành của một cảnh Mối quan hệ này có thể được mô tả theo 2 mức độ chính sau:

 Định dạng nhị phân (BIFS) mô tả cách thức sắp sếp không gian – thời gian của các đối tượng trong một cảnh Người quan sát có thể có khả năng tương tác với các đối tượng này Ví dụ, có thể sắp xếp lại các đối tượng trong một cảnh hoặc thay đổi điểm quan sát trong một môi trường 3 chiều ảo

 Ở mức thấp hơn, Các Bộ mô tả đối tượng (OD – Object Descriptor) định nghĩa mối quan hệ giữa các Dòng cơ sở thích ứng với từng đối tượng (Ví dụ, dòng âm thanh và video của một điểm trong hội nghị truyền hình) OD cũng đưa ra các thông tin khác như địa chỉ URL cần thiết để truy cập vào các

Trang 35

Dòng cơ sở, thuộc tính của các bộ giải mã cần thiết để so sánh, thông tin quyền sở hữu và một số thông tin khác

 Java (MPEG-J) được sử dụng để cho phép truy xuất tới đầu cuối cũng như môi trường ứng dụng Java để mã hóa 'MPEGlets'

 Công cụ sử dụng cho việc chèn nhiều dòng vào một dòng, bao gồm các thông tin về thời gian (Công cụ FlexMux)

 Công cụ hỗ trợ cho việc lưu trữ dữ liệu MPEG-4 trong một file (Định dạng file MPEG-4, „MP4‟)

 Khởi tạo và duy trì quản lý dữ liệu nhận được trong bộ đệm của đầu cuối

 Xác định thời gian, các cơ chế đồng bộ và khôi phục

 Cung cấp các tập dữ liệu cho việc xác định quyền tác giả liên quan tới các đối tượng media

Trang 36

tham gia hội nghị truyền hình Ngoài ra, chuẩn còn bao gồm các công cụ và thuật toán hỗ trợ cho việc mã hóa các hình ảnh tĩnh tự nhiên và video cũng như các công

cụ hỗ trợ việc nén dữ liệu 2 chiều và 3 chiều

Một ảnh CIF có thể được định nghĩa có kích thước là 44 x 36 khối Các khối thuộc

về một nhóm lớn hơn được gọi là các khối chuỗi (macroblock) Một khối chuỗi bao gồm sáu khối, bốn khối cho thông tin độ chói Y, một khối cho thông tin về thành phần màu Cr và thông tin Cb số trung bình của khối lớn hơn Ba mươi ba mẫu khối chuỗi trên một khối lớn hơn được gọi là GOB (Group of Block) hoặc là Nhóm khối Một ảnh CIF sẽ có kích thước là 6 x 2 GOB [17]

Nén và mã hóa H.261

Thuật toán nén H.261 dựa trên Hàm chuyển cosin rời rạc – DCT, giống với MPEG

ở một góc độ nào đó Đây là phương thức phổ biến và hiệu quả khi sử dụng Mã độ dài RLE DCT truyền một khối các điểm ảnh cường độ mạnh vào một khối các hệ

số chuyển tuần tự Hàm chuyển sau đó lại được áp dụng cho các khối mới cho đến khi toàn bộ ảnh được truyền Mã Huffman/RLE sau này có thể được sử dụng cho các dữ liệu đã được xử lý

Một điểm khác biệt chính giữa H.261 và MPEG là giá trị lượng tử được sử dụng là biến đổi và được xác định bởi tổng số dữ liệu giảm yêu cầu để phù hợp với băng thông video cho phép H.261 điều khiển tốc độ tương ứng với băng thông video cho phép

Trang 37

Tiến trình mã hóa H.261 sử dụng các khung hình đã nhận trước để mã hóa các trạng thái khác nhau, cũng giống như cách thức của MPEG Không giống như MPEG, H.261 chỉ có hai kiểu khung hình là các khung hình mã hóa trong (intra-coded) và

mã hóa ngoài (Inter-coded) Trong khi MPEG có ba loại khung hình là I-Frame, khung hình dự báo và khung hình định hướng (Bi-Frame) H.261 chỉ sử dụng hai khung hình trước đó để tham chiếu cho thuật toán ước lượng chuyển động trong khi MPEG sử dụng các khung hình I hoặc P có trước gần nhất và tiếp theo để tham chiếu Các khung hình mã hóa trong là các khung hình được mã hóa hoàn toàn mà không có tham chiếu Các khung hình mã hóa ngoài là các khung hình mà việc mã hóa dựa vào các khung hình trước đó Chuẩn H.261 chỉ ra rằng, mỗi khối chuỗi phải

có ít nhất 123 khung hình mã hóa trong để đảm bảo tránh lỗi khi gom Các đầu cuối

có thể yêu cầu một cập nhật hình ảnh hoàn chỉnh chỉ khi một khung hình mã hóa trong được gửi

Hình 1-16: Bộ mã hóa H.261 Nếu một khung hình được mã hóa như một khung trong thì các khối chuỗi sẽ đi qua một hàm chuyển DCT, lượng tử hóa sử dụng một giá trị xác định bởi việc kiểm soát

tỷ lệ quay trở lại và qua mã Huffman zigzag để đưa ra được dòng bit cuối cùng Kết quả đầu ra này được tái tạo lại và gửi tới bộ giải mã do đó nó có thể được sử dụng bởi bộ mã ngoài

Trang 38

Hình 1-17: Bộ giải mã H.261

Bộ giải mã H.261 khá đơn giản Nó không phải là một bộ giải mã đơn thuần nhưng được xây dựng như bộ giải mã xây dựng sẵn Bộ giải mã xây dựng sẵn này được sử dụng để giải mã các dòng bit đầu ra để tái tạo các khung hình tham chiếu cần cho việc bù chuyển động Một khung hình có thể được chuyển theo một hoặc hai đường khi đến bộ giải mã Điều này phụ thuộc hoàn toàn vào kiểu của khung hình Các khung hình mã hóa trong và ngoài đi theo các đường khác nhau khi mã hóa Một khối chuỗi mã hóa trong được mã hóa một cách đơn giản bằng cách đảo chiều tiến trình mã hóa lượng tử DCT Dữ liệu đã mã hóa sau đó được sử dụng để tạo khung hình và hiển thị Một bản sao của khung hình này được lưu trữ cho việc tham chiếu khi giải mã các khối chuỗi mã hóa ngoài và các khung hình khác

Các khối chuỗi mã hóa ngoài được giải mã bằng cách sử dụng một vector và khung hình tham chiếu, sau đó được lọc trước khi gửi khối chuỗi đã mã hóa để tạo thành một khung hình mới

1.2.5 H.263

1.2.5.1 Giới thiệu

H.263 là một thuật toán nén video và là giao thức đã được chuẩn hóa bởi ITU và được công bố một vài lần vào năm 1995/1996 H.263 được thiết kế cho truyền

Trang 39

thông tốc độ bit thấp, tốc độ truyền dữ liệu ban đầu là nhỏ hơn 64 Kbit/giây, tuy nhiên hiện nay hạn chế này đã được loại bỏ H.236 hi vọng là chuẩn được sử dụng trong một dải rộng các ứng dụng truyền dữ liệu tốc độ bit khác nhau, không chỉ riêng đối với ứng dụng tốc độ bit thấp và dự đoán H.263 sẽ thay thế H.261 trong một số ứng dụng [15]

Sự khác nhau giữa các thuật toán mã hóa của H.261 và H.263 được thể hiện trong danh sách dưới đây:

- Độ chính xác đến ½ điểm ảnh được sử dụng cho bù chuyển động trong khi H.261 sử dụng độ chính xác một điểm ảnh và một bộ lọc lặp

- Một số phần trong cấu trúc phân cấp của dòng dữ liệu bây giờ chỉ là lựa chọn, do đó codec có thể được cấu hình cho truyền dữ liệu tốc độ thấp hoặc khôi phục lỗi tốt hơn Có bốn lựa chọn để làm tăng khả năng thực thi là:

 Các vector chuyển động không hạn chế

Sơ đồ khối codec của chuẩn H.263 được thể hiện trong hình sau đây:

Trang 40

Hình 1-18: Sơ đồ khối codec của H.263

1.2.5.2 Các ứng dụng

H.263 được sử dụng rộng rãi trong các ứng dụng hội nghị truyền hình và điện thoại video, gồm:

- Hội nfhị truyền hình trong phòng và màn hình

- Video qua internet và qua đường điện thoại

- Video giám sát và theo dõi

- Hệ thống truyền hình y học - telemedicine (tư vấn và chẩn đoán từ xa)

- Đào tạo trực tuyến

Trong mỗi trường hợp, thông tin video (và thông thường cả âm thanh) được truyền qua các đường kết nối truyền thông bao gồm mạng máy tính, mạng điện thoại, ISDN và sóng radio Video thông thường yêu cầu băng thông lớn do đó các ứng dụng yêu cầu công nghệ nén hoặc mã hóa video để giảm băng thông khi truyền trên mạng

Định dạng
Số trang	98
Dung lượng	2,06 MB

Xây dựng ứng dụng truyền video trên thiết bị cầm tay (PDA) qua môi trường mạng không dây

Tại sao phải sử dụng Streaming Video?

Các phƣơng thức Streaming