slide môn học cơ sở thông tin số

Mọi nguồn thông tin tạo ra các bản tin một cách ngẫu nhiên, tức làđầu ra của nguồn thông tin được đặc trưng, hay được mô tả bởi cáckhái niệm và thông số thống kê.Có hai loại nguồn: nguồn

Trang 1

1 Introduction to Information Theory

Mô hình toán học của nguồn thông tin

Đo lường thông tin

Mã hoá nguồn rời rạc – Mã hoá không tổn hao

Mã hoá nguồn liên tục – Mã hoá có tổn hao

Trang 2

Mọi nguồn thông tin tạo ra các bản tin một cách ngẫu nhiên, tức làđầu ra của nguồn thông tin được đặc trưng, hay được mô tả bởi cáckhái niệm và thông số thống kê.

Có hai loại nguồn: nguồn rời rạc và nguồn liên tục

Nguồn rời rạc là nguồn chỉ tạo ra một tập hợp hữu hạn các bản tin(còn gọi là bộ ký hiệu), và được ký hiệu là L {x1, , xL}

Nguổn rời rạc không nhớ (DMS): các ký hiệu tạo ra độc lập thống

kê với nhau

Nếu các ký hiệu có phụ thuộc thống kê, ví dụ như bộ chữ cái tiếngViệt hay tiếng Anh, chúng ta có thể xây dựng mô hình toán học củanguồn dựa vào tính chất dừng thống kê của nguồn (hàm mật độphân bố xác suất đồng thời của các dãy ký hiệu là không thay đổivới mọi dịch chuyển về thời gian)

Trang 3

Nguồn tương tự tạo ra các bản tin x(t) là một thể hiện cụ thể củamột quá trình ngẫu nhiên X (t) Khi X (t) là quá trình có băng tầnhữu hạn, tức là Φxx(f ) = 0 với |f | ≥ W , chúng ta có thể chuyểnđầu ra của nguồn tương tự thành một nguồn rời rạc tương đươngtheo định lý lấy mẫu Shannon:

sin[2πW (t − n/2W )]

2πW (t − n/2W )]

Như vậy, đầu ra của nguồn được đặc trưng thống kê bởi hàm mật

độ phân bố xác suất đồng thời p(x1, , xm) với mọi m ≥ 1,

Xn= X (n/2W )

Các mẫu {X (n/2W )} từ nguồn dừng tương tự nói chung là liên tụctheo độ lớn (biên độ)

Trang 4

Trang 5

Giả thiết chúng ta quan sát được đầu ra của một nguồn thông tin Ymột ký hiệu yj, tức là Y = yj và chúng ta muốn xác định lượngthông tin mà sự kiện Y = yj cung cấp về sự kiện X = xi, tức là xi

được đưa vào đầu vào của kênh hay xi đã được nguồn tạo ra.Khi X và Y là độc lập thống kê, sự kiện Y = yj không cung cấpmột chút thông tin nào về sự kiện X = xi

Lượng tin tương hỗ/Mutual information giữa xi và yj được địnhnghĩa là:

I(xi; yj) = logP(X = xi|Y = yj)

P(x) = log

P(xi|yj)P(x)

Trang 6

Khi sự kiện Y = yj khẳng định chắc chắn sự xuất hiện của sự kiện

X = xi, chúng ta có lượng tin riêng/self-information của sự kiện

Trang 7

Lượng tin tương hỗ trung bình và entropy

Lượng tin tương hỗ trung bình/average mutual information giữa X

Trang 8

Lượng tin tương hỗ trung bình và entropy

Lượng tin có điều kiện trung bình được gọi là entropy có điều kiện:

Trang 9

Lượng tin của biến ngẫu nhiên liên tục

Nếu X và Y là hai biến ngẫu nhiên với hàm mật độ phân bố đồngthời pdf p(x, y) và các hàm mật độ phân bố độc lập là p(x) và p(y),lượng tin tương hỗ trung bình giữa X và Y được định nghĩa là:

H(X ) = −

Z ∞

−∞

p(x) log p(x)dxEntropy có điều kiện trung bình của X khi đã nhận được Y :

H(X |Y ) = −

Z ∞ Z ∞

p(x, y ) log p(x|y )dxdy

Trang 10

Lượng tin của biến ngẫu nhiên liên tục

Trang 11

Trang 12

Chúng ta xét việc mã hoá đầu ra của nguồn thông tin, tức là quátrình biểu diễn các bản tin của nguồn thành một dãy các ký hiệu nhịphân.

H(X ) biểu diễn lượng thông tin trung bình mà nguồn tạo ra khi tạo

ra một bản tin bất kỳ

Đo lường độ hiệu quả của việc mã hoá bằng cách so sánh số lượng

ký hiệu nhị phân trung bình dùng để mã hoá cho một bản tin (một

ký hiệu của nguồn) với H(X )

Trang 13

Mã hoá nguồn rời rạc không nhớ (DMS)

Một nguồn DMS tạo ra mỗi ký hiệu trong khoảng thời gian τs giây

Bộ ký hiệu của nguồn là xi, i = 1, 2, , L với xác suất P(xi).Lượng thông tin trung bình của mỗi ký hiệu là H(X ) và tốc độ tạothông tin của nguồn là H(X )/τs:

Trang 14

Mã hoá với từ mã có độ dài cố định

Số lượng ký hiệu nhị phân để mã hoá duy nhất từng ký hiệu củanguồn là

R= log2L or R = ⌊log2L⌋ + 1Khi L không phải là luỹ thừa của 2 và L nhỏ, hiệu suất lập mã cóthể tăng lên khi mã hoá đồng thời từng khối J ký hiệu của nguồn

Ta có N ≥ J log2Lhoặc N = ⌊J log2L⌋ + 1

Nếu J đủ lớn, hiệu suất lập mã, tính theo công thức JH(X )/N, cóthể tiến sát dần tuỳ ý tới 1

Nếu chúng ta muốn giảm tốc độ bit R bằng cách mã hoá không dugnhất, chúng ta có thể chọn 2N− 1 khối J ký hiệu có xác suất caonhất và mã hoá duy nhất chúng, phần còn lại LJ− (2N− 1) khối J

ký hiệu sẽ mã hoá thành một từ mã duy nhất

Trang 15

Định lý mã hoá nguồn 1

Gọi X là một nguồn DMS có entropy hữu hạn H(X )

Các khối J ký hiệu được mã hoá thành các từ mã nhị phân có độdài N

Với mọi ǫ > 0, xác suất giải mã sai Pe có thể giảm nhỏ tuỳ ý khi J

đủ lớn, với điều kiện sau được thoả mãn

R= N

J ≥ H(X ) + ǫTrái lại, nếu (R < H(X )), P sẽ tăng ngẫu nhiên tới 1 khi J đủ lớn

Trang 16

Mã hoá với từ mã có độ dài thay đổi

Khi các ký hiệu của nguồn có xác suất không giống nhau thì sửdụng từ mã có độ dài thay đổi sẽ có hiệu quả cap hơn

Các ký hiệu có xác suất xuất hiện lớn hơn sẽ được gán từ mã có độdài nhỏ hơn Kiểu mã hoá này được gọi là mã hoá entropy

Chúng ta mong muốn có bộ mã mà giải mã duy nhất và giải mãngay lập tức/instantaneously decodable

Điều kiện prefix: không có từ mã nào là phần đầu (prefix) của một

từ mã khác trong cùng bộ mã

Trang 17

Mục tiêu của chúng ta la tìm ra một thuật toán mã hoá duy nhấtvới các từ mã có độ dài thay đổi và hiệu quả cao (tối thiểu hoá

có độ dài trung bình thoả mãn điều kiện ¯R that satisfies

H(X ) ≤ ¯R< H(X ) + 1

Trang 18

Thuật toán Huffman

Thuật toán là tối ưu theo nghĩa độ dài trung bình của bộ mã là tốithiểu, bộ mã có tính prefix, giải mã duy nhất và ngay lập tức

Hình:Ví dụ về thuật toán Huffman

Trang 19

Mã hoá nguồn dừng rời rạc

Entropy của khối các biến ngẫu nhiên X1, X2, , Xk được địnhnghĩa là:

H(X1, , XJ) ≤ ¯RJ < H(X1, , XJ)+1, HJ(X ) ≤ ¯R< HJ(X )+1

J

Sử dụng thuật toán Huffman yêu cầu phải biết hàm mật độ phân bốxác suất đồng thời của khối J ký hiệu, hiếm khi có trong thực tế

Trang 20

Thuật toán Lempel-Ziv

Trong thực tế, các thông số thống kê của nguồn thông tin là chúng

ta không biết trước, và việc tính hay ước lượng hàm mật độ phân

bố xác suất đồng thời hay các xác suất các ký hiệu là rất khó.Khi đó việc sử dụng thuật toán Huffman cho các nguồn trong thực

tế (có nhớ) là khó và không thực tế (tất nhiên vẫn có giải pháp).Thuật toán Lempel-Ziv không phụ thuộc vào tính chất thống kê củanguồn

Dãy các ký hiệu đầu vào (đầu ra của nguồn thông tin) được chiathành từng khối (phrase), mội khối mới xuất hiện khi khối này khácmột trong các khối đã xuất hiện (khối A) chỉ ở duy nhất một kýhiệu cuối cùng

Từ mã của khối mới sẽ là vị trí của khối A trong từ điển và chènvào say ký hiệu cuối cùng

Trang 21

Thuật toán Lempel-Ziv

Dictionary Location Content Codeword

Trang 22

Trang 23

Nguồn tương tự tạo ra các bản tin x(t) là một thể hiện cụ thể củaquá trình ngẫu nhiên X (t) Khi X (t) là quá trình ngẫu nhiên dừng

và có băng thông hạn chế, định lý lấy mẫu cho phép chúng ta biểudiễn X (t) qua các mẫu bằng cách lẫy mẫu với tốc độ Nyquist.Các mẫu được lượng tử hoá theo mức với R = ⌊log2L⌋ bit/mẫu.Sau đó chúng ta có thể dùng thuật toán Huffman để mã hoá cácmẫu nếu biết xác suất các mẫu

Lượng tử hoá các mẫu tín hiệu mang lại hiệu quả nén, nhưng tạo rasai lệch lên tín hiệu, và đây là điều chúng ta xét trong phần này

Trang 26

x.

Trang 27

Hàm tốc độ tạo tin-sai lệch

Định lý: Mã hoá nguồn với sai lệch xác định

Tồn tại một phương pháp mã hoá để với mỗi sai lệch D, tốc độ tốithiểu R(D) bit/ký hiệu là đủ để khôi phục lại đầu ra của nguồn vớisai lệch trung bình sát dần tuỳ ý tới D

R(D) biểu diễn giới hạn dưới về tốc độ bit/ký hiệu để có được sailệch D cho trước nào đó

Hàm sai lệch-tốc độ của nguồn Gaussian không nhớ, rời rạc:

Dg(R) = 2−2Rσ2

Trang 28

Hàm tốc độ tạo tin-sai lệch

Định lý: Giới hạn trên của R(D)

Hàm tốc độ-sai lệch của nguồn không nhớ, biên độ liên tục với giátrị trung bình bằng 0 và sai phương hữu hạn theo tiêu chuẩn MSE

có giới hạn trên là

R(D) ≤ Rg(D) = 1

2log2

σ2 x

D(0 ≤ D ≤ σx2)Hàm sai lệch-tốc độ của nguồn như vậy:

D(R) ≤ Dg(R) = 2−2Rσ2xGiới hạn dưới Shannoncho tiêu chuẩn MSE:

Trang 29

Lượng tử hoá vô hướng

Trong mã hoá nguồn, chúng ta có thể tối ưu bộ lượng tử nếu biếthàm mật độ phân bố xác suất của các mẫu tín hiệu đầu vào.Chúng ta muốn thiết kế bộ lượng tử hoá vô hướng tối ưu, làm tốithiểu sai lệch (là một hàm nào đó của sai số lượng tử q = ˜x − x).Giả thiết f (˜x − x) là hàm đánh giá sai lệch Khi đó sai lệch là :

D=

Z ∞

−∞

f(˜x− x)p(x)dx

Trang 30

Với lượng tử hoá đồng đều, các mức lượng tử (đầu ra) là

Z ∞

f(1

2(2k − 1)∆ − x)p(x)dx

Trang 31

Để tối thiểu hoá D theo ∆, lấy đạo hàm của D theo ∆, ta có

Z ∞

−(L/2−1)∆

f′(1

2(L − 1)∆ − x)p(x)dx = 0Với lượng tử hoá không đều, sai lệch có thể giảm nhiều hơn Ký hiệuđầu ra là ˜x = ˜x khi biên độ đầu vào trong khoảng x ≤ x < x

Trang 32

sẽ được tối thiểu hoá bằng cách lựa chọn {˜xk} và {xk}

Điều kiện cần để D tối thiểu nhận được bằng đạo hàm riêng của Dtheo {xk} và {˜xk}:

f(˜xk− xk) = f (˜xk+1− xk), k = 1, , L − 1

Z xk

x

f′(˜xk− x)p(x)dx = 0, k = 1, , L

Định dạng
Số trang	32
Dung lượng	702,72 KB