Mọi nguồn thông tin tạo ra các bản tin một cách ngẫu nhiên, tức làđầu ra của nguồn thông tin được đặc trưng, hay được mô tả bởi cáckhái niệm và thông số thống kê.Có hai loại nguồn: nguồn
Trang 11 Introduction to Information Theory
Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao
Trang 2Mọi nguồn thông tin tạo ra các bản tin một cách ngẫu nhiên, tức làđầu ra của nguồn thông tin được đặc trưng, hay được mô tả bởi cáckhái niệm và thông số thống kê.
Có hai loại nguồn: nguồn rời rạc và nguồn liên tục
Nguồn rời rạc là nguồn chỉ tạo ra một tập hợp hữu hạn các bản tin(còn gọi là bộ ký hiệu), và được ký hiệu là L {x1, , xL}
Nguổn rời rạc không nhớ (DMS): các ký hiệu tạo ra độc lập thống
kê với nhau
Nếu các ký hiệu có phụ thuộc thống kê, ví dụ như bộ chữ cái tiếngViệt hay tiếng Anh, chúng ta có thể xây dựng mô hình toán học củanguồn dựa vào tính chất dừng thống kê của nguồn (hàm mật độphân bố xác suất đồng thời của các dãy ký hiệu là không thay đổivới mọi dịch chuyển về thời gian)
Trang 3Nguồn tương tự tạo ra các bản tin x(t) là một thể hiện cụ thể củamột quá trình ngẫu nhiên X (t) Khi X (t) là quá trình có băng tầnhữu hạn, tức là Φxx(f ) = 0 với |f | ≥ W , chúng ta có thể chuyểnđầu ra của nguồn tương tự thành một nguồn rời rạc tương đươngtheo định lý lấy mẫu Shannon:
sin[2πW (t − n/2W )]
2πW (t − n/2W )]
Như vậy, đầu ra của nguồn được đặc trưng thống kê bởi hàm mật
độ phân bố xác suất đồng thời p(x1, , xm) với mọi m ≥ 1,
Xn= X (n/2W )
Các mẫu {X (n/2W )} từ nguồn dừng tương tự nói chung là liên tụctheo độ lớn (biên độ)
Trang 41 Introduction to Information Theory
Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao
Trang 5Giả thiết chúng ta quan sát được đầu ra của một nguồn thông tin Ymột ký hiệu yj, tức là Y = yj và chúng ta muốn xác định lượngthông tin mà sự kiện Y = yj cung cấp về sự kiện X = xi, tức là xi
được đưa vào đầu vào của kênh hay xi đã được nguồn tạo ra.Khi X và Y là độc lập thống kê, sự kiện Y = yj không cung cấpmột chút thông tin nào về sự kiện X = xi
Lượng tin tương hỗ/Mutual information giữa xi và yj được địnhnghĩa là:
I(xi; yj) = logP(X = xi|Y = yj)
P(x) = log
P(xi|yj)P(x)
Trang 6Khi sự kiện Y = yj khẳng định chắc chắn sự xuất hiện của sự kiện
X = xi, chúng ta có lượng tin riêng/self-information của sự kiện
Trang 7Lượng tin tương hỗ trung bình và entropy
Lượng tin tương hỗ trung bình/average mutual information giữa X
Trang 8Lượng tin tương hỗ trung bình và entropy
Lượng tin có điều kiện trung bình được gọi là entropy có điều kiện:
Trang 9Lượng tin của biến ngẫu nhiên liên tục
Nếu X và Y là hai biến ngẫu nhiên với hàm mật độ phân bố đồngthời pdf p(x, y) và các hàm mật độ phân bố độc lập là p(x) và p(y),lượng tin tương hỗ trung bình giữa X và Y được định nghĩa là:
H(X ) = −
Z ∞
−∞
p(x) log p(x)dxEntropy có điều kiện trung bình của X khi đã nhận được Y :
H(X |Y ) = −
Z ∞ Z ∞
p(x, y ) log p(x|y )dxdy
Trang 10Lượng tin của biến ngẫu nhiên liên tục
Trang 111 Introduction to Information Theory
Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao
Trang 12Chúng ta xét việc mã hoá đầu ra của nguồn thông tin, tức là quátrình biểu diễn các bản tin của nguồn thành một dãy các ký hiệu nhịphân.
H(X ) biểu diễn lượng thông tin trung bình mà nguồn tạo ra khi tạo
ra một bản tin bất kỳ
Đo lường độ hiệu quả của việc mã hoá bằng cách so sánh số lượng
ký hiệu nhị phân trung bình dùng để mã hoá cho một bản tin (một
ký hiệu của nguồn) với H(X )
Trang 13Mã hoá nguồn rời rạc không nhớ (DMS)
Một nguồn DMS tạo ra mỗi ký hiệu trong khoảng thời gian τs giây
Bộ ký hiệu của nguồn là xi, i = 1, 2, , L với xác suất P(xi).Lượng thông tin trung bình của mỗi ký hiệu là H(X ) và tốc độ tạothông tin của nguồn là H(X )/τs:
Trang 14Mã hoá nguồn rời rạc không nhớ (DMS)
Mã hoá với từ mã có độ dài cố định
Số lượng ký hiệu nhị phân để mã hoá duy nhất từng ký hiệu củanguồn là
R= log2L or R = ⌊log2L⌋ + 1Khi L không phải là luỹ thừa của 2 và L nhỏ, hiệu suất lập mã cóthể tăng lên khi mã hoá đồng thời từng khối J ký hiệu của nguồn
Ta có N ≥ J log2Lhoặc N = ⌊J log2L⌋ + 1
Nếu J đủ lớn, hiệu suất lập mã, tính theo công thức JH(X )/N, cóthể tiến sát dần tuỳ ý tới 1
Nếu chúng ta muốn giảm tốc độ bit R bằng cách mã hoá không dugnhất, chúng ta có thể chọn 2N− 1 khối J ký hiệu có xác suất caonhất và mã hoá duy nhất chúng, phần còn lại LJ− (2N− 1) khối J
ký hiệu sẽ mã hoá thành một từ mã duy nhất
Trang 15Mã hoá nguồn rời rạc không nhớ (DMS)
Định lý mã hoá nguồn 1
Gọi X là một nguồn DMS có entropy hữu hạn H(X )
Các khối J ký hiệu được mã hoá thành các từ mã nhị phân có độdài N
Với mọi ǫ > 0, xác suất giải mã sai Pe có thể giảm nhỏ tuỳ ý khi J
đủ lớn, với điều kiện sau được thoả mãn
R= N
J ≥ H(X ) + ǫTrái lại, nếu (R < H(X )), P sẽ tăng ngẫu nhiên tới 1 khi J đủ lớn
Trang 16Mã hoá nguồn rời rạc không nhớ (DMS)
Mã hoá với từ mã có độ dài thay đổi
Khi các ký hiệu của nguồn có xác suất không giống nhau thì sửdụng từ mã có độ dài thay đổi sẽ có hiệu quả cap hơn
Các ký hiệu có xác suất xuất hiện lớn hơn sẽ được gán từ mã có độdài nhỏ hơn Kiểu mã hoá này được gọi là mã hoá entropy
Chúng ta mong muốn có bộ mã mà giải mã duy nhất và giải mãngay lập tức/instantaneously decodable
Điều kiện prefix: không có từ mã nào là phần đầu (prefix) của một
từ mã khác trong cùng bộ mã
Trang 17Mã hoá nguồn rời rạc không nhớ (DMS)
Mục tiêu của chúng ta la tìm ra một thuật toán mã hoá duy nhấtvới các từ mã có độ dài thay đổi và hiệu quả cao (tối thiểu hoá
có độ dài trung bình thoả mãn điều kiện ¯R that satisfies
H(X ) ≤ ¯R< H(X ) + 1
Trang 18Mã hoá nguồn rời rạc không nhớ (DMS)
Thuật toán Huffman
Thuật toán là tối ưu theo nghĩa độ dài trung bình của bộ mã là tốithiểu, bộ mã có tính prefix, giải mã duy nhất và ngay lập tức
Hình:Ví dụ về thuật toán Huffman
Trang 19Mã hoá nguồn dừng rời rạc
Entropy của khối các biến ngẫu nhiên X1, X2, , Xk được địnhnghĩa là:
H(X1, , XJ) ≤ ¯RJ < H(X1, , XJ)+1, HJ(X ) ≤ ¯R< HJ(X )+1
J
Sử dụng thuật toán Huffman yêu cầu phải biết hàm mật độ phân bốxác suất đồng thời của khối J ký hiệu, hiếm khi có trong thực tế
Trang 20Thuật toán Lempel-Ziv
Trong thực tế, các thông số thống kê của nguồn thông tin là chúng
ta không biết trước, và việc tính hay ước lượng hàm mật độ phân
bố xác suất đồng thời hay các xác suất các ký hiệu là rất khó.Khi đó việc sử dụng thuật toán Huffman cho các nguồn trong thực
tế (có nhớ) là khó và không thực tế (tất nhiên vẫn có giải pháp).Thuật toán Lempel-Ziv không phụ thuộc vào tính chất thống kê củanguồn
Dãy các ký hiệu đầu vào (đầu ra của nguồn thông tin) được chiathành từng khối (phrase), mội khối mới xuất hiện khi khối này khácmột trong các khối đã xuất hiện (khối A) chỉ ở duy nhất một kýhiệu cuối cùng
Từ mã của khối mới sẽ là vị trí của khối A trong từ điển và chènvào say ký hiệu cuối cùng
Trang 21Thuật toán Lempel-Ziv
Dictionary Location Content Codeword
Trang 221 Introduction to Information Theory
Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao
Trang 23Nguồn tương tự tạo ra các bản tin x(t) là một thể hiện cụ thể củaquá trình ngẫu nhiên X (t) Khi X (t) là quá trình ngẫu nhiên dừng
và có băng thông hạn chế, định lý lấy mẫu cho phép chúng ta biểudiễn X (t) qua các mẫu bằng cách lẫy mẫu với tốc độ Nyquist.Các mẫu được lượng tử hoá theo mức với R = ⌊log2L⌋ bit/mẫu.Sau đó chúng ta có thể dùng thuật toán Huffman để mã hoá cácmẫu nếu biết xác suất các mẫu
Lượng tử hoá các mẫu tín hiệu mang lại hiệu quả nén, nhưng tạo rasai lệch lên tín hiệu, và đây là điều chúng ta xét trong phần này
Trang 26x.
Trang 27Hàm tốc độ tạo tin-sai lệch
Định lý: Mã hoá nguồn với sai lệch xác định
Tồn tại một phương pháp mã hoá để với mỗi sai lệch D, tốc độ tốithiểu R(D) bit/ký hiệu là đủ để khôi phục lại đầu ra của nguồn vớisai lệch trung bình sát dần tuỳ ý tới D
R(D) biểu diễn giới hạn dưới về tốc độ bit/ký hiệu để có được sailệch D cho trước nào đó
Hàm sai lệch-tốc độ của nguồn Gaussian không nhớ, rời rạc:
Dg(R) = 2−2Rσ2
Trang 28Hàm tốc độ tạo tin-sai lệch
Định lý: Giới hạn trên của R(D)
Hàm tốc độ-sai lệch của nguồn không nhớ, biên độ liên tục với giátrị trung bình bằng 0 và sai phương hữu hạn theo tiêu chuẩn MSE
có giới hạn trên là
R(D) ≤ Rg(D) = 1
2log2
σ2 x
D(0 ≤ D ≤ σx2)Hàm sai lệch-tốc độ của nguồn như vậy:
D(R) ≤ Dg(R) = 2−2Rσ2xGiới hạn dưới Shannoncho tiêu chuẩn MSE:
Trang 29Lượng tử hoá vô hướng
Trong mã hoá nguồn, chúng ta có thể tối ưu bộ lượng tử nếu biếthàm mật độ phân bố xác suất của các mẫu tín hiệu đầu vào.Chúng ta muốn thiết kế bộ lượng tử hoá vô hướng tối ưu, làm tốithiểu sai lệch (là một hàm nào đó của sai số lượng tử q = ˜x − x).Giả thiết f (˜x − x) là hàm đánh giá sai lệch Khi đó sai lệch là :
D=
Z ∞
−∞
f(˜x− x)p(x)dx
Trang 30Lượng tử hoá vô hướng
Với lượng tử hoá đồng đều, các mức lượng tử (đầu ra) là
Z ∞
f(1
2(2k − 1)∆ − x)p(x)dx
Trang 31Lượng tử hoá vô hướng
Để tối thiểu hoá D theo ∆, lấy đạo hàm của D theo ∆, ta có
Z ∞
−(L/2−1)∆
f′(1
2(L − 1)∆ − x)p(x)dx = 0Với lượng tử hoá không đều, sai lệch có thể giảm nhiều hơn Ký hiệuđầu ra là ˜x = ˜x khi biên độ đầu vào trong khoảng x ≤ x < x
Trang 32Lượng tử hoá vô hướng
sẽ được tối thiểu hoá bằng cách lựa chọn {˜xk} và {xk}
Điều kiện cần để D tối thiểu nhận được bằng đạo hàm riêng của Dtheo {xk} và {˜xk}:
f(˜xk− xk) = f (˜xk+1− xk), k = 1, , L − 1
Z xk
x
f′(˜xk− x)p(x)dx = 0, k = 1, , L