Mã hoá nguồn1.Một số khái niệm chung Mã hoá nguồn: Là phép biến biến đổi đầu tiên cho nguồn tin nguyên thuỷ Đầu vào của phép biến đổi có thể là nguồn tin liên tục hay rời rạc Mục đí
Trang 1Mã hoá nguồn
1.Một số khái niệm chung
Mã hoá nguồn: Là phép biến biến đổi đầu tiên cho nguồn tin nguyên thuỷ
Đầu vào của phép biến đổi có thể là nguồn tin liên tục hay rời rạc
Mục đích của phép mã hoá nguồn là biểu diễn thông tin với tài nguyên tối thiểu
Trang 2 Nguồn rời rạc: Tạo ra một chuỗi các ký hiệu ngẫu nhiên
• Nguồn không nhớ:Các ký hiệu xuất hiện độc lập với nhau
• Nguồn có nhớ: các ký hiệu xuất hiện phụ
thuộc vào các ký hiệu xuất hiện trước đó
•Nguồn dừng: các mối liên hệ thống kê giữa các thời điểm không phụ thuộc vào thời gian
Trang 3 Nguồn liên tục: Tạo ra một tín hiệu thể hiện một quá trình ngẫu nhiên
•Nguồn liên tục có thể biến thành một chuỗi các biến ngẫu nhiên(liên tục) bằng phép lấy mẫu
•Lượng tử hoá: là phép biến đổi các biến ngẫu nhiên này thành các biến ngẫu nhiên rời rạc với sai số nhất định
Trang 4Mã hoá nguồn không nhớ
• Với nguồn rời rạc cần quan tâm:
Entropi của nguồn tin nguyên thuỷ
Entropi của nguồn tin sau mã hoá
Hiệu quả của phép mã hoá
Để đơn giản chỉ xét với mã hiệu nhị phân: lư
ợng tin = lượng bit = số ký hiệu nhị phân
Mã hiệu có cơ số lớn hơn 2 có thể mở rộng kết quả thu được
Trang 5 Mã hoá với từ mã có độ dài cố định:
Nguyên tắc: mã hoá mỗi ký hiệu nguồn thành một
chuỗi ký hiệu mã có độ dài cố định R
Để phép biến đổi 1-1: Một ký hiệu nguồn tương ứng với một chuỗi ký hiệu nhị phân số lượng ký hiệu nhị phân phải lớn hơn số ký hiệu nguồn.
2 R ≥ L hay R ≥ log2 L
• Nếu L là luỹ thừa của 2 thì Rmin = log2L
• L không là luỹ thừa của 2 thì R ≥ H(X)
Hiệu suất của phép mã hoá: H(X) / R ≤ 1
Tốc độ lập tin lối ra lớn hơn tốc độ lập tin lối vào
Trang 6 Tăng hiệu quả mã hoá
Hiệu quả hoá đạt cực đại khi:
•L là luỹ thừa của 2
•Nguồn ban đầu đẳng xác suất
Nếu nguồn đầu vào đẳng xác suất mà L không
là luỹ thừa của 2, số lượng ký hiệu nhỏ nhất:
[H(X)] + 1 Hiệu quả nguồn là:
( ) ( )
[ ] + 1 ≥ H( )X( )+ 1
X
H X
H
X H
Trang 7 Để tăng hiệu quả nguồn cần tăng số lượng tin mỗi lần mã hoá, mã hoá cùng một lúc J ký hiệu:
( ) ( )
[ ] . ( )( ) 1
1
.
.
+
≥ + j H X
X H
j X
H j
X H j
• Kết quả chỉ đúng khi nguồn đẳng xác suất
•Phép mã hoá không có sai số thì mỗi ký hiệu
nguồn tương ứng với một từ mã duy nhất
Trang 8Tăng hiệu quả bằng mã hoá có sai số
Nguồn không đẳng xác suất để có hiệu quả tối
đa cần phải chấp nhận một sai số nào đó
Xét LJ chuỗi ký hiệu nguồn có độ dài j, mã
hoá bằng chuỗi nhị phân có độ dài R, 2R < LJ
Còn Lj – 2R từ mã chưa được mã hoá, được
mã hoá bằng một từ mã chung điều này có sai
số nếu nguồn phát chuỗi ký hiệu trùng với chuỗi
được mã hoá chung, sai số với xác suất là Pe
Trang 9Định lý mã hoá nguồn 01.
Gọi X là nguồn rời rạc không nhớ có entropi hữu hạn H(X), các khối j ký hiệu của nguồn được mã hoá bằng các từ mã nhị phân độ dài N, với mọi e
> 0, xác suất giải mã khối sai pe có thể nhỏ tuỳ ý: R = N/j H(X) + e với j tiến tới vô hạn.≥
Ngược lại: R H(X) + e với p≤ e tiến tới 1 khi j
tiến tới vô hạn
ý nghĩa định lý:
•Phép mã hoá với từ mã có độ dài không đổi bào toàn độ bất định của nguồn
Trang 10• H(X) số ký hiệu nhị phân nhỏ nhất dùng để
biểu diễn nguồn tin nguyên thuỷ một cách chính xác
• tổng quát: khối ký hiệu nhỏ nhất đó có thể đạt
được khi mã hoá khối có chiều dài vô hạn các ký hiệu nguồn
•Định lý có thể mở rộng với mã hiệu có cơ số
lớn hơn 2
Trang 11Mã hoá shannon –fano
• Nguyên tắc: Độ dài từ mã tỷ lệ nghịch với xác suất
xuất hiện:
•Thuật toán:
Xếp nguồn tin theo thứ tự tăng hay giảm dần theo xác suất xuất hiện, chia các ký hiệu nguồn thành m nhóm(nhị phân chia làm 2 nhóm) xác suất xấp xỉ
nhau
Gán cho mỗi nhóm một ký hiệu 0 hoặc 1.
Thực hiện lại bước 1 cho đến khi mỗi nhóm chỉ còn một ký hiệu
Trang 12VÝ dô: cho nguån tin X = { x1, x2…x7} víi x¸c suÊt xuÊt hiÖn P = {0,34; 0,23; 0,19; 0,1; 0,07; 0,06; 0,01}
0,34 X1 0 0
0,19 X3 1 0
0,1 X4 1 0
Trang 13X p Từ mã
X1 0,34 00
X2 0,23 01
X3 0,19 10
X4 0,1 110
X5 0.07 1110
X6 0,06 11110
x7 0,01 11111
=
−
= n
i
i
x p X
H
1
log
H(X) = 2,34
độ dài trung bình
( ) 2 , 41
1
=
=
l k
k
k p a n
R
Trong đó:
ak ký hiệu thứ k, nk số
ký hiệu nhị phân ứng từ mã của ak
Trang 14Mã huffman: là mã có tính prefix và có
độ dài tối thiểu.(có độ dài trung bình tới hạn entropi của nguồn )
Cách xây dựng mã Huffman:
1.Sắp xếp các tin có xác suất xuất hiện
giảm dần Hai ký hiệu có xác suất nhỏ nhất được ký hiệu là 0,1.
i
i
=
>
+ ∑
= 1
1
Trang 152 Tổng hai xác suất nhỏ nhất được xếp vào bước 2 và theo thứ tự giảm dần.
3 Qui trình lặp lại cho đến khi còn hai nguồn ứng với 0,1 được phân.
Mã của mỗi nguồn sẽ được tìm theo chiều đi ngược lại trong bảng
Trang 16ví dụ: có S = {s0,s1,s2,s3,s4} có xác suất tương ứng 0,4 0,2 0,2 0,1 0,1
0
1
0 0,2
0
1
0 0,4
0
1
0 0,6
0
1
0 1
s0 0,4 0,4 0,4 0,6
S1 0,2 0,2 0,4 0,4
S2 0,2 0,2 0,2
S3 0,1 0,2
S4 0,1
S1 0,4 00 S1 0,2 10 S2 0,2 11 S3 0,1 010 S4 0,1 011
Trang 17( ) ( )
12193 ,
2
1 , 0 / 1 log
1 , 0 1
, 0 / 1 log
1 , 0 2
, 0 / 1 log
2 , 0
2 , 0 / 1 log
2 , 0 4
, 0 / 1 log
4 , 0
) (
/ 1 log )
(
2 , 2 3
1 , 0 3
1 , 0 2
2 , 0 2
2 , 0 2
4 , 0
1 1
=
+ +
+
+
=
=
=
= +
+ +
+
=
=
∑
∑
=
=
S i
i i
S
i
i i
x p x
p S
H
x p n n
Vậy độ dài trung bình thoả mãn điều
kiện giới hạn của entropi.