Entropy c a m t bi n ng u nhiên r i r c
̈ nh ngh a
̈ Cho x là m t bi n ng u nhiên v i không gian m u X = {x1, ,
x N} và đ đo xác su t P(x n ) = p n Entropy c a x đ c đ nh ngh a là:
1
)log(
Trang 4n N
n
n n
Np
p N
p p
p N
H
1 1
1
1 ln
ln ln
) ln(
) x
(
0 1
1
1 1
N Np
p
Trang 5Các đ c tính c a entropy (tt)
3.Cho bi n ng u nhiên x có không gian m u X = {x1, , x N} và
bi n ng u nhiên y có không gian m u Y = {y1, , y M} Thì bi n
ng u nhiên n i z = (x, y) có không gian m u Z = {(x1, y1), ,
m n
n y P x y P x P y P x P y x
P z
H
1 1
1 1
log log
, log
, )
(
) y ( )
x (
y P x
P x
P y
P x
P x
m N
n
M
m
m n
Trang 6Các đ c tính c a entropy (tt)
4.Xét m t bi n ng u nhiên x có không gian m u X = {x1, , x n,
x n+1 , , x N} và các xác xu t p(xi ) = p i Chúng ta phân X thành
hai không gian con, Y = {x1, , x n} và Z = {x n+1 , , x N} Các
xác su t liên k t v i Y và Z đ c cho b i P(Y) =
và P(Z) = H n n a, chúng ta đ nh ngh a các bi n
ng u nhiên y và z b ng P(yi ) = P(x i )/P(Y) , i = 1, 2, , n và P(z i)
= P(x i )/P(Z) , i = n+1, n+2, , N H(x) bây gi có th đ c vi t thành
i i
n
i
i i
1 1
1
loglog
log)
−
n i
i i
P
1 1
log log
log log
+ +
+
−
=
Trang 7Các đ c tính c a entropy (tt)
̈ Trong bi u th c cu i c p ngo c vuông đ u bi u di n đ b t ng liên k t
v i thí nghi m th nh t (là ch n m t trong hai không gian m u Y và Z)
còn c p ngo c vuông th hai bi u di n đ b t ng trung bình liên k t v i thí nghi m th hai (sau khi đã ch n m t trong hai không gian m u, s
ch n ti p s ki n c b n nào) Công th c này di n t m t tính ch t c a entropy đó là tính ch t nhóm
̈ Ng i ta đã ch ng minh đ c r ng công th c đ nh ngh a c a
H(x) là công th c duy nh t phù h p đ đo v đ b t ng , cái mà
ph i thoã mãn các tính ch t 2,3, 4 và c ng thêm tính liên t c
̈ M c d u hai khái ni m l ng tin trung bình và entropy xu t
Trang 8H(x) = –(1/3) log(1/3) – (2/3) log(2/3) = 0.918295834 bits
̈ Chúng ta hãy l p l i thí nghi m này N l n đ nh n m t dãy N
ph n t T ng quát có đ n 2N dãy có th N u trong dãy có n
(
n N n
Trang 90.114807
2–15x1.0516291676435
7
0.000002
2–15x1.51829583415
14
0.178589
2–15x0.9849625015005
6
0.000029
2–15x1.451629167105
13
0.214307
2–15x0.9182958343003
5
0.000254
2–15x1.384962501455
12
0.194825
2–15x0.8516291671365
4
0.001522
2–15x1.3182958341365
11
0.129883
2–15x0.784962501455
3
0.006697
2–15x1.2516291673003
10
0.059946
2–15x0.718295834105
2
0.022324
2–15x1.1849625015005
9 0.017127
2–15x0.65162916715
1
0.057404
2–15x1.1182958346435
8
0.002284
2–15x0.5849625011
Trang 10̈ T t c nh ng dãy có kh n ng là nhi u hay ít đ ng xác su t v i xác su t 2–NH(x).
̈ S l ng t ng c ng các dãy kh n ng (2 ≤ n ≤ 8) là 22803 =
215× 0.965129067 cái mà không xa so v i 2NH(x) Nói cách khác,
̈ S l ng các dãy có kh n ng là kho ng 2NH(x).
Trang 11nh lý
̈ nh lý 5.1
̈ Cho các s ε > 0 và δ > 0 nh tu ý, ∃ m t s nguyên d ng N0sao cho m t dãy có chi u dài b t k N ≥ N0 s r i vào m t trong hai l p sau đây:
A NH
−
2
Trang 12Ch ng minh đ nh lý
̈ Ch ng minh cho ngu n r i r c không nh A = {a1, a2, , a K}
G i x là bi n ng u nhiên g n v i ngu n A Ta có
̈ G i y là bi n ng u nhiên b ng cách ánh x m i a i t i log p(a i)
̈ Xét các dãy có chi u dài N Có t t c K N dãy nh v y Ta kí
hi u các dãy này b ng các Si và xác su t c a dãy là P(S i) Ta có
p
H
1
)(log)()
x(
( )log ( ) (x)
1
H a
p a
p y
P
1
)(
)(
Trang 13(log
(log
p N
P
N
j
Trang 141log
1
H S
P
Trang 15Bài 6 Mã hi u
6.1 Gi i thi u
6.2 Mã hi u và các thông s c b n c a mã hi u 6.3 M t s ph ng pháp bi u di n mã
6.4 i u ki n phân tách mã
Trang 16̈ Xét m t ngu n tin A = {a, b, c, d} Chúng ta có th thi t l p
m t song ánh nh sau t A vào t p các chu i trên b ng ch cái
Trang 17̈ Mã hoá (Encoding), gi i mã (decoding)
̈ Mã hoá là quá trình dùng các kí hi u mã đ bi u di n các tin
c a ngu n
Trang 18Mã hi u và nh ng thông s c b n (tt)
̈ Nói cách khác mã hoá là m t phép bi n đ i t ngu n tin thành
mã hi u, hay mã hoá là phép bi n đ i t m t t p tin này thành
m t t p tin khác có đ c tính th ng kê yêu c u
̈ Quá trình ng c l i c a quá trình mã hoá đ c g i là gi i mã
Trang 19Mã hi u và nh ng thông s c b n (tt)
̈ Các t mã th ng đ c kí hi u là u, v, w.
̈ Chi u dài t mã, chi u dài trung bình
̈ Chi u dài t mã là s kí hi u có trong t mã th ng đ c kí
hi u là l Chi u dài trung bình c a b mã th ng đ c kí hi u là
1
)(
Trang 20Mã hi u và nh ng thông s c b n (tt)
̈ M t b mã đ u có c s mã là m, chi u dài t mã là l và s
l ng t mã n b ng v i ml thì đ c g i là mã đ y, ng c l i thì
đ c g i là mã v i
̈ Ngoài ra khái ni m mã đ y còn đ c dùng theo ngh a r ng h n
nh sau: m t b mã đ c g i là đ y theo m t tính ch t nào đó(ch ng h n tính đ u hay tính prefix nh sau này các b n s
th y) n u không th thêm m t t mã nào vào mà v n gi đ c tính ch t đó
̈ Ví d
̈ Cho b ng kí hi u mã A = {0, 1} Thì b mã X1 = {0, 10, 11} là
mã không đ u, b mã X2 = {00, 10, 11} là mã đ u nh ng v i
còn b mã X3 = {00, 01, 10, 11} là mã đ u và đ y
Trang 2101000
Trang 22M t s ph ng pháp bi u di n mã (tt)
̈ Ví d
111110
10011
01000
16
20
Tr ng s b
33
23
32
Chi u dài l
111110
10011
01000
Trang 23M t s ph ng pháp bi u di n mã (tt)
̈ Cây mã
̈ Là cách bi u di n các t mã b ng các nút lá c a m t cây M i nút lá bi u di n cho t mã trùng v i nhãn c a con đ ng đi tnút g c đ n nút lá này
̈ Mã có c s m thì cây mã t ng ng s là cây m phân.
̈ Ph ng pháp cây mã ch cho phép bi u di n nh ng mã prefix,
t c là không có t mã nào trùng v i ph n đi đ u c a m t t mã
0 110
010 011 110 111
Trang 24M t s ph ng pháp bi u di n mã (tt)
̈ hình k t c u mã
̈ Là m t d ng đ c bi t c a cây mã, trong đó các nút lá trùng v i nút g c và ngoài ra m i c nh c a đ hình k t c u mã đ u là
c nh có h ng Vì v y m t t mã đ c bi u di n b ng m t chu trình xu t phát t nút g c và quay tr v l i nút g c
̈ Hàm c u trúc mã
̈ Là cách bi u di n s phân b các t mã theo đ dài c a chúng
Ph ng pháp này bi u di n b ng m t hàm G(l i) cho bi t có bao
00
1
0,1
1
10,1
0
Trang 26i u ki n phân tách mã
̈ Ví d
̈ Xét b mã X1 = {0, 10, 11} mã hoá cho ngu n A = {a, b, c}
Gi s bên phát phát đi b ng tin x = abaac, lúc đó chu i t mã
Trang 27cab hay cca.
̈ M t mã nh v y thì không phù h p cho vi c tách mã và đ c
g i là mã không phân tách đ c (uniquely undecodable code)
̈ Vì v y đi u ki n đ m t b mã là phân tách đ c (uniquely
decodable code) là không t n t i dãy t mã này trùng v i dãy t
mã khác c a cùng b mã
Trang 28đi u này ph thu c vào kí hi u đi ngay sau chu i 010.
̈ N u kí hi u đi ngay sau là 0 thì chúng ta kh ng đ nh đ c 010
là t mã và 0 là ph n đi đ u c a m t t mã khác sau đó Còn
n u kí hi u đi ngay sau là 1 thì chúng ta không kh ng đ nh
đ c, vì có hai kh n ng ho c 010 là m t t mã và 1 là phàn đi
đ u c a m t t mã khác sau đó, ho c 0101 là m t t mã
Trang 29i u ki n phân tách mã (tt)
̈ Nguyên nhân c a đi u này là do trong b mã có m t t mã này
là ti p đ u ng c a m t t mã khác
̈ Và đó c ng chính là nguyên nhân và b n ch t c a vi c m t dãy
kí hi u có th tách thành hai dãy t mã khác nhau
̈ Th t v y, n u không có t mã nào là ti p đ u ng c a t mã khác (hay mã là prefix) thì v i m i dãy t mã ch có duy nh t
m t cách tách thành các t mã thành ph n Vì v y nh sau này chúng ta s th y các mã th ng đ c s d ng là các mã prefix
̈ D a vào tính ti p đ u ng trên, đ nh n bi t m t b mã (d
nhiên không ph i là mã prefix) có phân tách đ c hay không
ng i ta th ng dùng m t công c đ c g i là b ng th mã
Trang 30̈ N u w11 c ng là m t t mã thì b mã này là không phân tách
đ c vì chu i v11v12 v 1k w11 có ít nh t hai cách phân tách thành các t mã, đó là u1 và v11, v12, , v1k, w11
̈ Còn n u ng c l i w11 không là t mã thì chúng ta dùng nó đxét ti p Trong l n xét ti p theo chúng ta xét xem m i w11 này
có là ti p đ u ng c a các t mã hay không, n u đúng v i m t
t mã nào đó, gi s là u2, thì t mã này s có d ng
w11v21 v 2l w22 trong đó v21, , v 2l là các t mã ng n (l có th
b ng 0) còn w là ti p v ng còn l i
Trang 31B ng th mã (tt)
̈ T ng t n u w22 c ng là m t t mã thì b mã là không phân tách đ c vì chu i v11v12 v 1k w11v21 v 2l w22 có ít nh t hai cách phân tách thành các t mã, đó là v11v12 v 1k w11 | v21 | | v 2l |
w22, và v11 | v12 | | v 1k | w11v21 v 2l w22
̈ N u ng c l i w22 không là t mã thì chúng ta dùng nó đ xét
ti p theo khuôn m u t ng t nh trên Vì v y chúng ta k t
lu n r ng
̈ N u trong m t l n phân tích nào đó, có m t t mã dài, ch ng
h n u, đ c phân tích thành dãy w ii v (i+1)1 v (i+1)n trong đó w ii là
ti p v ng c a m t t mã nào đó trong l n phân tích ngay tr c
đó, còn v (i+1)1 , , v (i+1)n là các t mã ng n thì b mã là không phân tách đ c
Trang 32B ng th mã (tt)
̈ Th t v y, lúc đó s t n t i m t dãy kí hi u sau
v11v12 v 1k w11v21 v 2l w22 .w (i–1)(i–1) v i1 v im w ii v (i+1)1 v (i+1)n
cái mà có th phân tách thành hai dãy t mã khác nhau
Trang 33(3) Ti p t c, đ i chi u các chu i trong c t 1 và c t 2 v i nhau,
n u có chu i nào trong c t này là ti p đ u ng c a chu i trong
c t kia thì ti p v ng s đ c ghi vào c t ti p theo là c t 3
(4) Ti p t c theo khuôn m u này n u đang xét c t th j thì đ i
chi u các chu i trong c t này v i c t 1 N u có chu i nào trong c t này là ti p đ u ng c a chu i trong c t kia thì ti p v
ng s đ c ghi vào c t j + 1 Th c hi n cho đ n khi không
th đi n thêm đ c n a ho c c t m i thêm vào trùng v i m t
đó
Trang 341
0101
0100
0111
0010 0010
0111
100
00
10
Mã là không phân tách đ c trên chu i 000101100 vì có hai cách phân tách khác nhau
00 | 01 | 011 | 00
00010 | 1100
Trang 3601
011
1100
010
10
101
43
21
Trang 38m
Trang 39B t đ ng th c Kraft
̈ Nút lá m c l i s đ c gán tr ng s là m -li
̈ Tr ng s c a m i nút cha đ c tính b ng t ng tr ng s c a các nút con
̈ V i cách gán này, chúng ta suy ra tr ng s c a nút cha m c h
Trang 40̈ Chúng ta ch ng minh b ng cách xây d ng m t cây mã cho nó.
̈ i u này là th c hi n đ c theo nh ch ng minh c a chi u thu n
̈ Ví d
̈ Tìm b mã prefix cho các b mã nh phân có các chi u dài t
mã t ng ng nh sau
̈ {2, 2, 3, 4, 4}, {2, 2, 3, 3, 3, 4, 4}, {2, 2, 3, 4, 4, 4, 5, 5}
Trang 41i
N K
i
l
N
N i i
m
1 1
1
1 1
L
L
Trang 42i l
l + L +1
j j
N K
i
l
m A m
1 1
N m
Trang 4311