Chương 2: Thông tin Chương này trình bày những vấn đề về định lượng thông tin của nguồn tin như lượng tin riêng, lượng tin trung bình, lượng tin tương hỗ, lượng tin có điều kiện vì tín
Trang 1KHOA ĐIỆN-ĐIỆN TỬ
LÝ THUYẾT THÔNG TIN
Hưng Yên 2015 (Tài liệu lưu hành nội bộ)
Trang 2Chương 1: Khái niệm chung
Chương này giới thiệu những khái niệm và các vấn đề cơ bản trong lý thuyết truyền tin như thông tin, tín hiệu, mô hình của hệ thống truyền tin gồm những thành phần nào và các tham số cơ bản của hệ thống là gì Mặt khác chương này cũng nhắc lại phương pháp rời rạc hóa một nguồn tin liên tục thành nguồn rời rạc Cuối chương đưa ra khái niệm về độ
đo thông tin và nhắc lại những cơ sở toán học cần thiết cho việc khảo sát các hệ thống truyền tin
Chương 2: Thông tin
Chương này trình bày những vấn đề về định lượng thông tin của nguồn tin như lượng tin riêng, lượng tin trung bình, lượng tin tương hỗ, lượng tin có điều kiện (vì tín hiệu truyền trên kênh bị nhiễu tác động nên khi thu được tín hiệu ta phải tìm khả năng đầu phát
đã phát đi tín hiệu nào vì vậy chương này liên quan nhiều đến xác suất Cụ thể là xác suất riêng, xác suất đồng thời và xác suất có điều kiện và mối liên hệ chúng) Sau đó tập trung giải quyết các vấn đề về entropy để đo lượng tin không chắc chắn của một sự kiện hay phân phối ngẫu nhiên cũng như các tính chất của nó Khi tín hiệu được truyền đi trên kênh nên chương này cũng đưa ra các loại kênh truyền và các tham số kỹ thuật của kênh đồng thời xác định độ không chắc chắn khi nhận được một tin cụ thể đã bị nhiễu phá hủy một phần trên kênh từ đó tính toán dung lượng C của kênh truyền để xác định giới hạn trên của tốc độ mà ta có thể truyền không lỗi
Phần cuối của chương sẽ đề cập đến việc giải mã (tức nhận được một tin ta phải đi tìm tin nào đã được truyền đi ở bên phát) Sau đó tính các xác suất truyền sai một từ mã và xác suất truyền sai trung bình
Chương 3: Mã hiệu
Chương này ta tập trung vào các khả năng và các định nghĩa về mã cũng như các điều kiện và yêu cầu đối với mã hiệu, tức là đưa ra các phương pháp để lựa chọn, kiểm tra một bộ mã là phân tách được và khi nào thì có thể giải mã (độ chậm giải mã) Phần cuối của chương nói về việc lập một bộ mã hệ thống
Chương 4: Mã hóa nguồn
Chương này nghiên cứu các vấn đề mã hóa nguồn trên cơ sở mô hình toán học của nguồn và các khả năng về lượng tin đã xét Cụ thể chương này đề cập đến 3 phương pháp
mã hóa để loại bỏ sự dư thừa của thông tin Ba phương pháp đó là:
Phương pháp mã hóa Shannon
Phương pháp mã hóa Fano
Phương pháp mã hóa Huffman
Mỗi phương pháp đều đưa ra phương pháp chuyển các tin thành các từ mã dựa vào xác suất xuất hiện của nó (tức là các tin có xác suất xuất hiện bé thì mã hóa bằng từ mã có chiều dài lớn và các tin có xác suất xuất hiện lớn thì mã hóa bằng từ mã có chiều dài nhỏ)
và sau đó tính hiệu suất lập mã
Trang 3Chương 5 Mã phát hiện lỗi và sửa lỗi
Trong chương 4 ta nghiên cứu các phương pháp để giảm chiều dài trung bình của một bộ mã dựa vào xác suất xuất hiện của từng lớp tin thì trong chương này ta lại thêm vào một số bít kiểm tra để phát hiện sai và sửa sai để đảm bảo chất lượng Cụ thể ta nghiên cứu đến 4 loại mã là:
Trang 4CHƯƠNG 1: KHÁI NIỆM CHUNG 1.1 Khái niệm chung về hệ thống thông tin và truyền tin
1.1.1 Thông tin
- Hai người nói chuyện với nhau Cái mà họ trao đổi gọi là thông tin
- Một người xem tivi/nghe đài/đọc báo, người đó đang nhận thông tin từ đài phát/báo
- Quá trình giảng dạy trong lớp
Nhận xét:
+ Thông tin là cái được truyền từ đối tượng này sang đối tượng khác để báo một “điều” gì đó Thông tin ch có ý nghĩa khi “điều” đó bên nhận chưa biết
+ Thông tin xuất hiện dưới nhiều dạng như âm thanh, hình ảnh…
+ Ngữ nghĩa của thông tin ch có thể hiểu được khi bên nhận hiểu được cách biểu diễn ngữ nghĩa của bên phát
+ Một trong các phương tiện để diễn đạt thông tin là ngôn ngữ
+ Có hai trạng thái của thông tin: Truyền và lưu trữ Môi trường truyền/lưu trữ được gọi chung là môi trường chứa tin hay kênh tin
Định nghĩa: Thông tin là sự cảm hiểu của con người về thế giới xung quanh
(thông qua sự tiếp xúc với nó)
1.1.2 Tín hiệu
Thông tin là một hiện tượng vật lý, nó thường tồn tại và được truyền đi dưới dạng vật chất nào đó Những dạng vật chất dùng để mang thông tin được gọi là tín hiệu
Định nghĩa: Tín hiệu là biểu diễn vật lý của thông tin
Ví dụ: Các tín hiệu nhìn thấy là các song ánh sang mang thông tin tới mắt của chúng ta Các tín hiệu nghe thấy là các sự biến đổi của áp suất không khí truyền thông tin tới tai chúng ta
Chú ý: Không phải bản thân quá trình vật lý là tín hiệu, mà sự biến đổi các
tham số riêng của quá trình vật lý mới là tín hiệu
Các đặc trưng vật lý có thể là dòng điện, điện áp, ánh sáng, âm thanh, trường điện từ
1.2 Mô hình của hệ thống truyền tin
Sự truyền tin (transmission): Là sự dịch chuyển thông tin từ điểm này đến
điểm khác trong một môi trường xác định
Trang 5Hệ thống thông tin (hệ thống truyền tin) là hệ thống thực hiện việc chuyển
tin từ nguồn đến đích Ta xét một hệ thống thông tin tổng quát như hình vẽ dưới
đây
Ba phần tử cơ bản nhất của bất cứ hệ thống thông tin nào cũng phải có đó là
máy phát, máy thu và kênh truyền Mỗi phần tử có một vai trò nhất định trong việc
truyền dẫn tín hiệu
Máy phát xử lý tín hiệu đầu vào và tạo ra tín hiệu có những đặc tính thích
hợp với kênh truyền dẫn Quá trình xử lý tín hiệu để truyền dẫn chủ yếu là điều chế
và mã hóa (modulation and coding)
Kênh truyền là môi trường giữa điểm phát và điểm thu Kênh truyền có thể là
cáp song hành, cáp đồng trục, cáp quang hay môi trường vô tuyến Mọi kênh truyền
đều gây ra độ suy hao hay là độ tổn thất truyền dẫn Vì thế cường độ tín hiệu bị suy
giảm dần theo khoảng cách
Máy thu lấy tín hiệu đầu ra từ kênh truyền để xử lý và tái tạo ngược lại tín
hiệu ở đầu phát Các hoạt động của máy thu bao gồm khuếch đại để bù vào tổn hao
truyền dẫn, và giải điều chế và giải mã tín hiệu đã được điều chế và mã hóa ở máy
phát
1.3 Các yêu cầu cơ bản của hệ thống truyền tin
1.3.1 Tính hữu hiệu
Thể hiện trên các mặt sau:
- Tốc độ truyền tin cao
- Truyền được đồng thời nhiều tin khác nhau
- Chi phí cho một bit thông tin thấp
1.3.2 Độ tin cậy
Đảm bảo độ chính xác của việc thu nhận tin cao, xác suất thu sai thấp (BER
– Bit Error Rate)
Nhiễu
Trang 6lý thuyết thông tin
1.3.3 An toàn
- Bí mật:
+ Không thể khai thác thông tin trái phép
+ Ch có người nhận hợp lệ mới hiểu được thông tin
- Xác thực: Gắn trách nhiệm của bên gửi – bên nhận với bản tin (chữ ký số)
- Toàn vẹn:
+ Thông tin không bị bóp méo (cắt xén, xuyên tạc, sửa đổi)
+ Thông tin được nhận phải nguyên vẹn cả về nội dung và hình thức
- Khả dụng: Mọi tài nguyên và dịch vụ của hệ thống phải được cung cấp đầy
đủ cho người dùng hợp pháp
1.4 Độ đo thông tin
Các mục về sau chúng ta sẽ khảo sát lượng đo thông tin một cách chi tiết hơn, ở đây chúng ta ch nêu một khái niệm ban đầu về lượng tin để có thể so sánh định lượng các thông tin với nhau Từ đó giúp cho chúng ta dễ nhận thức hơn những ch tiêu chất lượng đề ra khi xây dựng các phương pháp xử lý thông tin
Một tin tức đối với người nhận đều mang hai đặc tính: Độ bất ngờ của tin và
ý nghĩa của tin Để so sánh giữa các tin với nhau người ta có thể dùng một trong hai đặc tính trên hoặc dùng cả hai đặc tính trên làm thước đo Tuy nhiên những nội dung mang tính ý nghĩa của tin không ảnh hưởng đến các vấn đề cơ bản của hệ thống thông tin (hệ thống thông tin đòi hỏi hai vấn đề cơ bản đó là tốc độ truyền tin
và độ chính xác) Trong khi đó độ bất ngờ của tin lại liên quan đến những vấn đề
đó
Một tin có xác suất xuất hiện càng nhỏ thì độ bất ngờ càng lớn (càng bất ngờ) thì khi xuất hiện tác động càng mạnh lên giác quan của con người, và chúng ta cho rằng lượng tin của chúng càng lớn
Xét một tin x có xác suất xuất hiện là p(x) thì chúng ta có thể xem tin này như là một tin trong một tập có 1/p(x) tin với các tin có xác suất xuất hiện như nhau
Nếu p(x) càng nhỏ thì 1/p(x) càng lớn và vì vậy “lượng tin” khi nhận được tin này cũng sẽ càng lớn
Vậy “lượng tin” của một tin t lệ thuận với số khả năng của một tin và t lệ nghịch với xác suất xuất hiện của tin đó
Trang 7Định nghĩa lượng tin: Lượng đo thông tin của một tin được đo bằng logarit
độ bất ngờ của tin hay nghịch đảo xác suất xuất hiện của tin đó
p x
I
1
) ( log )
(
1 log ) (
Đơn vị lượng tin:
Cơ số 2: đơn vị là Bit
Cơ số e: đơn vị là Nat
Cơ số 10: đơn vị là Hartley
1.5 Số hóa nguồn tin liên tục
Rời rạc hoá thường bao gồm hai loại: Rời rạc hoá theo trục thời gian, còn
được gọi là lấy mẫu (sampling) và rời rạc hoá theo biên độ, còn được gọi là lượng
tử hoá (quantize)
1.5.1 Lấy mẫu (Sampling)
Lấy mẫu là bước đầu tiên trong quá trình biến đổi tín hiệu tương tự sang số Mục đích của bước lấy mẫu này là từ tín hiệu tương tự tạo nên một dãy xung rời rạc theo thời gian (thực chất là việc nhân tín hiệu thoại đầu vào với một chuỗi xung nhịp fs =
Trang 8Việc lượng tử hoá sẽ biến đổi hàm s(t) ban đầu thành một hàm s’(t) có dạng
hình bậc thang Sự khác nhau giữa s(t) và s’(t) được gọi là sai số lượng tử Sai số
lượng tử càng nhỏ thì s’(t) biểu diễn càng chính xác s(t)
1.5.3 Mã hóa (Coding)
Quá trình mã hóa biến đổi các mức lượng tử hóa thành các từ mã, thông thường là từ mã nhị phân Trong tín hiệu nhị phân, “0” và “1” được thể hiện bằng hai mức điện áp khác nhau
Trang 9CHƯƠNG 2: THÔNG TIN
2.1 Lượng tin nguồn rời rạc
2.1.1 Khái niệm nguồn tin rời rạc
- Nguồn rời rạc: nguồn tạo ra một chuỗi các biến ngẫu nhiên, rời rạc
- Ký hiệu: Phần tử nhỏ nhất chứa thông tin VD các ký tự trong bộ chữ cái
- Bộ ký hiệu: Tập tất cả các ký hiệu [X]={x1,x2,…xn}
- Từ: Tập hợp hữu hạn các ký hiệu trong bộ ký hiệu
- Bộ từ: Tập hợp tất cả các từ mà bộ ký tự có thể tạo ra
- Nguồn rời rạc không nhớ: Xác suất xuất hiện của một ký hiệu không phụ
thuộc vào các ký hiệu trước đó
- Nguồn rời rạc có nhớ: Xác suất xuất hiện một ký tự phụ thuộc vào một hoặc
nhiều các ký tự xuất hiện trước đó
2.1.2 Lượng tin nguồn rời rạc
Lượng tin riêng: Mỗi lớp tin xi trong nguồn tin X đều có một lượng tin riêng
)(
1log)
i n
x p x
Đơn vị lượng tin:
- Cơ số n = 2: Bit (Binary – nhị phân)
- Cơ số n = e: Nat (đọc là nit – nature)
- Cơ số n = 10: Harley
Trong môn học này tập trung trình bày mã nhị phân nên mặc định n = 2
Trong hệ thống thông tin, việc truyền tin từ nguồn tin X đến nơi nhận Y được coi như một phép biến đổi (ánh xạ) từ một không gian X tới một không gian Y Do tác động của nhiễu nên ánh xạ này không phải là ánh xạ 1-1 Nói cách khác, việc nhận được một lớp tin yj cụ thể ở nơi nhận ch cho chúng ta biết khả năng tin tức của nguồn tin X truyền đi lớp tin xi, điều này theo quan điểm thống kê có thể xác định được xác suất có điều kiện về sự xuất hiện các lớp tin xi ở nguồn với điều kiện nơi nhận nhận được lớp tin yj Xác suất này được gọi là xác suất có điều kiện, ký hiệu là p(xi/yj)
p(xi/yj): xác suất có điều kiện về sự xuất hiện các lớp tin xi ở nguồn với điều kiện nơi nhận nhận được lớp tin yj
p(yj/xi):xác suất có điều kiện về sự xuất hiện các lớp tin yj ở nơi nhận tin với
Trang 10Ngoài ra ta còn xác định được xác suất xuất hiện đồng thời các lớp tin xi ở nguồn và yi ở nơi nhận là p(xi,yi)
Theo quy luật phân bố xác suất có điều kiện ta có:
n
j
j i
x y p
y x p
1
1
1)/(
1)/(
Để giải quyết bài toán truyền tin đặt ra khi nhận được một lớp tin yj của tập của tập YM, hãy xác định lớp tin tương ứng của tập XN ở đầu vào Ở đây ta không thể xác định được chính xác duy nhất một lớp tin xi ở đầu vào mà ch đưa ra các khả năng có thể xảy ra ở nguồn
Lượng tin tương hỗ: Là lượng tin về một tin bất kỳ xi trong nguồn tin XN
chứa trong một tin bất kỳ yj của nơi nhận tin YM được gọi là lượng tin tương hỗ giữa
xi và yj bằng lượng tin ban đầu của xi trừ đi lượng tin còn lại của xi sau khi đã nhận được yj
)
| ( ) ( ) ,
(xi yj I x i I x i y j
)
| ( log ) ( log )
,
(xi yj P x i P x i y j
)(
)
|(log),
(
i
j i x P
y x P yj
| (x i y j p x i y j
và lượng tin về ý nghĩa vật lý trái ngược nhau nhưng về số đo lại bằng nhau Độ bất ngờ của lớp tin xi trong nguồn tin XN được tính bằng entropy riêng của lớp tin xitrong nguồn tin XN
Trang 11Entropy là một đại lượng toán học dùng để đo lượng tin không chắc (hay lượng ngẫu nhiên) của một sự kiện hay của phân phối ngẫu nhiên cho trước - Uncertainty Measure (độ bất ngờ) hay là lượng tin không chắc chắn
Entropy riêng của của lớp tin i : H(xi) = -logn p(xi)
Độ bất ngờ trung bình của nguồn tin XN được gọi là entropy riêng trung bình hay là entropy riêng của nguồn tin XN, đây chính là một thông số thống kê cơ bản của nguồn:
1
)()
H
1log (bít/ký hiệu)
Entropy là đại lượng luôn dương hoặc bằng 0: H(X) 0
Entropy bằng 0 khi nguồn có một ký hiệu bất kỳ có xác suất xuất hiện bằng 1
và tất cả các ký hiệu còn lại có xác suất xuất hiện bằng 0 Khi đó giá trị tin tức của nguồn không còn ý nghĩa
H(X) = 0 ( xi /p(xi) =1) (xj/p(xj) = 0 j i)
Entropi cực đại khi xác suất xuất hiện các ký hiệu của nguồn bằng nhau, lúc
đó độ bất định của một tin bất kỳ trong nguồn là lớn nhất:
H(X) ≤ H(X)max ≤ logn(N) Dấu bằng xảy ra khi p1=p2=……=pn=1/N
2.3 Kênh rời rạc
2.3.1 Định nghĩa
Nguồn tin và nhận tin liên hệ với nhau qua kênh thông tin, và kênh thông tin thực hiện một phép biến đổi từ không gian các ký hiệu ở đầu vào tới không gian các
ký hiệu ở đầu ra của kênh
Kênh được gọi là rời rạc nếu không gian ký hiệu vào và không gian ký hiệu
ra là rời rạc Kênh được gọi là liên tục nếu các hai không gian ký hiệu vào ra là liên
Trang 12Nếu sự truyền tin trong kênh là liên tục theo thời gian thì kênh được gọi là liên tục thời gian và nếu sự truyền tin ch thực hiện ở những thời điểm rời rạc theo thời gian thì kênh được gọi là rời rạc theo thời gian
2.3.2 Entropy đồng thời
Giả thiết X là tập các ký hiệu đầu vào [X]=[x1, x2, … xn] với xác suất xuất hiện là [P(x)]=[p(x1), p(x2), … , p(xN)] [P(x)] Phản ánh tính chất của nguồn tin [Y ]=[y1, y2, …, yM]: Tập các ký hiệu ở đầu ra với các xác suất xuất hiện tương ứng [P(y)]=[p(y1), p(y2), … , p(yM)]
Do nhiễu trên kênh thông tin nên không gian Y có thể khác không gian X, cũng như các xác suất P(Y) cũng có thể khác các xác suất ở đầu vào P(X) Với không gian các ký hiệu ở đầu vào kênh và ở đầu ra kênh, ta có thể định nghĩa một trường tích:
n
m m
y x y
x y x
y x y
x y x
y x y
x y x Y X
2 2
2 1 2
1 2
1 1 1
Trong đó tích xiyj là sự xuất hiện đồng thời hai sự kiện xi và yj Chú ý rằng ở đây ta không giả thiết gì về sự độc lập hay phụ thuộc giữa xi và yj Ma trận trên tương ứng với ma trận xác suất sau:
n
m m
y x p y
x p y x p
y x p y
x y x p
y x p y
x p y x p Y X
2 2
2 1 2
1 2
1 1
1
) , (
1
),(
Như vậy ta có thể định nghĩa ba trường sự kiện:
H
1
log
H
1
log
- Trường ở giữa đầu vào và đầu ra kênh với entropy H(X,Y)
Trang 13Entropi đồng thời là độ bất định trung bình của một cặp (x,y) bất kỳ trong
j
j i j
i y p x y x
p Y
X H
1 1
log ,
Các công thức liên quan:
x p
y p
(SV tự chứng minh tính chất này)
2.3.3 Entropi có điều kiện
Khi đầu ra của kênh đã biết, do nhiễu tác động vẫn còn sự bất định về đầu vào của kênh Giá trị trung bình của độ bất định này được gọi là entropi của trường
X khi trường Y đã biết
H(X|Y): Là entropy có điều kiện đặc trưng cho độ bất định về nguồn tin XN
còn lại khi đã nhận được các lớp tin YM Độ không xác định này do nhiễu trên kênh thông tin gây ra
H(Y|X): Entropy có điều kiện cho biết độ bất định của nguồn tin nơi nhận
YM khi biết nguồn tin XN Độ không xác định này cũng do nhiễu trên kênh thông tin gây ra, H(Y|X) còn được gọi là entropy gây nhiễu hay còn gọi là sai số trung bình bởi vì nó cho biết độ bất định (sai số) của đầu ra khi đầu vào đã biết
Trang 14i j j
i
i j N
i M
j
i j i
M
j
i j i
j i
N
i
i i
x y p y
x p X
Y H
x y p x y p x p X
Y H
x y p x
y p x
X Y H
x X Y H x p X
Y H
1 1
1 1
1
2 1
)
|(log),(
)
|(log)
|()(
)
|(log)
|(
|
Nếu trên kênh không có nhiễu thì p(xi|yj) = 1 và p(yj|xi) = 1 do đó:
H(X|Y) = H(Y|X) = 0 Nếu nhiễu trên kênh đủ lớn để đầu vào và đầu ra kênh độc lập với nhau tức là p(xi|yj) = p(xi) và p(yj|xi) = p(yj) thì:
H(X|Y) = H(X) H(Y|X) = H(Y) Cuối cùng, để xác định các entropy có điều kiện, cần phải biết các xác suất
có điều kiện dựa vào công thức xác suất hậu nghiệm (Bayes)
N
M M
y x p y
x p y x p
y x p y
x p y x p
y x p y
x p y x p Y X P
|
|
|
|
|
|
|
2 1
2 2
2 1
2
1 2
1 1
n
m m
x y p x
y p x y p
x y p x
y p x y p
x y p x
y p x y p X
Y P
|
|
|
|
|
|
|
2 1
2 2
2 2
1
1 1
2 1
1
Ma trận P(Y|X) gọi là ma trận kênh truyền
Gọi A = [P(Y|X)] là ma trận truyền tin hay mô hình truyền tin của kênh truyền rời rạc không nhớ Và pij = p(Y=yj/X=xi) = p(yj/xi) là xác suất nhận đƣợc lớp tin yjkhi đã truyền giá trị xi
Phân phối đầu nhận
i
i j i j
y Y p
1 1
|
Hay p y j [p(x i)].A ,
Ví dụ: Cho ma trận truyền tin nhƣ sau
Trang 152 0 5 0 3 0
3 0 2 0 5 0
2 0 5 0 3 0
3 0 2 0 5 0
= [ 0.375 0.3 0.325]
Hay p(y1) = 0.375, p(y2) = 0.3, p(y3) = 0.325
Tính chất của Entropy có điều kiện:
1 H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)
2 Nếu không có nhiễu trên kênh, giữa đầu vào và đầu ra có quan hệ một – một, sai số trung bình bằng không khi đó
hệ thống kê với nhau
2.3.4 Quan hệ giữa lượng tin tương hỗ trung bình và entropy
Ở chương 1 ta đã tính được I(xi,yj) Thông thường ở bên phát phát đi một tập tin X = {xi}, Y = {yj} Do đó ta không quan tâm tới một tin cụ thể xi mà ch quan tâm tới lượng thông tin trung bình về mỗi tin của tập X do mỗi tin của tập Y mang lại
I(X,Y) =
)(
)/(log),(
i
j i
N M
j i
x p
y x p y
x p
Lượng tin tương hỗ trung bình bằng tổng độ bất định trung bình về tin
phát và tin thu trừ độ bất định trung bình về sự xuất hiện đồng thời của chúng (SV
tự chứng minh)
I(X,Y) = H(X) – H(X|Y) = H(Y) – H(Y|X)
I(X,Y) = H(X) + H(Y) – H(X,Y)
Tính chất của I(X,Y)
I(X,Y) ≥ 0
Ta đã chứng minh H(X) ≥ H(X|Y)
Trang 16Mà I(X,Y) = H(X) – H(X|Y) ĐPCM và đẳng thức xảy ra khi H(X) = H(X|Y) tức kênh bị đứt
I(X,Y) H(X) và đẳng thức xảy ra khi kênh không có nhiễu
I(X,X) = H(X)
I(X,Y)=I(Y,X)
Giản đồ Venn mô tả quan hệ I và H
2.3.5 Các dạng kênh truyền
2.3.5.1 Kênh truyền không mất thông tin (Lossless Channel)
Đầu ra xác định duy nhất một đầu vào
Đặc trƣng: H(X|Y)=0; Lƣợng tin chƣa biết về X khi nhận Y là bằng 0, tức là khi nhận đƣợc Y thì hoàn toàn nhận đƣợc X
Dung lƣợng: C = maxI(X,Y) = max(H(X)) = log2 N
2.3.5.2 Kênh đơn định (Deterministic channel)
Đầu vào xác định duy nhất đầu ra
- Đặc trƣng: H(Y|X)=0; Lƣợng tin chƣa biết về Y khi truyền X bằng 0 hay
truyền X thì sẽ nhận đƣợc Y
- Dung lƣợng: C = max I(X,Y) =max H(Y) = log 2 M
2.3.5.3 Kênh truyền không nhiễu
Kết hợp của kênh truyền xác định và kênh truyền không mất thông tin
Truyền ký tự nào thì nhận đƣợc ký tự đấy
H(Y|X) = H(X|Y) = 0, C = log2 M
2.3.5.4 Kênh vô dụng (Useless Channel)
Mô hình: Khi truyền giá trị nào thì mất giá trị đó hoặc xác suất nhiễu thông
tin trên kênh truyền lớn hơn xác suất nhận đƣợc
Trang 172.3.5.5 Kênh truyền đối xứng
Đặc điểm: Ma trận kênh truyền có tính chất đối xứng Tức các tham số ở hai
bên đường chéo của ma trận bằng nhau
1
2 1 6 1 3
1
6 1 3 1 2
1
A
Khi ma trận kênh truyền là đối xứng thì H(Y/X) là không đổi là bằng entropy của một hàng của ma trận kênh truyền
2.3.6Lược đồ giải mã tối ưu
Khi truyền xi nhận được yj Đầu thu cần phải giải mã yj về xi tương ứng
Yêu cầu: Tìm giải pháp tạo mã sao cho sai số giải mã nhỏ hơn ε bất kỳ đồng thời
phải duy trì R <= C
Các dạng sai số:
- Xác suất truyền sai từ mã xi: Pe|x ipY y jB i|X x i
X P e
2).p(y
j/w
2)
… p(w
M).p(y
j/w
M) + So sánh các giá trị tính trên và chọn giá trị w*
Trang 18Ví dụ: Cho ma trận truyền tin
2 1 6 1 3 1
6 1 3 1 2 1
Quá trình tương tự khi nhận được y2, y3
Kết quả ta có lược đồ giải mã sau;
* Tính các xác suất truyền sai:
- Xác suất truyền sai từ mã x1:
e|x1pY y B1|X x1 py3|x11/6
- Xác suất truyền sai từ mã x2: pe|x2 1 2
- Xác suất truyền sai từ mã x3: pe|x2 1
Xác suất truyền sai trung bình: p(e)=11/24
Xác suất truyền sai lớn nhất: pm(e) = 1
2.4 Entropy của nguồn liên tục
Ta biết rằng nguồn liên tục cũng được coi như một tập các thể hiện của một quá trình ngẫu nhiên Nguồn tin X là nguồn tin liên tục với các thể hiện x(t) có quy luật phân bố xác suất (mật độ phân bố xác suất pdf) được biểu diễn theo hàm fx(x), entropy riêng của nguồn tin X được xác định bằng:
H(X) = -
dx x p x
p( )log ( )
2.5 Vấn đề phối hợp nguồn kênh
Shannon đã phát biểu hai định lý cơ bản của lý thuyết tin tức liên quan tới sự phối hợp giữa nguồn tin và kênh thông tin Shannon khẳng định sự tồn tại của các loại mã tối ưu làm giảm độ dư của nguồn và sửa sai chống lại các tác động của nhiễu
Trang 19 Định lý Shannon 1: Giả sử nguồn tin có entropi H (bít/ký hiệu), và kênh có
thông lƣợng C (bít/s), có thể mã hóa tin tức ở đầu ra của nguồn làm cho sự truyền tin trong kênh không nhiễu theo một tốc độ trung bình C/H – ε (ký hiệu/s) với ε bé tùy ý, và không thể truyền nhanh hơn C/H
Định lý Shannon 2: Kênh có thông lƣợng C (bít/s), tốc độ lập tin của nguồn
Trang 20CHƯƠNG 3: M HIỆU
3.1 Khái niệm và định nghĩa
Trong các hệ thống truyền tin rời rạc hoặc truyền các tín hiệu liên tục nhưng
đã được rời rạc hóa, bản tin thường phải thông qua một số phép biến đổi: biến đổi tương tự sang số, mã hóa… ở phía phát, còn ở đầu thu phải thông qua quá trình biến đổi ngược lại là giải mã
Sự mã hóa thông tin cho phép chúng ta ký hiệu hóa thông tin hay sử dụng các ký hiệu quy ước để biểu diễn bản tin Chính nhờ mã hóa, chúng ta có thể hiển thị được thông tin có bản chất là các khái niệm
Vai trò của mã hóa:
- Tăng tính hữu hiệu: Tăng tốc độ truyền tin Mã thống kê tối ưu
- Tăng độ tin cậy của hệ thống: Tăng khả năng chống nhiễu Mã phát hiện và sửa sai
3.1.1 Các khái niệm:
- Mã hiệu (Code): Tập hữu hạn các dấu hiệu riêng (symbol) và các phép ánh
xạ các tin hoặc bản tin của nguồn tin thành các ký hiệu tương ứng Tập các
ký hiệu này phải thỏa mãn một số yêu cầu của hệ thống truyền tin đặt ra (Tốc
độ truyền hay độ chính xác) Mã hiệu là tập hữu hạn các ký tự (Symbol)
hay bảng chữ riêng (dấu mã – ký hiệu mã) Số các ký hiệu gọi là cơ số mã m
(Ví dụ m = 2 mã nhị phân)
- Mã hóa (Encoding): Quá trình dùng các ký hiệu mã để biểu diễn các tin của
nguồn, biến nguồn tin thành mã hiệu hay biến đổi nguồn tin theo đặc tính
thống kê theo yêu cầu Ngược với quá trình mã hóa là quá trình giải mã
(decoding)
- Từ mã (Code Word): Chuỗi các ký hiệu mã biểu diễn cho tin của nguồn
Tập tất cả các từ mã tương ứng với các tin của nguồn được gọi là bộ mã
Nguồn tin tương ứng với bộ mã Ký hiệu của từ mã là u,v hoặc w
3.1.2 Các thông số cơ bản của một bộ mã:
- Chiều dài từ mã: Số ký hiệu có trong từ mã Ký hiệu: l (hoặc n)
- Chiều dài trung bình của bộ mã:
1)
(
Trang 21Trong đó: - N: Số tin của nguồn
- li: Chiều dài từ mã tương ứng với tin xi của nguồn
- p(xi): Xác suất xuất hiện tin xi của nguồn
- Nếu tất cả các từ mã trong bộ mã có chiều dài từ mã li = l thì bộ mã được gọi
là bộ mã đều, còn nếu li l thì gọi là bộ mã không đều
(Mã đều: Tất cả các từ mã có độ dài bằng nhau)
- Khi bộ mã có tất cả các tổ hợp là mã của các lớp tin tương ứng, ta gọi là bộ
mã đầy
(Mã đầy: Là mã đều và N = ml (l: Chiều dài từ mã đều))
- Khi bộ mã tồn tại ít nhất một tổ hợp không là mã của một lớp tin nào, ta gọi
là bộ mã không đầy – bộ mã vơi
(Mã vơi: Là mã đều và N < ml)
Ví dụ: A = {0,1} là bảng ký hiệu mã
Bộ mã: X1 = {0, 10, 11} mã không đều Có khả năng trở thành mã tối ưu
X2 = {00, 10, 11} Mã đều nhưng là mã vơi
X3 = {00, 10, 11, 01} Mã đều và đầy có khả năng chống nhiễu
3.2 Các phương pháp biểu diễn mã
Dựa trên hai thông số chính của một từ mã là trọng
số bi và độ dài li, ta lập một bề mặt có hai tọa độ (l,b),
trên đó mỗi từ mã được biểu diễn bằng một điểm duy
nhất, theo định lý sau:
Định lý: Không có hai từ mã mã hóa hai tin khác
nhau của cùng một bộ mã thỏa mãn đồng thời li = lj và
bi = bj
Từ mã w=a0a1a2 al-1 Với ai là các ký tự thứ i
Trang 22điểm (l,b) trong mặt phẳng tọa độ 2 chiều Trong đó l là chiều dài từ mã, b là trọng
a Biểu diễn cây mã:
Là cách biểu diễn gồm các nút và nhánh
cây Gốc cây gọi là nút gốc Từ mỗi nút phân đi
hai nhánh tương ứng với chữ mã 0, 1 Nút cuối
không có nhánh nào đại diện cho một từ mã mà
thứ tự được xác định bằng cách lấy các ký hiệu từ
nút gốc đi qua các nút trung gian đến nút cuối
R ràng có thể có những nút cuối mà không có nhánh nào đi ra từ nó, và cũng có thể có những nút cuối của từ mã này là nút trung gian của từ mã khác Mã hiệu có nút cuối trùng với một nút trung gian của từ mã khác sẽ có đặc điểm là từ
mã ngắn hơn là phần đầu của từ mã dài hơn và nó không cho phép phân tách một chuỗi mã bất kỳ thành một dãy duy nhất các từ mã
Nhìn vào cây mã ta có thể biết các tính chất đặc trưng của bộ mã như mã đầy, mã đều… Tuy nhiên cách biểu diễn này khá cồng kềnh khi bộ mã có từ mã dài,
và cũng không xác định được tính thiết lập từ mã của việc
Trang 23lá trùng với nút gốc và ngoài ra mỗi cạnh của đồ hình kết cấu mã đều là cạnh có hướng Vì vậy một từ mã được biểu diễn bằng một vòng kín xuất phát từ nút gốc theo các nhánh có hướng (chiều mũi tên) qua các nút trung gian và quay trở về lại nút gốc Mỗi nhánh đại diện cho một trị của ký hiệu mã
3.3 Điều kiện phân tách của mã hiệu
Trong mục này chúng ta sẽ xem xét các tiêu chuẩn được sử dụng để đánh giá một
mã hiệu có thỏa mãn điều kiện thiết lập mã hay không
3.3.1 Điều kiện chung đối với một bảng mã phân tách được
Điều kiện: Để một bộ mã là phân tách được thì trong bộ mã không tồn tại một
từ mã trùng với dãy từ mã khác của bộ mã
Ví dụ: Xét bộ mã X1 ={0, 10, 11} mã hóa cho nguồn tin A = {a,b,c}
Bên phát: tin x = abaac chuỗi từ mã tương ứng phát đi là 0100011
Bên nhận: Giả thiết kênh truyền không nhiễu thu được chuỗi 0100011
Thực hiện tách mã thành từ mã duy nhất 0 10 0 0 11 tương ứng với abaac
Vậy X1 là bộ mã phân tách được
Xét bộ mã X2 = {0, 10, 01} mã hóa cho nguồn A trên Nếu bên nhận Y =
01010 thì ta có thể tách thành 0 10 10 hoặc 01 01 0 hoặc 01 0 10 Không biết chính xác bên phát đã truyền đi từ mã nào X2 không phân tách được
Prefix của một từ mã là một bộ phận của từ mã sau khi đã bỏ đi một hay nhiều
ký hiệu cuối
Khái niệm mã Prefix: là bộ mã không có từ mã nào là tiếp đầu của từ mã
khác, nói cách khác bộ mã có tính prefix là bộ mã không có một từ mã ngắn hơn nào lại là phần đầu của từ mã dài hơn nó
Những bộ mã có tính Prefix là bộ mã tách được
Trang 243.3.2 Bảng thử mã
Giải thuật:
B1: Đem các từ mã xếp thành một cột, theo thứ tự chiều dài của từ mã từ nhỏ
đến lớn, đánh dấu là cột 1
B2: Trong cột này, đối chiếu các từ mã ngắn với các từ mã dài hơn, nếu từ mã
ngắn là tiếp đầu ngữ của từ mã dài thì ghi tiếp vị ngữ vào cột tiếp theo và đánh dấu là cột 2
B3: Tiếp tục, đối chiếu các chuỗi trong cột 1 và cột 2 với nhau, nếu có chuỗi nào
trong cột này là tiếp đầu ngữ của chuỗi trong cột kia thì tiếp vị ngữ sẽ được ghi vào cột tiếp theo là cột 3
B4 Tiếp tục theo khuôn mẫu này nếu đang xét cột thứ j thì đối chiếu các chuỗi
trong cột này với cột 1 Nếu có chuỗi nào trong cột này là tiếp đầu ngữ của chuỗi trong cột kia thì tiếp vĩ ngữ sẽ được ghi vào cột j + 1 Thực hiện cho đến khi không thể điền thêm được nữa hoặc cột mới thêm vào trùng với một cột trước đó hoặc có một chuỗi trong cột mới trùng với một từ mã
Điều kiện cần và đủ để một bộ mã phân tách được là không có phần tử nào trong các cột từ j ≥ 2 trùng với một phần tử trong cột 1
Trang 25� X5 = {00, 01, 110, 111, 0111} � X6 = {00, 01, 110, 111, 1011, 1101}
Ngƣợc lại, nếu các số nguyên l1, l2, , lK thoã bất đẳng thức trên thì tồn tại một
bộ mã prefix với các từ mã có chiều dài là l1, l2, , lK
Định lý: Một bộ mã phân tách đƣợc thì có các chiều dài từ mã thoã mãn bất
đẳng thức Kraft
Độ chậm giải mã: là số ký hiệu cần phải nhận đƣợc đủ để có thể phân tách
(nhận dạng) đƣợc từ mã Độ chậm giải mã của mã prefix bằng độ dài của từ mã dài nhất
Trang 26- Tổ hợp sơ đẳng: Sử dụng một số từ mã của bộ mã gốc làm các tổ hợp tạo thành phần đầu của từ mã hệ thống
- Biểu diễn mã hệ thống: có thể sử dụng các phương pháp biểu diễn mã bất kỳ Thông thường sử dụng phương pháp đồ hình
- Giải mã đối với từ mã hệ thống thông qua hai bước: Tách chuỗi ký hiệu mã nhận được thành chuỗi các tổ hợp sơ đẳng và các tổ hợp cuối; Tìm các tổ hợp cuối và xác định điểm kết thúc từ mã tại đây
- Phương pháp giải mã hệ thống bằng đồ hình kết cấu thực hiện như sau: xuất phát từ nút gốc theo đường mũi tên của các nhánh một cách tuần tự, mỗi khi quay về gốc là kết thúc một tổ hợp sơ đẳng, và khi vào đường cụt là kết thúc
tổ hợp cuối cùng, đồng thời kết thúc từ mã hệ thống
Trang 273.4.2 Mã hệ thống có tính prefi
Mã hệ thống có tính prefix được xây dựng từ một bộ mã gốc có tính prefix bằng cách lấy một số từ mã của mã prefix gốc làm tổ hợp sơ đẳng và các từ mã còn lại làm tổ hợp cuối Ghép các tổ hợp sơ đẳng với nhau và nối một trong các tổ hợp cuối vào thành từ mã của mã mới gọi là mã hệ thống có tính prefix
Ví dụ: Lấy bộ mã prefix 1,00, 010, 011 làm gốc, trong đó các tổ hợp: 1, 00,
010 là tổ hợp sơ đẳng còn 011 là tổ hợp cuối Các từ mã được hình thành như sau đều có thể là từ mã của mã hệ thống:
1011, 11011, 00011, 100011, 01011, 01001011011
Khi giải mã phải qua hai bước Bước thứ nhất từ dãy ký hiệu nhận được phân tách thành giải các tổ hợp sơ đẳng và tổ hợp cuối, sau đó giải thành dãy các tổ hợp của mã hệ thống Vẫn lấy ví dụ trên khi nhận tin dưới dạng dãy ký hiệu mã:
Trang 28CHƯƠNG 4: M HÓA NGU N
Hệ thống truyền tin được sử dụng để truyền thông tin từ nguồn tin tới nơi nhận tin Nguồn thông tin có thể có nhiều dạng là nguồn tương tự hoặc nguồn rời rạc
Với sự phát triển của kỹ thuật số, hệ thống truyền tin sử dụng kỹ thuật số có thể dùng để truyền thông tin từ nguồn tương tự hay rời rạc dưới dạng số Như vậy, đầu ra của nguồn phải chuyển thành dạng có thể chuyển đi bằng kỹ thuật số và quá trình này gọi là mã hóa nguồn
4.1 Mô hình toán học của nguồn thông tin
4.1.1 Định lý giới hạn dưới về độ dài trung bình của các từ mã
Định lý Shannon (1948) về giới hạn dưới của chiều dài trung bình từ mã
Cho nguồn tin X = {a1, a2, .aK} với các xác suất xuất hiện tương ứng là {p1, p2, ,
pK} Một bộ mã phân tách được bất kỳ cho nguồn này với cơ số mã m, chiều dài trung bình từ mã thỏa mãn:
1)
Dấu bằng xảy ra khi p(xi) = m-li hay
log
)(
- Mã không tách được có độ dài trung bình có thể nhỏ hơn cận dưới
- Mã tách được, không tối ưu có độ dài trung bình từ mã lớn hơn nhiều so với cận dưới
- Mã tách được tối ưu có chiều dài trung bình từ mã gần với cận dưới
x p m
l X H
log)()
(log)(log
)(
x p
1
log)(log)(
l
x p
m xi p x
p
m xi
p
i i
1 1
)1)()(
()
(log)
Trang 29Hiệu suất lập mã:
% 100 ) (
l
X H
h
4.1.2 Định lý giới hạn trên về độ dài trung bình của các từ mã
Có thể xây dựng được một bộ mã thỏa mãn tính chất tối ưu khi chiều dài trung bình của từ mã nằm trong khoảng H(x) H(x)+1
1 ) ( )
4.2 Mã hóa nguồn rời rạc
4.2.1 Phương pháp mã hóa Shannon
Nguyên lý: Dựa trên cơ sở độ dài từ mã tỷ lệ với xác suất xuất hiện
B3: Đổi qi sang cơ số 2 (m) Chuỗi ký tự (chuỗi nhị phân)
B4: Từ mã được gán cho ai là li ký hiệu lấy từ vị trí sau dấu phẩy của chuỗi nhị phân tương ứng với qi Trong đó log2p i l i 1log2p i
Ví dụ: Lập mã tối ưu mã hóa nguồn S = {a1, a2, a3,a4, a5, a6} với các xác suất {0.3, 0.25, 0.2, 0.12, 0.08, 0.05}