Nguyên Lý Toán Học Về Truyền Tin

Trong bài báo này, chúng tôi sẽ mở rộng thêm lý thuyết đó bao gồm một số các yếu tố mới, đặc biệt là về tác động của nhiễu trên kênh và những tiết kiệm có thể đạt được nhờ cấu trúc thống

Trang 1

Dịch và biên soạn từ Tạp chí kỹ thuật của Bell System, bởi nhóm VNTelecom (http://vntelecom.org)

Tập 27, trang 379-423, 623-656, tháng Bảy, năm 1948

NGUYÊN LÝ TOÁN HỌC VỀ TRUYỀN TIN

C E SHANNON

MỞ ĐẦU

Sự phát triển gần đây của một loạt các phương pháp điều chế như PCM (Pulse Code Modulation - Điều chế

mã xung - ND) và PPM (Pulse Position Modulation - Điều chế vị trí xung - ND) đánh đổi độ rộng băng tínhiệu lấy tỷ số tín hiệu trên nhiễu đã làm tăng mạnh mẽ mối quan tâm về một nguyên lý truyền tin tổng quát.Một cơ sở cho một lý thuyết như thế nằm trong các bài báo quan trọng của Nyquist1và Hartley2về vấn đềnày Trong bài báo này, chúng tôi sẽ mở rộng thêm lý thuyết đó bao gồm một số các yếu tố mới, đặc biệt là

về tác động của nhiễu trên kênh và những tiết kiệm có thể đạt được nhờ cấu trúc thống kê của bản tin gốccũng như nhờ bản chất của đích đến cuối cùng của thông tin

Vấn đề cơ bản của truyền tin là vấn đề tái tạo lại, hoặc chính xác hoặc gần đúng, tại một điểm này một

bản tin đã được chọn ra ở một điểm khác Thường thường thì các bản tin có nghĩa; nghĩa là chúng liên quan

hoặc có quan hệ tương ứng tới một số hệ thống với các thực thể vật lý hoặc khái niệm nào đó Các khía cạnhngữ nghĩa này của việc truyền tin thì không liên quan tới vấn đề kỹ thuật Khía cạnh có ý nghĩa quan trọng

là chuyện bản tin thực sự thì được chọn ra từ một tập các bản tin khả dĩ Hệ thống nhất thiết phải được thiết

kế để làm việc đối với từng lựa chọn khả dĩ chứ không chỉ với mỗi một cái mà nó sẽ thực sự được lựa chọnbởi vì điều này là không biết được vào lúc thiết kế

Nếu số các bản tin trong tập là hữu hạn thì con số này hay bất kỳ một hàm đơn điệu nào của số này đều

có thể được xem như một độ đo của thông tin được tạo ra khi một bản tin được chọn ra từ tập đó, với tất cảcác lựa chọn đều có khả năng như nhau Như đã được Hartley chỉ ra, lựa chọn tự nhiên nhất (về hàm số đơnđiệu hình thành nên độ đo - ND) là hàm logarit Mặc dù định nghĩa này nhất thiết phải được tổng quát hoámột cách rõ ràng khi chúng ta xem xét ảnh hưởng của các số liệu thống kê của bản tin đó hay khi ta có mộtdải liên tục các bản tin Trong mọi trường hợp chúng ta sẽ vẫn sử dụng một độ đo về căn bản là một hàmlogarit

Độ đo logarit thuận tiện hơn do một số lý do sau:

1 Về mặt thực tế thì nó hữu ích hơn Các thông số quan trọng về kỹ thuật như thời gian, độ rộng băng, sốcác rơ-le có xu hướng thay đổi tuyến tính theo logarit của số các khả năng Ví dụ như việc thêm mộtcái rơ-le vào một nhóm các rơ-le thì làm tăng gấp đôi số các trạng thái có thể có của nhóm các rơ-le

đó Cái đó cộng thêm 1 vào logarit cơ số 2 của số các trạng thái ấy Việc tăng gấp đôi thời gian sẽ gầnnhư bình phương số các bản tin khả dĩ, nói cách khác là tăng gấp đôi giá trị hàm logarit, vân vân

2 Nó gần gũi hơn với cảm nhận trực giác của chúng ta về một độ đo đúng đắn Điều này thì liên hệ gầngũi với mục (1) do chúng ta đo lường các thực thể một cách trực giác bằng việc so sánh tuyến tính vớicác chuẩn mực chung Ví dụ như ta cảm thấy rằng hai cái bìa đục lỗ thì có lẽ có gấp đôi dung lượng sovới một cái về phương diện lưu trữ thông tin, và hai kênh như nhau thì có gấp đôi dung lượng truyềntin so với một kênh

3 Nó thích hợp hơn về mặt toán học Nhiều phép toán giới hạn sẽ thật đơn giản nếu dùng hàm logaritsong nếu như ta dùng (trực tiếp) số các khả năng thì có lẽ phải cần đến những diễn giải khá lòng vòng.Việc chọn một cơ số logarit tương ứng với việc chọn một đơn vị đo thông tin Nếu cơ số 2 được sử dụng

thì các đơn vị có được có thể được gọi là các số nhị phân, hay vắn tắt hơn là các bit, một từ được đề xuất bởi

J W Tukey Một thiết bị với hai trạng thái ổn định, như một rơ-le hay một mạch tri-gơ, có thể trữ được một

bit thông tin N thiết bị như thế có thể lưu giữ N bit, do tổng số các trạng thái khả dĩ là 2 N và log2(2N ) = N.

1Nyquist, H., “Certain Factors Affecting Telegraph Speed,” Bell System Technical Journal, April 1924, p 324; “Certain Topics in Telegraph Transmission Theory,” A.I.E.E Trans., v 47, April 1928, p 617.

2Hartley, R V L., “Transmission of Information,” Bell System Technical Journal, July 1928, p 535.

Trang 2

NGUỒN TẠP ÂM

Hình 1 — Sơ đồ khối của một hệ thống truyền tin tổng quát

Nếu cơ số 10 được sử dụng thì các đơn vị có thể gọi là các số thập phân Do

log2M = log10M/ log102

(Nếu cơ số logarit là 2 thì đơn vị đo thông tin là bit Nếu cơ số logarit là 10 thì đơn vị đo thông tin là Hartley

Nếu cơ số logarit là e thì đơn vị đo thông tin là nat (đọc là [neit])-ND).

Với thuật ngữ một hệ thống thông tin, chúng tôi muốn nói đến một hệ thống thuộc loại được chỉ ra bằng

sơ đồ khối trên hình vẽ 1 Hệ thống này về cơ bản gồm 5 phần sau:

1 Một nguồn tin tạo ra một bản tin hoặc một chuỗi các bản tin định truyền tới đầu cuối thu Bản tin có

thể có nhiều kiểu: (a) Một chuỗi các chữ cái như trong một bản điện tín trong hệ thống điện báo; (b)

Một đơn hàm theo thời gian f (t) như trong ra-đi-ô hay điện thoại; (c) Một hàm của thời gian và các biến khác như trong truyền hình đen-trắng — trong đó bản tin có thể xem như một hàm f (x; y,t) của hai toạ độ không gian và thời gian, cường độ sáng tại điểm (x; y) và thời gian t trên một phiến của đèn píc-cớp; (d) Hai hay nhiều hơn các hàm theo thời gian, ta hãy gọi là f (t), g(t), h(t) — là trường hợp

trong phát thanh "ba chiều" (lập thể) hay trong trường hợp khi hệ thống dự định dùng để phục vụ một

số kênh riêng lẻ trong ghép kênh; (e) Một số hàm nhiều biến — trong truyền hình màu thì bản tin gồm

3 hàm f (x; y,t), g(x; y,t), h(x : y,t) xác định trong một tập vô hạn (continuum) ba chiều — ta cũng có

thể xem ba hàm này như thể các thành phần của một trường véc-tơ xác định trong một miền — tương

tự vậy, một số nguồn tivi đen-trắng có lẽ cũng tạo ra các "bản tin" gồm một số các hàm ba biến; (f)Các bản tin hỗn hợp cũng có thể xảy ra, ví dụ như trong truyền hình có kênh âm thanh đi kèm

2 Một máy phát xử lý bản tin theo một số cách nhằm tạo ra một tín hiệu thích hợp với việc truyền đi

trên kênh Trong điện thoại thì thao tác này chỉ đơn thuần gồm việc biến đổi áp suất âm thanh thànhmột dòng điện tỷ lệ với áp suất âm thanh Trong điện báo, chúng ta có một thao tác mã hoá cho ra mộtdãy các chấm, gạch và dấu cách trên kênh tương ứng với bản tin Trong một hệ thống PCM có ghépkênh, các hàm tiếng nói khác nhau nhất thiết phải được lấy mẫu, nén, lượng tử hoá rồi mã hoá và cuốicùng thì được ghép xen nhau một cách đúng đắn nhằm tạo ra tín hiệu Các hệ thống mã hoá nguồnphát thanh, truyền hình và phát thanh điều tần (phát thanh FM) là những ví dụ khác về các thao tácphức tạp được áp dụng với các bản tin để có được tín hiệu

3 Kênh đơn thuần chỉ là môi trường được sử dụng để truyền tín hiệu từ máy phát tới máy thu Nó có thể

là một đôi dây xoắn, một cáp đồng trục, một dải các tần số vô tuyến, một chùm sáng, vân vân

Trang 3

4 Máy thu tuần tự thực hiện các thao tác ngược với các thao tác đã được thực hiện bởi máy phát nhằm

tái tạo lại bản tin từ tín hiệu

5 Đích đến là con người (hoặc vật) mà bản tin định truyền đến.

Chúng tôi muốn xem xét các vấn đề tổng quát nhất định, liên quan tới hệ thống truyền tin Để làm đượcđiều này trước hết cần biểu diễn các phần tử liên quan khác nhau dưới dạng các thực thể toán học được lýtưởng hoá một cách phù hợp từ hai bộ phận vật lý tương ứng của chúng Chúng ta có thể phân loại thô các

hệ thống thông tin thành ba loại chính: rời rạc, liên tục và hỗn hợp Nói một hệ thống rời rạc là chúng tôi

muốn nói đến một hệ thống mà trong chúng cả bản tin lẫn tín hiệu đều là một chuỗi các ký tự (symbol) rời

rạc Một trường hợp tiêu biểu là điện báo trong đó bản tin là một chuỗi các chữ cái còn tín hiệu là một chuỗicác chấm, gạch và dấu cách Một hệ thống liên tục là một hệ thống trong đó cả bản tin lẫn tín hiệu đều được

xử lý như các hàm liên tục, như ra-đi-ô hay tivi chẳng hạn Một hệ thống hỗn hợp là hệ thống trong đó cảcác biến liên tục lẫn rời rạc đều có, ví dụ như truyền tiếng nói PCM

Trước hết, chúng tôi sẽ xem xét trường hợp rời rạc Trường hợp này có các ứng dụng không chỉ trong lýthuyết truyền tin mà còn cả trong lý thuyết máy tính, trong thiết kế các tổng đài điện thoại và các lĩnh vựckhác nữa Ngoài ra, trường hợp rời rạc hình thành nên một nền tảng cơ sở cho các trường hợp liên tục cũngnhư hỗn hợp, sẽ được đề cập đến trong nửa sau của bài báo

PHẦN I: HỆ THỐNG RỜI RẠC KHÔNG NHIỄU

1 KÊNH TRUYỀN RỜI RẠC KHÔNG NHIỄUĐiện báo và điện tín là hai ví dụ đơn giản của một kênh rời rạc để truyền thông tin Một cách tổng quát, mộtkênh rời rạc sẽ có nghĩa là một hệ thống trong đó một chuỗi các lựa chọn từ một tập hữu hạn các ký hiệu

nguyên tố S1, , S n có thể được truyền từ một điểm này đến điểm khác Mỗi ký hiệu S iđược giả định là có

độ dài t i giây nào đó (không nhất thiết giống nhau cho các ký hiệu S ikhác nhau, chẳng hạn như các chấm

và gạch trong điện tín) Cũng không yêu cầu tất cả các chuỗi khả dĩ của các ký hiệu S icó thể được truyềntrên hệ thống; chỉ một số chuỗi đã biết mới có thể được cho phép Đây sẽ có thể là những tín hiệu cho kênhtruyền Do đó trong điện báo, giả sử các ký hiệu: (1) Một chấm tạo bởi một đường đóng trong một đơn vịthời gian và sau đó là một đường mở trong cùng một đơn vị thời gian; (2) Một gạch dài tạo bởi ba đơn vịthời gian đóng và một đơn vị thời gian mở; (3) Một dấu cách ký tự tạo bởi ba đơn vị đường mở; (4) dấu cách

từ tạo bởi sáu đơn vị đường mở Chúng ta có thể đặt ra giới hạn đối với các chuỗi cho phép như không cókhoảng trống liên tiếp (đối với hai dấu cách ký tự kề nhau, nó cũng hoàn toàn tương đương với một dấu cáchtừ) Câu hỏi chúng ta quan tâm bây giờ là làm thế nào để đo được dung lượng của một kênh truyền tin nhưvậy

Trong trường hợp điện báo, tất cả các ký hiệu đều có cùng một độ dài (về thời gian) và bất kỳ chuỗi nào

có 32 ký hiệu thì đều được phép, câu trả lời nói chung là dễ dàng Mỗi ký hiệu được đại diện bởi 5 bit thông

tin Nếu hệ thống truyền n ký hiệu trong một giây, một cách tự nhiên thì chúng ta cũng tìm được dung lượng kênh là 5n bit/giây Điều đó không có nghĩa là kênh điện báo luôn truyền thông tin ở tốc độ này Nó là tốc

độ tối đa có thể và tốc độ thực tế có đạt được tốc độ tối đa này hay không thì lại phụ thuộc vào nguồn tin màđưa thông tin vào kênh, như sẽ được xem xét ở phần sau

Trong các trường hợp chung với các độ dài ký hiệu khác nhau cũng như các ràng buộc khác nhau trêncác chuỗi cho phép, chúng ta đưa ra định nghĩa sau :

Định nghĩa: Dung lượng C của một kênh rời rạc được cho bởi:

C = Lim

T →∞

log N(T )

T

trong đó N(T ) là số tín hiệu cho phép có độ dài T

Có thể dễ dàng nhận ra rằng trong trường hợp điện báo, công thức này đưa đến kết quả trước đó Cũng

dễ thấy giới hạn cần tìm sẽ tồn tại như một số hữu hạn trong hầu hết các trường hợp nghiên cứu Giả sử tất

cả các chuỗi ký hiệu S1, , S n đều được phép truyền và các ký hiệu này có độ dài t1, ,t n Dung lượng của

Trang 4

kênh trong trường hợp này là bao nhiêu? Nếu N(t) đại diện cho số các chuỗi với khoảng thời gian t, chúng

ta có:

N(t) = N(t − t1) + N(t − t2) + · · · + N(t − t n ).

Tổng này sẽ bằng tổng các số lượng chuỗi kết thúc bởi ký hiệu S1, S2, , S n và các số này lần lượt là

N(t −t1), N(t −t2), , N(t −t n ) Theo một kết quả đã biết của các vi sai hữu hạn N(t) sẽ tiệm cận tới X t

Trong trường hợp có các giới hạn áp đặt trên các chuỗi cho phép, chúng ta vẫn thường có thể nhận được

một phương trình vi sai loại này và tìm C từ phương trình đặc trưng Trong trường hợp điện báo đề cập ở

trên:

N(t) = N(t − 2) + N(t − 4) + N(t − 5) + N(t − 7) + N(t − 8) + N(t − 10)

như chúng ta thấy nhờ đếm các chuỗi ký hiệu dựa theo ký hiệu cuối hoặc áp cuối xuất hiện trong chuỗi Do

đó C bằng − log µ0với µ0là nghiệm dương của phương trình 1 = µ2+ µ4+ µ5+ µ7+ µ8+ µ10 Giải phương

trình này ta tìm được C = 0.539.

Một loại giới hạn chung nhất mà có thể áp đặt trên các chuỗi ký hiệu cho phép như sau: Chúng ta hình

dung một số trạng thái khả dĩ a1, a2, , a m Với mỗi trạng thái thì chỉ có một số lượng nhất định ký hiệu nào

đó trong tập ký hiệu S1, , S ncó thể được truyền đi (các tập con khác nhau cho các trạng thái khác nhau).Khi một trong số tập con này được truyền đi, trạng thái hiện tại sẽ thay đổi sang trạng thái mới phụ thuộc cảvào trạng thái cũ lẫn ký hiệu đặc biệt được truyền Nếu vậy, khi đó chỉ một chấm hoặc một gạch có thể đượcgửi tiếp theo và trạng thái luôn hay đổi Nếu không, bất kỳ ký hiệu nào có thể được truyền và trạng thái thayđổi nếu một dấu cách được gửi đi nếu không thì nó sẽ vẫn như cũ Các điều kiện có thể được trình bày trong

đồ thị tuyến tính như Hình 2

GẠCH CHẤM

CÁCH KÝ TỰ CÁCH TỪ

Hình 2 — Biểu diễn đồ thị các ràng buộc trên ký hiệu điện báo

Các điểm liên kết tương ứng với các trạng thái và các đường mũi tên biểu thị các ký hiệu có thể trongmột trạng thái và trạng thái kết quả tương ứng Phụ lục 1 cho thấy các điều kiện áp đặt trên các chuỗi cho

phép có thể được mô tả trong dạng C sẽ tồn tại và có thể được tính toán theo các kết quả sau:

Định lí 1: Chob (s) i j là khoảng thời gian của ký hiệu thứs, là ký hiệu được phép ở trạng thái ivà dẫn đếnchuyển sang trạng thái j Khi đó, dung lượng Ccủa kênh sẽ bằnglogW vớiW là nghiệm thực lớn nhất của

vớiδ i j= 1nếui = j = 0trong các trường hợp còn lại

Ví dụ, trong trường hợp điện báo (Hình 2), định thức là:

Trang 5

2 NGUỒN TIN RỜI RẠCChúng ta đã thấy trong các điều kiện rất chung, hàm logarit của số các tín hiệu khả dĩ trong một kênh rời rạctăng tuyến tính theo thời gian Dung lượng truyền tin có thể được xác định bằng cách gán cho tốc độ tăngmột số lượng bit trên đơn vị thời gian cần thiết để xác định một tín hiệu riêng được sử dụng.

Bây giờ, chúng ta xem xét về nguồn tin Làm thể nào để mô tả một nguồn tin bằng công cụ toán học vàlượng thông tin theo bít/giây được tạo ra từ một nguồn tin cho trước? Vấn đề chính là tác động của hiểu biết

có tính thống kê về nguồn tin trong việc giảm dung lượng kênh cần thiết bằng cách sử dụng phương pháp

mã hóa thông tin hợp lý Trong điện báo chẳng hạn, các bản tin được truyền gồm các chuỗi chữ cái Tuynhiên, các chuỗi này lại không phải ngẫu nhiên Nói chung, chúng hình thành các câu và có cấu trúc thông

kê, ví dụ, của tiếng Anh Chữ cái E xuất hiện thường xuyên hơn Q và tổ hợp TH thường xuyên hơn XP, v v

Sự tồn tại của cấu trúc này cho phép một ai đó có thể tiết kiệm thời gian (hay dung lượng kênh) bằng cách

mã hóa hợp lý các chuỗi bản tin thành các chuỗi tín hiệu Việc này đã được thực hiện đến một chừng mựcnào đó trong điện báo bằng việc sử dụng các ký hiệu kênh ngắn nhất, chấm, cho các các chữ cái tiếng Anhthường xuyên xuất hiện như E trong khi các chữ cái ít xuất hiện hơn, như Q, X, Z, được diễn tả bởi các chuỗichấm-gạch dài hơn Ý tưởng này còn được sử dụng trong một số mã thương mại, khi đó các từ và các câuthông dụng được diễn tả bởi các nhóm mã bốn hoặc năm chữ, đạt được một mức tiết kiệm đáng kể về thờigian trung bình Các bức điện tín chúc mừng hay kỷ niệm thường dùng hằng ngày mở rộng điều này bằngviệc mã hóa một hoặc hai câu thành một chuỗi các số tương đối ngắn

Chúng ta có thể nghĩ đến một nguồn rời rạc tạo ra bản tin, ký hiệu nối tiếp ký hiệu Nói chung, nó sẽchọn các ký hiệu liên tiếp dựa trên các xác suất nào đó phụ thuộc vào các lựa chọn trước đó cũng như các kýhiệu riêng biệt định phát Một hệ thống vật lý hay một mô hình toán học của một hệ thống mà tạo ra chuỗi

ký hiệu như vậy chịu chi phối bởi một tập hợp xác suất, được biết tới là quá trình ngẫu nhiên.3Do đó, chúng

ta có thể xem xét một nguồn rời rạc được mô tả bởi một quá trình ngẫu nhiên Ngược lại, bất kỳ quá trìnhngẫu nhiên mà tạo ra một chuỗi rời rạc các ký hiệu được chọn từ một tập hợp hữu hạn có thể được coi nhưmột nguồn rời rạc Điều này bao gồm các trường hợp sau:

1 Ngôn ngữ viết tự nhiên như tiếng Anh, tiếng Đức, tiếng Trung Quốc

2 Các nguồn tin liên tục được rời rạc hóa bởi quá trình lượng tử hóa Ví dụ như lời nói được lượng tửhóa từ bộ phát PCM hoặc tín hiệu TV đã được lượng tử hóa

3 Các trường hợp toán học mà chúng ta định nghĩa đơn thuần một cách trừu tượng một quá trình ngẫunhiên tạo ra một chuỗi ký hiệu Dưới đây là ví dụ cho loại nguồn cuối cùng

(A) A Giả sử chúng ta có 5 chữ cái A, B, C, D, E, mỗi chữ có xác suất được chọn là 0.2, các lựachọn liên tiếp là độc lập Điều này có thể dẫn đến một dãy mà dưới đây là ví dụ điển hình:

B D C B C E C C C A D C B D D A A E C E E A

A B B D A E E C A C E E B A E E C B C E A D

Chuỗi này được xây dựng dựa trên việc sử dụng một bảng số ngẫu nhiên.4

(B) Cũng vẫn sử dụng 5 chữ cái đó nhưng với các xác suất lần lượt là 0.4, 0.1, 0.2, 0.2, 0.1, các lựachọn liên tiếp là độc lập Một bản tin điển hình từ nguồn này là:

A A A C D C B D C E A A D A D A C E D A

E A D C A B E D A D D C E C A A A A A D

(C) Chúng ta có để nhận được một cấu trúc phức tạp hơn nếu các ký hiệu liên tiếp không được chọnmột cách độc lập nhưng các xác suất của chúng lại phụ thuộc vào các chữ cái trước đó Trongtrường hợp đơn giản nhất của loại này một lựa chọn chỉ phụ thuộc vào chữ cái đứng trước nó màkhông phụ thuộc vào các chữ cái đứng trước chữ cái trước nó Khi đó, cấu trúc thống kê có thể

được mô tả bởi một tập các xác suất chuyển đổi p i ( j), là xác suất là chữ cái j đứng trước chữ cái

i Các chỉ số i, j chạy dọc tất cả các ký hiệu khả dĩ Một cách thứ hai tương đương để xác định

3Tham khảo, ví dụ, S Chandrasekhar, “Stochastic Problems in Physics and Astronomy,” Reviews of Modern Physics, v 15, No 1,

January 1943, p 1.

4Kendall and Smith, Tables of Random Sampling Numbers, Cambridge, 1939.

Trang 6

cấu trúc này là vẽ một "digram" xác suất p(i, j), giả như tần số tương đối của digram i j Các tần

số xuất hiện chữ cái p(i) (xác suất xuất hiện của chữ cái i), các xác suất chuyển đổi p i ( j) và các xác suất digram p(i, j) liên hệ với nhau theo công thức sau:

A B B A B A B A B A B A B A B B B A B B B B B A B A B A B A B A B B B A C A C A B

B A B B B B A B B A B A C B B B A B A

Bước tiếp theo chúng ta sẽ tăng độ phức tạp bằng cách có thể thêm vào các tần số trigram Việc

lựa chọn một chữ cái có thể phụ thuộc vào hai chữ cái đứng trước nó nhưng không phụ thuộc

vào bản tin trước thời điểm lựa chọn Một tập các tần số trigram p(i, j, k) hay nói cách tương đương, một tập các xác suất chuyển đổi p i j (k) có thể sẽ cần thiết Cứ theo cách này, chúng ta có

thể nhận được các quá trình ngẫu nhiên phức tạp hơn một cách liên tiếp Trong trường hợp tổng

quát n-gram, một tập các xác suất n-gram p(i1, i2, , i n) hay một tập các xác suất chuyển đổi

p i1,i2, ,i n−1 (i n) là cần thiết để xác định cấu trúc thống kê

(D) Các quá trình ngẫu nhiên có thể cũng được định nghĩa là quá trình sinh ra một đoạn văn bản gồmmột chuỗi các “từ” Giả định có 5 chữ cái A, B, C, D, E và 16 “từ” trong ngôn ngữ văn bản vớicác xác suất tương ứng:

.10 A 16 BEBE 11 CABED 04 DEB.04 ADEB 04 BED 05 CEED 15 DEED.05 ADEE 02 BEED 08 DAB 01 EAB

5Tần số chữ cái, digram và trigram được cho trong Secret and Urgent by Fletcher Pratt, Blue Ribbon Books, 1939 Tần số từ được thống kế trong Relative Frequency of English Speech Sounds, G Dewey, Harvard University Press, 1923.

Trang 7

xỉ bậc nhất ngôn ngữ tiếng Anh, E được chọn với xác suất 0.12 (tần số xuất hiện của chữ cái E trong tiếngAnh thông thường) và W với xác suất 0.02 nhưng không hề có ảnh hưởng giữa hai chữ cái cạnh nhau vàkhông có xu hướng hình thành các digram ưu tiên như TH, ED, v v Trong xấp xỉ bậc hai, chúng ta áp dụngcấu trúc digram Sau khi một chữ cái được chọn, chữ tiếp theo được chọn theo tần số của chữ cái đi ngay sau

chữ cái đầu tiên Điều này yêu cầu một bảng tần số digram p i ( j) Trong xấp xỉ bậc ba, chúng ta sử dụng cấu

trúc trigram Mỗi chữ cái được lựa chọn với các xác suất phụ thuộc vào hai chữ cái trước nó

3 CÁC DÃY XẤP XỈ NGÔN NGỮ TIẾNGANH

Để đưa ra một ý tưởng trực quan về việc làm thế nào để dãy các quá trình này đạt gần đến một ngôn ngữ,chúng ta xây dựng các dãy đặc trưng trong quá trình xấp xỉ tới tiếng Anh như dưới đây Trong mọi trườnghợp, chúng ta đã giả định bảng chữ cái 27 ký tự alphabet gồm 26 chữ cái truyền thống và một dấu cách trắng

1 Xấp xỉ bậc không (các ký hiệu độc lập và đồng xác suất)

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD HJQD

QPAAMKBZAACIBZL-2 Xấp xỉ bậc nhất (các ký hiệu độc lập nhưng với tần số xác định theo ngôn ngữ tiếng Anh)

OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVANAH BRL

3 Xấp xỉ bậc hai (cấu trúc digram như trong tiếng Anh)

ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE COOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE

TU-4 Xấp xỉ bậc ba (cấu trúc trigram như trong tiếng Anh)

IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF TURES OF THE REPTAGIN IS REGOACTIONA OF CRE

DEMONS-5 Xấp xỉ từ bậc nhất, thay vì tiếp tục với cấu trúc tetragram, , cấu trúc n-gram, chắc sẽ dễ dàng hơn

và tốt hơn nếu chúng ta chuyển sang đơn vị từ Ở đây, các từ được chọn độc lập nhưng với các tần sốthích hợp

REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT RAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHESTHE LINE MESSAGE HAD BE THESE

NATU-6 Xấp xỉ từ bậc hai Các xác suất chuyển đổi từ đã chuẩn nhưng không sử dụng thêm cấu trúc nào

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE ACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERSTHAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED

CHAR-Sự giống nhau so với văn bản tiếng anh chuẩn tăng đáng kể ở mỗi bước kể trên Chú ý rằng các mẫu thửnày có cấu trúc hợp lý hơn khoảng hai lần so với phạm vi đã được xem xét trong việc xây dựng mẫu Do đótrong bước (3), quá trình thống kê đảm bảo một đoạn văn bản hợp lý với các dãy hai chữ cái, nhưng các dãybốn chữ cái của mẫu có thể được làm cho phù hợp với các câu có nghĩa Trong (6) chuỗi 4 từ hoặc nhiều hơn

có thể dễ dàng đặt vào trong câu mà không gặp phải câu vô nghĩa hay gượng ép Chuỗi đặc biệt gồm 10 từ

“attack on an English writer that the character of this” cũng không hoàn toàn không hợp lý Có vẻ như lúc

đó một quá trình ngẫu nhiên đủ phức tạp sẽ đưa ra một biểu diễn thỏa đáng của một nguồn rời rạc

Hai mẫu đầu tiên được xây dựng nhờ sử dụng một quyển sách các số ngẫu nhiên cùng với bảng các tần sốxuất hiện của chữ cái (ví dụ 2) Phương pháp này có thể được tiếp tục sử dụng cho (3), (4), và (5) do digram,trigram và bảng tần số xuất hiện từ sẵn có nhưng chúng ta đã sử dụng phương pháp tương đương đơn giản

Trang 8

hơn Để xây dựng (3) chẳng hạn, một người mở một quyển sách ở một trang ngẫu nhiên, chọn một chữ cáingẫu nhiên trên trang đấy Chữ cái này được ghi lại Quyển sách lại tiếp tục được mở ở trang khác và người

đó đọc cho đến khi gặp lại chữ cái này Chữ cái kế tiếp chữ này lại được ghi lại Giở sang trang khác, chữ cáithứ hai này lại được tìm kiếm và chữ cái tiếp theo chữ cái thứ hai này lại được ghi nhận v.v Quá trình tương

tự được sử dụng cho (4), (5), và (6) Có lẽ sẽ thú vị hơn nếu các quá trình xấp xỉ hơn nữa được xây dựngnhưng công việc cần thiết sẽ trở nên vô cùng lớn cho các bước tiếp theo

4 BIỂU DIỄN ĐỒ THỊ CỦA MỘT QUÁ TRÌNHMARKOFFCác quá trình ngẫu nhiên của loại đươc mô tả ở trên được biết đến trong toán học như là các quá trìnhMarkoff rời rạc và đã được nghiên cứu rộng rãi trong nhiều tài liệu.6Trường hợp tổng quát có thể được mô

tả như sau: Cho một số hữu hạn các “trạng thái” khả dĩ của một hệ thống: S1, S2, , S n Thêm vào đó là một

tập các xác suất chuyển đổi; p i ( j) là xác suất mà nếu hệ thống ở trạng thái S i, tiếp theo nó sẽ chuyển sang

trạng thái S j Để đặt quá trình Markoff này vào trong một nguồn tin, chúng ta chỉ cần giả sử rằng một chữcái được tạo ra mỗi khi hệ thống chuyển từ trạng thái này sang trạng thái khác Các trạng thái này sẽ tươngứng với “thặng dư ảnh hưởng” từ các chữ cái trước đó

Điều này có thể được minh họa bằng đồ thị như trong hình 3, 4 và 5 Các "trạng thái" là các điểm nối

Hình 3 — Đồ thị tương ứng với nguồn trong ví dụ B

trong đồ thị, các xác suất và các chữ cái được tạo ra ứng với một chuyển đổi được cho bên cạnh các đườngmũi tên tương ứng Hình 3 là minh họa cho ví dụ B ở Phần 2, trong khi hình 4 tương ứng với ví dụ C Trong

A A

B

B B

hình 3 chỉ có một trạng thái do các chữ cái liên tiếp là độc lập Trong hình 4, số lượng trạng thái nhiều như

số lượng chữ cái Nếu một ví dụ trigram được xây dựng thì cần tối thiểu n2trạng thái tương ứng với các cặpchữ cái khả dĩ đi trước một chữ cái sẽ được chọn Hình 5 là đồ thị cho trường hợp cấu trúc từ trong ví dụ D

Ở đây, S tương ứng với ký tự cách trắng

5 ERGODIC VÀ NGUỒN HỖN HỢPNhư chúng ta đã chỉ ra ở trên, một nguồn rời rạc cho mục đích của chúng ta có thể được xem như được mô

tả bởi một quá trình Markoff Trong số các quá trình Markoff rời rạc khả dĩ, có một nhóm với các thuộc tính

6Về chi tiết có thể tham khảo tài liệu M Fréchet, Méthode des fonctions arbitraires Théorie des événements en chaˆıne dans le cas d’un nombre fini d’états possibles (Phương pháp hàm ngẫu nhiên Lý thuyết các chuỗi sự kiện với các trạng thái khả dĩ hữu hạn) Paris,

Gauthier-Villars, 1938.

Trang 9

đặc biệt quan trọng trong lý thuyết truyền tin Lớp đặc biệt này bao gồm các quá trình “ergodic” và chúng

ta sẽ gọi các nguồn tương ứng này là nguồn ergodic Mặc dù một định nghĩa chính xác hơn về quá trìnhergodic cũng cần được đề cập đến một chút, song ý tưởng chung thì đơn giản Trong một quá trình ergodic,mỗi chuỗi được tạo ra bởi quá trình thì giống nhau về các thuộc tính thống kê Do vậy, các tần số xuất hiệncác chữ cái, các tần số xuất hiện của digram v v , nhận được từ các chuỗi riêng biệt sẽ tiến gần đến giới hạnxác định độc lập của các chuỗi riêng biệt khi chiều dài của chuỗi tăng Thực tế điều này không đúng với mọichuỗi nhưng tập các chuỗi cho kết quả không đúng lại có xác suất bằng 0 Đại khái thuộc tính ergodic nghĩa

là đồng nhất thống kê

Tất cả các ví dụ về ngôn ngữ nhân tạo ở trên đều là ergodic Thuộc tính này có liên hệ với cấu trúc của

đồ thị tương ứng Nếu đồ thị có hai thuộc tính7sau đây thì quá trình tương ứng với nó sẽ có tính ergodic:

1 Đồ thị không bao gồm 2 phần tách biệt A và B sao cho không thể đi từ các điểm nối ở phần A tới cácđiểm nối ở phần B dọc theo các đường chuyển trạng thái của đồ thị theo hướng mũi tên và cũng khôngthể đi từ các điểm nối ở phần B tới các điểm nối ở phần A

2 Một dãy đóng của các đường chuyển trạng thái trong đồ thị sẽ có tất cả các mũi tên trên đường chuyểntrạng thái chỉ cùng một hướng sẽ được gọi là một mạch kín "Chiều dài" mạch là số đường chuyểntrạng thái trong mạch Do đó trong hình 5, dãy BEBES là một mạch kín có chiều dài 5 Thuộc tínhthứ hai yêu cầu rằng ước số chung lớn nhất của các chiều dài của tất cả các mạch kín trong đồ thị phải

D

D D

E

E E

E

E E E

E

Hình 5 — Đồ thị tương ứng với nguồn trong ví dụ D

Nếu điều kiện đầu tiên được thỏa mãn nhưng điều kiện thứ hai bị vi phạm do có ước số chung lớn nhất

bằng d > 1, các chuỗi có một loại cấu trúc tuần hoàn nào đó Các chuỗi khác nhau rơi vào d các lớp khác

nhau mà các lớp này thì giống nhau về mặt thống kê ngoại trừ một thay đổi dịch vị trí của gốc (ví như chữ

cái nào trong chuỗi được gọi là chữ cái số 1) Bằng cách dịch từ 0 tới d − 1, bất kỳ chuỗi nào có thể được tạo tương đương thống kê với bất kỳ chuỗi còn lại Một ví dụ đơn giản với d = 2 như sau: có 3 chữ cái có khả dĩ

là a, b, c Chữ cái a được theo sau bởi hoặc b hoặc c với xác suất lần lượt1

3và 2

3 Hoặc b hoặc c sẽ được theo sau bởi chữ cái a Do đó một chuỗi đặc trưng sẽ là:

a b a c a c a c a b a c a b a b a c a c.

Loại hình này thì cũng không quá quan trọng trong nghiên cứu của chúng ta

7 Chúng là những phát biểu lại dưới dạng đồ thị điều kiện cho bởi Fréchet.

Trang 10

Nếu điều kiện thứ nhất bị vi phạm, đồ thị có thể bị chia thành một tập các đồ thị con mà mỗi đồ thị conlại thỏa mãn điều kiện thứ nhất Chúng ta giả định rằng điều kiện hai cũng sẽ được thỏa mãn với các đồ thịcon Trong trường hợp này chúng ta có cái mà được gọi là nguồn "hỗn hợp", hình thành bởi một số các thành

phần nguyên chất Các thành phần tương ứng với các đồ thị con khác nhau Nếu L1, L2, L3, là các nguồn

thành phần, chúng ta có thể viết:

L = p1L1+ p2L2+ p3L3+ · · · với p i là xác suất của nguồn thành phần L i

Cụ thể, tình huống này được biểu diễn như sau: Có nhiều nguồn khác nhau L1, L2, L3, mà đều có

cấu trúc thống kê đồng nhất (nghĩa là có tính ergodic) Chúng ta không biết trước nguồn nào được sử dụng nhưng khi các chuỗi bắt đầu được tạo ra ở một nguồn thành phần nguyên chất L i, nó tiếp tục mãi mãi theocấu trúc thống kê của thành phần đó

Ví du, ai đó có thể lấy hai trong số các quá trình được định nghĩa ở trên và giả sử p1= 0.2 và p2= 0.8.

Môt chuỗi từ nguồn hỗn hợp

L = 0.2L1+ 0.8L2

có thể đạt được bằng cách đầu tiên chọn L1hoặc L2với các xác suất 0.2 và 0.8 và sau đó lựa chọn này sinh

ra một chuỗi từ bất cứ cái nào được chọn

Ngoại trừ khi điều ngược lại xảy ra, chúng ta sẽ giả sử một nguồn là ergodic Giả định này cho phép xácđịnh trung bình dọc theo một dãy với trung bình trên cả tập hợp các chuỗi khả dĩ (xác suất của mâu thuẫnbằng 0) Chẳng hạn tần số tương đối của chữ cái A trong một dãy vô hạn cụ thể sẽ bằng với tần số tương đốicủa nó trong tập hợp các dãy với xác suất 1

Nếu P i là xác suất của trạng thái i và p i ( j) là xác suất chuyển đổi trạng thái từ i sang j, khi đó, với quá trình được gọi là tĩnh thì rõ ràng P iphải thỏa mãn các điều kiện cân bằng:

Giả sử chúng ta có một tập các sự kiện có thể xảy ra với xác suất là p1, p2, , p n Các xác suất này đượcbiết trước nhưng đó là tất cả những gì chúng ta biết liên quan đến sự kiện nào sẽ xảy ra Liệu chúng ta có thểtìm một phép đo số các “lựa chọn” trong việc chọn một sự kiện hay mức độ “bất định” của kết quả thu được

ở đầu ra?

Nếu có một phép đo như vậy, giả sử là H(p1, p2, , p n), cũng hợp lý nếu yêu cầu nó phải có các đặctính sau:

1 H phải liên tục theo p i

2 Nếu các xác suất là như nhau (p i=1

n ) thì H phải là hàm đơn điệu tăng theo n Với các sự kiện mà xác

suất xảy ra bằng nhau thì sẽ có nhiều lựa chọn, hay tính bất định, khi có nhiều sự kiện có khả năngxảy ra

3 Nếu một sự lựa chọn được chia thành hai lựa chọn liên tiếp nhau, đại lượng H của sự kiện gốc phải

là tổng trọng số của hai giá trị thành phần của H Nghĩa của điều này được minh họa trong Hình 6.

Ở hình vẽ bên trái, chúng ta có ba khả năng với xác suất p1=12, p2=13, p3=16 Ở hình vẽ bên phảichúng ta trước hết chọn giữa hai khả năng, mỗi khả năng ứng với xác suất 1

2 Và nếu khả năng thứ haixảy ra làm thành một lựa chọn với mỗi xác suất thành phần lần lượt 23và 13 Các kết quả cuối cùng cócùng xác suất như cho trước Chúng ta yêu cầu, trong trường hợp đặc biệt này, như sau:

Trang 11

1/2

1/2 2/31/3

1/2

1/31/6Hình 6 — Phân tách một sự lựa chọn từ ba khả năng

Hệ số là 12bởi vì lựa chọn thứ hai chỉ xảy ra ở một nửa thời gian

Trong Phụ lục 2, kết quả sau được thiết lập:

Định lí 2: Đại lượngHduy nhất thỏa mãn ba giả thiết trên phải có dạng

sẽ được công nhận như entropy được định nghĩa trong một số công thức của cơ học thống kê8ở đó p ilà xác

suất của hệ thống trong tế bào i trong không gian pha của nó Ví dụ, H khi đó là H trong định lý H nổi tiếng của Boltzmann Chúng ta sẽ gọi H = − ∑ p i log p i là entropy của tập các xác suất p1, , p n Nếu x là một biến cơ hội, chúng ta sẽ viết H(x) cho entropy của nó; do đó x không phải argument của một hàm nhưng là nhãn cho một số, để phân biệt nó với H(y), là entropy của biến cơ hội y.

Entropy trong trường hợp của hai khả năng với xác suất p và q = 1 − p được tính:

H = −(p log p + q log q)

được vẽ trong hình 7 như là hàm của p Đại lượng H có một số tính chất thú vị mà sẽ chứng minh nó là một

đại lượng đo hợp lý cho lựa chọn hay thông tin

1 H = 0 khi và chỉ khi tất cả các p i, trừ một xác suất có giá trị đơn vị, đều bằng 0 Do đó chỉ khi chúng

ta chắc chắn về kết quả thì H mới triệt tiêu Nếu không thì H có giá trị dương.

2 Cho trước n, H cực đại và bằng log n khi tất cả các p iđều bằng nhau (tức là bằng 1

n) Một cách trựcgiác, đây cũng là trường hợp có tính bất định nhất

3 Giả sử có hai sự kiện, x và y, đang xem xét với m khả năng cho sự kiện thứ nhất và n cho sự kiện thứ hai Đặt p(i, j) là xác suất chung xảy ra của khả năng i với sự kiện thứ nhất và j với sự kiện thứ hai Entropy

của sự kiện chung được tính:

Trang 12

BITS

p

0.1.2.3.4.5.6.7.8.91.0

4 Bất kỳ thay đổi nào theo hướng cân bằng của các xác suất p1, p2, , p n đều làm tăng H Do đó nếu

p1< p2và chúng ta tăng p1, giảm p2một lượng bằng nhau làm sao cho p1và p2tiến gần đến giá trị bằng

nhau, khi đó H sẽ tăng Một cách chung nhất, nếu chúng ta thực hiện bất kỳ phép toán “trung bình” lên trên

p iở dạng

p 0 i=∑

j

a i j p j

trong đó ∑i a i j= ∑j a i j = 1, và tất cả a i j ≥ 0, khi đó H tăng (trừ trường hợp đặc biệt nếu phép biến đổi này

chỉ là phép hoán vị không hơn không kém các p j với H tất nhiên vẫn giữ nguyên).

5 Giả giử có hai sự kiện cơ hội x và y như trong 3, không nhất thiết phải độc lập Với bất kỳ giá trị i riêng biệt nào mà x có thể nhận thì có xác suất có điều kiện p i ( j) mà y có giá trị j được xác định bởi công

Trang 13

Độ bất định của y sẽ không bao giờ tăng theo hiểu biết về x Nó sẽ giảm trừ phi x và y là các sự kiện độc lập,

trong trường hợp này nó không thay đổi

7 ENTROPY CỦA MỘT NGUỒN TIN

Xem xét một nguồn rời rạc của dạng trạng thái hữu hạn đã nêu ở trên Với mỗi trạng thái khả dĩ i sẽ có một tập các xác suất p i ( j) của việc tạo ra các ký hiệu khả dĩ khác nhau j Do đó có một entropy H ivới mỗi trạng

thái Entropy của nguồn sẽ được định nghĩa như giá trị trung bình của các H iđo theo xác suất xuất hiện củacác trạng thái đang xem xét

Nếu các ký hiệu liên tiếp nhau độc lập với nhau thì H chỉ đơn giản là − ∑ p i log p i với p ilà xác suất của

ký hiệu thứ i Giả sử trong trường hợp này chúng ta xem xét một bản tin dài gồm N ký hiệu Nó sẽ chứa, với xác suất cao, khoảng p1N sự kiện ký hiệu đầu tiên xảy ra, p2N sự kiện ký hiệu thứ hai xảy ra, v v Do đó

xác suất của bản tin cụ thể này sẽ vào khoảng:

p = p p1N

1 p p2N

2 · · · p p n N n

Hoặc

log p = N . ∑

i

p i log p i log p = −NH .

H=. log 1/p

Do đó H xấp xỉ logarit của xác suất nghịch đảo của một chuỗi dài đặc trưng được chia bởi số các ký hiệu

trong chuỗi Kết quả tương tự đúng với bất kỳ nguồn nào Nói chính xác hơn ta có (xem Phụ lục 3):

Trang 14

Định lí 3: Cho bất kỳ² > 0vàδ > 0, chúng ta có thể tìm thấy một N0sao cho các chuỗi có độ dài bất

kỳN ≥ N0thuộc vào hai loại sau:

1 Một tập hợp mà tổng xác suất của nó nhỏ hơn².

2 Phần dư, tất cả các tập mà phần tử của nó có xác suất thỏa mãn bất đẳng thức:

Nói cách khác, chúng ta hầu như chắc chắn nhận được log p −1

N tiến gần tới H với N đủ lớn.

Một kết quả quan hệ mật thiết khác tính đến số các dãy với xác suất khác nhau Xem xét lại các dãy có

chiều dài N và sắp xếp chúng theo thứ tự giảm dần của xác suất Chúng ta định nghĩa n(q) là số mà chúng ta

sẽ lấy từ tập này bắt đầu với cái có khả năng xảy ra cao nhất để lũy tiến một xác suất tổng q cho những cái

Chúng ta có thể xem log n(q) là số bit cần thiết để xác định chuỗi khi chúng ta chỉ xem xét các chuỗi

có khả năng xảy ra nhất với một xác suất tổng q Khi đó log n(q)

N là số bit trên ký hiệu để xác định được

lại chuỗi Định lí phát biểu rằng với một số N lớn, nó sẽ độc lập với q và bằng với H Tốc độ tăng của hàm logarit của số các chuỗi có khả năng xảy ra được cho bởi H, bất luận các giải thích của chúng ta về “khả

năng xảy ra” Theo kết quả này, được chứng minh ở Phụ lục 3, hoàn toàn có thể, cho hầu hết các mục đích,xem xét các chuỗi dài mặc dù chỉ có 2HNtrong số đó với mỗi cái có xác suất 2−HN

Hai định lí tiếp theo chỉ ra rằng H và H 0có thể được xác định bằng cách hạn chế các phép toán trực tiếp

từ thống kê các chuỗi bản tin, mà không tham chiếu tới các trạng thái và xác suất chuyển đổi giữa các trạngthái

Định lí 5: Chop(B i)là xác suất của chuỗi ký hiệuB ilấy từ một nguồn Cho

Định lí 6: Chop(B i , S j)là xác suất của chuỗiB itheo sau bởi ký hiệuS jvàp B i (S j ) = p(B i , S j )/p(B i)

là xác suất có điều kiện củaS jsauB i Cho

F N = −∑

i, j

p(B i , S j ) log p B i (S j)

trong đó tổng tính trên tất cả các khốiB igồmN − 1ký hiệu và trên tất cả các ký hiệuS j Khi đó hàmF N

đơn điệu giảm theoN,

Trang 15

Các kết quả này được dẫn ra từ trong Phụ lục 3 Chúng cho thấy một dãy các xấp xỉ đến H có thể nhận được bằng cách chỉ xem cấu trúc thống kê của các chuỗi trải trên toàn bộ 1, 2, , N ký hiệu F N là xấp xỉ

tốt hơn Trên thực tế F N chính là entropy của xấp xỉ bậc N với nguồn thuộc loại đã được nghiên cứu ở trên Nếu không có các ảnh hưởng thống kê trải trên nhiều hơn N ký hiệu, nghĩa là nếu xác suất có điều kiện của

ký hiệu tiếp theo khi biết N − 1 ký hiệu trước đó sẽ không bị thay đổi bởi hiểu biết về bất kỳ cái gì trước đó, khi đó F N = H F N rõ ràng là entropy có điều kiện của ký hiệu tiếp theo khi N − 1 ký hiệu trước đó đã được biết, trong khi G N là entropy theo ký hiệu của các khối gồm N ký hiệu.

Tỉ số của entropy của nguồn với giá trị cực đại nó có thể có trong khi vẫn giới hạn với các ký hiệu giống

nhau được gọi là entropy tương đối Đây là mức nén tối đa có thể khi chúng ta mã hóa sang cùng một bộ chữ cái Lấy 1 trừ đi entropy tương đối sẽ là phần dư thông tin (redundancy) Phần dư của tiếng Anh chuẩn,

không xem xét tới cấu trúc thống kê trên các khoảng cách lớn hơn 8 chữ cái, thì xấp xỉ 50% Điều này nghĩa

là, khi chúng ta viết tiếng Anh, một nửa những gì chúng ta viết được xác định bởi cấu trúc của ngôn ngữ vànửa còn lại thì được lựa chọn tự do Con số 50% được tìm thấy bởi vài phương pháp độc lập mà tất cả đềucho một kết quả sát nhau Một là bằng cách tính entropy của xấp xỉ tới tiếng Anh Phương pháp thứ hai làxóa một phần nào đó các chữ cái từ một đoạn văn bản mẫu tiếng anh và đưa cho ai đó cố gắng khôi phục lại

nó Nếu nó có thể được khôi phục khi mà 50% đã bị xóa mất thì phần dư thông tin chắc hẳn sẽ lớn hơn 50%.Phương pháp thứ ba phụ thuộc và một số kết quả đã biết đến trong mật mã

Hai điểm cực trong dư thông tin ở văn xuôi của tiếng Anh được trình bày trong “Tiếng anh cơ bản” vàtrong sách của James Joyce “Finnegans Wake” Từ vựng tiếng Anh cơ bản được giới hạn tới 850 từ và phần

dư thông tin rất cao Điều này được phản ánh trong phần mở rộng khi một đoạn văn được dịch sang tiếngAnh chuẩn Joyce mặt khác mở rộng từ vựng và được cho là đã đạt đến được một bản nén về nội dung ngữnghĩa

Dư thông tin của một ngôn ngữ liên quan đến sự tồn tại của trò chơi ô chữ Nếu mà dư thông tin là 0 bất

kỳ dãy chữ cái nào cũng là một văn bản hợp lý trong ngôn ngữ và bất kỳ mảng hai chiều các chữ cái nàocũng hình thành một ô đố chữ Nếu dư thông tin quá lớn, ngôn ngữ đặt ra quá nhiều hạn chế cho các ô đốchữ lớn để có thể giải được Một phân tích chi tiết đã chỉ ra rằng nếu chúng ta giả thiết các ràng buộc dongôn ngữ áp đặt này có bản chất ngẫu nhiên và lộn xộn, các ô đố chữ lớn chỉ có thể giải được khi dư thôngtin là 50% Nếu dư thông tin là 33% thì các ô đố chữ 3 chiều cũng có thể giải được v.v

8 BIỂU DIỄN CÁC THAO TÁCMÃ HOÁ VÀGIẢI MÃChúng ta chưa biểu diễn một cách toán học các thao tác thực hiện bởi máy phát và máy thu trong quá trình

mã hoá và giải mã thông tin Cả hai máy này đều được gọi là máy biến năng rời rạc Đầu vào của máy biếnnăng là chuỗi ký hiệu vào và đầu ra là một chuỗi ký hiệu ra Máy biến năng có thể có một bộ nhớ trong đểđầu ra phụ thuộc không chỉ vào ký hiệu vào hiện tại mà còn phụ thuộc vào các ký hiệu vào trước đó Chúng

ta giả định rằng bộ nhớ trong là hữu hạn, nghĩa là, tồn tại một số hữu hạn m trạng thái khả dĩ của máy biến

năng, và đầu ra là một hàm của trạng thái hiện tại và ký hiệu đầu vào hiện tại Trạng thái kế tiếp sẽ là mộthàm thứ hai của hai đại lượng này Do đó, một máy biến năng có thể được biểu diễn bởi hai hàm:

y n = f (x n , α n)

α n+1 = g(x n , α n)trong đó

x n là ký hiệu vào thứ n,

α n là trạng thái của máy biến năng khi nhận ký hiệu vào thứ n

y n là ký hiệu ra (hoặc chuỗi ký hiệu ra) được tạo ra khi x n được đặt ở đầu vào nếu trạng thái là α n

Nếu các ký hiệu ra của một máy biến năng có thể được dẫn vào một máy biến năng thứ hai, chúng có thểghép nối tiếp với nhau, và kết quả thu được cũng sẽ là một máy biến năng Nếu tồn tại một máy biến năngthứ hai hoạt động ngay trên đầu ra của máy biến năng đầu và phục hồi lại đầu vào gốc, thì máy thứ nhất đượcgọi là không suy biến và máy thứ hai sẽ được gọi là nghịch đảo của máy thứ nhất

Trang 16

Định lí 7: Đầu ra của một máy biến năng trạng thái hữu hạn được điều khiển bởi một nguồn thống kêtrạng thái hữu hạn là một nguồn thống kê có trạng thái hữu hạn, có entropy (trong một đơn vị thời gian) nhỏhơn hoặc bằng entropy của đầu vào Nếu máy biến năng không suy biến, thì chúng bằng nhau.

Gọi α là trạng thái của nguồn tạo ra chuỗi ký hiệu x i ; và gọi β là trạng thái của máy biến năng tạo ra các khối ký hiệu y jtại đầu ra của nó Hai hệ thống được kết hợp và biểu diễn bằng một “không gian trạng thái

tích” của cặp (α, β) Hai điểm trong không gian này (α1, β1) và (α2, β2), được nối bởi một đường thẳng nếu

α1có thể tạo ra một giá trị x mà thay đổi β1thành β2, và đường thẳng này được cho xác suất của giá trị x

đó trong trường hợp này Đường thẳng được gán với khối ký hiệu y jtạo ra bởi máy biến năng Entropy của

đầu ra có thể được tính bởi tổng trọng số của tất cả các trạng thái Nếu chúng ta tính tổng của β trước tiên, mỗi kết quả thu được sẽ nhỏ hơn hoặc bằng tổng tương ứng của α, bởi vì entropy không tăng Nếu máy biến năng không suy biến, chúng ta nối đầu ra với máy biến năng nghịch đảo Giả sử H 0

đồ thị tuyến tính ở Hình 2 Nếu các xác suất p (s) i j được gán cho các đường thẳng nối trạng thái i đến trạng thái j, hệ thống này sẽ trở thành một nguồn Có một cách gán đặc biệt để cực đại hoá entropy thu được (xem

Bằng cách gán giá trị thích hợp cho các xác suất chuyển đổi, entropy các ký hiệu trên một kênh truyền

có thể đạt giá trị cực đại bằng với dung lượng kênh

9 ĐỊNH LÍ CƠ BẢN CHO KÊNH TRUYỀN KHÔNG CÓ NHIỄU

Bây giờ chúng ta sẽ chứng minh cách diễn giải H của chúng ta như là tốc độ sinh ra thông tin bằng cách chứng minh rằng H xác định dung lượng kênh truyền được yêu cầu với hầu hết các mã hoá hiệu quả.

Định lí 9: Gọi một nguồn có entropyH (bit trên ký hiệu)và một kênh truyền có dung lượngC (bit trên

giây) Khi đó, chúng ta có thể mã hoá đầu ra của nguồn theo một cách để truyền với tốc độ trung bìnhC

H − ²

ký hiệu trên giây trên một kênh truyền mà²nhỏ tùy ý Ta không thể truyền với tốc độ trung bình lớn hơnC

H.

Phần đảo của định lí nói rằngC

H không thể bị vượt qua, có thể được chứng minh nhờ vào nhận xét entropy

của đầu vào của kênh truyền trên một giây bằng với giá trị đó của nguồn, bởi vì máy phát phải không suy

biến, và ngoài ra entropy này không được vượt quá dung lượng kênh truyền Do đó H 0 ≤ C và số ký hiệu

trên một giây = H 0 /H ≤ C/H.

Phần đầu của định lí sẽ được chứng minh theo hai cách Cách thứ nhất là xem xét một tập hợp tất cả các

chuỗi N ký hiệu sinh bởi nguồn Với N lớn, chúng ta có thể chia tập này thành hai nhóm, một chứa ít hơn

2(H+ η )Nphần tử và nhóm thứ hai chứa ít hơn 2RN phần tử (ở đó R là logarít của số các ký hiệu khác nhau) và

có xác suất tổng nhỏ hơn µ Khi N tăng, η và µ tiến gần đến 0 Số tín hiệu có khoảng thời gian T trên kênh

truyền lớn hơn 2(C− θ )T với θ nhỏ khi mà T lớn Nếu chúng ta chọn

Trang 17

thì sẽ có một số lượng đủ các chuỗi ký hiệu kênh cho nhóm xác suất cao khi mà N và T đủ lớn (cho dù λ

nhỏ), ngoài ra còn có thêm vài chuỗi phụ khác Nhóm xác suất cao được mã hoá bằng một ánh xạ một-mộtbất kì vào trong tập hợp này Các chuỗi còn lại được biểu diễn bằng các chuỗi lớn hơn, bắt đầu và kết thúcbởi một trong những chuỗi không được dùng trong nhóm xác suất cao Chuỗi đặc biệt này dùng như tín hiệukhởi đầu và kết thúc cho một mã khác Giữa đó sẽ có thời gian đủ cho phép các chuỗi đủ khác nhau cho mọibản tin xác suất thấp Điều này yêu cầu

Một cách khác để tiến hành việc mã hoá này, và từ đó chứng minh định lí, có thể trình bày như sau: Sắp

xếp các bản tin có chiều dài N theo thứ tự xác suất giảm và giả sử xác suất của chúng là p1≥ p2≥ p3· · · ≥ p n

Đặt P s= ∑s−11 p i ; nghĩa là P s xác suất tích lũy tiến đến, nhưng không chạm, p s Trước tiên chúng ta mã hoá

thành một hệ thống nhị phân Mã nhị phân cho bản tin s thu được bằng cách khai triển P sthành một số nhị

phân Sự khai triển chiếm m s vị trí, trong đó m slà số nguyên thoả mãn:

Giá trị trung bình H 0của các số nhị phân sử dụng trong một ký hiệu của bản tin gốc có thể được ướclượng dễ dàng Chúng ta có

Khi N tăng, G N tiến tới H, entropy của nguồn, và H 0 tiến tới H.

Từ đây chúng ta thấy sự thiếu hiệu quả của mã hoá khi chỉ có một trễ hữu hạn của N ký hiệu được dùng,

yêu cầu không lớn hơn 1

N cộng với hiệu của entropy thực H và entropy G Nđược tính cho các chuỗi có chiều

dài N Phần trăm thời gian thừa so với thời gian cần thiết lí tưởng do đó nhỏ hơn

G N

1

HN − 1.

Trang 18

Cách mã hoá này về căn bản giống với cách được tìm ra độc lập bởi R M Fano.9Phương pháp của ông

là sắp xếp các bản tin chiều dài N theo thứ tự xác suất giảm dần Chia chuỗi này thành hai nhóm có xác suất

gần bằng nhau nhất có thể được Nếu bản tin nằm trong nhóm đầu, bit đầu tiên của nó là 0, ngược lại, là 1.Các nhóm được chia tương tự thành các tập con có xác suất gần bằng nhau và tập con riêng biệt xác địnhchữ số nhị phân thứ hai Quá trình tiếp tục cho đến khi mỗi tập con chỉ chứa một bản tin Dễ thấy rằng ngoạitrừ một số khác biệt nhỏ (thường ở chữ số cuối), cách này cho kết quả giống với tiến trình số học được mô tả

ở trên

10 THẢO LUẬN VÀ MỘT SỐ VÍ DỤ

Để đạt được công suất lớn nhất từ máy phát đến tải, cần đưa vào một máy biến thế để máy phát có một trởtải Tình huống ở đây cũng tương tự Máy biến năng thực hiện phần mã hoá cần làm cho nguồn phù hợp vớikênh truyền, theo nghĩa thống kê Nguồn, được nhìn thấy từ kênh truyền thông qua máy biến năng cần cócùng cấu trúc thống kê với nguồn tăng tối đa entropy trong kênh truyền Nội dung của Định lí 9 là, mặc dù

sự phù hợp hoàn toàn nói chung không thực hiện được, nhưng chúng ta có thể xấp xỉ với độ chính xác theo

ý muốn Tỉ số của tốc độ truyền trên dung lượng C có thể được gọi là hiệu suất của hệ thống mã hoá Tỉ số

này đương nhiên bằng với tỉ số giữa entropy thực sự của các kí hiệu kênh truyền trên entropy lớn nhất có thểđạt được

Nói chung, mã hoá lí tưởng hoặc gần lí tưởng đòi hỏi độ trễ lớn ở máy phát và máy thu Trong trườnghợp không có nhiễu như chúng ta đã xem xét ở trên, chức năng chính của độ trễ này là để cho phép tươngthích một cách phù hợp các xác suất với các độ dài chuỗi tương ứng Với một mã tốt, lô-ga-rít của xác suấttương hỗ của một bản tin dài phải tỉ lệ với thời gian của tín hiệu tương ứng Tóm lại

phải nhỏ cho tất cả các bản tin, ngoại trừ một phần nhỏ các bản tin dài

Nếu một nguồn chỉ có thể tạo ra một bản tin riêng biệt, entropy của nó bằng không, và không cần phải có

kênh truyền Ví dụ, một máy tính được thiết lập để tính các chữ số liên tiếp của π tạo ra một chuỗi xác định,

không có phần tử biến cố Không cần kênh truyền để “truyền” thông tin này đến một điểm khác Người ta

có thể chế tạo một máy thứ hai để tính toán cùng một dãy tại một điểm khác Tuy nhiên, điều này có thể phithực tế Trong một tình huống như vậy, chúng ta có thể chọn để bỏ qua một vài hoặc tất cả hiểu biết thống kê

về nguồn Chúng ta có thể xem rằng các chữ số của π là một chuỗi ngẫu nhiên, trong đó chúng ta xây dựng

một hệ thống có khả năng truyền bất kì chuỗi chữ số nào Bằng một cách tương tự, chúng ta có thể chọn sửdụng một vài trong những hiểu biết thống kê của tiếng Anh để xây dựng một mã, nhưng không phải tất cả.Trong trường hợp đó, chúng ta xem như nguồn có entropy cực đại thoả các điều kiện thống kê mà chúng tamong muốn giữ lại Entropy của nguồn này xác định dung lượng cần và đủ của kênh truyền Trong ví dụ về

π, thông tin duy nhất chúng ta giữ lại đó là các chữ số được chọn trong tập hợp 0, 1, , 9 Trong trường hợp

ngôn ngữ tiếng Anh, người ta có thể muốn dùng hiểu biết thống kê về tần số xuất hiện các chữ cái, ngoài

ra không còn gì khác Nguồn có entropy cực đại sẽ là xấp xỉ đầu tiên của tiếng Anh, và entropy của nó xácđịnh dung lượng cần thiết của kênh truyền

Dưới đây là một ví dụ đơn giản từ các kết quả trên Xét một nguồn tạo ra chuỗi các chữ cái được chọn

trong A, B, C, D với xác suất1

¢

=74bit trên ký hiệu.

Do đó chúng ta có thể xấp xỉ một hệ thống mã hoá để mã hoá các bản tin từ nguồn này thành các chữ số nhịphân, với trung bình 74chữ số trên một ký hiệu Trong trường hợp này, thực tế chúng ta có thể đạt được giá

9 Technical Report No 65, The Research Laboratory of Electronics, M.I.T., March 17, 1949.

Trang 19

trị giới hạn bằng mã sau (có được bằng phương pháp trong cách chứng minh thứ hai của Định lí 9):

Dễ thấy rằng các chữ số nhị phân 0, 1 có xác suất12,12do đó H cho chuỗi được mã hoá là một bit trên một

ký hiệu Bởi vì tính trung bình chúng ta có 74 ký hiệu nhị phân cho một chữ cái gốc, entropy tính theo thời

gian cũng như vậy Entropy khả dĩ cực đại cho tập hợp gốc là log 4 = 2, xảy ra khi A, B, C, D có các xác suất

1

4,1

4 Do đó entropy tương đối là 7

8 Chúng ta có thể dịch các chuỗi nhị phân này trở lại thành tập hợp

ký hiệu gốc theo chuẩn hai-một nhờ bảng sau:

Trong trường hợp đó, người ta có thể xây dựng một bộ mã bản tin khá tốt trên một kênh truyền 0, 1 bằng

cách gửi một chuỗi đặc biệt, ví dụ 0000, cho ký hiệu không thường xuyên A và sau đó một chuỗi biểu thị số

lượng B theo sau nó Điều này có thể được chỉ ra bằng biểu diễn nhị phân trong đó mọi số chứa chuỗi đặc

biệt sẽ bị xoá Mọi số, cho đến 16 được biểu diễn theo cách thông thường, riêng số 16 được biểu diễn bằng

số kế tiếp không chứa bốn số không liên tiếp, nghĩa là 17 = 10001, v.v

Có thể thấy rằng khi p → 0 mã hoá trên sẽ tiến đến lí tưởng với điều kiện độ dài của chuỗi đặc biệt được

điều chỉnh thích hợp

PHẦN II: KÊNH RỜI RẠC CÓ NHIỄU

11 BIỂU DIỄN CỦA KÊNH RỜI RẠC CÓ NHIỄUBây giờ ta xem xét trường hợp mà tín hiệu bị rối loạn bởi nhiễu trong quá trình truyền hay tại các thiết bịđầu cuối Có nghĩa là, tín hiệu thu không nhất thiết phải bằng tín hiệu phát ở máy phát Có thể phân ra thànhhai trường hợp: nếu một tín hiệu được truyền dẫn riêng biệt luôn tạo ra cùng một tín hiệu thu, hay tín hiệuthu là một hàm xác định của tín hiệu phát, khi đó ảnh hưởng có thể được gọi là méo dạng Nếu hàm này tồntại hàm ngược, nghĩa là không có hai tín hiệu phát nào tạo ra cùng một tín hiệu thu, thì méo dạng tín hiệu

có thể được sửa chữa, ít nhất về mặt lí thuyết, bằng việc thực hiện đơn thuần một quá trình ngược lại lên tínhiệu thu

Trang 20

Trường hợp cần quan tâm ở đây là trường hợp mà trong đó tín hiệu không phải luôn chịu cùng một thay

đổi trong quá trình truyền Trong trường hợp này, ta có thể giả thiết tín hiệu thu E là một hàm của tín hiệu phát S và một biến thứ hai, nhiễu N.

bởi nhiễu một cách độc lập, thì chỉ có một trạng thái của kênh, và kênh được mô tả bởi một tập các xác suất

chuyển đổi p i ( j), chính là xác suất phát đi ký hiệu i và nhận được ký hiệu j.

Nếu một kênh có nhiễu được cấp từ một nguồn có hai quá trình thống kê làm việc: nguồn và nhiễu Do

vậy, có một số entropy có khả năng tính được Thứ nhất, đó là entropy H(x) của nguồn hay entropy của đầu

vào kênh (các entropy này là bằng nhau nếu máy phát là không suy biến) Entropy của đầu ra của kênh, nghĩa

là tín hiệu thu, được kí hiệu là H(y) Trong trường hợp kênh không có nhiễu thì H(x) = H(y) Entropy đồng thời của đầu vào và đầu ra là H(xy) Cuối cùng, hai dạng entropy có điều kiện H x (y) và H y (x) là entropy của

đầu ra khi đã biết đầu vào và ngược lại Giữa các đại lượng này, ta có biểu thức quan hệ:

H(x, y) = H(x) + H x (y) = H(y) + H y (x).

Tất cả các entropy này có thể được đo theo đơn vị trên giây hoặc trên ký hiệu

12 ĐỘ MẬP MỜ VÀ DUNG LƯỢNG KÊNH

Nếu kênh có nhiễu, nói chung không thể khôi phục lại bản tin gốc hay tín hiệu phát với một độ tin cậy nào

đó bằng bất cứ cách xử lí nào trên tín hiệu thu E Tuy nhiên, vẫn có phương pháp phát thông tin tối ưu hóa

trong việc chống nhiễu Đây là vấn đề mà bây giờ chúng ta xem xét

Giả thiết có hai ký hiệu 0 và 1 được phát đi với tốc độ 1000 ký hiệu mỗi giây, xác suất phát là p0= p1=1

2

Do vậy, nguồn tin tạo thông tin với tốc độ 1000bit/giây Trong quá trình truyền thông tin, nhiễu tạo ra lỗi,trung bình cứ 100 bit nhận thì có một bit không chính xác (phát 0 nhận 1 hoặc phát 1 nhận 0) Vậy tốc độphát tin là bao nhiêu? Nói chung sẽ thấp hơn 1000bit/giây do có khoảng 1% ký hiệu thu được là không chínhxác Phản ứng đầu tiên của chúng ta có thể là: tốc độ truyền tin là 990 bit/giây, đơn thuần chỉ trừ đi số lỗiước tính có thể xảy ra Kết quả này là không hợp lí, do đã không tính tới khả năng phía thu không biết vịtrí xảy ra các lỗi Chúng ta có thể đưa nó vào trường hợp xấu nhất và giả thiết rằng nhiễu lớn tới mức các

ký hiệu thu hoàn toàn độc lập với các ký hiệu đã phát Xác suất thu được 1 là12 cho dù ký hiệu phát đi là 1hay 0, và cũng tương tự khi thu được ký hiệu 0 Do đó, có khoảng một nửa số ký hiệu thu được là chính xác

do cơ may độc lập, và chúng ta có thể đưa ra hệ thống truyền thông tin tin cậy với tốc độ 500bit/giây, trong

khi thực tế là không có thông tin nào được truyền đi Một truyền dẫn tốt có thể đạt được bằng việc gieo một

đồng xu xấp ngửa tại điểm thu mà không cần tính đến kênh truyền

Hiển nhiên, một hiệu chỉnh hợp lí đối với tổng lượng thông tin được truyền đi sẽ chính bằng lượng tin bịmất ở tín hiệu thu, hay chính là độ bất định về tín hiệu thực sự được phát khi ta biết tín hiệu thu Từ phần thảoluận trước của chúng ta về entropy như một đơn vị đo độ bất định, dường như cũng hợp lí nếu coi entropy

có điều kiện của bản tin, được biết đến như là tín hiệu thu, là độ đo của lượng thông tin bị tổn thất Đây quả

thực là một định nghĩa hợp lí, và sẽ được làm rõ dần về sau Theo ý tưởng đó, tốc độ truyền tin thực tế R có

thể thu được bằng cách lấy tốc độ phát tin (entropy của nguồn) trừ đi tốc độ trung bình của entropy có điềukiện

R = H(x) − H y (x) Entropy có điều kiện H y (x), để ngắn gọn, sẽ được gọi là độ mập mờ (equivocation) Nó đo lường sự

không rõ ràng tính theo trung bình của tín hiệu thu

Trang 21

Trong ví dụ ở trên, nếu bit thu được là 0 thì xác suất hậu nghiệm ứng với sự kiện bit 0 đã được phát đi là

0.99 và bit 1 đã được phát đi là 0.01 Các kết quả này ngược lại nếu bit thu được là 1 Do đó

H y (x) = −[0.99 log 0.99 + 0.01 log 0.01]

= 0.081 bit/ký hiệu hay 81bit/giây Ta có thể phát biểu rằng hệ thống đó truyền tin với tốc độ 1000−81 = 919 bít/s Trong trường

hợp xấu nhất, khi bit 0 đều có thể được thu như thể bit 0 hoặc 1, tương tự cho bit 1, thì xác suất hậu nghiệm

là12,12và

H y (x) = −£12log12+12log12¤

= 1 bit/ký hiệuhay 1000 bit/giây Tốc độ truyền tin do vậy bằng 0 như mong đợi

Định lí sau đây cho một cách hiểu trực giác về độ mập mờ và cũng dùng để chứng tỏ nó là đơn vị đolường thích hợp duy nhất Giả thiết có một hệ thống truyền tin và một người quan sát (hay thiết bị bổ trợ) cóthể quan sát cả tín hiệu được phát và được phục hồi (với các lỗi do nhiễu gây ra) Người quan sát này đánhdấu các lỗi trong bản tin đã được khôi phục và phát dữ liệu đi tới một điểm thu qua "kênh sửa lỗi" để chophép máy thu sửa các lỗi này Tình huống này được miêu tả bằng lược đồ như trên hình 8

DỰ LIỆU SỮA LỖI

Hình 8 — Lược đồ hệ thống sửa lỗi

Định lí 10: Nếu kênh sửa lỗi có dung lượng bằngH y (x), ta có thể mã hóa dữ liệu sửa lỗi để gửi qua kênhnày và hiệu chỉnh tất cả các lỗi, trừ một phần nhỏ tùy ý² Điều này là không thể nếu dung lượng kênh nhỏhơnH y (x)

Nói đại khái thì H y (x) là tổng thông tin bổ sung phải được cấp trong mỗi giây tại điểm thu nhằm sửa lại

bản tin thu

Để chứng minh phần thứ nhất, giả thiết có một số chuỗi dài trong bản tin thu M 0tương ứng với bản tin

gốc M Có thể tìm ra theo cách logarit T H y (x) bản tin nguồn M mà có khả năng tạo ra một cách hợp lí mỗi bản tin M 0 Do vậy ta có T H y (x) số nhị phân được gửi đi trong mỗi T giây Điều này có thể được thực hiện với tần số lỗi ² trên kênh có dung lượng H y (x).

Phần thứ hai được chứng minh như sau: với các biến xác suất rời rạc x,y, z bất kì ta có:

H y (x, z) ≥ H y (x).

Khai triển vế trái, ta có:

H y (z) + H yz (x) ≥ H y (x)

H yz (x) ≥ H y (x) − H y (z) ≥ H y (x) − H(z).

Trang 22

Nếu ta gán x là đầu ra nguồn tin, y là tín hiệu thu và z là tín hiệu truyền qua kênh sửa lỗi, thì vế phải chính

là độ mập mờ trừ đi tốc độ phát tín hiệu qua kênh sửa lỗi Nếu dung lượng kênh này nhỏ hơn độ bất định, vế

phải sẽ lớn hơn 0 và H yz (x) > 0 Nhưng đó lại là độ bất định của thông tin phát khi biết tín hiệu thu và tín

hiệu sửa lỗi Nếu độ mập mờ này lớn hơn 0, tần số lỗi sẽ không thể nhỏ tùy ý

Ví dụ:

Giả sử lỗi xảy ra ngẫu nhiên trong chuỗi số nhị phân; xác suất số nhị phân sai là p và đúng là q = 1− p.

Các lỗi này có thể sửa nếu biết vị trí Do vậy kênh sửa lỗi chỉ có nhiệm vụ truyền thông tin vị trí cáclỗi Vấn đề này chung quy lại cũng chỉ là truyền tín hiệu từ một nguồn tạo ra các số nhị phân với xác

suất truyền bit 1 là p (không chính xác) và bit 0 là q (chính xác) Do vậy dung lượng kênh cần thiết là

có mức quan trọng nhất định

Dung lượng kênh truyền có nhiễu C tốt nhất là bằng tốc độ truyền tin tối đa cho phép, nghĩa là, tốc độ

khi nguồn tin hoàn toàn phù hợp với kênh truyền Do đó ta có biểu thức tính dung lượng kênh:

C = Max¡H(x) − H y (x)¢

trong đó, phép toán Max ứng với mọi nguồn tin có thể dùng như đầu vào của kênh truyền Nếu kênh không

có nhiễu, H y (x) = 0 Định nghĩa do vậy sẽ tương đương với biểu thức cho kênh không nhiễu, vì entropy cực

đại với kênh truyền chính là dung lượng của nó

13 ĐỊNH LÍ CƠ BẢN CHO KÊNH RỜI RẠC CÓ NHIỄU

Có vẻ khá bất ngờ nếu ta phải định nghĩa dung lượng kênh C cho một kênh có nhiễu khi ta có thể không bao

giờ gửi được một thông tin nào đó trên kênh này Tuy nhiên rõ ràng là bằng cách gửi thừa thông tin, xác suấtlỗi có thể giảm được phần nào Ví dụ, bằng cách lặp đi lặp lại một bản tin nhiều lần, và nhờ vào nghiên cứuthống kê các phiên bản khác nhau của bản tin thu, xác suất lỗi có thể còn rất nhỏ Nếu người ta muốn xácsuất lỗi giảm về 0, độ dư trong thông tin phải tăng đến mức không xác định, và tốc độ truyền do đó tiến tới

0, điều này là hoàn toàn không thể Nếu có, ta sẽ không thể xác định cụ thể dung lượng kênh, mà chỉ xácđịnh được dung lượng ứng với một tần số lỗi cho trước, hay độ mập mờ cho trước; dung lượng kênh sẽ giảm

khi mà các yêu cầu về lỗi trở nên nghiêm ngặt hơn Thực tế dung lượng kênh C định nghĩa ở trên có tầm quan trọng rõ rệt Ta có thể truyền thông tin với tốc độ C qua kênh với tần số lỗi hay độ mập mờ mong muốn nhờ vào một mã hóa hợp lí Phát biểu này không đúng cho bất kỳ tốc độ nào lớn hơn C Nếu ta cố thử phát

đi với tốc độ lớn hơn C, giả dụ C + R1, thì sẽ cần thêm độ mập mờ lớn hơn hoặc bằng lượng vượt quá R1đó.Giá phải trả khi đòi hỏi một độ mập mờ quá cao như thế là ta thực sự không nhận được thông tin chính xác

có tốc độ cao hơn C.

Tình huống được miêu tả trên hình 9 Tốc độ truyền tin trên kênh được biểu thị theo chiều ngang và độmập mờ theo chiều dọc Bất kỳ điểm nào ở trên đường kẻ đậm trong vùng bóng là có thể đạt được còn nhữngđiểm ở phía dưới là không thể Các điểm nằm ngay trên đường đậm, nói chung, là không thực hiện được,thông thường trừ hai điểm trên đó là có thể

Các kết quả trên là các luận điểm chính cho định nghĩa dung lượng kênh C và sẽ được chứng minh ngay

sau đây

Trang 23

Định lí 11: Cho một kênh rời rạc có dung lượngCvà nguồn rời rạc có lượng entropy trên giây làH.

NếuH ≤ C, tồn tại một hệ mã hóa sao cho đầu ra của nguồn tin có thể được truyền trên kênh với tần số lỗi

nhỏ tùy ý (hay độ mập mờ nhỏ tùy ý) NếuH > C, ta có thể mã hóa nguồn sao cho độ mập mờ nhỏ hơn

H −C + ², trong đó ²nhỏ tùy ý Không có phương pháp mã hóa nào cho độ mập mờ nhỏ hơnH −C.

Phương pháp chứng minh phần thứ nhất của định lí không phải bằng việc chỉ ra một phương pháp mãhóa có các đặc tính mong muốn, mà phải chứng minh rằng tồn tại một mã như thế trong một nhóm mã nào

đó Trên thực tế, ta sẽ lấy trung bình tần số lỗi trên nhóm mã này và chỉ ra số trung bình đó có thể nhỏ hơn

VÙNG ĐẠT ĐƯỢC

H y (x)

Đ D

C=1.0

Hình 9 — Độ mập mờ có thể tương ứng với entropy đầu vào cho trước của một kênh truyền

² Nếu trung bình cộng của một tập hợp nhỏ hơn ², thì phải tồn tại ít nhất một thành phần nhỏ hơn ² Điều

này sẽ thiết lập kết quả mong muốn

Dung lượng C của một kênh truyền có nhiễu đã được định nghĩa như sau:

C = Max¡H(x) − H y (x)¢trong đó x là đầu vào, còn y là đầu ra kênh Cực đại được tính trên tất cả các nguồn mà có thể được sử dụng

như đầu vào của kênh

Cho S0là một nguồn tin mà cho phép đạt dung lượng kênh cực đại C Nếu không tồn tại nguồn tin nào thỏa mãn điều kiện này, khi đó S0được giả thiết là nguồn tin cho tốc độ xấp xỉ tốc độ cực đại Giả thiết S0được dùng như đầu vào kênh Ta xét các chuỗi có thể được phát và thu trong khoảng thời gian T Các luận

điểm sau đây là đúng:

1 Các chuỗi phát này thuộc 2 nhóm, một nhóm có xác suất cao gồm khoảng 2T H(x) phần tử và nhómgồm các chuỗi còn lại có tổng xác suất nhỏ

2 Tương tự, các chuỗi thu gồm tập hợp xác suất cao của khoảng 2T H(y)phần tử và tập hợp xác suất thấpcủa các chuỗi còn lại

3 Mỗi chuỗi đầu ra có xác suất cao có thể được tạo ra từ khoảng 2T H y (x)đầu vào Xác suất của tất cả cáctrường hợp khác là nhỏ

Các đại lượng ² và δ hàm chứa trong từ "nhỏ” và "khoảng" trong các phát biểu trên tiến tới 0 vì chúng ta cho phép T đơn điệu tăng và S0xấp xỉ nguồn cực đại

Tình huống trên được đúc kết trong hình 10, trong đó các chuỗi đầu vào là các điểm bên trái và cácchuỗi đầu ra là các điểm bên phải Ta thấy hình quạt tạo bởi các đường xiên đặc trưng cho các nguyên nhân

có thể (ở đây ý nói các chuỗi đầu vào) ứng với một đầu ra nào đó

Bây giờ, giả thiết có một nguồn tin khác tạo ra thông tin ở tốc độ R với R < C Trong khoảng thời gian

T , nguồn này có 2 T Rbản tin xác suất cao Ta mong muốn liên kết các bản tin này với một lựa chọn các đầuvào kênh có thể nhằm đạt được một tần số lỗi nhỏ Chúng ta sẽ thiết lập mối liên kết này theo mọi cách có

thể (tuy nhiên, chỉ sử dụng các đầu vào thuộc nhóm xác suất cao được xác định bởi nguồn S0) và lấy trungbình tần số lỗi trên một lớp rộng các hệ thống mã hóa có thể Điều này tương tự như tính tần số lỗi cho một

liên kết ngẫu nhiên giữa các bản tin và các đầu vào kênh trong khoảng thời gian T Giả thiết một đầu ra y1được quan sát thấy Khi đó đâu là xác suất có nhiều hơn một bản tin trong tập các nguyên nhân có thể để tạo

ra y1 Có 2T Rbản tin được phân phối một cách ngẫu nhiên trên 2T H(x)điểm Do đó, xác suất để một điểmnào đó là một bản tin bằng:

2T (R−H(x))

Trang 24

2H y (x)T

NGUYÊN NHÂN HỢP LÝ CHO MỖIE

2H x(y)T

KẾT QUẢ HỢP LÝ CHO MỖIM

Hình 10 — Lược đồ đặc trưng mối quan hệ giữa đầu vào và đầu ra trên một kênh truyền

Xác suất không có điểm nào trong hình quạt giấy đóng vai trò bản tin phát (ngoại trừ bản tin gốc thực sự) là

Do vậy xác suất có một lỗi tiến tới 0 và phần đầu của định lí được chứng minh

Phần thứ hai của định lí dễ dàng được chứng minh bằng cách để ý rằng ta có thể đơn thuần gửi đi C bit

trong 1 giây từ một nguồn và hoàn toàn bỏ mặc phần còn lại của thông tin được tạo ra Tại máy thu, phần bỏ

mặc đó cho một độ mập mờ H(x) − C còn phần đã phát chỉ cần cộng thêm vào ² Giới hạn này có thể đạt

được theo nhiều cách khác nhau, và sẽ được chứng minh khi chúng ta xét đến trường hợp liên tục

Phát biểu cuối của định lí chỉ là một hệ quả đơn giản của định nghĩa dung lượng kênh C Giả thiết ta

có thể mã hóa nguồn với H(x) = C + a sao cho thu được một độ mập mờ H y (x) = a − ² với ² dương Vậy

R = H(x) = C + a và

H(x) − H y (x) = C + ² với ² dương Biểu thức này mâu thuẫn với định nghĩa của C như một cực đại của H(x) − H y (x).

Thực ra, ta đã chứng minh được nhiều hơn những gì phát biểu trong định lí Nếu trung bình cộng của

một tập hợp nằm trong khoảng ² của giá trị cực đại của chúng, nhiều nhất là √ ² phần tử là có thể lớn hơn

√

² dưới giá trị cực đại (có lẽ hiểu rằng số trung bình cộng nằm trong khoảng max − √ ² và max - ND) Do

² nhỏ tùy ý, ta có thể phát biểu rằng hầu hết mọi hệ thống đều gần một cách tùy ý với trường hợp lí tưởng.

Trang 25

14 THẢO LUẬNPhần luận chứng của định lí 11, tuy không phải là một chứng minh tồn tại thuần túy, lại chứa một số dạngkhuyết của các chứng minh như vậy Một nỗ lực nhằm đạt xấp xỉ tốt với mã hóa lí tưởng theo phương thứcchỉ ra trong phần chứng minh nhìn chung là không thể thực hiện được Thật ra, ngoài một số trường hợp kháhiển nhiên và vài tình huống tới hạn nào đó, không tìm thấy một mô tả tường minh nào về những xấp xỉ vớitrường hợp lí tưởng Có thể đây không phải là sự khấp khểnh, nhưng nó lại liên quan tới sự khó khăn khi đưa

ra một xây dựng rõ ràng cho một xấp xỉ tốt tới một chuỗi ngẫu nhiên

Một xấp xỉ tới trường hợp lí tưởng có thể có đặc tính sau: nếu tín hiệu bị thay đổi theo một cách hợp líbởi nhiễu, tín hiệu gốc vẫn có khả năng được khôi phục lại Nói cách khác, sự biến đổi này sẽ không khiến

nó gần giống so với một tín hiệu hợp lí khác hơn là so với tín hiệu gốc Điều này được thực hiện với giá phảitrả là lượng dư thông tin trong mã hóa Độ dư thông tin phải được tạo ra theo cách thích hợp nhằm chốnglại một cấu trúc nhiễu có liên quan Tuy nhiên, bất kì độ dư nào của nguồn tin thường là có ích nếu nó đượclợi dụng tại điểm thu Đặc biệt, nếu nguồn có sẵn một độ dư nào đó, và nếu không có nỗ lực nào nhằm loại

bỏ nó để thích ứng với kênh truyền, thì độ dư này vẫn có thể giúp chống nhiễu Chẳng hạn, trong kênh điệnbáo không nhiễu, một hệ thống có thể rút ngắn 50% thời gian truyền nếu mã hóa hợp lí các bản tin Điềunày không được thực hiện và hầu hết độ dư thông tin trong ngôn ngữ tiếng anh lại giữ lại trong các kí hiệukênh Tuy nhiên, điều này cũng có ưu điểm là cho phép nhiễu đáng kể trên kênh truyền Một lượng lớn cácchữ cái thu được có lỗi vẫn có thể được khôi phục lại nhờ vào ngữ cảnh Trên thực tế, điều này có lẽ khôngphải là xấp xỉ tồi so với trường hợp lý tưởng trong nhiều trường hợp, bởi cấu trúc thống kê của anh ngữ kháphức tạp và các chuỗi anh ngữ hợp lí cũng không quá xa (theo nghĩa đòi hỏi của định lí) so với sự lựa chọnngẫu nhiên

Cũng như trong trường hợp không nhiễu, một độ trễ nói chung là cần thiết nhằm tiếp cận việc mã hóa lítưởng Nó giờ đây có thêm chức năng phụ cho phép một mẫu nhiễu lớn ảnh hưởng lên tín hiệu trước khi cócác cơ chế khôi phục bản tin gốc thực hiện tại điểm thu Tăng kích cỡ mẫu luôn làm tăng thêm các xác nhậnthống kê có thể

Nội dung của định lí 11 và phần chứng minh của nó có thể được phát biểu một cách khác biệt, cho thấy

sự kết nối với trường hợp không nhiễu một cách rõ ràng hơn Xét các tín hiệu thực có độ dài T và giả thiết

một tập con của chúng được chọn để sử dụng Coi rằng tất cả tín hiệu trong tập con được sử dụng với xácsuất bằng nhau, và giả sử máy thu được thiết kế để lựa chọn, giống như tín hiệu gốc, một nguyên nhân có

khả năng nhất trong tập con, khi nhận được một tín hiệu bị xáo trộn Ta định nghĩa N(T, q) là con số tối đa

các tín hiệu có thể chọn cho tập con sao cho xác suất của một phiên dịch không chính xác là nhỏ hơn hoặc

bằng q.

Định lí 12: Lim

T →∞

log N(T, q)

T = C, vớiClà dung lượng kênh, với điều kiệnqkhác 0 hoặc 1.

Nói cách khác, không cần quan tâm cách thức đặt ra các giới hạn của độ tin cậy, ta có thể phân biệt một

cách chắc chắn trong khoảng thời gian T đầy đủ các bản tin để tương đương với CT bit, khi T đủ lớn Định

lí 12 có thể so sánh với định nghĩa dung lượng kênh không nhiễu trong mục 1

15 VÍ DỤ VỀ KÊNH RỜI RẠC VÀ DUNG LƯỢNG CỦA NÓXét một ví dụ đơn giản về kênh truyền rời rạc trong hình 11 Có 3 ký hiệu có thể xảy ra Ký hiệu thứ nhất

không bị ảnh hưởng bởi nhiễu Ký hiệu thứ hai và thứ ba, mỗi cái có xác suất p không bị nhiễu, và xác suất

q bị chuyển thành kí hiệu còn lại.

Ta có: (đặt α = −[p log p + q log q] và P và Q là xác suất sử dụng ký hiệu thứ nhất hay ký hiệu thứ hai)

Trang 26

p q q

KÝ HIỆU PHÁT

KÝ HIỆU NHẬN

Hình 11 — Ví dụ kênh truyền rời rạc

Với các giá trị trung gian của p, dung lượng kênh nằm giữa log 2 và log 3 Sự phân biệt giữa ký hiệu thứ

hai và thứ ba chứa một số thông tin nhưng không nhiều như trường hợp không nhiễu Ký hiệu thứ nhất được

sử dụng thường xuyên hơn ở một mức nào đó so với 2 ký hiệu còn lại chính nhờ vào khả năng miễn nhiễucủa nó

16 DUNG LƯỢNG KÊNH TRONG MỘT SỐ TRƯỜNG HỢP ĐẶC BIỆTNếu nhiễu tác động lên các ký hiệu liên tiếp nhau một cách độc lập, thì điều có thể được mô tả bởi một tập

các xác suất chuyển đổi p i j Đó là xác suất ký hiệu j sẽ được thu nếu ký hiệu được truyền đi là i Khi đó tốc

độ kênh truyền tối đa được cho bởi giá trị cực đại của biểu thức

Trang 27

Đây là hệ phương trình dùng để xác định giá trị cực đại của P i , với C được chọn sao cho ∑P i= 1 Giải hệ

trên ta có C sẽ là dung lượng kênh và P ilà các xác suất đúng cho các ký hiệu để đạt được dung lượng kênhnày

Nếu mỗi ký hiệu đầu vào có cùng tập xác suất trên các đường thẳng xuất phát từ nó, và điều tương tựcũng đúng với các ký hiệu đầu ra, thì dung lượng có thể được tính một cách dễ dàng, như ví dụ cho trong

hình 12 Trong trường hợp này H x (y) độc lập với phân phối xác suất trên các ký hiệu đầu vào, và được cho

1/2

1/21/21/21/2

1/6

1/61/61/3

1/31/31/2

1/21/2

Hình 12 — Ví dụ kênh truyền rời rạc với cùng xác suất chuyển đổi cho mỗi đầu vào và đầu ra

bởi − ∑ p i log p i , trong đó p ilà các giá trị của các xác suất chuyển đổi từ bất kì ký hiệu đầu vào nào Dunglượng kênh là

Max£H(y) − H x (y)¤= Max H(y) +∑p i log p i

Cực đại của H(y) rõ ràng bằng log m trong đó m là số ký hiệu đầu ra, bởi ta có khả năng làm cho chúng xảy

với cùng một xác suất bằng cách làm các kí hiệu đầu vào đồng xác suất Dung lượng kênh do đó bằng

C = log m +∑p i log p i

Trong hình 12a nó sẽ là

C = log 4 − log 2 = log 2.

Điều này đạt được bằng cách chỉ dùng ký hiệu thứ nhất và thứ ba Trong hình 12b

C = log 4 −23log 3 −13log 6

= log 4 − log 3 −13log 2

Trang 28

n là C n(bit/giây) khi ta chỉ sử dụng các ký hiệu thuộc nhóm này Lúc đó, dễ dàng chứng minh rằng, để sử

dụng một cách hiệu quả nhất toàn bộ tập hợp, xác suất tổng P n của tất cả các ký hiệu trong nhóm thứ n nên

17 MỘT VÍ DỤ VỀ MÃ HÓA HIỆU QUẢ

Ví dụ sau đây, mặc dù ở một góc độ nào đó là không thực tế, chỉ một trường hợp trong đó thích ứng chínhxác với kênh truyền có nhiễu là có thể Có hai ký hiệu kênh là 0 và 1, nhiễu tác động lên chúng theo các khối

7 ký hiệu Một khối 7 ký hiệu này hoặc truyền không lỗi, hoặc chính xác một trong 7 ký hiệu bị lỗi Támkhả năng này gần như là bằng nhau Ta có

C = Max£H(y) − H x (y)¤

=17£7 +88log18¤

=47bit/ký hiệu.

Một mã hóa hiệu quả cho phép sửa hoàn toàn các lỗi và truyền đi với tốc độ C được cho như sau: (được tìm

ra nhờ vào một phương pháp của R.Hamming):

Cho một khối 7 ký hiệu X1, X2, , X7, trong đó X3, X5, X6và X7là những ký hiệu bản tin và được chọntùy ý từ nguồn tin Ba ký hiệu còn lại dùng làm phần dư và được tín như sau:

SỰ TĂNG TIẾN SỐ LƯỢNG CỦA CÁC KHỐI TRONG CÁC KÝ HIỆU VỚI ĐIỀU KIỆN TRẠNG THÁI HỮU HẠN

Coi N i (L) là số lượng của các khối trong các ký hiệu với chiều dài L được kết thúc ở trạng thái i Ta có

Trang 29

Để có được phương trình này, định thức sau phải triệt tiêu:

và điều này xác định W , giá trị nghiệm thực lớn nhất khi D = 0.

Do vậy đại lượng C được tính bằng

= A(n) Từ điều kiện (3) chúng ta có thể phân tích một tùy chọn từ s mcác khả năng có

thể tương đương thành một chuỗi của m giá trị tùy chọn từ s các khả năng có thể tương đương và nhận được

¯

¯ < ²

với ² nhỏ tùy ý Giờ đây, từ tính đơn điệu của A(n),

A(s m ) ≤ A(t n ) ≤ A(s m+1)

mA(s) ≤ nA(t) ≤ (m + 1)A(s).

Vậy thì chia cho nA(s),

m

A(t) A(s) ≤

¯

¯ < 2² A(t) = K logt

với K phải là số dương để thỏa mãn điều kiện (2).

Bây giờ, giả thiết chúng ta có một tùy chọn từ n khả năng với xác suất tương xứng với p i= n i

Định dạng
Số trang	59
Dung lượng	445,7 KB

Nguyên Lý Toán Học Về Truyền Tin

DUNG LƯỢNG KÊNH TRUYỀN LIÊN TỤC

Dịch và biên soạn bởi VNTelecom