Trong bài báo này, chúng tôi sẽ mở rộng thêm lý thuyết đó bao gồm một số các yếu tố mới, đặc biệt là về tác động của nhiễu trên kênh và những tiết kiệm có thể đạt được nhờ cấu trúc thống
Trang 1Dịch và biên soạn từ Tạp chí kỹ thuật của Bell System, bởi nhóm VNTelecom (http://vntelecom.org)
Tập 27, trang 379-423, 623-656, tháng Bảy, năm 1948
NGUYÊN LÝ TOÁN HỌC VỀ TRUYỀN TIN
C E SHANNON
MỞ ĐẦU
Sự phát triển gần đây của một loạt các phương pháp điều chế như PCM (Pulse Code Modulation - Điều chế
mã xung - ND) và PPM (Pulse Position Modulation - Điều chế vị trí xung - ND) đánh đổi độ rộng băng tínhiệu lấy tỷ số tín hiệu trên nhiễu đã làm tăng mạnh mẽ mối quan tâm về một nguyên lý truyền tin tổng quát.Một cơ sở cho một lý thuyết như thế nằm trong các bài báo quan trọng của Nyquist1và Hartley2về vấn đềnày Trong bài báo này, chúng tôi sẽ mở rộng thêm lý thuyết đó bao gồm một số các yếu tố mới, đặc biệt là
về tác động của nhiễu trên kênh và những tiết kiệm có thể đạt được nhờ cấu trúc thống kê của bản tin gốccũng như nhờ bản chất của đích đến cuối cùng của thông tin
Vấn đề cơ bản của truyền tin là vấn đề tái tạo lại, hoặc chính xác hoặc gần đúng, tại một điểm này một
bản tin đã được chọn ra ở một điểm khác Thường thường thì các bản tin có nghĩa; nghĩa là chúng liên quan
hoặc có quan hệ tương ứng tới một số hệ thống với các thực thể vật lý hoặc khái niệm nào đó Các khía cạnhngữ nghĩa này của việc truyền tin thì không liên quan tới vấn đề kỹ thuật Khía cạnh có ý nghĩa quan trọng
là chuyện bản tin thực sự thì được chọn ra từ một tập các bản tin khả dĩ Hệ thống nhất thiết phải được thiết
kế để làm việc đối với từng lựa chọn khả dĩ chứ không chỉ với mỗi một cái mà nó sẽ thực sự được lựa chọnbởi vì điều này là không biết được vào lúc thiết kế
Nếu số các bản tin trong tập là hữu hạn thì con số này hay bất kỳ một hàm đơn điệu nào của số này đều
có thể được xem như một độ đo của thông tin được tạo ra khi một bản tin được chọn ra từ tập đó, với tất cảcác lựa chọn đều có khả năng như nhau Như đã được Hartley chỉ ra, lựa chọn tự nhiên nhất (về hàm số đơnđiệu hình thành nên độ đo - ND) là hàm logarit Mặc dù định nghĩa này nhất thiết phải được tổng quát hoámột cách rõ ràng khi chúng ta xem xét ảnh hưởng của các số liệu thống kê của bản tin đó hay khi ta có mộtdải liên tục các bản tin Trong mọi trường hợp chúng ta sẽ vẫn sử dụng một độ đo về căn bản là một hàmlogarit
Độ đo logarit thuận tiện hơn do một số lý do sau:
1 Về mặt thực tế thì nó hữu ích hơn Các thông số quan trọng về kỹ thuật như thời gian, độ rộng băng, sốcác rơ-le có xu hướng thay đổi tuyến tính theo logarit của số các khả năng Ví dụ như việc thêm mộtcái rơ-le vào một nhóm các rơ-le thì làm tăng gấp đôi số các trạng thái có thể có của nhóm các rơ-le
đó Cái đó cộng thêm 1 vào logarit cơ số 2 của số các trạng thái ấy Việc tăng gấp đôi thời gian sẽ gầnnhư bình phương số các bản tin khả dĩ, nói cách khác là tăng gấp đôi giá trị hàm logarit, vân vân
2 Nó gần gũi hơn với cảm nhận trực giác của chúng ta về một độ đo đúng đắn Điều này thì liên hệ gầngũi với mục (1) do chúng ta đo lường các thực thể một cách trực giác bằng việc so sánh tuyến tính vớicác chuẩn mực chung Ví dụ như ta cảm thấy rằng hai cái bìa đục lỗ thì có lẽ có gấp đôi dung lượng sovới một cái về phương diện lưu trữ thông tin, và hai kênh như nhau thì có gấp đôi dung lượng truyềntin so với một kênh
3 Nó thích hợp hơn về mặt toán học Nhiều phép toán giới hạn sẽ thật đơn giản nếu dùng hàm logaritsong nếu như ta dùng (trực tiếp) số các khả năng thì có lẽ phải cần đến những diễn giải khá lòng vòng.Việc chọn một cơ số logarit tương ứng với việc chọn một đơn vị đo thông tin Nếu cơ số 2 được sử dụng
thì các đơn vị có được có thể được gọi là các số nhị phân, hay vắn tắt hơn là các bit, một từ được đề xuất bởi
J W Tukey Một thiết bị với hai trạng thái ổn định, như một rơ-le hay một mạch tri-gơ, có thể trữ được một
bit thông tin N thiết bị như thế có thể lưu giữ N bit, do tổng số các trạng thái khả dĩ là 2 N và log2(2N ) = N.
1Nyquist, H., “Certain Factors Affecting Telegraph Speed,” Bell System Technical Journal, April 1924, p 324; “Certain Topics in Telegraph Transmission Theory,” A.I.E.E Trans., v 47, April 1928, p 617.
2Hartley, R V L., “Transmission of Information,” Bell System Technical Journal, July 1928, p 535.
Trang 2NGUỒN TẠP ÂM
Hình 1 — Sơ đồ khối của một hệ thống truyền tin tổng quát
Nếu cơ số 10 được sử dụng thì các đơn vị có thể gọi là các số thập phân Do
log2M = log10M/ log102
(Nếu cơ số logarit là 2 thì đơn vị đo thông tin là bit Nếu cơ số logarit là 10 thì đơn vị đo thông tin là Hartley
Nếu cơ số logarit là e thì đơn vị đo thông tin là nat (đọc là [neit])-ND).
Với thuật ngữ một hệ thống thông tin, chúng tôi muốn nói đến một hệ thống thuộc loại được chỉ ra bằng
sơ đồ khối trên hình vẽ 1 Hệ thống này về cơ bản gồm 5 phần sau:
1 Một nguồn tin tạo ra một bản tin hoặc một chuỗi các bản tin định truyền tới đầu cuối thu Bản tin có
thể có nhiều kiểu: (a) Một chuỗi các chữ cái như trong một bản điện tín trong hệ thống điện báo; (b)
Một đơn hàm theo thời gian f (t) như trong ra-đi-ô hay điện thoại; (c) Một hàm của thời gian và các biến khác như trong truyền hình đen-trắng — trong đó bản tin có thể xem như một hàm f (x; y,t) của hai toạ độ không gian và thời gian, cường độ sáng tại điểm (x; y) và thời gian t trên một phiến của đèn píc-cớp; (d) Hai hay nhiều hơn các hàm theo thời gian, ta hãy gọi là f (t), g(t), h(t) — là trường hợp
trong phát thanh "ba chiều" (lập thể) hay trong trường hợp khi hệ thống dự định dùng để phục vụ một
số kênh riêng lẻ trong ghép kênh; (e) Một số hàm nhiều biến — trong truyền hình màu thì bản tin gồm
3 hàm f (x; y,t), g(x; y,t), h(x : y,t) xác định trong một tập vô hạn (continuum) ba chiều — ta cũng có
thể xem ba hàm này như thể các thành phần của một trường véc-tơ xác định trong một miền — tương
tự vậy, một số nguồn tivi đen-trắng có lẽ cũng tạo ra các "bản tin" gồm một số các hàm ba biến; (f)Các bản tin hỗn hợp cũng có thể xảy ra, ví dụ như trong truyền hình có kênh âm thanh đi kèm
2 Một máy phát xử lý bản tin theo một số cách nhằm tạo ra một tín hiệu thích hợp với việc truyền đi
trên kênh Trong điện thoại thì thao tác này chỉ đơn thuần gồm việc biến đổi áp suất âm thanh thànhmột dòng điện tỷ lệ với áp suất âm thanh Trong điện báo, chúng ta có một thao tác mã hoá cho ra mộtdãy các chấm, gạch và dấu cách trên kênh tương ứng với bản tin Trong một hệ thống PCM có ghépkênh, các hàm tiếng nói khác nhau nhất thiết phải được lấy mẫu, nén, lượng tử hoá rồi mã hoá và cuốicùng thì được ghép xen nhau một cách đúng đắn nhằm tạo ra tín hiệu Các hệ thống mã hoá nguồnphát thanh, truyền hình và phát thanh điều tần (phát thanh FM) là những ví dụ khác về các thao tácphức tạp được áp dụng với các bản tin để có được tín hiệu
3 Kênh đơn thuần chỉ là môi trường được sử dụng để truyền tín hiệu từ máy phát tới máy thu Nó có thể
là một đôi dây xoắn, một cáp đồng trục, một dải các tần số vô tuyến, một chùm sáng, vân vân
Trang 34 Máy thu tuần tự thực hiện các thao tác ngược với các thao tác đã được thực hiện bởi máy phát nhằm
tái tạo lại bản tin từ tín hiệu
5 Đích đến là con người (hoặc vật) mà bản tin định truyền đến.
Chúng tôi muốn xem xét các vấn đề tổng quát nhất định, liên quan tới hệ thống truyền tin Để làm đượcđiều này trước hết cần biểu diễn các phần tử liên quan khác nhau dưới dạng các thực thể toán học được lýtưởng hoá một cách phù hợp từ hai bộ phận vật lý tương ứng của chúng Chúng ta có thể phân loại thô các
hệ thống thông tin thành ba loại chính: rời rạc, liên tục và hỗn hợp Nói một hệ thống rời rạc là chúng tôi
muốn nói đến một hệ thống mà trong chúng cả bản tin lẫn tín hiệu đều là một chuỗi các ký tự (symbol) rời
rạc Một trường hợp tiêu biểu là điện báo trong đó bản tin là một chuỗi các chữ cái còn tín hiệu là một chuỗicác chấm, gạch và dấu cách Một hệ thống liên tục là một hệ thống trong đó cả bản tin lẫn tín hiệu đều được
xử lý như các hàm liên tục, như ra-đi-ô hay tivi chẳng hạn Một hệ thống hỗn hợp là hệ thống trong đó cảcác biến liên tục lẫn rời rạc đều có, ví dụ như truyền tiếng nói PCM
Trước hết, chúng tôi sẽ xem xét trường hợp rời rạc Trường hợp này có các ứng dụng không chỉ trong lýthuyết truyền tin mà còn cả trong lý thuyết máy tính, trong thiết kế các tổng đài điện thoại và các lĩnh vựckhác nữa Ngoài ra, trường hợp rời rạc hình thành nên một nền tảng cơ sở cho các trường hợp liên tục cũngnhư hỗn hợp, sẽ được đề cập đến trong nửa sau của bài báo
PHẦN I: HỆ THỐNG RỜI RẠC KHÔNG NHIỄU
1 KÊNH TRUYỀN RỜI RẠC KHÔNG NHIỄUĐiện báo và điện tín là hai ví dụ đơn giản của một kênh rời rạc để truyền thông tin Một cách tổng quát, mộtkênh rời rạc sẽ có nghĩa là một hệ thống trong đó một chuỗi các lựa chọn từ một tập hữu hạn các ký hiệu
nguyên tố S1, , S n có thể được truyền từ một điểm này đến điểm khác Mỗi ký hiệu S iđược giả định là có
độ dài t i giây nào đó (không nhất thiết giống nhau cho các ký hiệu S ikhác nhau, chẳng hạn như các chấm
và gạch trong điện tín) Cũng không yêu cầu tất cả các chuỗi khả dĩ của các ký hiệu S icó thể được truyềntrên hệ thống; chỉ một số chuỗi đã biết mới có thể được cho phép Đây sẽ có thể là những tín hiệu cho kênhtruyền Do đó trong điện báo, giả sử các ký hiệu: (1) Một chấm tạo bởi một đường đóng trong một đơn vịthời gian và sau đó là một đường mở trong cùng một đơn vị thời gian; (2) Một gạch dài tạo bởi ba đơn vịthời gian đóng và một đơn vị thời gian mở; (3) Một dấu cách ký tự tạo bởi ba đơn vị đường mở; (4) dấu cách
từ tạo bởi sáu đơn vị đường mở Chúng ta có thể đặt ra giới hạn đối với các chuỗi cho phép như không cókhoảng trống liên tiếp (đối với hai dấu cách ký tự kề nhau, nó cũng hoàn toàn tương đương với một dấu cáchtừ) Câu hỏi chúng ta quan tâm bây giờ là làm thế nào để đo được dung lượng của một kênh truyền tin nhưvậy
Trong trường hợp điện báo, tất cả các ký hiệu đều có cùng một độ dài (về thời gian) và bất kỳ chuỗi nào
có 32 ký hiệu thì đều được phép, câu trả lời nói chung là dễ dàng Mỗi ký hiệu được đại diện bởi 5 bit thông
tin Nếu hệ thống truyền n ký hiệu trong một giây, một cách tự nhiên thì chúng ta cũng tìm được dung lượng kênh là 5n bit/giây Điều đó không có nghĩa là kênh điện báo luôn truyền thông tin ở tốc độ này Nó là tốc
độ tối đa có thể và tốc độ thực tế có đạt được tốc độ tối đa này hay không thì lại phụ thuộc vào nguồn tin màđưa thông tin vào kênh, như sẽ được xem xét ở phần sau
Trong các trường hợp chung với các độ dài ký hiệu khác nhau cũng như các ràng buộc khác nhau trêncác chuỗi cho phép, chúng ta đưa ra định nghĩa sau :
Định nghĩa: Dung lượng C của một kênh rời rạc được cho bởi:
C = Lim
T →∞
log N(T )
T
trong đó N(T ) là số tín hiệu cho phép có độ dài T
Có thể dễ dàng nhận ra rằng trong trường hợp điện báo, công thức này đưa đến kết quả trước đó Cũng
dễ thấy giới hạn cần tìm sẽ tồn tại như một số hữu hạn trong hầu hết các trường hợp nghiên cứu Giả sử tất
cả các chuỗi ký hiệu S1, , S n đều được phép truyền và các ký hiệu này có độ dài t1, ,t n Dung lượng của
Trang 4kênh trong trường hợp này là bao nhiêu? Nếu N(t) đại diện cho số các chuỗi với khoảng thời gian t, chúng
ta có:
N(t) = N(t − t1) + N(t − t2) + · · · + N(t − t n ).
Tổng này sẽ bằng tổng các số lượng chuỗi kết thúc bởi ký hiệu S1, S2, , S n và các số này lần lượt là
N(t −t1), N(t −t2), , N(t −t n ) Theo một kết quả đã biết của các vi sai hữu hạn N(t) sẽ tiệm cận tới X t
Trong trường hợp có các giới hạn áp đặt trên các chuỗi cho phép, chúng ta vẫn thường có thể nhận được
một phương trình vi sai loại này và tìm C từ phương trình đặc trưng Trong trường hợp điện báo đề cập ở
trên:
N(t) = N(t − 2) + N(t − 4) + N(t − 5) + N(t − 7) + N(t − 8) + N(t − 10)
như chúng ta thấy nhờ đếm các chuỗi ký hiệu dựa theo ký hiệu cuối hoặc áp cuối xuất hiện trong chuỗi Do
đó C bằng − log µ0với µ0là nghiệm dương của phương trình 1 = µ2+ µ4+ µ5+ µ7+ µ8+ µ10 Giải phương
trình này ta tìm được C = 0.539.
Một loại giới hạn chung nhất mà có thể áp đặt trên các chuỗi ký hiệu cho phép như sau: Chúng ta hình
dung một số trạng thái khả dĩ a1, a2, , a m Với mỗi trạng thái thì chỉ có một số lượng nhất định ký hiệu nào
đó trong tập ký hiệu S1, , S ncó thể được truyền đi (các tập con khác nhau cho các trạng thái khác nhau).Khi một trong số tập con này được truyền đi, trạng thái hiện tại sẽ thay đổi sang trạng thái mới phụ thuộc cảvào trạng thái cũ lẫn ký hiệu đặc biệt được truyền Nếu vậy, khi đó chỉ một chấm hoặc một gạch có thể đượcgửi tiếp theo và trạng thái luôn hay đổi Nếu không, bất kỳ ký hiệu nào có thể được truyền và trạng thái thayđổi nếu một dấu cách được gửi đi nếu không thì nó sẽ vẫn như cũ Các điều kiện có thể được trình bày trong
đồ thị tuyến tính như Hình 2
GẠCH CHẤM
GẠCH CHẤM
CÁCH KÝ TỰ CÁCH TỪ
Hình 2 — Biểu diễn đồ thị các ràng buộc trên ký hiệu điện báo
Các điểm liên kết tương ứng với các trạng thái và các đường mũi tên biểu thị các ký hiệu có thể trongmột trạng thái và trạng thái kết quả tương ứng Phụ lục 1 cho thấy các điều kiện áp đặt trên các chuỗi cho
phép có thể được mô tả trong dạng C sẽ tồn tại và có thể được tính toán theo các kết quả sau:
Định lí 1: Chob (s) i j là khoảng thời gian của ký hiệu thứs, là ký hiệu được phép ở trạng thái ivà dẫn đếnchuyển sang trạng thái j Khi đó, dung lượng Ccủa kênh sẽ bằnglogW vớiW là nghiệm thực lớn nhất của
vớiδ i j= 1nếui = j = 0trong các trường hợp còn lại
Ví dụ, trong trường hợp điện báo (Hình 2), định thức là:
Trang 52 NGUỒN TIN RỜI RẠCChúng ta đã thấy trong các điều kiện rất chung, hàm logarit của số các tín hiệu khả dĩ trong một kênh rời rạctăng tuyến tính theo thời gian Dung lượng truyền tin có thể được xác định bằng cách gán cho tốc độ tăngmột số lượng bit trên đơn vị thời gian cần thiết để xác định một tín hiệu riêng được sử dụng.
Bây giờ, chúng ta xem xét về nguồn tin Làm thể nào để mô tả một nguồn tin bằng công cụ toán học vàlượng thông tin theo bít/giây được tạo ra từ một nguồn tin cho trước? Vấn đề chính là tác động của hiểu biết
có tính thống kê về nguồn tin trong việc giảm dung lượng kênh cần thiết bằng cách sử dụng phương pháp
mã hóa thông tin hợp lý Trong điện báo chẳng hạn, các bản tin được truyền gồm các chuỗi chữ cái Tuynhiên, các chuỗi này lại không phải ngẫu nhiên Nói chung, chúng hình thành các câu và có cấu trúc thông
kê, ví dụ, của tiếng Anh Chữ cái E xuất hiện thường xuyên hơn Q và tổ hợp TH thường xuyên hơn XP, v v
Sự tồn tại của cấu trúc này cho phép một ai đó có thể tiết kiệm thời gian (hay dung lượng kênh) bằng cách
mã hóa hợp lý các chuỗi bản tin thành các chuỗi tín hiệu Việc này đã được thực hiện đến một chừng mựcnào đó trong điện báo bằng việc sử dụng các ký hiệu kênh ngắn nhất, chấm, cho các các chữ cái tiếng Anhthường xuyên xuất hiện như E trong khi các chữ cái ít xuất hiện hơn, như Q, X, Z, được diễn tả bởi các chuỗichấm-gạch dài hơn Ý tưởng này còn được sử dụng trong một số mã thương mại, khi đó các từ và các câuthông dụng được diễn tả bởi các nhóm mã bốn hoặc năm chữ, đạt được một mức tiết kiệm đáng kể về thờigian trung bình Các bức điện tín chúc mừng hay kỷ niệm thường dùng hằng ngày mở rộng điều này bằngviệc mã hóa một hoặc hai câu thành một chuỗi các số tương đối ngắn
Chúng ta có thể nghĩ đến một nguồn rời rạc tạo ra bản tin, ký hiệu nối tiếp ký hiệu Nói chung, nó sẽchọn các ký hiệu liên tiếp dựa trên các xác suất nào đó phụ thuộc vào các lựa chọn trước đó cũng như các kýhiệu riêng biệt định phát Một hệ thống vật lý hay một mô hình toán học của một hệ thống mà tạo ra chuỗi
ký hiệu như vậy chịu chi phối bởi một tập hợp xác suất, được biết tới là quá trình ngẫu nhiên.3Do đó, chúng
ta có thể xem xét một nguồn rời rạc được mô tả bởi một quá trình ngẫu nhiên Ngược lại, bất kỳ quá trìnhngẫu nhiên mà tạo ra một chuỗi rời rạc các ký hiệu được chọn từ một tập hợp hữu hạn có thể được coi nhưmột nguồn rời rạc Điều này bao gồm các trường hợp sau:
1 Ngôn ngữ viết tự nhiên như tiếng Anh, tiếng Đức, tiếng Trung Quốc
2 Các nguồn tin liên tục được rời rạc hóa bởi quá trình lượng tử hóa Ví dụ như lời nói được lượng tửhóa từ bộ phát PCM hoặc tín hiệu TV đã được lượng tử hóa
3 Các trường hợp toán học mà chúng ta định nghĩa đơn thuần một cách trừu tượng một quá trình ngẫunhiên tạo ra một chuỗi ký hiệu Dưới đây là ví dụ cho loại nguồn cuối cùng
(A) A Giả sử chúng ta có 5 chữ cái A, B, C, D, E, mỗi chữ có xác suất được chọn là 0.2, các lựachọn liên tiếp là độc lập Điều này có thể dẫn đến một dãy mà dưới đây là ví dụ điển hình:
B D C B C E C C C A D C B D D A A E C E E A
A B B D A E E C A C E E B A E E C B C E A D
Chuỗi này được xây dựng dựa trên việc sử dụng một bảng số ngẫu nhiên.4
(B) Cũng vẫn sử dụng 5 chữ cái đó nhưng với các xác suất lần lượt là 0.4, 0.1, 0.2, 0.2, 0.1, các lựachọn liên tiếp là độc lập Một bản tin điển hình từ nguồn này là:
A A A C D C B D C E A A D A D A C E D A
E A D C A B E D A D D C E C A A A A A D
(C) Chúng ta có để nhận được một cấu trúc phức tạp hơn nếu các ký hiệu liên tiếp không được chọnmột cách độc lập nhưng các xác suất của chúng lại phụ thuộc vào các chữ cái trước đó Trongtrường hợp đơn giản nhất của loại này một lựa chọn chỉ phụ thuộc vào chữ cái đứng trước nó màkhông phụ thuộc vào các chữ cái đứng trước chữ cái trước nó Khi đó, cấu trúc thống kê có thể
được mô tả bởi một tập các xác suất chuyển đổi p i ( j), là xác suất là chữ cái j đứng trước chữ cái
i Các chỉ số i, j chạy dọc tất cả các ký hiệu khả dĩ Một cách thứ hai tương đương để xác định
3Tham khảo, ví dụ, S Chandrasekhar, “Stochastic Problems in Physics and Astronomy,” Reviews of Modern Physics, v 15, No 1,
January 1943, p 1.
4Kendall and Smith, Tables of Random Sampling Numbers, Cambridge, 1939.
Trang 6cấu trúc này là vẽ một "digram" xác suất p(i, j), giả như tần số tương đối của digram i j Các tần
số xuất hiện chữ cái p(i) (xác suất xuất hiện của chữ cái i), các xác suất chuyển đổi p i ( j) và các xác suất digram p(i, j) liên hệ với nhau theo công thức sau:
A B B A B A B A B A B A B A B B B A B B B B B A B A B A B A B A B B B A C A C A B
B A B B B B A B B A B A C B B B A B A
Bước tiếp theo chúng ta sẽ tăng độ phức tạp bằng cách có thể thêm vào các tần số trigram Việc
lựa chọn một chữ cái có thể phụ thuộc vào hai chữ cái đứng trước nó nhưng không phụ thuộc
vào bản tin trước thời điểm lựa chọn Một tập các tần số trigram p(i, j, k) hay nói cách tương đương, một tập các xác suất chuyển đổi p i j (k) có thể sẽ cần thiết Cứ theo cách này, chúng ta có
thể nhận được các quá trình ngẫu nhiên phức tạp hơn một cách liên tiếp Trong trường hợp tổng
quát n-gram, một tập các xác suất n-gram p(i1, i2, , i n) hay một tập các xác suất chuyển đổi
p i1,i2, ,i n−1 (i n) là cần thiết để xác định cấu trúc thống kê
(D) Các quá trình ngẫu nhiên có thể cũng được định nghĩa là quá trình sinh ra một đoạn văn bản gồmmột chuỗi các “từ” Giả định có 5 chữ cái A, B, C, D, E và 16 “từ” trong ngôn ngữ văn bản vớicác xác suất tương ứng:
.10 A 16 BEBE 11 CABED 04 DEB.04 ADEB 04 BED 05 CEED 15 DEED.05 ADEE 02 BEED 08 DAB 01 EAB
5Tần số chữ cái, digram và trigram được cho trong Secret and Urgent by Fletcher Pratt, Blue Ribbon Books, 1939 Tần số từ được thống kế trong Relative Frequency of English Speech Sounds, G Dewey, Harvard University Press, 1923.
Trang 7xỉ bậc nhất ngôn ngữ tiếng Anh, E được chọn với xác suất 0.12 (tần số xuất hiện của chữ cái E trong tiếngAnh thông thường) và W với xác suất 0.02 nhưng không hề có ảnh hưởng giữa hai chữ cái cạnh nhau vàkhông có xu hướng hình thành các digram ưu tiên như TH, ED, v v Trong xấp xỉ bậc hai, chúng ta áp dụngcấu trúc digram Sau khi một chữ cái được chọn, chữ tiếp theo được chọn theo tần số của chữ cái đi ngay sau
chữ cái đầu tiên Điều này yêu cầu một bảng tần số digram p i ( j) Trong xấp xỉ bậc ba, chúng ta sử dụng cấu
trúc trigram Mỗi chữ cái được lựa chọn với các xác suất phụ thuộc vào hai chữ cái trước nó
3 CÁC DÃY XẤP XỈ NGÔN NGỮ TIẾNGANH
Để đưa ra một ý tưởng trực quan về việc làm thế nào để dãy các quá trình này đạt gần đến một ngôn ngữ,chúng ta xây dựng các dãy đặc trưng trong quá trình xấp xỉ tới tiếng Anh như dưới đây Trong mọi trườnghợp, chúng ta đã giả định bảng chữ cái 27 ký tự alphabet gồm 26 chữ cái truyền thống và một dấu cách trắng
1 Xấp xỉ bậc không (các ký hiệu độc lập và đồng xác suất)
XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD HJQD
QPAAMKBZAACIBZL-2 Xấp xỉ bậc nhất (các ký hiệu độc lập nhưng với tần số xác định theo ngôn ngữ tiếng Anh)
OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVANAH BRL
3 Xấp xỉ bậc hai (cấu trúc digram như trong tiếng Anh)
ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE COOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE
TU-4 Xấp xỉ bậc ba (cấu trúc trigram như trong tiếng Anh)
IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF TURES OF THE REPTAGIN IS REGOACTIONA OF CRE
DEMONS-5 Xấp xỉ từ bậc nhất, thay vì tiếp tục với cấu trúc tetragram, , cấu trúc n-gram, chắc sẽ dễ dàng hơn
và tốt hơn nếu chúng ta chuyển sang đơn vị từ Ở đây, các từ được chọn độc lập nhưng với các tần sốthích hợp
REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT RAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHESTHE LINE MESSAGE HAD BE THESE
NATU-6 Xấp xỉ từ bậc hai Các xác suất chuyển đổi từ đã chuẩn nhưng không sử dụng thêm cấu trúc nào
THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE ACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERSTHAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED
CHAR-Sự giống nhau so với văn bản tiếng anh chuẩn tăng đáng kể ở mỗi bước kể trên Chú ý rằng các mẫu thửnày có cấu trúc hợp lý hơn khoảng hai lần so với phạm vi đã được xem xét trong việc xây dựng mẫu Do đótrong bước (3), quá trình thống kê đảm bảo một đoạn văn bản hợp lý với các dãy hai chữ cái, nhưng các dãybốn chữ cái của mẫu có thể được làm cho phù hợp với các câu có nghĩa Trong (6) chuỗi 4 từ hoặc nhiều hơn
có thể dễ dàng đặt vào trong câu mà không gặp phải câu vô nghĩa hay gượng ép Chuỗi đặc biệt gồm 10 từ
“attack on an English writer that the character of this” cũng không hoàn toàn không hợp lý Có vẻ như lúc
đó một quá trình ngẫu nhiên đủ phức tạp sẽ đưa ra một biểu diễn thỏa đáng của một nguồn rời rạc
Hai mẫu đầu tiên được xây dựng nhờ sử dụng một quyển sách các số ngẫu nhiên cùng với bảng các tần sốxuất hiện của chữ cái (ví dụ 2) Phương pháp này có thể được tiếp tục sử dụng cho (3), (4), và (5) do digram,trigram và bảng tần số xuất hiện từ sẵn có nhưng chúng ta đã sử dụng phương pháp tương đương đơn giản
Trang 8hơn Để xây dựng (3) chẳng hạn, một người mở một quyển sách ở một trang ngẫu nhiên, chọn một chữ cáingẫu nhiên trên trang đấy Chữ cái này được ghi lại Quyển sách lại tiếp tục được mở ở trang khác và người
đó đọc cho đến khi gặp lại chữ cái này Chữ cái kế tiếp chữ này lại được ghi lại Giở sang trang khác, chữ cáithứ hai này lại được tìm kiếm và chữ cái tiếp theo chữ cái thứ hai này lại được ghi nhận v.v Quá trình tương
tự được sử dụng cho (4), (5), và (6) Có lẽ sẽ thú vị hơn nếu các quá trình xấp xỉ hơn nữa được xây dựngnhưng công việc cần thiết sẽ trở nên vô cùng lớn cho các bước tiếp theo
4 BIỂU DIỄN ĐỒ THỊ CỦA MỘT QUÁ TRÌNHMARKOFFCác quá trình ngẫu nhiên của loại đươc mô tả ở trên được biết đến trong toán học như là các quá trìnhMarkoff rời rạc và đã được nghiên cứu rộng rãi trong nhiều tài liệu.6Trường hợp tổng quát có thể được mô
tả như sau: Cho một số hữu hạn các “trạng thái” khả dĩ của một hệ thống: S1, S2, , S n Thêm vào đó là một
tập các xác suất chuyển đổi; p i ( j) là xác suất mà nếu hệ thống ở trạng thái S i, tiếp theo nó sẽ chuyển sang
trạng thái S j Để đặt quá trình Markoff này vào trong một nguồn tin, chúng ta chỉ cần giả sử rằng một chữcái được tạo ra mỗi khi hệ thống chuyển từ trạng thái này sang trạng thái khác Các trạng thái này sẽ tươngứng với “thặng dư ảnh hưởng” từ các chữ cái trước đó
Điều này có thể được minh họa bằng đồ thị như trong hình 3, 4 và 5 Các "trạng thái" là các điểm nối
Hình 3 — Đồ thị tương ứng với nguồn trong ví dụ B
trong đồ thị, các xác suất và các chữ cái được tạo ra ứng với một chuyển đổi được cho bên cạnh các đườngmũi tên tương ứng Hình 3 là minh họa cho ví dụ B ở Phần 2, trong khi hình 4 tương ứng với ví dụ C Trong
A A
B
B B
hình 3 chỉ có một trạng thái do các chữ cái liên tiếp là độc lập Trong hình 4, số lượng trạng thái nhiều như
số lượng chữ cái Nếu một ví dụ trigram được xây dựng thì cần tối thiểu n2trạng thái tương ứng với các cặpchữ cái khả dĩ đi trước một chữ cái sẽ được chọn Hình 5 là đồ thị cho trường hợp cấu trúc từ trong ví dụ D
Ở đây, S tương ứng với ký tự cách trắng
5 ERGODIC VÀ NGUỒN HỖN HỢPNhư chúng ta đã chỉ ra ở trên, một nguồn rời rạc cho mục đích của chúng ta có thể được xem như được mô
tả bởi một quá trình Markoff Trong số các quá trình Markoff rời rạc khả dĩ, có một nhóm với các thuộc tính
6Về chi tiết có thể tham khảo tài liệu M Fréchet, Méthode des fonctions arbitraires Théorie des événements en chaˆıne dans le cas d’un nombre fini d’états possibles (Phương pháp hàm ngẫu nhiên Lý thuyết các chuỗi sự kiện với các trạng thái khả dĩ hữu hạn) Paris,
Gauthier-Villars, 1938.
Trang 9đặc biệt quan trọng trong lý thuyết truyền tin Lớp đặc biệt này bao gồm các quá trình “ergodic” và chúng
ta sẽ gọi các nguồn tương ứng này là nguồn ergodic Mặc dù một định nghĩa chính xác hơn về quá trìnhergodic cũng cần được đề cập đến một chút, song ý tưởng chung thì đơn giản Trong một quá trình ergodic,mỗi chuỗi được tạo ra bởi quá trình thì giống nhau về các thuộc tính thống kê Do vậy, các tần số xuất hiệncác chữ cái, các tần số xuất hiện của digram v v , nhận được từ các chuỗi riêng biệt sẽ tiến gần đến giới hạnxác định độc lập của các chuỗi riêng biệt khi chiều dài của chuỗi tăng Thực tế điều này không đúng với mọichuỗi nhưng tập các chuỗi cho kết quả không đúng lại có xác suất bằng 0 Đại khái thuộc tính ergodic nghĩa
là đồng nhất thống kê
Tất cả các ví dụ về ngôn ngữ nhân tạo ở trên đều là ergodic Thuộc tính này có liên hệ với cấu trúc của
đồ thị tương ứng Nếu đồ thị có hai thuộc tính7sau đây thì quá trình tương ứng với nó sẽ có tính ergodic:
1 Đồ thị không bao gồm 2 phần tách biệt A và B sao cho không thể đi từ các điểm nối ở phần A tới cácđiểm nối ở phần B dọc theo các đường chuyển trạng thái của đồ thị theo hướng mũi tên và cũng khôngthể đi từ các điểm nối ở phần B tới các điểm nối ở phần A
2 Một dãy đóng của các đường chuyển trạng thái trong đồ thị sẽ có tất cả các mũi tên trên đường chuyểntrạng thái chỉ cùng một hướng sẽ được gọi là một mạch kín "Chiều dài" mạch là số đường chuyểntrạng thái trong mạch Do đó trong hình 5, dãy BEBES là một mạch kín có chiều dài 5 Thuộc tínhthứ hai yêu cầu rằng ước số chung lớn nhất của các chiều dài của tất cả các mạch kín trong đồ thị phải
D
D
D
D D
E
E
E E
E
E E E
E
E
E
Hình 5 — Đồ thị tương ứng với nguồn trong ví dụ D
Nếu điều kiện đầu tiên được thỏa mãn nhưng điều kiện thứ hai bị vi phạm do có ước số chung lớn nhất
bằng d > 1, các chuỗi có một loại cấu trúc tuần hoàn nào đó Các chuỗi khác nhau rơi vào d các lớp khác
nhau mà các lớp này thì giống nhau về mặt thống kê ngoại trừ một thay đổi dịch vị trí của gốc (ví như chữ
cái nào trong chuỗi được gọi là chữ cái số 1) Bằng cách dịch từ 0 tới d − 1, bất kỳ chuỗi nào có thể được tạo tương đương thống kê với bất kỳ chuỗi còn lại Một ví dụ đơn giản với d = 2 như sau: có 3 chữ cái có khả dĩ
là a, b, c Chữ cái a được theo sau bởi hoặc b hoặc c với xác suất lần lượt1
3và 2
3 Hoặc b hoặc c sẽ được theo sau bởi chữ cái a Do đó một chuỗi đặc trưng sẽ là:
a b a c a c a c a b a c a b a b a c a c.
Loại hình này thì cũng không quá quan trọng trong nghiên cứu của chúng ta
7 Chúng là những phát biểu lại dưới dạng đồ thị điều kiện cho bởi Fréchet.
Trang 10Nếu điều kiện thứ nhất bị vi phạm, đồ thị có thể bị chia thành một tập các đồ thị con mà mỗi đồ thị conlại thỏa mãn điều kiện thứ nhất Chúng ta giả định rằng điều kiện hai cũng sẽ được thỏa mãn với các đồ thịcon Trong trường hợp này chúng ta có cái mà được gọi là nguồn "hỗn hợp", hình thành bởi một số các thành
phần nguyên chất Các thành phần tương ứng với các đồ thị con khác nhau Nếu L1, L2, L3, là các nguồn
thành phần, chúng ta có thể viết:
L = p1L1+ p2L2+ p3L3+ · · · với p i là xác suất của nguồn thành phần L i
Cụ thể, tình huống này được biểu diễn như sau: Có nhiều nguồn khác nhau L1, L2, L3, mà đều có
cấu trúc thống kê đồng nhất (nghĩa là có tính ergodic) Chúng ta không biết trước nguồn nào được sử dụng nhưng khi các chuỗi bắt đầu được tạo ra ở một nguồn thành phần nguyên chất L i, nó tiếp tục mãi mãi theocấu trúc thống kê của thành phần đó
Ví du, ai đó có thể lấy hai trong số các quá trình được định nghĩa ở trên và giả sử p1= 0.2 và p2= 0.8.
Môt chuỗi từ nguồn hỗn hợp
L = 0.2L1+ 0.8L2
có thể đạt được bằng cách đầu tiên chọn L1hoặc L2với các xác suất 0.2 và 0.8 và sau đó lựa chọn này sinh
ra một chuỗi từ bất cứ cái nào được chọn
Ngoại trừ khi điều ngược lại xảy ra, chúng ta sẽ giả sử một nguồn là ergodic Giả định này cho phép xácđịnh trung bình dọc theo một dãy với trung bình trên cả tập hợp các chuỗi khả dĩ (xác suất của mâu thuẫnbằng 0) Chẳng hạn tần số tương đối của chữ cái A trong một dãy vô hạn cụ thể sẽ bằng với tần số tương đốicủa nó trong tập hợp các dãy với xác suất 1
Nếu P i là xác suất của trạng thái i và p i ( j) là xác suất chuyển đổi trạng thái từ i sang j, khi đó, với quá trình được gọi là tĩnh thì rõ ràng P iphải thỏa mãn các điều kiện cân bằng:
Giả sử chúng ta có một tập các sự kiện có thể xảy ra với xác suất là p1, p2, , p n Các xác suất này đượcbiết trước nhưng đó là tất cả những gì chúng ta biết liên quan đến sự kiện nào sẽ xảy ra Liệu chúng ta có thểtìm một phép đo số các “lựa chọn” trong việc chọn một sự kiện hay mức độ “bất định” của kết quả thu được
ở đầu ra?
Nếu có một phép đo như vậy, giả sử là H(p1, p2, , p n), cũng hợp lý nếu yêu cầu nó phải có các đặctính sau:
1 H phải liên tục theo p i
2 Nếu các xác suất là như nhau (p i=1
n ) thì H phải là hàm đơn điệu tăng theo n Với các sự kiện mà xác
suất xảy ra bằng nhau thì sẽ có nhiều lựa chọn, hay tính bất định, khi có nhiều sự kiện có khả năngxảy ra
3 Nếu một sự lựa chọn được chia thành hai lựa chọn liên tiếp nhau, đại lượng H của sự kiện gốc phải
là tổng trọng số của hai giá trị thành phần của H Nghĩa của điều này được minh họa trong Hình 6.
Ở hình vẽ bên trái, chúng ta có ba khả năng với xác suất p1=12, p2=13, p3=16 Ở hình vẽ bên phảichúng ta trước hết chọn giữa hai khả năng, mỗi khả năng ứng với xác suất 1
2 Và nếu khả năng thứ haixảy ra làm thành một lựa chọn với mỗi xác suất thành phần lần lượt 23và 13 Các kết quả cuối cùng cócùng xác suất như cho trước Chúng ta yêu cầu, trong trường hợp đặc biệt này, như sau:
Trang 111/2
1/2 2/31/3
1/2
1/31/6Hình 6 — Phân tách một sự lựa chọn từ ba khả năng
Hệ số là 12bởi vì lựa chọn thứ hai chỉ xảy ra ở một nửa thời gian
Trong Phụ lục 2, kết quả sau được thiết lập:
Định lí 2: Đại lượngHduy nhất thỏa mãn ba giả thiết trên phải có dạng
sẽ được công nhận như entropy được định nghĩa trong một số công thức của cơ học thống kê8ở đó p ilà xác
suất của hệ thống trong tế bào i trong không gian pha của nó Ví dụ, H khi đó là H trong định lý H nổi tiếng của Boltzmann Chúng ta sẽ gọi H = − ∑ p i log p i là entropy của tập các xác suất p1, , p n Nếu x là một biến cơ hội, chúng ta sẽ viết H(x) cho entropy của nó; do đó x không phải argument của một hàm nhưng là nhãn cho một số, để phân biệt nó với H(y), là entropy của biến cơ hội y.
Entropy trong trường hợp của hai khả năng với xác suất p và q = 1 − p được tính:
H = −(p log p + q log q)
được vẽ trong hình 7 như là hàm của p Đại lượng H có một số tính chất thú vị mà sẽ chứng minh nó là một
đại lượng đo hợp lý cho lựa chọn hay thông tin
1 H = 0 khi và chỉ khi tất cả các p i, trừ một xác suất có giá trị đơn vị, đều bằng 0 Do đó chỉ khi chúng
ta chắc chắn về kết quả thì H mới triệt tiêu Nếu không thì H có giá trị dương.
2 Cho trước n, H cực đại và bằng log n khi tất cả các p iđều bằng nhau (tức là bằng 1
n) Một cách trựcgiác, đây cũng là trường hợp có tính bất định nhất
3 Giả sử có hai sự kiện, x và y, đang xem xét với m khả năng cho sự kiện thứ nhất và n cho sự kiện thứ hai Đặt p(i, j) là xác suất chung xảy ra của khả năng i với sự kiện thứ nhất và j với sự kiện thứ hai Entropy
của sự kiện chung được tính:
Trang 12BITS
p
0.1.2.3.4.5.6.7.8.91.0
4 Bất kỳ thay đổi nào theo hướng cân bằng của các xác suất p1, p2, , p n đều làm tăng H Do đó nếu
p1< p2và chúng ta tăng p1, giảm p2một lượng bằng nhau làm sao cho p1và p2tiến gần đến giá trị bằng
nhau, khi đó H sẽ tăng Một cách chung nhất, nếu chúng ta thực hiện bất kỳ phép toán “trung bình” lên trên
p iở dạng
p 0 i=∑
j
a i j p j
trong đó ∑i a i j= ∑j a i j = 1, và tất cả a i j ≥ 0, khi đó H tăng (trừ trường hợp đặc biệt nếu phép biến đổi này
chỉ là phép hoán vị không hơn không kém các p j với H tất nhiên vẫn giữ nguyên).
5 Giả giử có hai sự kiện cơ hội x và y như trong 3, không nhất thiết phải độc lập Với bất kỳ giá trị i riêng biệt nào mà x có thể nhận thì có xác suất có điều kiện p i ( j) mà y có giá trị j được xác định bởi công
Trang 13Độ bất định của y sẽ không bao giờ tăng theo hiểu biết về x Nó sẽ giảm trừ phi x và y là các sự kiện độc lập,
trong trường hợp này nó không thay đổi
7 ENTROPY CỦA MỘT NGUỒN TIN
Xem xét một nguồn rời rạc của dạng trạng thái hữu hạn đã nêu ở trên Với mỗi trạng thái khả dĩ i sẽ có một tập các xác suất p i ( j) của việc tạo ra các ký hiệu khả dĩ khác nhau j Do đó có một entropy H ivới mỗi trạng
thái Entropy của nguồn sẽ được định nghĩa như giá trị trung bình của các H iđo theo xác suất xuất hiện củacác trạng thái đang xem xét
Nếu các ký hiệu liên tiếp nhau độc lập với nhau thì H chỉ đơn giản là − ∑ p i log p i với p ilà xác suất của
ký hiệu thứ i Giả sử trong trường hợp này chúng ta xem xét một bản tin dài gồm N ký hiệu Nó sẽ chứa, với xác suất cao, khoảng p1N sự kiện ký hiệu đầu tiên xảy ra, p2N sự kiện ký hiệu thứ hai xảy ra, v v Do đó
xác suất của bản tin cụ thể này sẽ vào khoảng:
p = p p1N
1 p p2N
2 · · · p p n N n
Hoặc
log p = N . ∑
i
p i log p i log p = −NH .
H=. log 1/p
Do đó H xấp xỉ logarit của xác suất nghịch đảo của một chuỗi dài đặc trưng được chia bởi số các ký hiệu
trong chuỗi Kết quả tương tự đúng với bất kỳ nguồn nào Nói chính xác hơn ta có (xem Phụ lục 3):
Trang 14Định lí 3: Cho bất kỳ² > 0vàδ > 0, chúng ta có thể tìm thấy một N0sao cho các chuỗi có độ dài bất
kỳN ≥ N0thuộc vào hai loại sau:
1 Một tập hợp mà tổng xác suất của nó nhỏ hơn².
2 Phần dư, tất cả các tập mà phần tử của nó có xác suất thỏa mãn bất đẳng thức:
Nói cách khác, chúng ta hầu như chắc chắn nhận được log p −1
N tiến gần tới H với N đủ lớn.
Một kết quả quan hệ mật thiết khác tính đến số các dãy với xác suất khác nhau Xem xét lại các dãy có
chiều dài N và sắp xếp chúng theo thứ tự giảm dần của xác suất Chúng ta định nghĩa n(q) là số mà chúng ta
sẽ lấy từ tập này bắt đầu với cái có khả năng xảy ra cao nhất để lũy tiến một xác suất tổng q cho những cái
Chúng ta có thể xem log n(q) là số bit cần thiết để xác định chuỗi khi chúng ta chỉ xem xét các chuỗi
có khả năng xảy ra nhất với một xác suất tổng q Khi đó log n(q)
N là số bit trên ký hiệu để xác định được
lại chuỗi Định lí phát biểu rằng với một số N lớn, nó sẽ độc lập với q và bằng với H Tốc độ tăng của hàm logarit của số các chuỗi có khả năng xảy ra được cho bởi H, bất luận các giải thích của chúng ta về “khả
năng xảy ra” Theo kết quả này, được chứng minh ở Phụ lục 3, hoàn toàn có thể, cho hầu hết các mục đích,xem xét các chuỗi dài mặc dù chỉ có 2HNtrong số đó với mỗi cái có xác suất 2−HN
Hai định lí tiếp theo chỉ ra rằng H và H 0có thể được xác định bằng cách hạn chế các phép toán trực tiếp
từ thống kê các chuỗi bản tin, mà không tham chiếu tới các trạng thái và xác suất chuyển đổi giữa các trạngthái
Định lí 5: Chop(B i)là xác suất của chuỗi ký hiệuB ilấy từ một nguồn Cho
Định lí 6: Chop(B i , S j)là xác suất của chuỗiB itheo sau bởi ký hiệuS jvàp B i (S j ) = p(B i , S j )/p(B i)
là xác suất có điều kiện củaS jsauB i Cho
F N = −∑
i, j
p(B i , S j ) log p B i (S j)
trong đó tổng tính trên tất cả các khốiB igồmN − 1ký hiệu và trên tất cả các ký hiệuS j Khi đó hàmF N
đơn điệu giảm theoN,
Trang 15Các kết quả này được dẫn ra từ trong Phụ lục 3 Chúng cho thấy một dãy các xấp xỉ đến H có thể nhận được bằng cách chỉ xem cấu trúc thống kê của các chuỗi trải trên toàn bộ 1, 2, , N ký hiệu F N là xấp xỉ
tốt hơn Trên thực tế F N chính là entropy của xấp xỉ bậc N với nguồn thuộc loại đã được nghiên cứu ở trên Nếu không có các ảnh hưởng thống kê trải trên nhiều hơn N ký hiệu, nghĩa là nếu xác suất có điều kiện của
ký hiệu tiếp theo khi biết N − 1 ký hiệu trước đó sẽ không bị thay đổi bởi hiểu biết về bất kỳ cái gì trước đó, khi đó F N = H F N rõ ràng là entropy có điều kiện của ký hiệu tiếp theo khi N − 1 ký hiệu trước đó đã được biết, trong khi G N là entropy theo ký hiệu của các khối gồm N ký hiệu.
Tỉ số của entropy của nguồn với giá trị cực đại nó có thể có trong khi vẫn giới hạn với các ký hiệu giống
nhau được gọi là entropy tương đối Đây là mức nén tối đa có thể khi chúng ta mã hóa sang cùng một bộ chữ cái Lấy 1 trừ đi entropy tương đối sẽ là phần dư thông tin (redundancy) Phần dư của tiếng Anh chuẩn,
không xem xét tới cấu trúc thống kê trên các khoảng cách lớn hơn 8 chữ cái, thì xấp xỉ 50% Điều này nghĩa
là, khi chúng ta viết tiếng Anh, một nửa những gì chúng ta viết được xác định bởi cấu trúc của ngôn ngữ vànửa còn lại thì được lựa chọn tự do Con số 50% được tìm thấy bởi vài phương pháp độc lập mà tất cả đềucho một kết quả sát nhau Một là bằng cách tính entropy của xấp xỉ tới tiếng Anh Phương pháp thứ hai làxóa một phần nào đó các chữ cái từ một đoạn văn bản mẫu tiếng anh và đưa cho ai đó cố gắng khôi phục lại
nó Nếu nó có thể được khôi phục khi mà 50% đã bị xóa mất thì phần dư thông tin chắc hẳn sẽ lớn hơn 50%.Phương pháp thứ ba phụ thuộc và một số kết quả đã biết đến trong mật mã
Hai điểm cực trong dư thông tin ở văn xuôi của tiếng Anh được trình bày trong “Tiếng anh cơ bản” vàtrong sách của James Joyce “Finnegans Wake” Từ vựng tiếng Anh cơ bản được giới hạn tới 850 từ và phần
dư thông tin rất cao Điều này được phản ánh trong phần mở rộng khi một đoạn văn được dịch sang tiếngAnh chuẩn Joyce mặt khác mở rộng từ vựng và được cho là đã đạt đến được một bản nén về nội dung ngữnghĩa
Dư thông tin của một ngôn ngữ liên quan đến sự tồn tại của trò chơi ô chữ Nếu mà dư thông tin là 0 bất
kỳ dãy chữ cái nào cũng là một văn bản hợp lý trong ngôn ngữ và bất kỳ mảng hai chiều các chữ cái nàocũng hình thành một ô đố chữ Nếu dư thông tin quá lớn, ngôn ngữ đặt ra quá nhiều hạn chế cho các ô đốchữ lớn để có thể giải được Một phân tích chi tiết đã chỉ ra rằng nếu chúng ta giả thiết các ràng buộc dongôn ngữ áp đặt này có bản chất ngẫu nhiên và lộn xộn, các ô đố chữ lớn chỉ có thể giải được khi dư thôngtin là 50% Nếu dư thông tin là 33% thì các ô đố chữ 3 chiều cũng có thể giải được v.v
8 BIỂU DIỄN CÁC THAO TÁCMÃ HOÁ VÀGIẢI MÃChúng ta chưa biểu diễn một cách toán học các thao tác thực hiện bởi máy phát và máy thu trong quá trình
mã hoá và giải mã thông tin Cả hai máy này đều được gọi là máy biến năng rời rạc Đầu vào của máy biếnnăng là chuỗi ký hiệu vào và đầu ra là một chuỗi ký hiệu ra Máy biến năng có thể có một bộ nhớ trong đểđầu ra phụ thuộc không chỉ vào ký hiệu vào hiện tại mà còn phụ thuộc vào các ký hiệu vào trước đó Chúng
ta giả định rằng bộ nhớ trong là hữu hạn, nghĩa là, tồn tại một số hữu hạn m trạng thái khả dĩ của máy biến
năng, và đầu ra là một hàm của trạng thái hiện tại và ký hiệu đầu vào hiện tại Trạng thái kế tiếp sẽ là mộthàm thứ hai của hai đại lượng này Do đó, một máy biến năng có thể được biểu diễn bởi hai hàm:
y n = f (x n , α n)
α n+1 = g(x n , α n)trong đó
x n là ký hiệu vào thứ n,
α n là trạng thái của máy biến năng khi nhận ký hiệu vào thứ n
y n là ký hiệu ra (hoặc chuỗi ký hiệu ra) được tạo ra khi x n được đặt ở đầu vào nếu trạng thái là α n
Nếu các ký hiệu ra của một máy biến năng có thể được dẫn vào một máy biến năng thứ hai, chúng có thểghép nối tiếp với nhau, và kết quả thu được cũng sẽ là một máy biến năng Nếu tồn tại một máy biến năngthứ hai hoạt động ngay trên đầu ra của máy biến năng đầu và phục hồi lại đầu vào gốc, thì máy thứ nhất đượcgọi là không suy biến và máy thứ hai sẽ được gọi là nghịch đảo của máy thứ nhất
Trang 16Định lí 7: Đầu ra của một máy biến năng trạng thái hữu hạn được điều khiển bởi một nguồn thống kêtrạng thái hữu hạn là một nguồn thống kê có trạng thái hữu hạn, có entropy (trong một đơn vị thời gian) nhỏhơn hoặc bằng entropy của đầu vào Nếu máy biến năng không suy biến, thì chúng bằng nhau.
Gọi α là trạng thái của nguồn tạo ra chuỗi ký hiệu x i ; và gọi β là trạng thái của máy biến năng tạo ra các khối ký hiệu y jtại đầu ra của nó Hai hệ thống được kết hợp và biểu diễn bằng một “không gian trạng thái
tích” của cặp (α, β) Hai điểm trong không gian này (α1, β1) và (α2, β2), được nối bởi một đường thẳng nếu
α1có thể tạo ra một giá trị x mà thay đổi β1thành β2, và đường thẳng này được cho xác suất của giá trị x
đó trong trường hợp này Đường thẳng được gán với khối ký hiệu y jtạo ra bởi máy biến năng Entropy của
đầu ra có thể được tính bởi tổng trọng số của tất cả các trạng thái Nếu chúng ta tính tổng của β trước tiên, mỗi kết quả thu được sẽ nhỏ hơn hoặc bằng tổng tương ứng của α, bởi vì entropy không tăng Nếu máy biến năng không suy biến, chúng ta nối đầu ra với máy biến năng nghịch đảo Giả sử H 0
đồ thị tuyến tính ở Hình 2 Nếu các xác suất p (s) i j được gán cho các đường thẳng nối trạng thái i đến trạng thái j, hệ thống này sẽ trở thành một nguồn Có một cách gán đặc biệt để cực đại hoá entropy thu được (xem
Bằng cách gán giá trị thích hợp cho các xác suất chuyển đổi, entropy các ký hiệu trên một kênh truyền
có thể đạt giá trị cực đại bằng với dung lượng kênh
9 ĐỊNH LÍ CƠ BẢN CHO KÊNH TRUYỀN KHÔNG CÓ NHIỄU
Bây giờ chúng ta sẽ chứng minh cách diễn giải H của chúng ta như là tốc độ sinh ra thông tin bằng cách chứng minh rằng H xác định dung lượng kênh truyền được yêu cầu với hầu hết các mã hoá hiệu quả.
Định lí 9: Gọi một nguồn có entropyH (bit trên ký hiệu)và một kênh truyền có dung lượngC (bit trên
giây) Khi đó, chúng ta có thể mã hoá đầu ra của nguồn theo một cách để truyền với tốc độ trung bìnhC
H − ²
ký hiệu trên giây trên một kênh truyền mà²nhỏ tùy ý Ta không thể truyền với tốc độ trung bình lớn hơnC
H.
Phần đảo của định lí nói rằngC
H không thể bị vượt qua, có thể được chứng minh nhờ vào nhận xét entropy
của đầu vào của kênh truyền trên một giây bằng với giá trị đó của nguồn, bởi vì máy phát phải không suy
biến, và ngoài ra entropy này không được vượt quá dung lượng kênh truyền Do đó H 0 ≤ C và số ký hiệu
trên một giây = H 0 /H ≤ C/H.
Phần đầu của định lí sẽ được chứng minh theo hai cách Cách thứ nhất là xem xét một tập hợp tất cả các
chuỗi N ký hiệu sinh bởi nguồn Với N lớn, chúng ta có thể chia tập này thành hai nhóm, một chứa ít hơn
2(H+ η )Nphần tử và nhóm thứ hai chứa ít hơn 2RN phần tử (ở đó R là logarít của số các ký hiệu khác nhau) và
có xác suất tổng nhỏ hơn µ Khi N tăng, η và µ tiến gần đến 0 Số tín hiệu có khoảng thời gian T trên kênh
truyền lớn hơn 2(C− θ )T với θ nhỏ khi mà T lớn Nếu chúng ta chọn
Trang 17thì sẽ có một số lượng đủ các chuỗi ký hiệu kênh cho nhóm xác suất cao khi mà N và T đủ lớn (cho dù λ
nhỏ), ngoài ra còn có thêm vài chuỗi phụ khác Nhóm xác suất cao được mã hoá bằng một ánh xạ một-mộtbất kì vào trong tập hợp này Các chuỗi còn lại được biểu diễn bằng các chuỗi lớn hơn, bắt đầu và kết thúcbởi một trong những chuỗi không được dùng trong nhóm xác suất cao Chuỗi đặc biệt này dùng như tín hiệukhởi đầu và kết thúc cho một mã khác Giữa đó sẽ có thời gian đủ cho phép các chuỗi đủ khác nhau cho mọibản tin xác suất thấp Điều này yêu cầu
Một cách khác để tiến hành việc mã hoá này, và từ đó chứng minh định lí, có thể trình bày như sau: Sắp
xếp các bản tin có chiều dài N theo thứ tự xác suất giảm và giả sử xác suất của chúng là p1≥ p2≥ p3· · · ≥ p n
Đặt P s= ∑s−11 p i ; nghĩa là P s xác suất tích lũy tiến đến, nhưng không chạm, p s Trước tiên chúng ta mã hoá
thành một hệ thống nhị phân Mã nhị phân cho bản tin s thu được bằng cách khai triển P sthành một số nhị
phân Sự khai triển chiếm m s vị trí, trong đó m slà số nguyên thoả mãn:
Giá trị trung bình H 0của các số nhị phân sử dụng trong một ký hiệu của bản tin gốc có thể được ướclượng dễ dàng Chúng ta có
Khi N tăng, G N tiến tới H, entropy của nguồn, và H 0 tiến tới H.
Từ đây chúng ta thấy sự thiếu hiệu quả của mã hoá khi chỉ có một trễ hữu hạn của N ký hiệu được dùng,
yêu cầu không lớn hơn 1
N cộng với hiệu của entropy thực H và entropy G Nđược tính cho các chuỗi có chiều
dài N Phần trăm thời gian thừa so với thời gian cần thiết lí tưởng do đó nhỏ hơn
G N
1
HN − 1.
Trang 18Cách mã hoá này về căn bản giống với cách được tìm ra độc lập bởi R M Fano.9Phương pháp của ông
là sắp xếp các bản tin chiều dài N theo thứ tự xác suất giảm dần Chia chuỗi này thành hai nhóm có xác suất
gần bằng nhau nhất có thể được Nếu bản tin nằm trong nhóm đầu, bit đầu tiên của nó là 0, ngược lại, là 1.Các nhóm được chia tương tự thành các tập con có xác suất gần bằng nhau và tập con riêng biệt xác địnhchữ số nhị phân thứ hai Quá trình tiếp tục cho đến khi mỗi tập con chỉ chứa một bản tin Dễ thấy rằng ngoạitrừ một số khác biệt nhỏ (thường ở chữ số cuối), cách này cho kết quả giống với tiến trình số học được mô tả
ở trên
10 THẢO LUẬN VÀ MỘT SỐ VÍ DỤ
Để đạt được công suất lớn nhất từ máy phát đến tải, cần đưa vào một máy biến thế để máy phát có một trởtải Tình huống ở đây cũng tương tự Máy biến năng thực hiện phần mã hoá cần làm cho nguồn phù hợp vớikênh truyền, theo nghĩa thống kê Nguồn, được nhìn thấy từ kênh truyền thông qua máy biến năng cần cócùng cấu trúc thống kê với nguồn tăng tối đa entropy trong kênh truyền Nội dung của Định lí 9 là, mặc dù
sự phù hợp hoàn toàn nói chung không thực hiện được, nhưng chúng ta có thể xấp xỉ với độ chính xác theo
ý muốn Tỉ số của tốc độ truyền trên dung lượng C có thể được gọi là hiệu suất của hệ thống mã hoá Tỉ số
này đương nhiên bằng với tỉ số giữa entropy thực sự của các kí hiệu kênh truyền trên entropy lớn nhất có thểđạt được
Nói chung, mã hoá lí tưởng hoặc gần lí tưởng đòi hỏi độ trễ lớn ở máy phát và máy thu Trong trườnghợp không có nhiễu như chúng ta đã xem xét ở trên, chức năng chính của độ trễ này là để cho phép tươngthích một cách phù hợp các xác suất với các độ dài chuỗi tương ứng Với một mã tốt, lô-ga-rít của xác suấttương hỗ của một bản tin dài phải tỉ lệ với thời gian của tín hiệu tương ứng Tóm lại
phải nhỏ cho tất cả các bản tin, ngoại trừ một phần nhỏ các bản tin dài
Nếu một nguồn chỉ có thể tạo ra một bản tin riêng biệt, entropy của nó bằng không, và không cần phải có
kênh truyền Ví dụ, một máy tính được thiết lập để tính các chữ số liên tiếp của π tạo ra một chuỗi xác định,
không có phần tử biến cố Không cần kênh truyền để “truyền” thông tin này đến một điểm khác Người ta
có thể chế tạo một máy thứ hai để tính toán cùng một dãy tại một điểm khác Tuy nhiên, điều này có thể phithực tế Trong một tình huống như vậy, chúng ta có thể chọn để bỏ qua một vài hoặc tất cả hiểu biết thống kê
về nguồn Chúng ta có thể xem rằng các chữ số của π là một chuỗi ngẫu nhiên, trong đó chúng ta xây dựng
một hệ thống có khả năng truyền bất kì chuỗi chữ số nào Bằng một cách tương tự, chúng ta có thể chọn sửdụng một vài trong những hiểu biết thống kê của tiếng Anh để xây dựng một mã, nhưng không phải tất cả.Trong trường hợp đó, chúng ta xem như nguồn có entropy cực đại thoả các điều kiện thống kê mà chúng tamong muốn giữ lại Entropy của nguồn này xác định dung lượng cần và đủ của kênh truyền Trong ví dụ về
π, thông tin duy nhất chúng ta giữ lại đó là các chữ số được chọn trong tập hợp 0, 1, , 9 Trong trường hợp
ngôn ngữ tiếng Anh, người ta có thể muốn dùng hiểu biết thống kê về tần số xuất hiện các chữ cái, ngoài
ra không còn gì khác Nguồn có entropy cực đại sẽ là xấp xỉ đầu tiên của tiếng Anh, và entropy của nó xácđịnh dung lượng cần thiết của kênh truyền
Dưới đây là một ví dụ đơn giản từ các kết quả trên Xét một nguồn tạo ra chuỗi các chữ cái được chọn
trong A, B, C, D với xác suất1
¢
=74bit trên ký hiệu.
Do đó chúng ta có thể xấp xỉ một hệ thống mã hoá để mã hoá các bản tin từ nguồn này thành các chữ số nhịphân, với trung bình 74chữ số trên một ký hiệu Trong trường hợp này, thực tế chúng ta có thể đạt được giá
9 Technical Report No 65, The Research Laboratory of Electronics, M.I.T., March 17, 1949.
Trang 19trị giới hạn bằng mã sau (có được bằng phương pháp trong cách chứng minh thứ hai của Định lí 9):
Dễ thấy rằng các chữ số nhị phân 0, 1 có xác suất12,12do đó H cho chuỗi được mã hoá là một bit trên một
ký hiệu Bởi vì tính trung bình chúng ta có 74 ký hiệu nhị phân cho một chữ cái gốc, entropy tính theo thời
gian cũng như vậy Entropy khả dĩ cực đại cho tập hợp gốc là log 4 = 2, xảy ra khi A, B, C, D có các xác suất
1
4,1
4,1
4,1
4 Do đó entropy tương đối là 7
8 Chúng ta có thể dịch các chuỗi nhị phân này trở lại thành tập hợp
ký hiệu gốc theo chuẩn hai-một nhờ bảng sau:
Trong trường hợp đó, người ta có thể xây dựng một bộ mã bản tin khá tốt trên một kênh truyền 0, 1 bằng
cách gửi một chuỗi đặc biệt, ví dụ 0000, cho ký hiệu không thường xuyên A và sau đó một chuỗi biểu thị số
lượng B theo sau nó Điều này có thể được chỉ ra bằng biểu diễn nhị phân trong đó mọi số chứa chuỗi đặc
biệt sẽ bị xoá Mọi số, cho đến 16 được biểu diễn theo cách thông thường, riêng số 16 được biểu diễn bằng
số kế tiếp không chứa bốn số không liên tiếp, nghĩa là 17 = 10001, v.v
Có thể thấy rằng khi p → 0 mã hoá trên sẽ tiến đến lí tưởng với điều kiện độ dài của chuỗi đặc biệt được
điều chỉnh thích hợp
PHẦN II: KÊNH RỜI RẠC CÓ NHIỄU
11 BIỂU DIỄN CỦA KÊNH RỜI RẠC CÓ NHIỄUBây giờ ta xem xét trường hợp mà tín hiệu bị rối loạn bởi nhiễu trong quá trình truyền hay tại các thiết bịđầu cuối Có nghĩa là, tín hiệu thu không nhất thiết phải bằng tín hiệu phát ở máy phát Có thể phân ra thànhhai trường hợp: nếu một tín hiệu được truyền dẫn riêng biệt luôn tạo ra cùng một tín hiệu thu, hay tín hiệuthu là một hàm xác định của tín hiệu phát, khi đó ảnh hưởng có thể được gọi là méo dạng Nếu hàm này tồntại hàm ngược, nghĩa là không có hai tín hiệu phát nào tạo ra cùng một tín hiệu thu, thì méo dạng tín hiệu
có thể được sửa chữa, ít nhất về mặt lí thuyết, bằng việc thực hiện đơn thuần một quá trình ngược lại lên tínhiệu thu
Trang 20Trường hợp cần quan tâm ở đây là trường hợp mà trong đó tín hiệu không phải luôn chịu cùng một thay
đổi trong quá trình truyền Trong trường hợp này, ta có thể giả thiết tín hiệu thu E là một hàm của tín hiệu phát S và một biến thứ hai, nhiễu N.
bởi nhiễu một cách độc lập, thì chỉ có một trạng thái của kênh, và kênh được mô tả bởi một tập các xác suất
chuyển đổi p i ( j), chính là xác suất phát đi ký hiệu i và nhận được ký hiệu j.
Nếu một kênh có nhiễu được cấp từ một nguồn có hai quá trình thống kê làm việc: nguồn và nhiễu Do
vậy, có một số entropy có khả năng tính được Thứ nhất, đó là entropy H(x) của nguồn hay entropy của đầu
vào kênh (các entropy này là bằng nhau nếu máy phát là không suy biến) Entropy của đầu ra của kênh, nghĩa
là tín hiệu thu, được kí hiệu là H(y) Trong trường hợp kênh không có nhiễu thì H(x) = H(y) Entropy đồng thời của đầu vào và đầu ra là H(xy) Cuối cùng, hai dạng entropy có điều kiện H x (y) và H y (x) là entropy của
đầu ra khi đã biết đầu vào và ngược lại Giữa các đại lượng này, ta có biểu thức quan hệ:
H(x, y) = H(x) + H x (y) = H(y) + H y (x).
Tất cả các entropy này có thể được đo theo đơn vị trên giây hoặc trên ký hiệu
12 ĐỘ MẬP MỜ VÀ DUNG LƯỢNG KÊNH
Nếu kênh có nhiễu, nói chung không thể khôi phục lại bản tin gốc hay tín hiệu phát với một độ tin cậy nào
đó bằng bất cứ cách xử lí nào trên tín hiệu thu E Tuy nhiên, vẫn có phương pháp phát thông tin tối ưu hóa
trong việc chống nhiễu Đây là vấn đề mà bây giờ chúng ta xem xét
Giả thiết có hai ký hiệu 0 và 1 được phát đi với tốc độ 1000 ký hiệu mỗi giây, xác suất phát là p0= p1=1
2
Do vậy, nguồn tin tạo thông tin với tốc độ 1000bit/giây Trong quá trình truyền thông tin, nhiễu tạo ra lỗi,trung bình cứ 100 bit nhận thì có một bit không chính xác (phát 0 nhận 1 hoặc phát 1 nhận 0) Vậy tốc độphát tin là bao nhiêu? Nói chung sẽ thấp hơn 1000bit/giây do có khoảng 1% ký hiệu thu được là không chínhxác Phản ứng đầu tiên của chúng ta có thể là: tốc độ truyền tin là 990 bit/giây, đơn thuần chỉ trừ đi số lỗiước tính có thể xảy ra Kết quả này là không hợp lí, do đã không tính tới khả năng phía thu không biết vịtrí xảy ra các lỗi Chúng ta có thể đưa nó vào trường hợp xấu nhất và giả thiết rằng nhiễu lớn tới mức các
ký hiệu thu hoàn toàn độc lập với các ký hiệu đã phát Xác suất thu được 1 là12 cho dù ký hiệu phát đi là 1hay 0, và cũng tương tự khi thu được ký hiệu 0 Do đó, có khoảng một nửa số ký hiệu thu được là chính xác
do cơ may độc lập, và chúng ta có thể đưa ra hệ thống truyền thông tin tin cậy với tốc độ 500bit/giây, trong
khi thực tế là không có thông tin nào được truyền đi Một truyền dẫn tốt có thể đạt được bằng việc gieo một
đồng xu xấp ngửa tại điểm thu mà không cần tính đến kênh truyền
Hiển nhiên, một hiệu chỉnh hợp lí đối với tổng lượng thông tin được truyền đi sẽ chính bằng lượng tin bịmất ở tín hiệu thu, hay chính là độ bất định về tín hiệu thực sự được phát khi ta biết tín hiệu thu Từ phần thảoluận trước của chúng ta về entropy như một đơn vị đo độ bất định, dường như cũng hợp lí nếu coi entropy
có điều kiện của bản tin, được biết đến như là tín hiệu thu, là độ đo của lượng thông tin bị tổn thất Đây quả
thực là một định nghĩa hợp lí, và sẽ được làm rõ dần về sau Theo ý tưởng đó, tốc độ truyền tin thực tế R có
thể thu được bằng cách lấy tốc độ phát tin (entropy của nguồn) trừ đi tốc độ trung bình của entropy có điềukiện
R = H(x) − H y (x) Entropy có điều kiện H y (x), để ngắn gọn, sẽ được gọi là độ mập mờ (equivocation) Nó đo lường sự
không rõ ràng tính theo trung bình của tín hiệu thu
Trang 21Trong ví dụ ở trên, nếu bit thu được là 0 thì xác suất hậu nghiệm ứng với sự kiện bit 0 đã được phát đi là
0.99 và bit 1 đã được phát đi là 0.01 Các kết quả này ngược lại nếu bit thu được là 1 Do đó
H y (x) = −[0.99 log 0.99 + 0.01 log 0.01]
= 0.081 bit/ký hiệu hay 81bit/giây Ta có thể phát biểu rằng hệ thống đó truyền tin với tốc độ 1000−81 = 919 bít/s Trong trường
hợp xấu nhất, khi bit 0 đều có thể được thu như thể bit 0 hoặc 1, tương tự cho bit 1, thì xác suất hậu nghiệm
là12,12và
H y (x) = −£12log12+12log12¤
= 1 bit/ký hiệuhay 1000 bit/giây Tốc độ truyền tin do vậy bằng 0 như mong đợi
Định lí sau đây cho một cách hiểu trực giác về độ mập mờ và cũng dùng để chứng tỏ nó là đơn vị đolường thích hợp duy nhất Giả thiết có một hệ thống truyền tin và một người quan sát (hay thiết bị bổ trợ) cóthể quan sát cả tín hiệu được phát và được phục hồi (với các lỗi do nhiễu gây ra) Người quan sát này đánhdấu các lỗi trong bản tin đã được khôi phục và phát dữ liệu đi tới một điểm thu qua "kênh sửa lỗi" để chophép máy thu sửa các lỗi này Tình huống này được miêu tả bằng lược đồ như trên hình 8
DỰ LIỆU SỮA LỖI
Hình 8 — Lược đồ hệ thống sửa lỗi
Định lí 10: Nếu kênh sửa lỗi có dung lượng bằngH y (x), ta có thể mã hóa dữ liệu sửa lỗi để gửi qua kênhnày và hiệu chỉnh tất cả các lỗi, trừ một phần nhỏ tùy ý² Điều này là không thể nếu dung lượng kênh nhỏhơnH y (x)
Nói đại khái thì H y (x) là tổng thông tin bổ sung phải được cấp trong mỗi giây tại điểm thu nhằm sửa lại
bản tin thu
Để chứng minh phần thứ nhất, giả thiết có một số chuỗi dài trong bản tin thu M 0tương ứng với bản tin
gốc M Có thể tìm ra theo cách logarit T H y (x) bản tin nguồn M mà có khả năng tạo ra một cách hợp lí mỗi bản tin M 0 Do vậy ta có T H y (x) số nhị phân được gửi đi trong mỗi T giây Điều này có thể được thực hiện với tần số lỗi ² trên kênh có dung lượng H y (x).
Phần thứ hai được chứng minh như sau: với các biến xác suất rời rạc x,y, z bất kì ta có:
H y (x, z) ≥ H y (x).
Khai triển vế trái, ta có:
H y (z) + H yz (x) ≥ H y (x)
H yz (x) ≥ H y (x) − H y (z) ≥ H y (x) − H(z).
Trang 22Nếu ta gán x là đầu ra nguồn tin, y là tín hiệu thu và z là tín hiệu truyền qua kênh sửa lỗi, thì vế phải chính
là độ mập mờ trừ đi tốc độ phát tín hiệu qua kênh sửa lỗi Nếu dung lượng kênh này nhỏ hơn độ bất định, vế
phải sẽ lớn hơn 0 và H yz (x) > 0 Nhưng đó lại là độ bất định của thông tin phát khi biết tín hiệu thu và tín
hiệu sửa lỗi Nếu độ mập mờ này lớn hơn 0, tần số lỗi sẽ không thể nhỏ tùy ý
Ví dụ:
Giả sử lỗi xảy ra ngẫu nhiên trong chuỗi số nhị phân; xác suất số nhị phân sai là p và đúng là q = 1− p.
Các lỗi này có thể sửa nếu biết vị trí Do vậy kênh sửa lỗi chỉ có nhiệm vụ truyền thông tin vị trí cáclỗi Vấn đề này chung quy lại cũng chỉ là truyền tín hiệu từ một nguồn tạo ra các số nhị phân với xác
suất truyền bit 1 là p (không chính xác) và bit 0 là q (chính xác) Do vậy dung lượng kênh cần thiết là
có mức quan trọng nhất định
Dung lượng kênh truyền có nhiễu C tốt nhất là bằng tốc độ truyền tin tối đa cho phép, nghĩa là, tốc độ
khi nguồn tin hoàn toàn phù hợp với kênh truyền Do đó ta có biểu thức tính dung lượng kênh:
C = Max¡H(x) − H y (x)¢
trong đó, phép toán Max ứng với mọi nguồn tin có thể dùng như đầu vào của kênh truyền Nếu kênh không
có nhiễu, H y (x) = 0 Định nghĩa do vậy sẽ tương đương với biểu thức cho kênh không nhiễu, vì entropy cực
đại với kênh truyền chính là dung lượng của nó
13 ĐỊNH LÍ CƠ BẢN CHO KÊNH RỜI RẠC CÓ NHIỄU
Có vẻ khá bất ngờ nếu ta phải định nghĩa dung lượng kênh C cho một kênh có nhiễu khi ta có thể không bao
giờ gửi được một thông tin nào đó trên kênh này Tuy nhiên rõ ràng là bằng cách gửi thừa thông tin, xác suấtlỗi có thể giảm được phần nào Ví dụ, bằng cách lặp đi lặp lại một bản tin nhiều lần, và nhờ vào nghiên cứuthống kê các phiên bản khác nhau của bản tin thu, xác suất lỗi có thể còn rất nhỏ Nếu người ta muốn xácsuất lỗi giảm về 0, độ dư trong thông tin phải tăng đến mức không xác định, và tốc độ truyền do đó tiến tới
0, điều này là hoàn toàn không thể Nếu có, ta sẽ không thể xác định cụ thể dung lượng kênh, mà chỉ xácđịnh được dung lượng ứng với một tần số lỗi cho trước, hay độ mập mờ cho trước; dung lượng kênh sẽ giảm
khi mà các yêu cầu về lỗi trở nên nghiêm ngặt hơn Thực tế dung lượng kênh C định nghĩa ở trên có tầm quan trọng rõ rệt Ta có thể truyền thông tin với tốc độ C qua kênh với tần số lỗi hay độ mập mờ mong muốn nhờ vào một mã hóa hợp lí Phát biểu này không đúng cho bất kỳ tốc độ nào lớn hơn C Nếu ta cố thử phát
đi với tốc độ lớn hơn C, giả dụ C + R1, thì sẽ cần thêm độ mập mờ lớn hơn hoặc bằng lượng vượt quá R1đó.Giá phải trả khi đòi hỏi một độ mập mờ quá cao như thế là ta thực sự không nhận được thông tin chính xác
có tốc độ cao hơn C.
Tình huống được miêu tả trên hình 9 Tốc độ truyền tin trên kênh được biểu thị theo chiều ngang và độmập mờ theo chiều dọc Bất kỳ điểm nào ở trên đường kẻ đậm trong vùng bóng là có thể đạt được còn nhữngđiểm ở phía dưới là không thể Các điểm nằm ngay trên đường đậm, nói chung, là không thực hiện được,thông thường trừ hai điểm trên đó là có thể
Các kết quả trên là các luận điểm chính cho định nghĩa dung lượng kênh C và sẽ được chứng minh ngay
sau đây
Trang 23Định lí 11: Cho một kênh rời rạc có dung lượngCvà nguồn rời rạc có lượng entropy trên giây làH.
NếuH ≤ C, tồn tại một hệ mã hóa sao cho đầu ra của nguồn tin có thể được truyền trên kênh với tần số lỗi
nhỏ tùy ý (hay độ mập mờ nhỏ tùy ý) NếuH > C, ta có thể mã hóa nguồn sao cho độ mập mờ nhỏ hơn
H −C + ², trong đó ²nhỏ tùy ý Không có phương pháp mã hóa nào cho độ mập mờ nhỏ hơnH −C.
Phương pháp chứng minh phần thứ nhất của định lí không phải bằng việc chỉ ra một phương pháp mãhóa có các đặc tính mong muốn, mà phải chứng minh rằng tồn tại một mã như thế trong một nhóm mã nào
đó Trên thực tế, ta sẽ lấy trung bình tần số lỗi trên nhóm mã này và chỉ ra số trung bình đó có thể nhỏ hơn
VÙNG ĐẠT ĐƯỢC
H y (x)
Đ D
C=1.0
Hình 9 — Độ mập mờ có thể tương ứng với entropy đầu vào cho trước của một kênh truyền
² Nếu trung bình cộng của một tập hợp nhỏ hơn ², thì phải tồn tại ít nhất một thành phần nhỏ hơn ² Điều
này sẽ thiết lập kết quả mong muốn
Dung lượng C của một kênh truyền có nhiễu đã được định nghĩa như sau:
C = Max¡H(x) − H y (x)¢trong đó x là đầu vào, còn y là đầu ra kênh Cực đại được tính trên tất cả các nguồn mà có thể được sử dụng
như đầu vào của kênh
Cho S0là một nguồn tin mà cho phép đạt dung lượng kênh cực đại C Nếu không tồn tại nguồn tin nào thỏa mãn điều kiện này, khi đó S0được giả thiết là nguồn tin cho tốc độ xấp xỉ tốc độ cực đại Giả thiết S0được dùng như đầu vào kênh Ta xét các chuỗi có thể được phát và thu trong khoảng thời gian T Các luận
điểm sau đây là đúng:
1 Các chuỗi phát này thuộc 2 nhóm, một nhóm có xác suất cao gồm khoảng 2T H(x) phần tử và nhómgồm các chuỗi còn lại có tổng xác suất nhỏ
2 Tương tự, các chuỗi thu gồm tập hợp xác suất cao của khoảng 2T H(y)phần tử và tập hợp xác suất thấpcủa các chuỗi còn lại
3 Mỗi chuỗi đầu ra có xác suất cao có thể được tạo ra từ khoảng 2T H y (x)đầu vào Xác suất của tất cả cáctrường hợp khác là nhỏ
Các đại lượng ² và δ hàm chứa trong từ "nhỏ” và "khoảng" trong các phát biểu trên tiến tới 0 vì chúng ta cho phép T đơn điệu tăng và S0xấp xỉ nguồn cực đại
Tình huống trên được đúc kết trong hình 10, trong đó các chuỗi đầu vào là các điểm bên trái và cácchuỗi đầu ra là các điểm bên phải Ta thấy hình quạt tạo bởi các đường xiên đặc trưng cho các nguyên nhân
có thể (ở đây ý nói các chuỗi đầu vào) ứng với một đầu ra nào đó
Bây giờ, giả thiết có một nguồn tin khác tạo ra thông tin ở tốc độ R với R < C Trong khoảng thời gian
T , nguồn này có 2 T Rbản tin xác suất cao Ta mong muốn liên kết các bản tin này với một lựa chọn các đầuvào kênh có thể nhằm đạt được một tần số lỗi nhỏ Chúng ta sẽ thiết lập mối liên kết này theo mọi cách có
thể (tuy nhiên, chỉ sử dụng các đầu vào thuộc nhóm xác suất cao được xác định bởi nguồn S0) và lấy trungbình tần số lỗi trên một lớp rộng các hệ thống mã hóa có thể Điều này tương tự như tính tần số lỗi cho một
liên kết ngẫu nhiên giữa các bản tin và các đầu vào kênh trong khoảng thời gian T Giả thiết một đầu ra y1được quan sát thấy Khi đó đâu là xác suất có nhiều hơn một bản tin trong tập các nguyên nhân có thể để tạo
ra y1 Có 2T Rbản tin được phân phối một cách ngẫu nhiên trên 2T H(x)điểm Do đó, xác suất để một điểmnào đó là một bản tin bằng:
2T (R−H(x))
Trang 242H y (x)T
NGUYÊN NHÂN HỢP LÝ CHO MỖIE
2H x(y)T
KẾT QUẢ HỢP LÝ CHO MỖIM
Hình 10 — Lược đồ đặc trưng mối quan hệ giữa đầu vào và đầu ra trên một kênh truyền
Xác suất không có điểm nào trong hình quạt giấy đóng vai trò bản tin phát (ngoại trừ bản tin gốc thực sự) là
Do vậy xác suất có một lỗi tiến tới 0 và phần đầu của định lí được chứng minh
Phần thứ hai của định lí dễ dàng được chứng minh bằng cách để ý rằng ta có thể đơn thuần gửi đi C bit
trong 1 giây từ một nguồn và hoàn toàn bỏ mặc phần còn lại của thông tin được tạo ra Tại máy thu, phần bỏ
mặc đó cho một độ mập mờ H(x) − C còn phần đã phát chỉ cần cộng thêm vào ² Giới hạn này có thể đạt
được theo nhiều cách khác nhau, và sẽ được chứng minh khi chúng ta xét đến trường hợp liên tục
Phát biểu cuối của định lí chỉ là một hệ quả đơn giản của định nghĩa dung lượng kênh C Giả thiết ta
có thể mã hóa nguồn với H(x) = C + a sao cho thu được một độ mập mờ H y (x) = a − ² với ² dương Vậy
R = H(x) = C + a và
H(x) − H y (x) = C + ² với ² dương Biểu thức này mâu thuẫn với định nghĩa của C như một cực đại của H(x) − H y (x).
Thực ra, ta đã chứng minh được nhiều hơn những gì phát biểu trong định lí Nếu trung bình cộng của
một tập hợp nằm trong khoảng ² của giá trị cực đại của chúng, nhiều nhất là √ ² phần tử là có thể lớn hơn
√
² dưới giá trị cực đại (có lẽ hiểu rằng số trung bình cộng nằm trong khoảng max − √ ² và max - ND) Do
² nhỏ tùy ý, ta có thể phát biểu rằng hầu hết mọi hệ thống đều gần một cách tùy ý với trường hợp lí tưởng.
Trang 2514 THẢO LUẬNPhần luận chứng của định lí 11, tuy không phải là một chứng minh tồn tại thuần túy, lại chứa một số dạngkhuyết của các chứng minh như vậy Một nỗ lực nhằm đạt xấp xỉ tốt với mã hóa lí tưởng theo phương thứcchỉ ra trong phần chứng minh nhìn chung là không thể thực hiện được Thật ra, ngoài một số trường hợp kháhiển nhiên và vài tình huống tới hạn nào đó, không tìm thấy một mô tả tường minh nào về những xấp xỉ vớitrường hợp lí tưởng Có thể đây không phải là sự khấp khểnh, nhưng nó lại liên quan tới sự khó khăn khi đưa
ra một xây dựng rõ ràng cho một xấp xỉ tốt tới một chuỗi ngẫu nhiên
Một xấp xỉ tới trường hợp lí tưởng có thể có đặc tính sau: nếu tín hiệu bị thay đổi theo một cách hợp líbởi nhiễu, tín hiệu gốc vẫn có khả năng được khôi phục lại Nói cách khác, sự biến đổi này sẽ không khiến
nó gần giống so với một tín hiệu hợp lí khác hơn là so với tín hiệu gốc Điều này được thực hiện với giá phảitrả là lượng dư thông tin trong mã hóa Độ dư thông tin phải được tạo ra theo cách thích hợp nhằm chốnglại một cấu trúc nhiễu có liên quan Tuy nhiên, bất kì độ dư nào của nguồn tin thường là có ích nếu nó đượclợi dụng tại điểm thu Đặc biệt, nếu nguồn có sẵn một độ dư nào đó, và nếu không có nỗ lực nào nhằm loại
bỏ nó để thích ứng với kênh truyền, thì độ dư này vẫn có thể giúp chống nhiễu Chẳng hạn, trong kênh điệnbáo không nhiễu, một hệ thống có thể rút ngắn 50% thời gian truyền nếu mã hóa hợp lí các bản tin Điềunày không được thực hiện và hầu hết độ dư thông tin trong ngôn ngữ tiếng anh lại giữ lại trong các kí hiệukênh Tuy nhiên, điều này cũng có ưu điểm là cho phép nhiễu đáng kể trên kênh truyền Một lượng lớn cácchữ cái thu được có lỗi vẫn có thể được khôi phục lại nhờ vào ngữ cảnh Trên thực tế, điều này có lẽ khôngphải là xấp xỉ tồi so với trường hợp lý tưởng trong nhiều trường hợp, bởi cấu trúc thống kê của anh ngữ kháphức tạp và các chuỗi anh ngữ hợp lí cũng không quá xa (theo nghĩa đòi hỏi của định lí) so với sự lựa chọnngẫu nhiên
Cũng như trong trường hợp không nhiễu, một độ trễ nói chung là cần thiết nhằm tiếp cận việc mã hóa lítưởng Nó giờ đây có thêm chức năng phụ cho phép một mẫu nhiễu lớn ảnh hưởng lên tín hiệu trước khi cócác cơ chế khôi phục bản tin gốc thực hiện tại điểm thu Tăng kích cỡ mẫu luôn làm tăng thêm các xác nhậnthống kê có thể
Nội dung của định lí 11 và phần chứng minh của nó có thể được phát biểu một cách khác biệt, cho thấy
sự kết nối với trường hợp không nhiễu một cách rõ ràng hơn Xét các tín hiệu thực có độ dài T và giả thiết
một tập con của chúng được chọn để sử dụng Coi rằng tất cả tín hiệu trong tập con được sử dụng với xácsuất bằng nhau, và giả sử máy thu được thiết kế để lựa chọn, giống như tín hiệu gốc, một nguyên nhân có
khả năng nhất trong tập con, khi nhận được một tín hiệu bị xáo trộn Ta định nghĩa N(T, q) là con số tối đa
các tín hiệu có thể chọn cho tập con sao cho xác suất của một phiên dịch không chính xác là nhỏ hơn hoặc
bằng q.
Định lí 12: Lim
T →∞
log N(T, q)
T = C, vớiClà dung lượng kênh, với điều kiệnqkhác 0 hoặc 1.
Nói cách khác, không cần quan tâm cách thức đặt ra các giới hạn của độ tin cậy, ta có thể phân biệt một
cách chắc chắn trong khoảng thời gian T đầy đủ các bản tin để tương đương với CT bit, khi T đủ lớn Định
lí 12 có thể so sánh với định nghĩa dung lượng kênh không nhiễu trong mục 1
15 VÍ DỤ VỀ KÊNH RỜI RẠC VÀ DUNG LƯỢNG CỦA NÓXét một ví dụ đơn giản về kênh truyền rời rạc trong hình 11 Có 3 ký hiệu có thể xảy ra Ký hiệu thứ nhất
không bị ảnh hưởng bởi nhiễu Ký hiệu thứ hai và thứ ba, mỗi cái có xác suất p không bị nhiễu, và xác suất
q bị chuyển thành kí hiệu còn lại.
Ta có: (đặt α = −[p log p + q log q] và P và Q là xác suất sử dụng ký hiệu thứ nhất hay ký hiệu thứ hai)
Trang 26p q q
KÝ HIỆU PHÁT
KÝ HIỆU NHẬN
Hình 11 — Ví dụ kênh truyền rời rạc
Với các giá trị trung gian của p, dung lượng kênh nằm giữa log 2 và log 3 Sự phân biệt giữa ký hiệu thứ
hai và thứ ba chứa một số thông tin nhưng không nhiều như trường hợp không nhiễu Ký hiệu thứ nhất được
sử dụng thường xuyên hơn ở một mức nào đó so với 2 ký hiệu còn lại chính nhờ vào khả năng miễn nhiễucủa nó
16 DUNG LƯỢNG KÊNH TRONG MỘT SỐ TRƯỜNG HỢP ĐẶC BIỆTNếu nhiễu tác động lên các ký hiệu liên tiếp nhau một cách độc lập, thì điều có thể được mô tả bởi một tập
các xác suất chuyển đổi p i j Đó là xác suất ký hiệu j sẽ được thu nếu ký hiệu được truyền đi là i Khi đó tốc
độ kênh truyền tối đa được cho bởi giá trị cực đại của biểu thức
Trang 27Đây là hệ phương trình dùng để xác định giá trị cực đại của P i , với C được chọn sao cho ∑P i= 1 Giải hệ
trên ta có C sẽ là dung lượng kênh và P ilà các xác suất đúng cho các ký hiệu để đạt được dung lượng kênhnày
Nếu mỗi ký hiệu đầu vào có cùng tập xác suất trên các đường thẳng xuất phát từ nó, và điều tương tựcũng đúng với các ký hiệu đầu ra, thì dung lượng có thể được tính một cách dễ dàng, như ví dụ cho trong
hình 12 Trong trường hợp này H x (y) độc lập với phân phối xác suất trên các ký hiệu đầu vào, và được cho
1/2
1/21/21/21/2
1/6
1/6
1/61/61/3
1/31/31/2
1/21/2
Hình 12 — Ví dụ kênh truyền rời rạc với cùng xác suất chuyển đổi cho mỗi đầu vào và đầu ra
bởi − ∑ p i log p i , trong đó p ilà các giá trị của các xác suất chuyển đổi từ bất kì ký hiệu đầu vào nào Dunglượng kênh là
Max£H(y) − H x (y)¤= Max H(y) +∑p i log p i
Cực đại của H(y) rõ ràng bằng log m trong đó m là số ký hiệu đầu ra, bởi ta có khả năng làm cho chúng xảy
với cùng một xác suất bằng cách làm các kí hiệu đầu vào đồng xác suất Dung lượng kênh do đó bằng
C = log m +∑p i log p i
Trong hình 12a nó sẽ là
C = log 4 − log 2 = log 2.
Điều này đạt được bằng cách chỉ dùng ký hiệu thứ nhất và thứ ba Trong hình 12b
C = log 4 −23log 3 −13log 6
= log 4 − log 3 −13log 2
Trang 28n là C n(bit/giây) khi ta chỉ sử dụng các ký hiệu thuộc nhóm này Lúc đó, dễ dàng chứng minh rằng, để sử
dụng một cách hiệu quả nhất toàn bộ tập hợp, xác suất tổng P n của tất cả các ký hiệu trong nhóm thứ n nên
17 MỘT VÍ DỤ VỀ MÃ HÓA HIỆU QUẢ
Ví dụ sau đây, mặc dù ở một góc độ nào đó là không thực tế, chỉ một trường hợp trong đó thích ứng chínhxác với kênh truyền có nhiễu là có thể Có hai ký hiệu kênh là 0 và 1, nhiễu tác động lên chúng theo các khối
7 ký hiệu Một khối 7 ký hiệu này hoặc truyền không lỗi, hoặc chính xác một trong 7 ký hiệu bị lỗi Támkhả năng này gần như là bằng nhau Ta có
C = Max£H(y) − H x (y)¤
=17£7 +88log18¤
=47bit/ký hiệu.
Một mã hóa hiệu quả cho phép sửa hoàn toàn các lỗi và truyền đi với tốc độ C được cho như sau: (được tìm
ra nhờ vào một phương pháp của R.Hamming):
Cho một khối 7 ký hiệu X1, X2, , X7, trong đó X3, X5, X6và X7là những ký hiệu bản tin và được chọntùy ý từ nguồn tin Ba ký hiệu còn lại dùng làm phần dư và được tín như sau:
SỰ TĂNG TIẾN SỐ LƯỢNG CỦA CÁC KHỐI TRONG CÁC KÝ HIỆU VỚI ĐIỀU KIỆN TRẠNG THÁI HỮU HẠN
Coi N i (L) là số lượng của các khối trong các ký hiệu với chiều dài L được kết thúc ở trạng thái i Ta có
Trang 29Để có được phương trình này, định thức sau phải triệt tiêu:
và điều này xác định W , giá trị nghiệm thực lớn nhất khi D = 0.
Do vậy đại lượng C được tính bằng
= A(n) Từ điều kiện (3) chúng ta có thể phân tích một tùy chọn từ s mcác khả năng có
thể tương đương thành một chuỗi của m giá trị tùy chọn từ s các khả năng có thể tương đương và nhận được
¯
¯ < ²
với ² nhỏ tùy ý Giờ đây, từ tính đơn điệu của A(n),
A(s m ) ≤ A(t n ) ≤ A(s m+1)
mA(s) ≤ nA(t) ≤ (m + 1)A(s).
Vậy thì chia cho nA(s),
m
A(t) A(s) ≤
¯
¯ < 2² A(t) = K logt
với K phải là số dương để thỏa mãn điều kiện (2).
Bây giờ, giả thiết chúng ta có một tùy chọn từ n khả năng với xác suất tương xứng với p i= n i