Khái niệm thông tin và các yếu tố cơ bản trong xử lý thông tin - Các định nghĩa khác nhau về thông tin • Theo nghĩa thông thường • Theo quan điểm triết học • Theo lý thuyết thông tin - C
Trang 1bài giảng thông tin học
chương 1
thông tin, các quá trình
thông tin & thông tin học
PGS.TS Đoàn Phan Tân
Tháng 2 - 2004
Trang 21 Khái niệm thông tin 1.1 Khái niệm thông tin và các yếu tố cơ bản trong xử lý thông tin
- Các định nghĩa khác nhau về thông tin
• Theo nghĩa thông thường
• Theo quan điểm triết học
• Theo lý thuyết thông tin
- Các đặc trưng của một thông tin tốt
• Thích hợp (Pertinence)
• Kịp thời (Timeliness)
• Chính xác (Accuracy)
- Các yếu tố cơ bản xử lý thông tin
• Để hiểu được các tín hiệu nhận được từ giác quan, con người phải
phát triển và học các hệ thông ngôn ngữ phức hợp Đó là các “Bộ chữ cái” các tín hiệu và các quy tắc sử dụng chúng
• Ghi các tín hiệu truyền đi trên các vật mang tin bằng kỹ thuật tư
Trang 31.2 Dữ liệu - Thông tin và tri thức
Nhu cầu thông tin là một nhu cầu cơ bản của con ngư ời
Các mức độ chất lượng của thông tin
- Dữ liệu (Data): Các số liệu, dữ kiện ban đầu thu thập
được qua điều tra, khảo sát Dữ liệu tồn tại dưới 4 hình thức: con số, chữ viết, âm thanh, hình ảnh Dữ liệu có thể có cấu trúc hoặc không có cấu trúc
- Thông tin (Information): Là những dữ liệu đã được
sắp xếp thành những mẫu hình có ý nghĩa (thông qua
xử lý)
- Tri thức(Knowledge): Thông tin hữu ích được trí tuệ
con người xác nhận qua quá trình tư duy và được đưa vào sử dụng một cách có hiệu quả trong thực tiễn Tri thức là sức mạnh
Trang 4Dữ liệu - Thông tin và tri thức
Theo cách thể hiện, có hai loại tri thức:
- Tri thức nội tại (Tacit knowledge): Tri thức tiềm ẩn
trong trí óc con người
- Tri thức tường minh (explicit knowledge): Tri thức thể
hiện qua ngôn ngữ, tài liệu văn bản, kết xuất của
máy tính,
Cách thức chúng ta xử lý dữ liệu quyết định
giá trị của chúng
Với sự ra đời của máy tính điện tử, tầm quan trọng của dữ liệu trở nên rõ ràng hơn, các
thông tin trở nên có giá trị ngày càng cao hơn.
Trang 51.3 Nguồn thông tin điện tử (Thông tin số)
Thông tin điện tử là tất cả các thông tin được xử lý, lưu trữ và truy cập trên máy tính
Thông tin điện tử bao gồm:
•Các CSDL chuyên ngành, đa ngành
•Các cơ sở tri thức
•Các bản tin điện tử
•Báo, tạp chí điện tử ấn hành trên mạng Internet
•Các website trên Internet
•Các CD-ROM
Các đặc trưng của thông tin điện tử
•Có mật độ thông tin cao
•Thông tin luôn cập nhật
•Thông tin có thể lưu trữ dưới nhiều dạng khác nhau
•Thông tin có thể truy cập theo nhiều dấu hiệu khác nhau
•Thông tin có thể truy cập từ xa
•Cùng một thời điểm có thể nhiều người truy cập
•Tạo khả năng đẻ người sử dụng tiếp xúc tác giả qua kênh
thông tin phản hồi.
Trang 62 Giao lưu thông tin và các quá
trình thông tin 2.1 Giao lưu là thuộc tính cơ bản của thông tin
- Thông tin tiềm tàng khắp nơi trong xã hội.Thông tin chỉ có ý
nghĩa khi nó được truyền đi, phổ biến và xử dụng Bản chất của thông tin nằm trong sự giao lưu của nó.
- Thông tin hình thành trong quá trình giao tiếp Lịch sử phát
triển của thông tin gắn liền với lịch sử phát triển của kỹ thuật truyền tin:
- Tiếng nói – Thông tin nói
- Chữ viết, nghề in – Thông tin viết (văn bản)
- CNTT – Thông tin điện tử, thông tin đa phương tiện.
2.2 Các quá trình thông tin
- Lược đồ chung của quá trình thông tin
- Thông tin khoa học và thông tin đại chúng
Trang 73 Thông tin học và lý thuyết thông tin
Thông tin học ra đời vào đầu thế kỷ XX là sự kế thừa các
ngành thư viện, tư mục, lưu trữ, truyền tin liên lạc và đáp ứng các yêu cầu thực tiễn giải quyết vấn đề bùng nổ thông tin.
3.1 Thông tin học Nghiên cứu:
- Bản chất, cấu trúc và quy luật phát triển của thông tin.
- Lý thuyết và phương pháp tổ chức, xử lý, khai thác và sử
dụng có hiệu quả các nguồn lực thông tin.
3.2 Lý thuyết thông tin Nghiên cứu:
- Các vấn đề về đo lường, biểu diễn, mã hoá thông tin.
- Khả năng truyền, nhận và xử lý thông tin của các hệ
thống truyền thông.
ý tưởng cơ bản của lý thuyết thông tin là thông tin có thể xử
lý như một đại lượng vật lý, nó có thể xác định và đo được bằng đại lượng toán học.
Trang 8các thành phần của hệ thống truyền thông
Nguồn tin: sản sinh ra thông tin hay thông báo sẽ được truyền đi (phát thanh viên)
Vật truyền: chuyển thông báo thành tín hiệu điện hay
điện tử (micro, điện thoại, máy phát thanh, phát hình)
Kênh truyền tin: dây dẫn, khí quyển
Máy thu: chuyển tín hiệu về thông báo ban đầu (tai
nghe, máy thu thanh, thu hình)
Nơi nhận: người nghe điện thoại, nghe đài, xem truyền hình
Hai vấn đề cần giải quyết trong hệ thống truyền thông là giảm nhiễu và tăng khả năng của kênh truyền Đó là những vấn đề mà lý thuyết thông tin phải nghiên cứu
và giải quyết
Trang 9đơn vị đo thông tin
Xuất phát từ quan điểm truyền tin, thông tin là ý định lựa chọn một thông báo riêng biệt từ một tập hợp các thông baó có thể Sự lựa chọn này xẩy ra với một xác suất nào đó
Sự lựa chọn đơn giản nhất là lựa chọn giữa 2 khả năng như nhau (p=1/2) Lượng thông tin được tạo ra từ cách lựa chọn như thế được coi là một đơn vị đo thông tin, gọi là bit
– Ví dụ: Gieo một đông tiền, P(S)=P(N)=1/2, lượng thông tin
được tạo ra từ cách chọn như thế là 1 bit Nếu ký hiệu S là
số 1, N là số 0, thì chỉ có một cách chọn để biểu diễn thông báo là 1 hoặc 0.
Như vậy: Bít là lượng thông tin vừa đủ để nhận biết
một trong hai khả năng có xác suất bằng nhau có thể xảy ra (như giữa số 1 và 0 được sử dụng trong NTĐT)
Trang 10công thức tính số lượng thông tin
Nếu tập hợp các thông báo bao gồm N thông báo có khả năng như nhau (p=1/N), thì số lượng thông tin, ký hiệu
là I, được tính bằng công thức:
I = log2N
Rõ ràng: Với N=2 thi I=1, phù hợp với định nghĩa đơn vị thông tin
Ví dụ: Gieo 3 lần liên tiếp một đồng tiền, có N=8 và I=3 Nghĩa là cần 3 bit để biểu diễn mỗi thông báo như:
000,001,010,100,011,101,110,111
Vi N=1/p nên công thức trên tương đương với công thức:
I = log21/p
Trang 11ví dụ
Giả sử thông báo truyền đi bao gồm các tổ hợp ngẫu nhiên của 26 chữ cái, một khoảng trống và 5 dấu
chấm câu, tổng cộng là N=32 ký hiệu, và giả sử xác suất của mỗi lý hiệu là như nhau, thì lượng thông tin của nó là : I = log232=5
Điều đó có nghĩa là ít nhất phải cần 5 bit để mã hoá mỗi ký hiệu nói trên: 00000, 00001, 00010, 00100,
01000, 10000,
Đây chính là trường hợp của hệ mã nhị phân Baudot dùng trong máy điện báo in chữ
Trang 12entropy và thông tin
Nếu các thông báo có xác suất p1, p2, p3, không
bằng nhau, thì lượng thông tin kêt hợp với chúng cũng khác nhau
Kỳ vọng toán học của các giá trị này,là thông tin trung bình của tập hợp các thông báo, gọi là entropy, ký hiệu
là H
H= - p1log2p1 - p2log2p2 - p3log2p3 -
H là đại đặc trưng cho độ bất định của hệ thống
Lượng thông tin thu được về việc xẩy ra một sự kiện
nào đó được xác định bằng độ bất định của sự kiện đó, trước khi biết nó xẩy ra
Điều đó có nghĩa là: lượng thông tin càng cao khi độ bất ngờ của sự kiện càng lớn, tức là entropy càng lớn
Rõ ràng sẽ không có thông tin về một sự kiện khi biết
Trang 13vÝ dô: qua nhiÒu n¨m quan s¸t thêi tiÕt cña
mét vïng, thu ®îc kÕt qu¶ sau
PhÐp thö α1 : Thêi tiÕt trong ngµy 15 th¸ng 6
C¸c kÕt côc cña
phÐp thö
PhÐp thö α2 : Thêi tiÕt trong ngµy 15 th¸ng 11
C¸c kÕt côc cña
phÐp thö
Cã ma Kh«ng ma Cã tuyÕt
Trang 14entropy cña hai phÐp thö nµy lµ:
H( α1) = - 0,4log20,4 – 0,6log20,6 = 0,97
H( α2) = - 0,66log20,66 – 0,2log20,2 –
0,15log20,15 = 1,28
VËy: H( α2) > H( α1), nghÜa lµ: T¹i khu vùc
®ang xÐt, thêi tiÕt ngµy 15/11 khã dù b¸o h¬n thêi tiÕt ngµy 15/6.