Điều đó có nghĩa là "nhận biết" trong trường hợp này là một phương pháp còn xa mới hoàn thiện như nhận biết xác định bằng thuật toán được miêu tả trong phần trước.. Trong kinh nghiệm của
Trang 1tôi đã nghĩ" Điều đó có nghĩa là sự gặp gỡ này đã hoàn thành một nhận biết Một cái tên thì gắn với một vật thể và một vật thể sẽ tự động được gắn với một cái tên Điều đó có nghĩa là "nhận biết" trong trường hợp này là một phương pháp còn xa mới hoàn thiện như nhận biết xác định bằng thuật toán được miêu tả trong phần trước Trong kinh nghiệm của mình, qua quá trình theo dõi con trai tôi lớn lên và phát triển, tôi nhớ lại rằng khi con tôi vào khoảng một tuổi rưỡi, cháu thường đi vào bếp trước giờ đi ngủ và bắt đầu chỉ vào một vật nào đó Tại tuổi này, khả năng thể hiện bằng lời nói của cháu còn rất hạn chế Cháu đầu tiên chỉ vào một chiếc ghế, tôi lập tức gọi tên của vật này cho cháu Cháu nhắc lại từ "ghế", và tiếp tục chỉ vào một vật khác Tôi cho tên của vật, cháu nhắc lại Cháu quay lại với vật thể đầu tiên, thốt ra tên, sau đó quay sang với vật thể thứ hai và lại gọi tên Điều này cứ tiếp tục diễn ra cho đến khi mà nó cảm thấy nó đã học đủ cho ngày hôm
ấy Cái cách nhận biết bằng cách tự gọi tên mà tôi đã chứng kiến này đã làm cho tôi suy nghĩ tới tận hôm nay Từ kinh nghiệm này, tôi nhận thấy rằng sự nhìn nhận vật thể và gọi tên phải luôn luôn đi liền với nhau Có lẽ phần lớn là cháu muốn nhìn nhận vật thể, có lẽ phần lớn là cháu muốn tạo ra một cái tên cho chúng (ngôn ngữ trẻ em); cháu chỉ muốn biết bằng cách nào tôi gọi được tên của vật thể
- và có thể cháu sẽ có thể giao tiếp hoàn thiện hơn với tôi hoặc có thể đó chỉ là một sự tò mò cố hữu (một điều rất khó thể mô phỏng bằng máy tính)
12.8 Nhận biết theo phân nhóm
Không có một cấu trúc sinh lý học hoặc hiểu biết nào chứng minh cho giả thiết cho rằng tất cả các tế bào thần kinh đều giống nhau và có thể biểu diễn bằng một hàm xichma, hoặc tất cả các tín hiệu vào được nhân với các trọng số Tế bào thần kinh như chúng ta biết có các hình dạng khác nhau và đóng các vai trò khác nhau Điều này cho phép chúng ta cho ra một lý thuyết mới Dựa trên kết luận trong phần trước, một cấu trúc khác và một thuật toán nhận biết đã được phát triển bởi Abou-El-Nasr Cấu trúc này có tên gọi là LBAQ - "nhận biết bằng cách đặt ra các câu hỏi" Nó giống như thuật toán phân nhóm mô tả bởi Hartigan, và được áp dụng trong phân lớp Carpenter/Grossberg
Thuật toán này theo các bước sau:
1 Chỉ ra các đặc điểm hoặc thuộc tính của một đầu vào ký hiệu cho đối tượng cần phân lớp
2 Các đặc điểm này định nghĩa trung tâm của nhóm đầu tiên Cho một hệ thống hai đầu vào:
] 1 [ ] 1 ][
0 [
] 0 [ ] 0 ][
0 [
xp w
xp w
Trang 2319
ở đây xp[0] và xp[1] là đặc điểm của sơ đồ màu đã cho Những thông số này là x
và y trong bài toán phân lớp màu của chúng ta Mỗi nhóm được định nghĩa bằng tâm, bán kính, và số điểm của nhóm
3 Bước tiếp theo
]) 1 [ ] 1 ][
0 [ ( ]) 0 [ ] 0 ][
0 [
thì điều chỉnh tâm điểm của nhóm theo công thức
) 1 n /(
]) j [ xp n ] j ][
i [ ( ] j ][
i
ở đây i = 0,1, ,số nhóm
và tăng số điểm của nó Mặt khác, dạng của một nhóm mới với tâm của nó là mẫu mới
4 Tiếp theo việc đưa vào thì khoảng cách tới mỗi nhóm được tính Nếu mẫu trong nhóm gần nhất, theo công thức (12.25), tâm của mẫu đó được điều chỉnh Mặt khác một nhóm mới được tạo khuôn
5 Quá trình xử lý được lặp lại với tất cả các điểm trong lớp Một nhãn có thể được thiết kế cho mỗi nhóm bằng cách cho phép giải thuật hỏi tên để đặt cho nhóm đó Một vài hay tất cả các nhóm có thể được cùng một tên hay nhãn Một thuận lợi của phương pháp này là nó nghiên cứu dữ liệu đang được đưa ra, và không đòi hỏi nhắc lại Nếu hệ thống được đòi hỏi để nghiên cứu một màu nó không cần biết dữ liệu bên ngoài lớp trực tiếp định nghĩa màu đó Sự lựa chọn bán kính cho các nhóm khác nhau là giới hạn về sự thành công của giải pháp, và
là dữ liệu phụ thuộc Nếu bán kính là quá lớn, thì sự phân lớp sai là có thể xảy ra; nếu quá nhỏ thì phải cần đến một số lượng lớn các nhóm, lỗ hổng giữa các nhóm lại có thể dẫn đến sự phân lớp sai Bởi vì giải thuật đòi hỏi rất ít thời gian tính toán những sai số khá nhỏ này có thể bỏ qua Bán kính có thể được chọn cơ bản dựa trên phép thử và sai
Bài tập 12.3
1 Mạng thần kinh nhận biết thuộc một lớp của phân lớp thần kinh được biết
như phân lớp thần kinh nguyên mẫu Phát triển chương trình để định ra bán kính
của lớp thần kinh nguyên mẫu
2 Phát triển một giải thuật để có thể thay đổi được bán kính lớp nguyên mẫu thần kinh Giải thuật bắt đầu với bán kính định trước cho tất cả các nhóm, tiếp theo nhóm những nhóm lân cận với cùng một nhãn
3 Viết chương trình với giải thuật được viết trong phần 2 của bài tập này
4 Kiểm tra chương trình với phân lớp nguyên mẫu
Trang 3Sử dụng bán kính = 0.01 và dữ liệu được định nghĩa trong "TINT2.DAT" giải pháp được đưa ra với thời gian thực hiện rất ít Hệ thống kết thúc với 16 nhóm Hình 12.14 là trực quan hoá kết quả
Hình 12.15 chỉ ra cách giải pháp này liên kết thành một mạng thực sự Như bạn
có thể nhìn thấy, một vài nơron là cơ sở để tính tổng giá trị, những nơron khác thực hiện chức năng hình vuông, những nơron này đóng vai trò giới hạn, và một kiểu thực hiện là phép toán logic OR
Chủ đề nhận biết màu sắc là chủ đề quan trọng - không chỉ trong xử lý ảnh màu như chúng ta đã chứng kiến, nhưng cũng là bài toán của máy nhìn Bởi vì mục đích chính của quyển sách này là trực tiếp đi theo hướng xử lý ảnh và ứng dụng tín hiệu vô tuyến, chúng ta sẽ không đi chệch hướng đến chủ đề máy hay người máy nhìn Tuy nhiên, tôi muốn chỉ ra rằng hệ thống nhìn sử dụng cho người máy trong công nghiệp là cứng và không có sự linh động được đưa ra trong chương này Một hệ thống nhận biết màu bằng AEG của Frankfurt, Đức được miêu tả trong bài báo, tác giả Gosch
12.9 Máy Ô-tô-nôm
Một cảm nhận tôi thấy khi tôi bắt đầu nghiên cứu chủ đề nhận biết của con người và mạng thần kinh nhân tạo đó chúng rất gần gũi để tạo ra trí thông minh thực sự, máy Ô-tô-nôm (Autonomous - hoạt động độc lập) Cảm giác mà tôi nhận được nhiều hơn cả từ sự cường điệu hoá từ hiện thực Thực ra chúng ta còn xa với việc tạo ra máy Ô-tô-nôm thực sự tại thời điểm này Tuy nhiên, chúng ta có thể nói tương lai sẽ như thế nào? Có thể một ngày với những cải tiến vượt bậc trong phần cứng, phần mềm, và sự hiểu biết về chính bản thân chúng ta, chúng ta cũng
Trang 4321
có thể tạo được một máy giống với "Dữ liệu" của "Star Trek: Thế hệ tiếp theo."
Hình 12.14 Trực quan hoá mạng thần kinh
Bây giờ tôi muốn kể một câu truyện với bạn Câu truyện như sau:
Trang 5Đấng sáng tạo quyết định sáng chế một máy Ô-tô-nôm, máy có tổ chức rất lớn, nhưng có giới hạn, có khả năng sáng tạo Sau đó máy được trao trách nhiệm chăm lo cho trái đất Trái đất là quà sáng tạo trời cho Đấng sáng tạo tụ họp các thần phụ tá (các thiên thần) của ông ta và truyền cho họ ý định của ông ta Các phụ tá hỏi, nếu như có một máy có khả năng lớn như vậy sẽ có thể trở thành nguyên nhân của sự phá hoại và đổ máu Đấng sáng tạo đáp lại rằng ông ta biết
họ không biết những gì Sau đó ông ta đưa tác phẩm mới của ông ta ra, ông đặt tên là Adam Trước tiên ông ta dạy (lập trình) cho Adam đặt tên các đồ vật Ông
ta hỏi các thần đặt tên cho các đồ vật mà họ hay Adam chưa thấy bao giờ Các thần đáp lại rằng họ chỉ biết những cái gì mà họ đã được dạy Sau đó ông ta hỏi Adam đặt tên cho đồ vật Adam có thể đưa ra tất cả các tên cho các đồ vật (nhận
ra hoặc nhóm lại, theo nhãn) Đó là khả năng rất mạnh sẽ gián tiếp dẫn Adam đến việc phát minh ngôn ngữ để giao tiếp, đó là công cụ phần mềm, và công cụ phần cứng để xây dựng và phát triển xa hơn nữa Các thần không có khả năng như vậy
Dù vậy, vẫn còn một vấn đề nhỏ cần được kiểm tra trước khi đưa phát minh này xuống trái đất Adam đã hoạt động độc lập được chưa? Phương pháp tốt nhất là cung cấp cho Adam một lệnh không có cơ sở logic và tiến hành nếu anh ta theo
sự đánh dấu đó hay lý luận với lý lẽ ngược trở lại Đấng sáng tạo quyết định rằng cách tốt nhất là đưa Adam ra kiểm tra trước khi đưa Adm xuống quản lý trái đất
Vì thế, đấng sáng tạo đưa Adam vào một khu vườn và tự do làm những gì anh ta muốn, ngoại trừ ăn quả của những cây được chỉ rõ Tuy nhiên, một vài điều trục trặc đã xảy ra Adam tuân lệnh theo một nghĩa hẹp Anh ta thiếu tính chất của một máy Ô-tô-nôm Rõ ràng, đấng sáng tạo cần phải sửa lỗi phần mềm đã điều khiển Adam Trong thời gian chờ đợi, ông ta quyết định làm Adam theo mẫu một sinh vật khác trên trái đất bằng cách cung cấp cho Adam một người bạn Ông cũng giới hạn tuổi thọ cho Adam (vì thế ông không chần chừ) và khả năng mở rộng sự hiện diện trên trái đất thông qua việc sinh sôi nảy nở Lần này Adam tuân theo logic nội quy Anh ta đứng dưới cây bị cấm đoán và hỏi một câu làm anh ta
Trang 6323
trở thành người sáng tạo thực sự "Cái gì xảy ra nếu " Đó là câu hỏi rất hay để sáng tạo, vì vậy ông ta đã đặt Adam xuống trái đất
Hình 12.15 Cấu trúc hai cụm tế bào thần kinh
Cậu bé Adam được tạo ra từ công cụ đơn giản để thám hiểm nhân loại Bước tiếp theo của khoa học dường như đi thẳng về hướng hiểu chính chúng ta và có thể tạo ra máy Ô-tô-nôm của chúng ta, giống như câu truyện hư cấu "Dữ liệu" trong "Star Trek (sự di cư của các vì tinh tú): Thế hệ tiếp theo."
Trang 7
CHƯƠNG
13
NÉN DỮ LIỆU ẢNH 13.1 Chỉ dẫn
Nén ảnh là một kỹ thuật mã hoá hiệu suất cao ảnh số nhằm làm giảm số bit
cần cho biểu diễn ảnh Chức năng của kỹ thuật này là giảm độ lớn dữ liệu
phải lưu trữ cùng với thời gian truyền trong khi vẫn giữ nguyên chất lượng của
ảnh Để đánh giá sự cần thiết của nén ảnh, chúng ta xem xét về yêu cầu bộ nhớ
và thời gian truyền khi dùng một modem 9600 baud (bit/s) cho các ảnh sau
đây:
¦ Một ảnh 512 512 điểm, 8 bit cho một điểm, ảnh mức xám yêu cầu
2,097,152 bit cho lưu giữ và mất 3.64 phút để truyền
¦ Một ảnh màu RGB có cùng các bước xử lý như trường hợp trên yêu cầu
xấp xỉ 6 triệu bít cho lưu trữ và mất gần 11 phút để truyền
¦ Một phim âm bản có kích thước 24 36 mm (35 mm) chia bằng các
khoảng cách nhau 12 µm, vào khoảng 3000 2000 điểm, 8 bit cho một điểm,
yêu cầu 48 triệu bit cho lưu giữ ảnh và 83 phút để truyền Một phim âm bản
màu sẽ yêu cầu một số lớn gấp ba lần cho lưu giữ và truyền
Rõ ràng, việc truyền và lưu giữ các ảnh sẽ có nhiều vấn đề Có rất nhiều ví
dụ khác mà sẽ dễ dàng làm sáng tỏ vai trò của nén ảnh, và rất có nhiều nghiên
cứu tập trung vào lĩnh vực này Fax, một tài liệu đồ hoạ được truyền qua
đường dây điện thoại, nén dữ liệu ảnh y học, truyền hình là một vài trong số
nhiều ứng dụng tiềm tàng của nén ảnh Sự phát triển của kỹ thuật vi điện tử và
sự phát triển của rất nhiều ứng dụng thương mại dẫn dắt sự phát triển cho các
tiêu chuẩn và phần cứng của bộ nén ảnh theo thời gian thực
Nén ảnh là đạt được bâừng cách loại bỏ các phần thừa trong ảnh Các phần
thừa này có thể ở trong miền không gian, miền phổ, hoặc là phần thừa trong
thời gian
¦ Phần thừa không gian là kết quả do mối quan hệ tương quan giữa các
điểm gần nhau
¦ Phần thừa phổ là kết quả do mối tương quan giữa các mặt phẳng màu
khác nhau
¦ Phần thừa thời gian là kết quả mối tương quan của các khung khác nhau
một dãy các ảnh như trong truyền hình
Trang 8
310
Trong chương này tôi sẽ trình bày với các bạn một số thuật toán nén ảnh có kết quả tốt được thừa nhận rộng rãi Chúng ta sẽ phát triển thuật toán thành mã chương trình C, sau đó kiểm tra kết quả của các kỹ thuật này qua các ví dụ chạy thử Bạn sẽ có nhiều kinh nghiệm bằng cách tự chạy các chương trình này
13.2 Mã thống kê
Những ảnh mà chúng ta thu nhận được mã hoá và lưu giữ dưới dạng "mã tự nhiên" Một mức xám của giá trị được mã hoá bằng 8 bit nhị phân bằng nhau
Ví dụ một mức xám giá trị 6 được mã hoá là 0000 0110 Một sự sắp xếp mã hoá luân phiên nhau được dùng trong mã mức xám Loại mã này có đặc tính là bất kỳ hai từ mã liền nhau nào cũng chỉ khác nhau một vị trí Bảng 13.1 trình bày hai kiểu mã khác nhau cho một tín hiệu mẫu có giá trị vào khoảng từ 0 đến
7 Một kiểu cho ta thấy rằng tín hiệu không nhất thiết phải có giá trị thực sự từ
0 đến 7, nhưng phải có 8 mức riêng biệt
Bảng 13.1 Các mã khoảng cách bằng nhau
Vào Mã tự nhiên Mã mức
xám
0
1
2
3
4
5
6
7
000
001
010
011
100
101
110
111
111
110
100
101
001
000
010
011
Những loại mã này thường gọi là mã khoảng cách bằng nhau Mã khoảng
cách bằng nhau không được dùng trong trong thống kê dữ liệu Sự thừa nhận này được tạo ra khi ta coi rằng tất cả các mức xám (hoặc giá trị tín hiệu chói)
có cùng số lần xuất hiện trong ảnh Nếu điều này không đúng, dạng mã này không phải tốt nhất Nếu chúng ta phát triển một mã mà một số ít bít hơn được
kí hiệu cho các từ mã biểu diễn các mức xám có khả năng xuất hiện cao hơn, thì trung bình độ dài từ mã sẽ nhỏ nhất và loại mã mà chúng ta vừa phát triển
là cơ bản cho mã phần thừa tối thiểu Tất cả các loại mã này được biết với tên
mã có độ dài thay đổi hoặc đôi khi gọi là mã entropy Câu hỏi đặt ra cho
chúng ta lúc này là :
¦ Chiều dài từ mã trung bình tối thiểu mà có thể dùng giải mã để sửa lại
mã chính xác là gì?
Trang 9¦ Làm cách nào chúng ta tạo ra mã này?
Câu trả lời cho câu hỏi đầu tiên có thể tìm thấy trong lý thuyết thông tin
Nếu ta cho rằng một mức xám g của xác suất p(g) được cho bằng từ mã dài L(g) bit Chiều dài từ mã trung bình, trong một ảnh mức xám 8 bit, được cho
bởi
255
0
) ( ) (g L g p
L bit/ pixel (13.1)
Một thừa nhận hợp lý nữa có thể suy ra là sự kiện có số lần xuất hiện ít, thì
sẽ cung cấp nhiều thông tin hơn sự kiện số lần xuất hiện nhiều hơn Sự thừa nhận này dẫn chúng ta đến mối quan hệ
) ( log
1 )
(
2 p g g
Cơ số 2 dùng khi L(g) được cho dưới dạng đơn vị nhị phân hoặc bit Chiều
dài từ nhỏ nhất mà có thể được dùng cho bởi
255
0
2
g
g p g
p
Biểu thức này gọi là entropy của tín hiệu Entropy thì không bao giờ âm vì p(g) nằm trong khoảng [0,1] Đạo hàm của biểu thức entropy có thể tìm thấy
trong các sách nói về tin học hoặc thông tin Chú ý rằng cho một ảnh 256 mức xám mà tất cả các mức có khả năng xuất hiện bằng nhau khi dùng biểu thức (13.3) chúng ta có:
255
0
2
256
1 ( log 256
1
Điều này có nghĩa là một mã có độ dài bằng nhau có thể dùng trên một ảnh
mà có hàm phân bố cường độ sáng đồng đều
Câu trả lời cho câu hỏi thứ hai đề cập đến mã có phần thừa nhỏ nhất (mã tối ưu) được Huffman tìm ra Loại mã này gọi là mã Huffman và được áp dụng rộng rãi trong các kỹ thuật mã hoá bằng phần cứng cũng như bằng phần mềm trong các ứng dụng thương mại Bây giờ chúng ta sẽ xem xét sơ đồ mã hoá Huffman
Thuật toán mã hoá Huffman tuân theo các giới hạn sau:
1 Không có hai thông báo nào có sự sắp xếp của từ mã giống nhau
2 Từ mã của thông báo được mã hóa theo cách mà không cần một sự chỉ dẫn nào thêm để chỉ ra đâu là nơi bắt đầu và đâu là nơi kết thúc của từ
mã