Ứng dụng mạng HTM và mạng ngữ nghĩa để nhận diện đối tượng phức trong ảnh

Dựa vào kết quả này, chúng tôi tiếp tục kế thừa và sử dụng HTM như một một công cụ cài đặt hoạt động bộ não để xây dựng các mô hình tin học khác nhau của lý thuyết tập trung thị giác.. S

Trang 1

PHẠM ANH PHƯƠNG

ỨNG DỤNG MẠNG HTM VÀ MẠNG NGỮ NGHĨA ĐỂ NHẬN DIỆN ĐỐI TƯỢNG PHỨC TRONG ẢNH

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

Thành phố Hồ Chí Minh - 2011

Trang 2

PHẠM ANH PHƯƠNG

ỨNG DỤNG MẠNG HTM VÀ MẠNG NGỮ NGHĨA ĐỂ NHẬN DIỆN ĐỐI TƯỢNG PHỨC TRONG ẢNH

Trang 3

Lời cảm ơn

Tôi xin chân thành cảm ơn Khoa Công Nghệ Thông Tin, trường Đại Học Khoa Học Tự Nhiên, Đại học Quốc gia Tp Hồ Chí Minh đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập, công tác và thực hiện đề tài tốt nghiệp

Em xin nói lên lòng biết ơn sâu sắc đối với PGS TS Lê Hoài Bắc Em xin chân thành cảm ơn Thầy đã luôn quan tâm, tận tình hướng dẫn, truyền thụ cho em những kiến thức, kinh nghiệm và giúp đỡ em trong quá trình học tập cũng như trong lúc thực hiện đề tài này Bên cạnh đó, em gửi lời cảm ơn đến anh Trần Thành Thắng đã giúp

đỡ và định hướng nghiên cứu trong việc hoàn thành luận văn này

Em xin chân thành cảm ơn quý Thầy Cô trong Khoa Công Nghệ Thông Tin đã tận tình giảng dạy, trang bị cho em những kiến thức quý báu trong quá trình học tập và làm việc tại Khoa

Con luôn nhớ mãi công ơn của Cha Mẹ đã luôn thương yêu, lo lắng, chăm sóc và nuôi dạy con thành người

Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, kính mong nhận được sự tận tình chỉ bảo của quý Thầy Cô và các bạn

TP Hồ Chí Minh, tháng 4 năm 2011

Phạm Anh Phương

Trang 4

DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT



học theo trí nhớ Giả lập hoạt động của não bộ

cấp hướng không gian, áp dụng cho mô hình down control trong mô hình tập trung thị giác

Artificial General Intelligence Trí tuệ nhân tạo tổng quan

Trang 5

Mục lục

Chương 1 Mở đầu 7

1.1 Tổng quan 7

1.2 Lý do thực hiện đề tài 8

1.3 Mục tiêu đề tài 8

1.4 Nội dung 9

Chương 2 Thành tựu nghiên cứu bộ não 10

2.1 Trí tuệ nhân tạo 10

2.1.1 Một số kết quả nghiên cứu 10

2.1.2 Mạng nơron nhân tạo 11

2.2 Trí tuệ nhân tạo tổng quan 15

2.2.1 Lý thuyết nền tảng trí nhớ phán đoán 15

2.2.2 Đề xuất lý thuyết 19

2.3 Kết luận 20

Chương 3 Mô hình tin học trí nhớ phân cấp thời gian 21

3.1 Tổng quan mạng trí nhớ phân cấp thời gian 21

3.2 Gom nhóm không gian 23

3.3 Gom nhóm theo thời gian 24

3.4 Bản đồ ánh xạ giám sát 25

3.5 Kết luận 25

Chương 4 Tập trung thị giác 26

4.1 Hệ thống thị giác con người 26

4.2 Tập trung thị giác 28

4.2.1 Định nghĩa 28

4.2.2 Tập trung hướng đối tượng và hướng không gian 28

4.2.3 Tập trung theo bottom-up và top-down 30

4.2.4 Lý thuyết tổng hợp đặc trưng 31

4.3 Các mô hình tập trung thị giác nhận dạng đối tượng 32

4.4 Kết luận 34

Chương 5 Đề xuất mô hình tập trung thị giác máy tính 35

5.1 Lý do đề xuất mô hình 35

5.2 Xây dựng tập ảnh, mạng HTM-SBN và HTM-OBN 38

5.2.1 Tạo tập ảnh huấn luyện và kiểm tra 38

5.2.2 Xây dựng mạng HTM-SBN và HTM-OBN 42

5.3 Mô hình OBN – SBN 44

5.3.1 Mô tả kiến trúc hệ thống 44

Trang 6

5.3.2 Kết quả thực nghiệm 49

5.4 Mô hình OBN – HSBN 52

5.4.1 Mạng phân cấp hướng không gian 52

5.4.2 Mô tả kiến trúc hệ thống 54

5.4.3 Kết quả thực nghiệm 58

5.5 Phương pháp đánh giá thực nghiệm 61

5.6 Phân tích kết quả của các mô hình 62

5.7 So sánh chức năng các mô hình 63

5.8 Kết luận 63

Chương 6 Kết luận và hướng phát triển đề tài 64

6.1 Kết luận 64

6.2 Hướng phát triển 66

6.2.1 Mô hình OBN-SBN và OBN-HSBN 66

6.2.2 Chuyển đổi ảnh tự nhiên thành ảnh đa bộ phận đơn sắc 67

6.2.3 Cải tiến mô hình HTM 67

6.3 Bài báo công bố 69

Tài liệu tham khảo 71

Phụ lục 74

Trang 7

Danh sách hình

Hình 2-1: Một tế bào nơron cơ bản 12

Hình 2-2: Một tế bào nơron nhân tạo 13

Hình 2-3: Một sơ đồ mạng nơron đơn giản 13

Hình 2-4: Các phân vùng hoạt động trong bộ não 16

Hình 2-5: Hình thành mẫu bất biến của giác gian sờ, nghe và nhìn 18

Hình 2-6: Thông tin lan truyền lên và xuống hình thành các mẫu phán đoán 19

Hình 3-1: Mô hình mạng HTM 21

Hình 3-2: Mô hình gom nhóm không gian và thời gian của nút trong HTM 22

Hình 4-1: Các vùng thị giác và các kết nối giữa các vùng trong bộ não 26

Hình 4-2: Luồn thông tin thị giác vào khu vực xử lý tín hiệu chính 27

Hình 4-3: Lược đồ mô hình chuẩn điều khiển sự tập trung bottom-up 32

Hình 4-4: Mô hình tập trung nhận dạng đối tượng bằng dịch chuyển không gian 34

Hình 5-1: Kiến trúc mô hình SBN-OBN 36

Hình 5-2: Một ví dụ về hướng đa và đơn bộ phận của đối tượng "Computer" 40

Hình 5-3: Phương pháp quay trọng tâm trong không gian 3D 40

Hình 5-4: Xoay đối tượng "Table" quanh trọng tâm 41

Hình 5-5: Di chuyển bộ phận “Computer” về trọng tâm và đổi thành màu nhị phân 42

Hình 5-6: Huấn luyện và nhận dạng các kết hợp của “Computer” bằng HTM-SBN 43

Hình 5-7: Huấn luyện và nhận dạng các bộ phận của “Computer” bằng HTM-OBN 44

Hình 5-8: Kiến trúc mô hình OBN-SBN 46

Hình 5-9: Di chuyển bộ phận “Monitor” xung quanh trọng tâm trong bán kính RADIUS_OBN=2 47

Hình 5-10: Một vài tấm ảnh “Chair” để thí nghiệm 50

Hình 5-11: Một số minh họa ảnh hai đối tượng không trùng lắp 51

Hình 5-13: Mạng HSBN của đối tượng “Table” 54

Hình 5-14: Vị dụ minh họa thông tin xác định vị trí (P1,P2:r1) tại nút B1 54

Hình 5-15: Kiến trúc hệ thống OBN-HSBN 55

Hình 5-16: Mạng HSBN của đối tượng “Computer” 58

Hình 5-17: Mạng HSBN của đối tượng “Telephone” 58

Hình 5-18: Mạng HSBN của đối tượng “Chair” 59

Hình 5-19: Tỉ lệ niềm tin của đối tượng giữa hệ thống SBN-OBN và OBN-SBN 62

Trang 8

Danh sách bảng

Bảng 5-1: Danh sách hướng đa ảnh và đơn ảnh của các đối tượng 39Bảng 5-2: Danh sách các tham số dùng trong thí nghiệm OBN-SBN 49Bảng 5-3: Danh sách các tham số dùng trong thí nghiệm OBN-HSBN 59

Trang 9

sự thông minh, của cách mà bộ não hoạt động

Các ngành khoa học thần kinh, tâm lý học, sinh vật học và các ngành khoa học khác đang cố gắng vén lên tấm màn bí mật về sự hoạt động của bộ não con người trong quá trình học và thích nghi với môi trường sống J Hawkins đã nghiên cứu và đề xuất cấu trúc và hoạt động của bộ não [2] Sau đó, D George đã phát triển lý thuyết toán học để có thể cài đặt một cách tin học hóa cho mô hình [4]

HTM (Hierarchical Temporal Memory) là mô hình tin học hóa đầu tiên dựa vào lý thuyết cấu trúc và hoạt động não bộ Nó có thể giải quyết nhiều lớp bài toán như thị giác máy tính (Machine Vision), dò lỗi (Fraud Detection), phân tích ngữ nghĩa văn bản (Semantic Analysis of Text) Cụ thể, Hall và Poplin áp dụng trong việc phá mã kí tự

Trang 10

CAPTCHA [23]; Bobier và Wirth thí nghiệm trong rút trích ảnh dựa nội dung [24]; Kapuscinski and Wysocki kiểm tra nhận diện các kí tự tiếng Ba Lan [25]

Tóm lại, những ứng dụng hiện thời của HTM chỉ dừng ở việc sử dụng nó như một nền tảng để huấn luyện và kiểm tra, mà chưa dùng nó để xây dựng các mô hình tin học sử dụng các lý thuyết khác liên quan đến hoạt động của não bộ

Chúng tôi tập trung tìm hiểu tập trung thị giác (Visual Attention) [14] như một lý thuyết có liên quan đến hoạt động của bộ não và sử dụng HTM để mô hình tin học hóa lý thuyết này Các tác giả trong [3] đã áp dụng HTM thành công trong việc cài đặt mô hình bottom-up của tập trung thị giác Dựa vào kết quả này, chúng tôi tiếp tục kế thừa và sử dụng HTM như một một công cụ cài đặt hoạt động bộ não để xây dựng các mô hình tin học khác nhau của lý thuyết tập trung thị giác

Thông qua kết quả thực nghiệm của các mô hình xây dựng, chúng tôi sẽ kiểm chứng

và đề xuất cải tiến mô hình HTM, cũng như các mô hình tin học hóa của tập trung thị giác Điều này sẽ mở ra một hướng tiếp cận mới trong nghiên cứu Đó là nhận dạng ảnh đối tượng thông qua hoạt động của bộ não, làm cho máy tính thông minh và giống người hơn

Trong luận văn này, chúng tôi tập trung vào các mục tiêu sau:

 Tìm hiểu lý thuyết hoạt động bộ não và mạng HTM

 Tìm hiểu lý thuyết và xây dựng hai mô hình tập trung thị giác máy tính sử dụng HTM; cụ thể là mô hình bottom-up và top-down Với mô hình bottom-

up, chúng tôi tập trung tính hướng đối tượng xảy ra trước tính không gian Với

mô hình top-down, chúng tôi tìm hiểu vai trò của sự phán đoán thông tin trong quá trình nhận dạng đối tượng

 Đưa ra kết luận và đề xuất cải tiến cho các mô hình tin học

Trang 11

1.4 Nội dung

Luận văn bao gồm 6 chương với bố cục trình bày như sau:

Chương 1: Giới thiệu chung về đề tài

Chương 2: Trình bày thành tựu nghiên cứu về bộ não Cụ thể, chúng tôi giới thiệu

về trí tuệ nhân tạo, mạng nơron nhân tạo và lý thuyết hoạt động của bộ não được đề xuất

Chương 3: Giới thiệu mô hình HTM mô phỏng cấu trúc và hoạt động của bộ não Chương 4: Tìm hiểu lý thuyết tập trung thị giác bao gồm sự kết hợp giữa tính

hướng không gian (space-based) và hướng đối tượng (object-based); mô hình bottom-up

và top-down; các mô hình tin học tập trung thị giác hiện tại

Chương 5: Trình bày hai mô hình tin học hóa cho mô hình tập trung thị giác

bottom-up và top-down bằng cách áp dụng mạng HTM và HSBN (Hierarchical based Network)

Space-Chương 6: Tổng kết các kết quả tìm hiểu, những cải tiến, đóng góp và giới thiệu

các bài báo mà chúng tôi công bố tại các hội nghị quốc tế về các mô hình tin học tập trung thị giác ứng dụng mạng HTM

Trang 12

Chương 2

Thành tựu nghiên cứu bộ não

Những nghiên cứu của trí tuệ nhân tạo tập trung vào những thành phần sau của sự thông minh, bao gồm học, lập luận, giải quyết vấn đề, nhận thức và hiểu ngôn ngữ

2.1.1 Một số kết quả nghiên cứu

Alan Turning đề xuất bài toán Turning Test vào năm 1951, để chứng minh sự thông minh của con người Với bài toán này, ông đã thúc đẩy việc nghiên cứu lĩnh vực trí tuệ nhân tạo Bài toán đã thể hiện lên một điều rằng: bộ não là một loại khác của máy tính; bất chấp việc ta thiết kế một hệ thống thông minh nhân tạo thế nào, nó chỉ cần tạo ra những hành vi giống con người Cho đến 1991, hơn 40 năm sau, thí nghiệm lần đầu được thực hiện bởi giáo sư Hugh Loebner Từ đó, người ta đã tổ chức cuộc thi hằng năm để tìm người thắng cuộc Đến ngày nay vẫn chưa có chương trình nào vượt qua 50% thành công của bài toán

Block World là một trong những lĩnh vực lập kế hoạch (planning domain) nổi tiếng trong trí tuệ nhân tạo Chương trình được tạo ra bởi Terry Winograd và là hệ thống chuyên xử lý ngôn ngữ; nó có thể hiểu những lệnh được gõ phím và thực hiện di chuyển các khối có hình thù và màu sắc khác nhau trên một bề mặt Ví dụ, ta có thể đặt câu hỏi

“Is there a green pyramid on top of the big red cube?” hay “Move the blue cube on top of the little red cube” Chương trình có thể trả lời câu hỏi ta đang yêu cầu Nó hoàn toàn hoạt động và giả lập được nhưng bị giới hạn trong thế giới những khối mà nó được định nghĩa sẵn

Người ta cho rằng đã có nhiều ứng dụng của trí tuệ nhân tạo tưởng chừng như đã thành công và gây ấn tượng Trong đó, có chương trình của Plato áp dụng trong chứng

Trang 13

minh các giả thuyết toán học bằng phương pháp phán đoán suy diễn nhiều bước Nhưng thực tế nó chỉ có thể chứng minh một số lý thuyết đơn giản đã biết từ trước Bên cạnh đó còn có các hệ thống chuyên gia sử dụng cơ sở dữ liệu để trả lời các câu hỏi bởi người sử dụng Ví dụ, hệ thống chuyên gia y tế có thể chuẩn đoán bệnh của bệnh nhân dựa vào danh sách các triệu chứng; nhưng nó ít được áp dụng vì không thực tế và cho kết quả không cao Vào tháng 5/1997, siêu máy tính Deep Blue của IBM đã đánh bại nhà vô địch đánh cờ vua thế giới Garry Kasparov Nhưng sự thành công này là một điều vô nghĩa vì Deep Blue đã không thắng bằng sự thông minh hơn một con người; nó dành chiến thắng

vì có khả năng tính toán nhanh gấp triệu lần con người Deep Blue không có khả năng nhận thức trực quan Một người chuyên đánh cờ khi nhìn vào một vị trí thì có thể phán đoán ngay lập tức vùng nào chắc chắn sẽ nguy hiểm, trong khi một máy tính không có cảm nhận điều đó nào là quan trọng và khám phá nhiều sự lựa chọn khác Deep Blue không có cảm nhận về quá khứ của trò chơi, không biết gì về đối thủ Nó chơi cờ nhưng không hiểu về cờ, giống như một máy tính thực hiện các phép tính toán học mà không cần hiểu về khái niệm bản chất của toán học

Tóm lại, những chương trình thành công của trí tuệ nhân tạo chỉ hoạt động tốt trong một phạm vi cụ thể được thiết kế sẵn từ trước Chúng không thể tổng quát hóa hay thể hiện sự phức tạp Thực tế, Deep Blue, Medical Expert System, World Block và những chương trình khác sử dụng yếu tố hành vi bên ngoài để đánh giá sự thông minh của ứng dụng, đó chính là các kết quả đầu ra mà ứng dụng mang lại thay vì tập trung sử dụng các yếu tố bên trong Ngay cả những người tạo ra chúng cũng thú nhận rằng chúng không suy nghĩ giống con người bởi lẽ chúng không hoạt động trên nguyên tắc của bộ não con người

2.1.2 Mạng nơron nhân tạo

Mạng nơron nhân tạo được xem là một bước tiến phát triển hơn so với trí tuệ nhân tạo trong việc cố gắng xây dựng máy học thông minh Nó thật chất là một hệ thống tự học và không cần những kĩ năng lập trình truyền thống từ các nhà lập trình viên

Trang 14

Mạng nơron nhân tạo được xây dựng dựa vào những nghiên cứu của các nhà sinh vật học nghiên cứu về cấu trúc và hoạt động của tế bào nơron trong bộ não Về cơ bản, tế bào nơron nhận nhiều luồng thông tin từ các nguồn khác nhau, kết hợp chúng bằng một cách nào đó, sau cùng thực hiện một phương pháp phi tuyến tính trên kết quả trả về Hình 2-1 thể hiện chi tiết mối quan hệ của những thành phần trong tế bào nơron

Hình 2-1: Một tế bào nơron cơ bản

Để giả lập được bốn thành phần cơ bản của tế bào nơron gồm: Dendrites, Soma, Axon và Synapses, các nhà nghiên cứu đã đề xuất tế bào nơron nhân tạo như trong Hình

2-2 Những giá trị đầu vào thông tin được thể hiện bằng các kí hiệu toán học x(n) Mỗi giá trị thông tin đầu vào sẽ nhận một trọng số, kí hiệu là w(n) Trong trường hợp đơn giản

nhất, các kết quả có được sẽ được xử lý bằng phương thức tổng (Sum) và truyền cho phương thức chuyển đổi (Transfer) để tạo ra kết quả đầu ra của tế bào nơron

 Phương thức Sum có thể là các phép toán Sum, Max, Min, Avg, Or,

 Phương thức Transfer có thể là các thuật toán Hyperbolic Tangent, Linear, Sigmoid, Sine,

Trang 15

Thành phần xử lý

Kết quả đầu ra

Hình 2-2: Một tế bào nơron nhân tạo

Một trong những yếu tố quan trọng khi sử dụng mạng nơron là việc phân lớp các tế bào nơron Hiện nay, việc phân lớp này được làm bằng cách tạo ra những tầng, mỗi tầng chứa nhiều tế bào nơron Các tầng có mối liên kết với nhau Cơ bản, tất cả các mạng nơron đều có cấu trúc giống Hình 2-3 bao gồm tầng đầu vào, tầng kết quả và một hoặc nhiều tầng ẩn ở giữa

TẦNG ĐẦU VÀO

TẦNG ẨN

TẦNG KẾT QUẢ

Hình 2-3: Một sơ đồ mạng nơron đơn giản

Trang 16

Sau khi mạng nơron được xây dựng xong thì sẽ được huấn luyện có giám sát hoặc không giám sát Trong đó, hầu hết các mạng đều chọn phương pháp huận luyện có giám sát Khi đó, giá trị đầu vào và đầu ra được cung cấp cho mạng Mạng nơron tiến hành xử

lý giá trị đầu vào và so sánh kết quả có được với kết quả mong muốn Nếu có sự chênh lệch xảy ra thì lỗi được lan truyền ngược nhằm thực hiện điều chỉnh lại trọng số ở các nút Quá trình này được thực hiện lặp đi lặp lại cho đến khi trọng số thỏa mãn yêu cầu đặt

ra

Mạng nơron nhân tạo có thể xem như là một bước tiến trong việc xây dựng và tiến đến máy học thông minh nhưng thực tế nó vẫn chưa thông minh và chưa giả lập được một cách đầy đủ và hoàn thiện về cấu trúc và chức năng hoạt động của bộ não Những sản phẩm của trí tuệ nhân tạo và mạng nơron vẫn chú trọng đến kết quả hành vi như Alan Turning đề cập : “Sự thông minh đồng nghĩa với hành vi” Hay nói cách khác, những kết quả có được có vẻ giống như con người tạo ra nhưng không được tạo ra bằng cách con người suy nghĩ thông qua hoạt động của bộ não

Theo J Hawkins, mạng nơron nhân tạo không thể thông minh vì nó chưa đảm bảo ba yếu tố cơ bản sau của hoạt động bộ não:

 Yếu tố thời gian thực: Bộ não thường xử lý thông tin được thay đổi một cách

nhanh chóng theo thời gian Không có thông tin tĩnh, đứt đoạn được truyền vào và

ra trong hoạt động của bộ não

 Yếu tố lan truyền ngược: Các nhà thần kinh học trãi qua một thời gian dài nghiên

cứu đưa ra kết luận rằng bộ não thực thi lan truyền ngược thông tin xảy ra ở hầu hết các kết nối Nó giúp thông tin được xử lý một cách chính xác và giới hạn trong phạm vi thông tin tế bào đã lưu trữ từ trước

 Yếu tố cấu trúc phân tầng vật lý: Cấu trúc của bộ não vô cùng phức tạp, nó là cấu

trúc phân tầng lặp lại Tầng trên tiếp nhận thông tin từ tầng dưới và kết quả được truyền lên tầng trên Khi đó, càng ở tầng cao thì thông tin được xử lý ở dạng tổng quan dựa vào thông tin chi tiết bên dưới Hay nói cách khác, mạng nơron chưa

Trang 17

tổng quát hóa đặc trưng dữ liệu huấn luyện mặc dù thông tin được xử lý ở nhiều tầng

Hiện nay giới khoa học về trí tuệ nhân tạo đang cố gắng sử dụng các thành tựu của nhiều ngành khoa học khác nhau để giải quyết bài toán ban đầu đã đặt ra cho trí tuệ nhân tạo, đó là xây dựng máy học thông minh, với tên gọi mới là trí tuệ nhân tạo chung (AGI) Trí tuệ nhân tạo tổng quan ra đời như là một bước kế tiếp của trí tuệ nhân tạo nhằm giải quyết vấn đề về sự thông minh dựa vào kết quả nghiên cứu của ngành khác nhau như triết học, sinh vật học và tâm lý học, Cụ thể, trí tuệ nhân tạo tổng quan tập trung giải quyết ba vấn đề sau:

 Lý thuyết của sự thông minh

 Mô hình lý thuyết sự thông minh

 Mô hình tin học hóa lý thuyết sự thông minh

Trí tuệ nhân tạo tổng quan đã có những kết quả nghiên cứu nổi bật, bao gồm:

 Eric Baum, What is Thought?, 2004

 Jeff Hawkins, On Intelligence, 2004

 Marcus Hutter, Universal Artificial Intelligence, 2005

 Pei Wang, Rigid Flexibility: The Logic of Intelligence, 2006

 Ben Goertzel & Cassio Pennachin (Editors), Artificial General Intelligence,

2007

Trong phạm vi luận văn, chúng tôi tập trung vào lý thuyết về cấu trúc và hoạt động bộ não do Jeff Hawkins đề xuất Nó có tên gọi là lý thuyết nền tảng trí nhớ phán đoán và được xem là lý thuyết đầu tiên về hoạt động của bộ não Dựa vào lý thuyết này, D George đã xây dựng mô hình toán học và phát triển mô hình tin học hóa HTM

2.2.1 Lý thuyết nền tảng trí nhớ phán đoán

Bộ não con người có chiều dày khoảng 2 milimet và có sáu khu vực phụ trách các hoạt động khác nhau Con người thông minh hơn các loài vật khác bởi vì bộ não nếu trải

Trang 18

rộng trên một mặt phẳng thì nó lớn hơn nhiều lần so với bộ não của các loài vật khác; điều này chứng tỏ sự thông minh không phải do bộ não có kích thước dày hơn hoặc chứa những tế bào được cho là “thông minh”

Bộ não chứa đầy các tế bào thần kinh (nơron) Chúng được gói gọn sắp xếp đến nỗi không ai biết thật sự có bao nhiêu tế bào thần kinh trong bộ não Theo các nhà giải phẩu, người ta ước lượng rằng có khoảng 30 tỷ tế bào thần kinh trong bộ não; nhưng con số này cũng có thể có nhiều hoặc thấp hơn Các tế bào thần kinh này chứa đựng bên trong bao gồm trí nhớ, kiến thức, kĩ năng và kinh nghiệm cuộc sống Các tế bào thần kinh được phân bổ ở nhiều khu vực chức năng riêng biệt khác nhau như xử lý ngôn ngữ, ngữ pháp, được minh họa trong Hình 2-4 Những khu vực này được sắp xếp một cách phân cấp và liên kết với nhau theo hai chiều lên và xuống thông qua sự liên kết giữa các tế bào thần kinh Những khu vực bên dưới cung cấp thông tin cho những khu vực bên trên trong khi khu vực bên trên thì gửi thông tin ngược cho vùng bên dưới

CÁC KHU VỰC HOẠT ĐỘNG CỦA BỘ NÃO

Hình 2-4: Các phân vùng hoạt động trong bộ não

Theo Vernon Mountcastle, một nhà thần kinh học cho rằng những vùng bộ não có cấu trúc giống nhau Ví dụ, những vùng não quản lý thông tin thính giác giống những vùng

Trang 19

xử lý thông tin sờ và những vùng này thì giống với vùng điều khiển cơ, giống vùng xử lý ngôn ngữ Broca, và giống các vùng khác, Từ đó, Mountcastle cho rằng vì những vùng này giống nhau nên chúng sử dụng cùng một cơ chế xử lý cơ bản giống nhau cho mọi vùng hoạt động của bộ não Hay nói cách khác, bộ não sử dụng một thuật toán tổng quát chung áp dụng cho mọi khu vực chức năng khác nhau trong bộ não Cụ thể, mặc dù các giác quan thì rất khác nhau như nhìn liên quan đến màu sắc, kiểu, hình dạng, chiều sâu; nghe liên quan đến cao độ, điệu hát, nhưng cách bộ não xử lý những tín hiệu từ tai để nghe giống như tín hiệu được nhìn thấy từ mắt

Tín hiệu được truyền vào bộ não từ các giác quan khác nhau đều giống nhau và được xem là các mẫu tín hiệu theo thời gian Sự nhận thức và tri thức về thế giới quan được xây dựng từ những mẫu này Không có ánh sáng trong đầu; cũng không có âm thanh, tất

cả thông tin đi vào bộ não đều là những mẫu không gian và thời gian được truyền thông qua tế bào thần kinh Tại mỗi tế bào thần kinh, các mẫu sẽ được lưu trữ dưới dạng bất biến được rút trích từ các mẫu ở vùng thấp hơn Hay nói cách khác, các mẫu ở vùng cao được xây dựng từ các đặc trưng theo không gian và thời gian của các mẫu được truyền lên từ vùng thấp

Trong một vùng, các tế bào thần kinh lan truyền theo chiều ngang Giữa các vùng phân cấp, các tế bào thần kinh liên kết theo chiều dọc Đối với quá trình học, mỗi tế bào thần kinh ghi nhớ một tập mẫu bất biến từ tập dữ liệu huấn luyện; đó là dữ liệu theo không gian và thời gian liên tục tiếp nhận từ thế giới thực Các tế bào thần kinh ở tầng cao tạo ra các nhóm mẫu bất biến dựa vào việc rút trích các đặc trưng bất biến theo không gian và thời gian của các mẫu ở vùng liền dưới Sau đó, các mẫu này sẽ được lưu trữ tại các tế bào thần kinh bằng việc sử dụng trí nhớ Quá trình học cứ thế lan truyền lên trên cho đến vùng cao nhất Khi đó tại vùng cao nhất sẽ chứa các mẫu học siêu bất biến Đối với quá trình hoạt động, các tế bào thần kinh lan truyền các mẫu học theo chiều lên và xuống giữa các vùng khác nhau trong bộ não tạo thành mối liên kết trong bộ não như Hình 2-5

Trang 20

Sờ Nghe Nhìn Chi tiết

không gian

Bất biến không gian

Thay đổi chậm

Thay đổi nhanh

Đối tượng

Chi tiết đặc trưng

Hình 2-5: Hình thành mẫu bất biến của giác gian sờ, nghe và nhìn

Khi thông tin được lan truyền lên, các mẫu được kiểm chứng dựa vào tập mẫu đã học; khi thông tin lan truyền xuống các mẫu đã được học lại được dùng làm cơ sở để đưa ra mẫu phán đoán kế tiếp Các mẫu này khi lan truyền xuống sẽ lan truyền đến toàn bộ các vùng hoạt động khác nhau trong bộ não dựa vào các mối liên kết phân cấp như Hình 2-6

Ví dụ, trong một phòng tối khi ta dùng tay sờ mó để tìm cái bàn, nếu ta sờ vào được chân bàn trái phía trước; thông tin về chân bàn sẽ được truyền lên não để thực hiện kiểm tra và xác nhận đó thật sự là chân bàn Vì thông tin về cái bàn đã được lưu trữ ở vùng cấp cao nên nó biết được rằng sẽ có nhiều bộ phận khác của cái bàn đi kèm Bằng việc lan truyền thông tin ngược, bộ não đưa ra những phán đoán kế tiếp, cụ thể, chân bàn phải liền kề nằm ở vị trí nào Từ đó, các tín hiệu được lan truyền đến vùng điều khiển cơ thực hiện di chuyển bàn tay đến vị trí của chân bàn kế tiếp để tiếp tục kiểm chứng

Trang 21

SỜ NGHE NHÌN

Hình 2-6: Thông tin lan truyền lên và xuống hình thành các mẫu phán đoán

Tóm lại, quá trình nhận thức và hoạt động của bộ não (hay thuật toán hoạt động các vùng của bộ não) là quá trình thông tin mẫu được lan truyền liên tục lên và xuống giữa các vùng phân cấp của bộ não để kiểm chứng và phán đoán thông tin dựa vào tập mẫu học bất biến được lưu trữ tại các tế bào thần kinh

Trang 22

 Bộ não xây dựng mô hình thế giới không giám sát

 Thông tin được lan truyền lên và xuống dưới dạng phân cấp để nhận dạng và phán đoán theo thời gian cho mẫu kế tiếp

Trong chương này, chúng tôi giới thiệu những kết quả nghiên cứu về sự thông minh trong lĩnh vực trí tuệ nhân tạo và trí tuệ nhân tạo tổng quan Những thành tựu và ứng dụng của trí tuệ nhân tạo đã không cho thấy được sự thông minh ngay cả mạng nơron nhân tạo giả lập hoạt động của tế bào thần kinh

Từ đó, lĩnh vực trí tuệ nhân tạo tổng quan ra đời nhằm tập trung nghiên cứu về sự thông minh bao gồm lý thuyết, mô hình lý thuyết và mô hình tin học Trong các lý thuyết

đề xuất về sự thông minh, chúng tôi quan tâm đến lý thuyết nền tảng trí nhớ phán đoán

do Jeff Hawkins đề xuất mô phỏng hoạt động của bộ não

Trong chương kế tiếp chúng tôi trình bày về mô hình tin học hóa mô hình mạng trí nhớ phân cấp thời gian (HTM) do D George đề xuất dựa vào lý thuyết nền tảng trí nhớ phán đoán

Trang 23

Chương 3

Mô hình tin học trí nhớ phân cấp thời gian

Mạng HTM do D George đề xuất dựa vào lý thuyết trí nhớ phán đoán do Hawkins đề xuất Mạng HTM có cấu trúc dạng cây phân cấp với mỗi cấp có một hoặc nhiều nút như Hình 3-1 Mỗi nút tự thực hiện khám phá các nguyên nhân từ dữ liệu đầu vào bằng cách

xử lý tìm các mẫu bất biến dựa vào gom nhóm theo không gian và thời gian Những nút này được tổ chức dưới dạng phân tầng và không tương tác trực tiếp nhau trong cùng một tầng Đặc biệt, tầng cao trên cùng chỉ có duy nhất một nút Những nút ở tầng dưới tiếp nhận thông tin và đưa ra các phán đoán kết quả, là thể hiện bất biến của dữ liệu, lên tầng trên Bằng cách này, một mạng HTM có thể trừu tượng hóa dữ liệu khi thông tin càng được truyền lên cao dần trong mô hình phân cấp

Ảnh đầu vào

Tầng 1 Tầng 2 Tầng 3

Hình 3-1: Mô hình mạng HTM

Trang 24

Trong hình minh họa trên, mạng HTM gồm có 3 tầng Thông tin đi từ tầng cuối cùng Những nút trong mỗi tầng được phân bố thành hình chữ nhật Tầng trên cùng chỉ có một nút; tầng giữa có 16 nút và tầng cuối cùng có 64 nút Ảnh đầu vào có kích thước 3232 pixels Tấm hình được chia nhỏ thành những vùng con 44 pixels Mỗi nút ở tầng dưới

sẽ đảm nhiệm nhận thông tin từ vùng con 44 pixel

Mạng HTM hoạt động gồm hai giai đoạn: giai đoạn huấn luyện và giai đoạn phán đoán Trong giai đoạn học, mạng huấn luyện một tập mẫu theo thời gian và kết quả là nó

sẽ xây dựng thành bản đồ liên kết các trùng khớp trong không gian cho từng phân loại Trong giai đoạn phán đoán, kết quả trả về của mạng là sự phân bố niềm tin trên các phân loại đầu ra này Tất cả các nút ngoại trừ nút đỉnh ở tầng cao nhất đều có phương thức xử

lý thông tin giống nhau Phương thức xử lý tại nút sẽ gồm 2 giai đoạn: gom nhóm theo không gian và gom nhóm theo thời gian như Hình 3-2 Trong cả hai quá trình học và phán đoán, chúng được xử lý theo cách thông tin được truyền lên và không lan truyền xuống

Nút 1 Nút 2 Nút N

Ánh xạ có giám sát

Nút đỉnh

Gom nhóm không gian

Gom nhóm thời gian

Nút 1

Hình 3-2: Mô hình gom nhóm không gian và thời gian của nút trong HTM

Trang 25

Trong hình trên thể hiện một tầng với các nút đầu vào và một nút trên cao cùng của mạng HTM có 2 tầng Gom nhóm theo không gian của nút 1 học được 4 đặc trưng (c1,c2,c3,c4) Trong quá gom nhóm theo thời gian, nó sẽ gom các đặc trưng thành các nhóm dựa vào sự phân bố niềm tin trên các đặc trưng Kết quả đầu ra là sự phân bố niềm tin trên những nhóm được gom theo thời gian Tất cả những nút trong tầng này như nút 2, , nút N đều hoạt động giống nhau Kết quả của các nút này là đầu vào của nút trên cùng Tại nút đỉnh, gom nhóm theo không gian hình thành 3 đặc trưng và cho giá trị trả về là sự phân bố niềm tin lên bản đồ ánh xạ có giám sát

Trong những phần kế tiếp, chúng tôi sẽ trình bày sơ lược các thuật toán dưới góc độ cài đặt của chương trình Numenta, một chương trình tin học hóa mô hình HTM

Trong quá trình học, gom nhóm không gian phân tích những vector đầu vào để tạo thành ma trận trùng khớp (coincidence matrix) Ma trận trùng khớp này có vai trò trong việc hội tụ không gian vô cùng lớn từ thông tin vector bên ngoài thành tập những thông tin chuẩn đặc trưng thể hiện có giới hạn Những vector chuẩn này được chọn thông qua gom nhóm không gian được gọi là sự hội tụ trùng khớp bởi vì chúng thể hiện những mẫu thông tin cùng xảy ra riêng biệt liền nhau mà có xu hướng xuất hiện nhiều hơn mong đợi

so với sự chọn lựa ngẫu nhiên

Ma trận trùng khớp kí hiệu là W Nó bao gồm một hàng W j tương ứng với mỗi trùng

khớp j Mẫu thông tin đầu vào của một nút là một vector hình thành bằng cách kết nối

những vector đầu ra của các nút con bên dưới

Ma trận hội tụ bắt đầu là rỗng Khi gom nhóm không gian chọn một vector thông tin đầu vào nào là một sự hội tụ trùng khớp, nó đơn giản gắn vector này vào ma trận W như

là một hàng mới

Ngoài nhiệm vụ chính là xây dựng ma trận trùng khớp, gom nhóm không gian cũng đếm số vector thông tin đầu vào được xem là cùng thuộc một sự trùng khớp Số lần xuất

hiện này được lưu trữ trong một vector gọi là counts Khi quá trình học xong, vector này

sẽ chứa một số nguyên ứng với mỗi sự trùng khớp trong W Giá trị thành phần thứ j

Trang 26

tương đương với số vector thông tin đầu vào được xem là thuộc sự trùng khớp thứ j trong

quá trình học Gom nhóm không gian sử dụng thông tin số lượng xuất hiện này như thông tin bổ sung đầu vào cho gom nhóm thời gian để thực hiện gom nhóm sau cùng Một khi nút được chuyển sang chế độ phán đoán, gom nhóm không gian không cập

nhật W, thay vào đó nó sẽ so sánh mỗi vector thông tin đầu vào với những trùng khớp trong W Trong quá trình phán đoán, gom nhóm không gian sẽ tính một vector niềm tin y

ứng với mỗi vector đầu vào Giá trị vector kết quả là một sự phân bố trên các hội tụ trùng

khớp nên nó chứa mỗi thành phần tương ứng với mỗi hàng trong W

Giá trị đầu ra vector y sẽ là đầu vào của gom nhóm thời gian Thật sự, gom nhóm

không gian có thể xem là tiền xử lý của gom nhóm theo thời gian Nó làm đơn giản nhiệm vụ của gom nhóm thời gian bằng cách lưu trữ một số lượng lớn không gian vector đầu vào thành một tập nhỏ một cách tương đối những trùng khớp riêng biệt để dễ dàng hơn trong việc xử lý

Ý nghĩa “niềm tin” thể hiện một sự đo lường tổng quát hóa khả năng xảy ra mà giá trị

thông tin vector x và một trùng khớp cụ thể w cùng thể hiện giống nhau một nguyên nhân

của thế giới quan Nếu giá trị của niềm tin càng cao thì điều đó có nghĩa là khả năng vector đầu vào và sự trùng khớp tương ứng được tạo ra bởi cùng một nguyên nhân càng cao

Gom nhóm theo không gian có thể được cài đặt bằng nhiều thuật toán khác nhau

Trong đó bao gồm thuật toán Gaussian, Dot và Product Với thuật toán Dot và Product, chúng còn có tên gọi là khác là Dot_maxD và Product_maxD nếu chúng sử dụng thêm tham số maxDistance trong thuật toán

Công việc gom nhóm theo thời gian (temporal pooler) là gom nhóm những trùng khớp liên hệ nhau theo thời gian Trong quá trình huấn luyện, gom nhóm theo thời gian nhận những chỉ số trùng khớp được gửi bởi gom nhóm theo không gian và lưu vết những hội tụ nào xảy ra thường xuyên theo thời gian Sau quá trình học, gom nhóm theo thời

Trang 27

gian hình thành những nhóm hội tụ không trùng lắp với mỗi nhóm chứa những hội tụ xảy

ra liền nhau theo thời gian trong quá trình học

Gom nhóm theo thời gian được cài đặt bằng việc hình thành ma trận thời gian liền kề

và ma trận trọng số Weight trong quá trình huấn luyện Các thuật toán như MaxProp,

SumProp và TBI được cài đặt để phán đoán kết quả đầu ra của gom nhóm thời gian

Trong quá trình huấn luyện có giám sát, những nút trên tầng đỉnh (top-level) sử dụng bản đồ ánh xạ giám sát (supervised mapper) thay vì gom nhóm theo thời gian Công việc của bản đồ đơn giản ánh xạ trùng khớp từ gom nhóm không gian thành các phân loại chứa trong các cảm ứng phân loại

Trong chương này chúng tôi giới thiệu sơ lược mô hình trí nhớ phân cấp thời gian HTM Các yếu tố cấu hình nên mô hình bao gồm: yếu tố đặc trưng bất biến, yếu tố phân cấp của các tầng để rút trích siêu đặc trưng các mẫu học và yếu tố thời gian của dữ liệu đầu vào

Về chi tiết cài đặt tin học hóa mô hình mạng HTM, chúng tôi đề nghị người đọc tham khảo chương III luận văn Thạc sĩ của Trần Thành Thắng (khóa K16) có tựa đề “ỨNG DỤNG MÔ HÌNH TẬP TRUNG ĐỂ NHẬN DIỆN ĐỐI TƯỢNG TRONG ẢNH”, đã bảo vệ tại trường ĐH KHTN TP.HCM vào 2009

Trong chương kế tiếp, chúng tôi sẽ trình bày lý thuyết tập trung thị giác liên quan đến hoạt động não bộ Từ đó, chúng tôi đề xuất xây dựng các mô hình tin học hóa lý thuyết tập trung thị giác dựa vào mô hình trí nhớ phân cấp thời gian HTM

Trang 28

Chương 4

Tập trung thị giác

Hình dưới đây mô tả tổng quan hệ thống thị giác con người

Hình 4-1: Các vùng thị giác và các kết nối giữa các vùng trong bộ não

Ánh sáng đến tại mắt được truyền đến võng mạc và sau đó thông tin thị giác được chuyển đi thông qua tế bào thần kinh thị giác đến khu xử lý tín hiệu thị giác trung ương Tại đây có hai con đường đi đến mỗi bán cầu não Một đường đến Superior Colliculus (SC) và một đường khác chuyển trên 90% thông tin thị giác đến Lateral Geniculate Nucleus (LGN) Tại LGN, thông tin được chuyển đến khu xử lý thị giác tập trung (V1)

Từ khu vực V1, thông tin được truyền lên vùng não cao hơn V2 – V4, IT (infero temporal cortex), (MT hoặc V5) và PP (Parietal cortex) Một trong những nghiên cứu quan trọng trong những thập kỉ qua là thông tin thị giác được xử lý song song thay vì

Trang 29

theo thứ tự với một vài vùng não chuyên xử lý riêng biệt như màu sắc, hình dạng và cảm giác

Quá trình xử lý tín hiệu thị giác chủ yếu hướng đến hai vùng khác nhau trong bộ não một cách song song như Hình 4-2

Hình 4-2: Luồn thông tin thị giác vào khu vực xử lý tín hiệu chính

Cụ thể:

 Hướng thứ nhất: vùng PP, xử lý xác định vị trí không gian, điều khiển sự tập trung và vùng quan sát của mắt hướng đến những đối tượng Vì vậy sự điều khiển tập trung được cho rằng xảy ra tại đây Khu vực này liên quan đến câu

hỏi “Ở đâu” (where) và được đặt tên là dorsal stream

 Hướng thứ hai: vùng IT, xử lý nhận dạng và xác nhận tín hiệu thị giác như màu sắc và hình dạng của đối tượng Khu vực này liên quan đến câu hỏi “Cái

gì” (what) và được đặt tên là ventral stream Mặc dù khu vực này không điều

khiển sự tập trung, khu vực này nhận tín hiệu thông tin hồi đáp tập trung

Trang 30

4.2 Tập trung thị giác

4.2.1 Định nghĩa

Một trong những bài toán khó của thị giác là quá nhiều thông tin tiếp nhận Những tế bào cảm ứng sau khi tiếp nhận thông tin thì tạo ra những tín hiệu liên tục ít hoặc nhiều để truyền lên bộ não; nó gây tốn kém chi phí để xử lý tất cả tin cùng một lúc Vì vậy, điều quan trọng đối với hệ thống là đưa ra quyết định phần nào của thông tin được lựa chọn và tiếp tục xử lý về sau và phần nào cần được loại bỏ Hơn thế nữa, những tín hiệu được chọn cần được ưu tiên hóa, những thông tin liên quan quan trọng thì cần được xử lý đầu tiên và ít quan trọng hơn thì xử lý sau Điều này dẫn đến việc xử lý tuần tự đối với những phần khác nhau của thị giác Việc chọn lựa và xử lý có thứ tự được gọi là sự tập trung chọn lựa trong thị giác

Chức năng quan trọng nhất của tập trung thị giác chọn lựa là định hướng tầm quan sát của chúng ta nhanh chóng hướng đến những đối tượng mong muốn hay nổi bật trong môi trường thị giác của chúng ta Hay nói cách khác, theo Aristole : “Việc quan sát hai đối tượng đồng thời là một điều không thể trong hoạt động giác quan” Mặc dù chúng ta có một thế giới quan vô cùng lớn và có nhiều sự thay đổi hấp dẫn sự tập trung nhưng những thực nghiệm cho thấy rằng chỉ một vùng nhỏ trong không gian ngữ cảnh được phân tích

và chọn lựa tại mỗi thời điểm, đó là vùng đang được tập trung

4.2.2 Tập trung hướng đối tượng và hướng không gian

Các ngành khoa học hành vi của sự tập trung trong thị giác đã chỉ ra hai trạng thái khác nhau trong quá trình nhận diện của con người Trạng thái thứ nhất liên quan tới không gian và trạng thái thứ hai liên quan tới các đối tượng Chúng được xem là những đơn vị của sự tập trung thị giác, thể hiện đích đến của sự tập trung thị giác hướng tới

 Trạng thái hướng không gian

Các nhà nghiên cứu cho rằng sự tập trung chọn những vùng không gian độc lập của đối tượng mà nó chứa Sự tập trung giống như một vùng chiếu sáng đến một vùng của không gian Những đối tượng rơi vào vùng này sẽ được xử lý; những đối tượng bên ngoài

Trang 31

thì không được xử lý [14] Cụ thể, các tín hiệu sẽ được chọn lựa từ các vị trí trong không gian thị giác [10] Các bằng chứng của trạng thái này có được từ rất nhiều nguồn, kể cả các yếu tố tiền tập trung trong không gian Khi đó một tín hiệu bất chợt xảy ra sẽ làm thay đổi thứ tự tập trung ở một vùng của thị giác Người quan sát nhận diện được mục tiêu xuất hiện ở những vị trí đã được xác định trước sẽ nhanh hơn ở những vị trí chưa được xác định Khái niệm về trạng thái hướng không gian của sự tập trung thường liên quan đến khái niệm về vùng sáng (spotlight), ở đó sự tập trung chỉ hoạt động tại vùng được chiếu sáng trong khu vực thị giác Gần đây khái niệm về zoom-lens được Eriksen [11] đề xuất, ông chỉ ra rằng các khu vực không gian được sự tập trung nhận diện có các kích thước khác nhau

 Trạng thái hướng đối tượng

Người ta đã tìm được những bằng chứng chứng minh sự tập trung được hướng tới các thông tin có tổ chức tương tự như một đối tượng hoặc một cấu trúc được tổ chức có logic trong môi trường Ngay cả khi các đối tượng đó bị trùng lắp lên nhau trong không gian hoặc không liên tục trong không gian Tất cả các đặc trưng của một đối tượng đang hiện diện trong khu vực thị giác được xử lý đồng thời Các đặc trưng này được xử lý nhanh và chính xác hơn so với các đặc trưng của những đối tượng không có trong khu vực thị giác Duncan [12] có một thử nghiệm nổi tiếng về vấn đề này Một người quan sát được yêu cầu trả lời các cặp đặc trưng được đưa ra Kết quả cho thấy người quan sát trả lời các cặp đặc trưng của cùng một đối tượng (ví dụ, chiều cao và hình dạng của một cái hộp) chính xác hơn cặp đặc trưng của các đối tượng khác nhau (ví dụ, chiều cao của cái hộp và độ nghiêng của đường thẳng) Ông kết luận sự chính xác này không phải có được từ các đặc trưng không gian bởi vì các cặp đối tượng này được đặt trùng lắp nhau trong không gian Hơn thế nữa, sự chính xác này cho thấy có sự chuyển đổi sự tập trung từ đối tượng này sang đối tượng khác Nghiên cứu của Vecera và Farah [13] cũng cho thấy rằng nếu hai đối tượng không trùng lắp nhau trong không gian thì sự chính xác là ngang nhau trong hai trường hợp trên Họ kết luận rằng các yếu tố không gian không giữ vai trò gì trong quá trình diễn ra sự tập trung hướng đối tượng

Trang 32

 Mối quan hệ giữa hướng đối tượng và hướng không gian

Các nghiên cứu này đều công nhận rằng cả hai trạng thái của sự tập trung cùng tồn tại trong hệ thống thị giác và chúng tác động qua lại Bên cạnh đó nhiều nghiên cứu tiếp tục chỉ ra mối quan hệ giữa hai trạng thái nhận diện này, trong đó một trạng thái có xu thế quan trọng hơn trạng thái còn lại Ví dụ, Lavie và Driver [15] giả thuyết rằng trạng thái hướng không gian xảy ra trước rồi mới tới trạng thái hướng đối tượng Các học thuyết khác lại cho rằng trạng thái hướng đối tượng xảy ra trước trạng thái hướng không gian Trong đó đầu ra của quá trình gom nhóm tiền tập trung sẽ ảnh hưởng đến quá trình tổ chức của sự tập trung hướng không gian

4.2.3 Tập trung theo bottom-up và top-down

Có hai nhân tố quyết định tín hiệu nào được chọn hoặc loại bỏ bởi quá trình tập trung

Đó là nhân tố tập trung bottom-up và top-down [16]

 Tập trung bottom-up

Còn gọi là nhân tố đặc trưng hướng hình ảnh (image-based saliency cues) Nó phụ thuộc vào tín hiệu cảm biến đầu vào mà không liên quan gì đến trạng thái bên trong của

hệ thống Khi đó, một vài tín hiệu được xem thật sự nổi trội (đặc trưng) trong một ngữ

cảnh cho trước [8] Các tín hiệu này được xử lý ở vùng ventral stream Ví dụ, một áo dạ

hội màu đỏ giữa những áo dạ hội màu đen tại một buổi tiệc sẽ tự động thu hút sự tập trung Đặc trưng không phụ thuộc vào tác vụ nào, nó xảy ra rất nhanh và hầu hết theo mô hình bottom-up mặc dù nó có thể phụ thuộc bởi hiệu ứng nền của ảnh hay ngữ cảnh Tốc

độ của mô hình tựa đặc trưng của sự tập trung trong khoản 25 đến 50 ms

 Tập trung top-down

Sự tập trung xảy ra do tác nhân nhận thức và phụ thuộc vào trạng thái bên trong của

hệ thống như tri thức, sự mong đợi và những mục đích hiện thời [6] Nó là một mô hình mạnh mà có khả năng thay đổi vùng tập trung có lựa chọn phụ thuộc vào tác vụ (ví dụ,

“nhìn màu đỏ, phương ngang”) Sự thể hiện của mô hình tập trung top-down được điều

Trang 33

khiển từ những vùng não cao, đó là vùng dorsal stream Quá trình top-down tốn chi phí

thời gian khoản 200ms hoặc hơn

Theo nghiên cứu của tâm lý học, mô hình top-down đóng vai trò quan trọng trong nhận thức của con người Nó thể hiện thông tin của thế giới quan hay trạng thái của các đối tượng, bao gồm nhiều khía cạnh khác nhau như những nhiệm vụ hiện thời, kiến thức trước đây về mục tiêu, ngữ cảnh hay đối tượng

4.2.4 Lý thuyết tổng hợp đặc trưng

Trong lĩnh vực tâm lý học có rất nhiều lý thuyết và mô hình khác nhau về tập trung thị giác Mục đích của chúng là giải thích và hiểu hơn về nhận thức con người Trong phạm vi luận văn, chúng tôi giới thiệu lý thuyết tổng hợp đặc trưng (Feature Integration Theory - FIT), một lý thuyết có sự ảnh hưởng lớn trong lĩnh vực tập trung thị giác Lý thuyết này được giới thiệu vào năm 1980 do Treisman và Gelade

Lý thuyết tổng hợp đặc trưng nêu rằng “những đặc trưng khác nhau được đăng kí sớm, tự động và song song trong trường thị giác trong khi các đối tượng được nhận dạng riêng lẻ và tại giai đoạn sau mà khi đó yêu cầu sự tập trung” [17] Những đặc trưng thị giác đầu tiên được tính toán thành tập bản đồ đặc trưng địa lý; sự cạnh tranh không gian tạo đặc trưng cho các vị trí kích hoạt; những bản đồ đặc trưng này sau đó kết hợp lại trong một bản đồ duy nhất siêu đặc trưng (saliency map) Cuối cùng, bản đồ siêu đặc trưng này được quét qua bởi sự tập trung hội tụ thông qua chiến lược winner-take-all (dò tìm điểm có đặc trưng cao nhất tại bất kì thời điểm nào) và IOR (Inhebit Of Return- dừng

vị trí tập trung cuối cùng trong bản đồ, để sự tập trung có thể hội tụ tại vị trí có đặc trưng cao nhất kế tiếp) [8] Hay nói cách khác, bản đồ siêu đặc trưng chỉ ra trong vùng thấy đối tượng “Ở đâu” (Where) nhưng không chỉ đó là vật “gì” (What); việc quét tuần tự bản đồ tạo sự tập trung lên những vùng được chọn và cung cấp dữ liệu này cho các tác vụ nhận thức cao hơn [6]

Hầu hết các mô hình tập trung thị giác bottom-up đều dựa vào siêu bản đồ đặc trưng

để xây dựng hệ thống Hình 4-3 minh họa lược đồ của mô hình chuẩn để điều khiển sự tập trung theo mô hình bottom-up

Trang 34

Hình 4-3: Lược đồ mô hình chuẩn điều khiển sự tập trung bottom-up

Mặc dù một kiến trúc máy tính đơn giản có thể hiện sự tập trung trong khoản thời gian một vài phần trăm của giây sau mỗi thể hiện cho một ngữ cảnh mới, rõ ràng một mô hình tập trung hoàn chỉnh cần bao gồm mô hình top-down, đưa tri thức vào trong quá trình xử lý tập trung

Hiện nay, có nhiều mô hình áp dụng sự tập trung thị giác vào nhận dạng đối tượng như:

 Mô hình MORSEL [18] do Mozer và Sitton đề xuất, trong đó sự chọn lựa tập trung được thể hiện cần thiết cho nhận dạng đối tượng Mô hình này ứng dụng trong nhận dạng kí tự được xử lý thông qua một cây phân cấp nhận dạng

 Mô hình dịch chuyển không gian do Schill và các đồng nghiệp đề xuất [19] Mô hình này áp dụng sự tập trung theo bottom-up và top-down trong nhận dạng đối

Trang 35

tượng như Hình 4-4 Cụ thể, mô hình này nhận dạng đối tượng bằng sự tập trung

di chuyển mắt đến những vùng của đối tượng chứa nhiều thông tin nhằm tránh nhận dạng mơ hồ Một cây phân cấp ngữ nghĩa được xây dựng trong quá trình huấn luyện Nút lá thể hiện các đối tượng được nhận dạng, những nút trung gian thể hiện lớp đối tượng trừu tượng tổng quan Trong quá trình nhận dạng, hệ thống lập trình bước dịch chuyển kế tiếp của mắt sao cho có thể thu được nhiều thông tin

về đối tượng dựa vào phán đoán của cây tri thức

 Rybak và những đồng nghiệp đưa ra mô hình tương tự, trong đó con đường quét scanpaths (điều khiển sự định hướng được lưu trữ trong vùng nhớ “Ở đâu” và đặc trưng nhận dạng đối tượng bottom-up được lưu trữ trong vùng nhớ “Cái gì”) được huấn luyện cho mỗi ngữ cảnh và đối tượng được nhận dạng Khi một tấm ảnh được đưa vào, mô hình chọn lựa những scanpath ứng viên bằng cách so khớp đặc trưng bottom-up trong tấm ảnh với những gì được huấn luyện trong vùng nhớ

“Cái gì” Với mỗi ứng viên scanpath, mô hình sử dụng sự tập trung dựa theo định hướng trong vùng nhớ “Ở đâu” và so sánh nội dung đặc trưng của vùng đó trong ảnh thật với nội dung vùng nhớ “Cái gì” Mô hình này có thể nhận dạng ảnh xám,

sự biến dạng, ảnh xoay và co giãn

 Ngoài ra còn có các mô hình của Deco và Zihl [20], Stark và Choi [21]

Trang 36

Hình 4-4: Mô hình tập trung nhận dạng đối tượng bằng

dịch chuyển không gian

Trong chương này, chúng tôi trình bày lý thuyết tập trung thị giác của con người Cụ thể, chúng tôi trình bày định nghĩa của sự tập trung, các yếu tố tạo nên sự tập trung bao gồm tính hướng đối tượng và hướng không gian trong sự tập trung được tạo bởi hai nhân

tố bottom-up vào top-down Đối với bottom-up, sự tập trung dựa vào bản đồ siêu đặc trưng Ngược lại đối với top-down, sự tập trung dựa vào tri thức, mục đích hiện thời, mang trạng thái bên trong của hệ thống thể hiện

Bên cạnh đó, chúng tôi giới thiệu các mô hình tin học hóa sự tập trung thị giác trong nhận dạng đối tượng Vì thế, chúng tôi tin rằng việc áp dụng HTM trong mô hình hóa sự tập trung bottom-up và top-down là một hướng đi mới được trình bày trong chương kế tiếp

Trang 38

(SBN-Hình 5-1: Kiến trúc mô hình SBN-OBN

Trang 39

Chúng tôi chỉ ra hai vấn đề cũng như các phương án đề xuất cải tiến cho mô hình trên

Vấn đề 1: Làm thế nào để nhận dạng một đối tượng trong một ảnh đã được huấn luyện

nếu đối tượng đó được dịch chuyển đến một vị trí nào đó trong ảnh?

Cơ bản một hệ thống chỉ có thể nhận diện một ảnh được huấn luyện mà đối tượng được đặt tại một vị trí xác định Tuy nhiên, nếu đối tượng được di chuyển đến một vị trí bất kì trong ảnh thì hệ thống không thể nhận dạng được nó trừ khi nó được huấn luyện tại những vị trí được dịch chuyển tới

Phương pháp giải quyết là đối tượng được di chuyển đến vị trí nơi mà nó gần nhất được huấn luyện Đầu tiên, mạng HTM huấn luyện ảnh có đối tượng nhận dạng được đặt tại trọng tâm của ảnh Khi một tấm ảnh được đưa vào hệ thống, đối tượng chưa nhận dạng sẽ được tách và di chuyển xung quanh trọng tâm của ảnh trong một bán kính định trước Những tấm ảnh được tạo ra bởi việc di chuyển sẽ được nhận dạng thông qua mạng HTM Cuối cùng, ảnh nào có giá trị nhận dạng cao nhất sẽ được xem là kết quả

Vấn đề 2: Làm thế nào để nhận dạng được nhiều đối tượng trong ảnh cùng một lúc? Ví

dụ đối tượng một ảnh vừa có ghế và bàn cùng lúc?

Khả năng của hướng đối tượng là có thể tìm được những ứng viên của các bộ phận dựa vào những bộ phận được huấn luyện Khi một đối tượng được đưa vào hệ thống thì

nó được tách ra thành nhiều bộ phận dựa vào màu sắc Mỗi bộ phận được nhận dạng thông qua các mạng HTM-OBN để tìm ra những ứng viên của mạng với khả năng cao nhất Sau đó, chúng được kết hợp với nhau để tạo nên những đối tượng có thể Cuối cùng, những đối tượng này được kiểm tra thông qua việc sử dụng các mạng HTM-SBN tương ứng

Trang 40

Đối với tập ảnh huấn luyện và kiểm tra, chúng tôi giả sử rằng chúng đã được tiền xử

lý sao cho những bộ phận của đối tượng được tô bằng những màu riêng rẽ Hay nói cách khác, chúng được tạo ra dựa vào những bộ phận được tô màu khác nhau Chúng tôi sẽ đề cập việc chuyển đổi một đối tượng ảnh tự nhiên thành đối tượng ảnh mong muốn trong phần Hướng phát triển của đề tài trong chương kế tiếp Chúng tôi sử dụng phương pháp quay trọng tâm [3] để tạo ra tập ảnh huấn luyện và kiểm tra cho từng đối tượng Mạng HTM được áp dụng như là một nền tảng cho việc huấn luyện và phán đoán trong nhận dạng đối tượng

Trong phần này chúng tôi trình bày những phần sau:

 Tạo tập ảnh huấn luyện và kiểm tra

5.2.1 Tạo tập ảnh huấn luyện và kiểm tra

Tổng số đối tượng trong hệ thống là bốn bao gồm: "Chair", "Table", "Computer" và

"Telephone" mà bộ phận của các đối tượng được tô màu khác nhau Mỗi đối tượng đặt trong tấm ảnh 64×64

Định dạng
Số trang	111
Dung lượng	3,01 MB