Nghiên cứu một số kỹ thuật phát hiện chất liệu và ứng dụng

Bố cục của luận văn bao gồm phần mở đầu, phần kết luận và ba chương nội dung được tổ chức như sau: Chương 1: Tổng quan về phát hiện chất liệu trong ảnh Chương này trình bày định nghĩa ch

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Thị Kim Nga

NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÁT HIỆN

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan toàn bộ nội dung bản luận văn này là do tôi tự sưu tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài

Nội dung luận văn này chưa từng được công bố hay xuất bản dưới bất kỳ hình thức nào và cũng không sao chép từ bất kỳ một công trình nghiên cứu nào

Tất cả phần mã nguồn của chương trình đều do tôi tự thiết kế và xây dựng, trong đó có sử dụng một số thư viện chuẩn và các thuật toán được các tác giả xuất bản công khai và miễn phí trên mạng Internet

Nếu sai tôi xin hoàn toàn chịu trách nhiệm

Hà nội, ngày 25 tháng 11 năm 2006

Trang 4

LỜI CẢM ƠN

Tôi xin chân thành bày tỏ lòng biết ơn đến các thầy cô giáo đã nhiệt tình giảng dạy trong suốt thời gian tôi học tập tại lớp Cao học K11T2 trường Đại học Công Nghệ và đặc biệt tôi xin được gửi lời cảm ơn sâu sắc đến TS Đỗ Năng Toàn, Viện Công nghệ thông tin, Viện Khoa học Việt Nam - Người đã tận tình chỉ bảo, hướng dẫn và giúp đỡ tôi hoàn thành bản Luận văn này

Tôi xin bày tỏ lòng biết ơn tới gia đình, đã tạo điều kiện tốt nhất về mọi mặt, động viên tôi trong suốt quá trình học tập cũng như làm tốt nghiệp

Cuối cùng, xin cảm ơn các đồng nghiệp, các bạn bè đã động viên cổ vũ để tôi hoàn thành luận văn đúng thời hạn

Trang 5

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT 1

DANH MỤC CÁC BẢNG 1

DANH MỤC CÁC HÌNH VẼ 2

MỞ ĐẦU 4

Chương 1 -TỔNG QUAN VỀ PHÁT HIỆN CHẤT LIỆU TRONG ẢNH 7

1.1 Bài toán phát hiện chất liệu trong ảnh 7

1.1.1 Chất liệu trong ảnh 7

1.1.2 Phát hiện chất liệu 8

1.2 Các đặc trưng của chất liệu trong ảnh 9

1.2.1 Màu sắc 9

1.2.2 Kết cấu 10

1.2.3 Hình dạng 11

1.2.4 Mối quan hệ không gian 11

1.3 Các độ đo sự tương tự thường sử dụng 12

1.4 Mô hình bài toán phát hiện chất liệu 15

Chương 2 – CÁC CÁCH TIẾP CẬN TRONG PHÁT HIỆN CHẤT LIỆU 16

2.1 Phương pháp Habin cải tiến 16

2.1.1 Phương pháp Habin 18

2.1.2 Phương pháp Habin cải tiến 20

Trang 6

2.2 Phương pháp trừu tượng ảnh dựa trên chữ ký nhị phân 21

2.3 Phương pháp Ma trận Ordinal Co-occurrence 25

2.3.1 Ma trận Ordinal Co-occurrence 25

2.3.2 Giải thuật 27

2.3.3 So sánh các đặc điểm 28

2.4 Cách tiếp cận Mạng Nơron 29

2.4.1 Mô hình Mạng Nơron nhân tạo 30

2.4.2 Hàm kích hoạt 31

2.4.3 Vấn đề học 31

2.4.4 Mạng Nơron dùng cho phân tích thành phần chính 32

2.4.5 Mạng Nơron xoắn và bài toán phát hiện chất liệu 32

2.5 Cách tiếp cận mô hình Markov ẩn HMM 37

2.5.1 Nền tảng của phương pháp 37

2.5.2 Mô hình HMM 43

2.5.3 Vấn đề phát hiện bằng HMM 45

Chương 3 - ỨNG DỤNG PHÁT HIỆN CHẤT LIỆU 47

3.1 Phát hiện kính 47

3.1.1 Tính chất cơ lý của chất liệu thủy tinh 47

3.1.2 Thuật toán 55

Trang 7

3.1.3 Một số kết quả thực nghiệm 56

3.2 Phát hiện mặt người 56

3.2.1 Cách tiếp cận Mạng Nơron 56

3.2.2 Cách tiếp cận mô hình HMM 64

KẾT LUẬN 72

TÀI LIỆU THAM KHẢO 74

Trang 8

BẢNG CÁC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG

Trang Bảng 2.1 Chữ ký chi tiết dựa trên CBA 23 Bảng 2.2 Chữ ký của ba ảnh X, Y, Z 24 Bảng 3.1 Thống kê một số tính chất và đặc trưng cơ bản của một vài loại

thủy tinh điển hình 48

Trang 9

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Sơ đồ chức năng phát hiện chất liệu 15

Hình 2.1 Hai ảnh và biểu đồ màu toàn cục của chúng 16

Hình 2.2 Ví dụ chỉ ra LCH bị lỗi 17

Hình 2.3 Xây dựng đồ thị hai phía 19

Hình 2.4 Đồ thị hai phía biểu diễn mối quan hệ giữa các khối và giá trị đối sánh nhỏ nhất 19

Hình 2.5 Sử dụng giá trị đối sánh cực tiểu để tính toán khoảng cách giữa hai ảnh L và M, L và N 20

Hình 2.6 Tập các ảnh mẫu 22

Hình 2.7 Ma trận Co-occurrence 26

Hình 2.8 Vùng lân cận 3 x 3 với 4 cặp điểm đối xứng 27

Hình 2.9 Mã mô tả giải thuật xây dựng ma trận Ordinal Co-occurrence 28

Hình 2.10 Nơron nhân tạo j 30

Hình 2.11 Cấu trúc LeNet-5, Mạng Nơron xoắn 34

Hình 2.12 Đồ thị của hai hàm P(x/1) và P(x/2) 39

Hình 2.13 Mô tả thuật toán Viterbi 42

Hình 2.14 Mô hình kiểu mẫu của một HMM ba trạng thái 43

Hình 3.1 Ảnh kết quả phát hiện chất liệu kính 56

Hình 3.2 Mô hình hoạt động của mạng nơron 57

Trang 10

Hình 3.3 Ví dụ các đầu vào và đầu ra cho huấn luyện mạng định tuyến 58

Hình 3.4 Cấu trúc mạng xác định mặt 60

Hình 3.5 Ảnh gốc chứa một mặt trong ảnh 63

Hình 3.6 Vùng có da sau khi tách 63

Hình 3.7 Những vùng tìm được của mạng 63

Hình 3.8 Kết quả cuối cùng sau khi sử dụng ngưỡng động 63

Hình 3.9 Ảnh gốc với trường hợp có nhiều mặt 63

Hình 3.10 Vùng da sau khi được tách 64

Hình 3.11 Ảnh trước khi tách ngưỡng động 64

Hình 3.12 Kết quả sau khi tách ngưỡng với trường hợp ảnh chứa nhiều mặt.64 Hình 3.13 Một ảnh mẫu từ tập phân phối thỏa mãn D và có năng lượng cực tiểu 69

Hình 3.14 Kết quả phát hiện da mặt bằng mô hình HMM 71

Hình 3.15 Phát hiện nhầm màu da 71

Trang 11

MỞ ĐẦU

Trong cuộc sống hằng ngày, chúng ta thường xuyên cần phải phát hiện

và phân biệt các sự vật hiện tượng trong thế giới thực như các đối tượng, chất liệu, thực phẩm, địa danh v.v và thậm chí là thời gian trong ngày Việc phát hiện các loại sự vật hiện tượng này một cách tự động là một vấn đề hết sức thiết thực trong một xã hội hiện đại

Ngày nay, với sự phát triển mạnh mẽ của ngành Khoa học máy tính cũng như sự bùng nổ của lĩnh vực Công nghệ thông tin đã đẩy nhanh sự phát triển của nhiều lĩnh vực xã hội như quân sự, y học, giáo dục, kinh tế, giải trí v.v

Sự phát triển của phần cứng cả về phương diện thu nhận, hiển thị, cùng với tốc độ xử lý đã mở ra nhiều hướng mới cho sự phát triển phần mềm, đặt biệt

là Công nghệ xử lý ảnh cũng như Công nghệ thực tại ảo đã ra đời và phát triển nhanh Nó có thể giải quyết được bài toán phát hiện hay nhận dạng tự động các loại đối tượng, chất liệu trong thực tế, chẳng hạn có thể tạo ra hệ thống phát hiện kẻ gian đột nhập vào các cơ quan cần được giám sát sau giờ hành chính như các Kho bạc, Ngân hàng v.v thay vì cần phải có những đội bảo vệ canh gác cẩn thận Hoặc có thể phát hiện có mảnh kính vỡ trong thực phẩm hay phát hiện những tấm kính trong một khu vực cần quan tâm v.v thậm chí có thể phát hiện những loại thực phẩm bị hỏng không thể sử dụng được Phát hiện mặt người trong một bức ảnh cũng đã có rất nhiều ý nghĩa trong quân sự, an ninh v.v Rõ ràng bài toán phát hiện đối tượng cũng như nhận dạng đối tượng ngày càng quan trọng đối với sự phát triển của xã hội, đặc biệt rất quan trọng cho xã hội Việt Nam

Trang 12

Bài toán phát hiện đối tượng là một trong những bài toán cốt yếu trong các lĩnh vực nhận dạng mẫu hay thị giác máy, nó là cơ sở cho nhiều ứng dụng quan trọng, muốn nhận dạng thì trước hết phải phát hiện ra nó đã chứ Nhận dạng hay phát hiện đối tượng có rất nhiều cách tiếp cận để giải quyết, mặc dù mỗi một loại đối tượng sẽ có một kỹ thuật cụ thể, song chúng vẫn có một cơ

sở chung Cách tiếp cận dựa vào chất liệu của đối tượng đang là một hướng nghiên cứu mới hiện nay, ví dụ có thể phát hiện ra khuôn mặt người nhờ vào chất liệu da mặt, hoặc phát hiện người dựa vào chất liệu vải mà người đó đang mặc, hay có thể phát hiện ô tô dựa vào chất liệu kính v.v Song càng quan trọng hơn nếu ta xét đến tính thiết thực của loại chất liệu cần phát hiện Chẳng hạn, kính là một loại chất liệu được sử dụng rất phổ biến, nó có khắp mọi nơi như kính chắn gió của ô tô, các cửa bằng kính, các bóng đèn, kính làm tủ, làm bàn, làm các hộp, các chai v.v Có thể tạo ra các hệ thống phát hiện các toà nhà (hầu hết các tòa nhà lớn đều được làm chủ yếu là kính) trong một thành phố, phát hiện ô tô (vì ô tô luôn có kính) thông qua chất liệu kính Tất cả các bài toán trên đều có tầm quan trọng đáng kể, đặt biệt bài toán phát hiện ô tô là bài toán đang được nhiều quan tâm ở nước ta, là một trong những bài toán giám sát tự động: phát hiện, phân loại và đếm số ô tô tại các chốt giao thông hoặc tại các trạm thu phí nhằm nâng cao tiềm năng phát triển của mỗi quốc gia

Như vậy bài toán phát hiện chất liệu là một cách tiếp cận mới trong khoa học nhận dạng hay mô hình hóa trong thực tại ảo, là cơ sở để xây dựng nhiều ứng dụng quan trọng và cần thiết Bên cạnh đó, bài toán phát hiện chất liệu kính có thể ứng dụng cho bài toán giám sát giao thông tự động, đặt biệt ở Việt Nam hiện nay, đây chính là tính thời sự của vấn đề

Trang 13

Mặt khác, hiện nay trên thế giới chưa có một đề cập nào về bài toán phát hiện chất liệu một cách rõ ràng, đặt biệt là chất liệu kính Vì thế mà vấn đề này rất có ý nghĩa khoa học

Trên đây đã điểm qua tầm quan trọng của bài toán phát hiện chất liệu, đặt biệt là chất liệu kính đã cho ta thấy rõ tính cần thiết cũng như tính thời sự đồng thời là ý nghĩa khoa học và thực tiễn của vấn đề Nhận thức được điều

này, tôi đã chọn đề tài luận văn: ”Nghiên cứu một số kỹ thuật phát hiện chất liệu và ứng dụng”

Bố cục của luận văn bao gồm phần mở đầu, phần kết luận và ba chương nội dung được tổ chức như sau:

Chương 1: Tổng quan về phát hiện chất liệu trong ảnh

Chương này trình bày định nghĩa chất liệu của một đối tượng trong ảnh, cũng như bài toán phát hiện chất liệu và cách giải quyết Đồng thời cũng trình bày một cách tổng quan về nội dung ảnh của chất liệu cùng với một số kỹ thuật phát hiện chất liệu cơ bản

Chương 2: Các kỹ thuật phát hiện chất liệu

Các kỹ thuật được trình bày dựa vào các đặc trưng cơ bản của chất liệu

và các phương pháp phát hiện dựa trên mạng nơron, mô hình xác suất Markov ẩn

Chương 3: Ứng dụng

Trong phần này luận văn trình bày ứng dụng phát hiện chất liệu kính và phát hiện mặt người theo mô hình màu da dựa trên mạng nơron và mô hình Markov ẩn

Trang 14

Chương 1 - TỔNG QUAN VỀ PHÁT HIỆN CHẤT LIỆU

ta chỉ xét ô tô với kính chắn gió v.v

Như vậy phát hiện chất liệu cũng chính là phát hiện ảnh của chất liệu đó trong một bức ảnh Như thế nội dung ảnh của một đối tượng chính là nội dung của chất liệu trong ảnh hay còn gọi là nội dung ảnh Mà nội dung ảnh được thể hiện bởi các đặc trưng màu sắc, kết cấu, hình dạng Nhưng trong hầu hết mọi chất liệu, nội dung ảnh được phản ánh bởi màu sắc và kết cấu mà thôi

Trang 15

1.1.2 Phát hiện chất liệu

Cho trước một bức ảnh có thể tĩnh hoặc động, yêu cầu xác định xem trong bức ảnh đó có loại chất liệu mà ta cần quan tâm không, thậm chí là bao nhiêu chất liệu đó nằm trong bức ảnh

Cách giải quyết bài toán

Tư tưởng: Cho trước một ảnh của chất liệu, ta tìm trong ảnh cần xét (ảnh truy vấn) có ảnh của chất liệu đó hay không Bằng cách đánh giá mức độ giống nhau của ảnh chất liệu cho trước với ảnh của chất liệu có trong ảnh Nhưng đặc trưng của ảnh chất liệu chủ yếu là màu sắc, kết cấu, thông tin không gian, do đó giải quyết bài toán này bằng cách đối sánh các đặt trưng của ảnh chất liệu cho trước với các đặc trưng của ảnh Một cách nôm na thì đây chính là một trường hợp đặc biệt của bài toán tra cứu ảnh dựa trên nội dung Và cũng lưu ý rằng yếu tố thời gian thực luôn luôn được quan tâm cho mỗi bài toán, mức độ cần thiết của nó tùy thuộc vào bài toán mà ta giải quyết, yếu tố này quyết định sự thành công hay thất bại của nhiều bài toán

Như vậy, bài toán phát hiện chất liệu bằng kỹ thuật Xử lý ảnh gồm hai pha chính:

- Xác định và trích chọn các đặc trưng của chất liệu (vì mỗi loại chất liệu khác nhau sẽ được đặc tả bởi các đặc trưng khác nhau)

- Đánh giá độ tương tự (độ giống) của chất liệu cần xét với các đặt trưng

mà ta đã biết thông qua các đặc trưng mà ta đã trích chọn ở trên

Đó cũng chính là hai bài toán lớn trong lĩnh vực nhận dạng mẫu và thị giác máy

Như đã nói ở trên, ảnh của chất liệu được ghi lại trong hình hoặc camera phần lớn được thể hiện bởi các yếu tố như: Màu sắc, kết cấu, hình dạng, thông

Trang 16

tin không gian Tuỳ thuộc mỗi một chất liệu sẽ có một đánh giá về đặc trưng riêng cho chúng Bên cạnh đó sẽ có những hàm đánh giá độ tương tự tương ứng cho phù hợp

1.2 Các đặc trưng của chất liệu trong ảnh

1.2.1 Màu sắc

Sự cảm nhận về màu là rất quan trọng đối với con người Sự cảm nhận màu phụ thuộc vào cả yếu tố hai ánh sáng vật lý và việc xử lý phức tạp của thần kinh mắt (eye-brain) tức là nó phải tích hợp những thuộc tính kích thích

và thực nghiệm Con người sử dụng thông tin màu sắc để phân biệt các đối tượng, chất liệu v.v

Mọi người đều biết màu là gì, nhưng sự mô tả chính xác và chi tiết về màu thì lại là một chuyện khác Màu sắc luôn là chủ đề lớn trong các ngành khoa học khác nhau Mặc dù vậy, một số vấn đề chủ yếu liên quan đến màu sắc, đặt biệt là trong cảm nhận màu của con người mà tại đó sự hoạt động của não đóng vai trò quan trọng vẫn chưa được hiểu một cách đầy đủ Những thuộc tính cấp thấp về cảm nhận màu của con người cũng đã được mô hình hoá thành công trong khuôn khổ phạm vi của các thiết bị đo màu Trong khuôn khổ này ta thấy rằng các phương pháp thống kê là công cụ đầy sức mạnh cho việc phân tích và mô tả dữ liệu hình ảnh

Một ảnh màu điển hình được lấy từ Camera số hoặc download từ Internet thường có ba kênh màu (ảnh xám chỉ có một kênh), những giá trị của

dữ liệu ba chiều này từ ảnh màu có thể cho ta biết vị trí của điểm ảnh trong không gian màu Những điểm ảnh có cùng giá trị ví dụ (1, 1, 1) cho những màu khác nhau trong những không gian màu khác nhau Như vậy mô tả đầy

đủ của một ảnh màu điển hình gồm thông tin không gian hai chiều với điểm ảnh trong vùng không gian này và dữ liệu màu ba chiều với điểm ảnh màu

Trang 17

trong không gian mà chúng ta đang đề cập Ở đây giả thiết không gian màu là

cố định, bỏ qua thông tin không gian, thông tin màu trong ảnh có thể coi như

là tín hiệu ba chiều đơn giản

Nếu ta xem thông tin màu của ảnh là tín hiệu một, hai, hoặc ba chiều đơn giản thì việc phân tích các tín hiệu sử dụng ước lượng mật độ xác suất là một cách dễ nhất để mô tả thông tin màu của ảnh Biểu đồ màu là công cụ đơn giản nhất, những cách khác mô tả thông tin màu gồm đại diện màu, moment màu, vector kết dính màu v.v

1.2.2 Kết cấu

Nhưng thật không may có những ảnh có cùng phân phối màu nhưng chúng hoàn toàn khác nhau như bầu trời và nước biển hay lá cây và cỏ v.v Trong các trường hợp như vậy, cần phải tính toán đặc trưng kết cấu của ảnh Kết cấu được sử dụng rộng rãi và rất trực quan nhưng không có định nghĩa chính xác bởi tính biến thiên rộng của nó Có rất nhiều cách để mô tả kết cấu: Những phương pháp thống kê thường sử dụng tần số không gian, ma trận biến cố, tần số biên v.v Từ đó những đặc điểm như năng lượng, entropy,

độ tương phản, độ thô, tính đồng nhất, tính tương quan, đẳng hướng, pha, độ ráp đã được nhận ra Những phương pháp mô tả kết cấu này tính toán các thuộc tính kết cấu khác nhau và hoàn toàn phù hợp nếu cỡ của kết cấu gốc có thể được so sánh với cỡ của điểm ảnh

Một cách cơ bản, các phương pháp biểu diễn kết cấu có thể phân làm hai loại chính: phương pháp cấu trúc và phương pháp thống kê Các phương pháp cấu trúc bao gồm các phép toán hình thái học và đồ thị liền kề, mô tả kết cấu bởi việc đồng nhất cấu trúc ban đầu và quy tắc sắp xếp của chúng Chúng hiệu quả nhất khi áp dụng vào những kết cấu rất đều đặn Phương pháp thống kê, gồm: Fourier power spectra, co-occurrence matrices, shift-invariant principal

Trang 18

component analysis (SPCA), Tamura feature, Wold decomposition, Markov random field, fractal model và kỹ thuật multi-resolution filtering như Gabor and wavelet transform mô tả kết cấu bằng phân phối thống kê của cường

độ điểm ảnh

1.2.3 Hình dạng

Định nghĩa hình dạng của đối tượng thường là rất khó Hình dạng thường được mô tả bằng lời nói hoặc hình vẽ, và mọi người thường sử dụng thuật ngữ như tròn, méo v.v Xử lý hình dạng dựa trên máy tính đòi hỏi rất phức tạp, trong khi rất nhiều phương pháp mô tả hình dạng thực tế đang tồn tại nhưng không có một phương pháp chung nào cho mô tả hình dạng Có hai kiểu đặc điểm hình dạng chính thường được sử dụng: Đặc điểm dựa trên biên, đặc điểm dựa trên vùng Đặc điểm dựa trên biên chỉ sử dụng đường bao ngoài của hình dạng trong khi đó đặc điểm vùng sử dụng toàn bộ vùng của hình dạng Ví dụ những đặc điểm biên bao gồm mã xích, mô tả Fourier, những đường viền hình học như uống cong, chiều dài biên v.v Đặc điểm vùng như

số chu trình, độ lệch tâm v.v

1.2.4 Mối quan hệ không gian

Mối quan hệ không gian đặc trưng cho sự sắp xếp các đối tượng bên trong một bức ảnh Mối quan hệ giữa hai đối tượng có thể được phân loại một cách rõ ràng như là hướng hoặc tô pô hình học Mối quan hệ hướng dựa vào

vị trí liên quan và khoảng cách mêtric giữa hai đối tượng trong ảnh Mặt khác, mối quan hệ tô pô hình học không dựa vào khoảng cách thu được giữa hai đối tượng mà dựa vào khái niệm lý thuyết tập hợp như giao, hợp, kết nối v.v

*** Một trong những vấn đề thách thức to lớn để giải quyết bài toán phát hiện hay nhận dạng đối tượng là việc chọn lựa và sự biểu diễn các đặc trưng này

Trang 19

1.3 Các độ đo sự tương tự thường sử dụng

Bên cạnh đó, những độ đo tương tự cũng là yếu tố đóng vai trò cốt yếu trong việc giải quyết bài toán được đặt ra Những độ đo lý tưởng phải có một

số thuộc tính sau:

- Độ đo tự tương quan: Đặc điểm khoảng cách giữa hai ảnh là lớn chỉ khi những ảnh không tương tự và ngược lại khoảng cách giữa hai ảnh là nhỏ nếu chúng tương tự Ảnh thường được mô tả trong không gian đặc điểm và sự tưong tự giữa các ảnh được đo bởi những độ đo khoảng cách trong không gian đặc điểm Số thuộc tính của không gian biểu diễn ảnh và những đặc tính của những đặt điểm vectơ mô tả ảnh là rất quan trọng trong việc cải thiện một

số thuộc tính độ tương tự trực quan của những độ đo tương tự được

đề xuất

- Hiệu quả: Sự đo đạc cần phải được tính toán nhanh để nhanh chóng đưa ra kết quả Vì hầu hết các ứng dụng của bài toán phát hiện đối tượng đều phải được thực hiện trong thời gian thực Vì thế đánh giá độ phức tạp tính toán là rất quan trọng

- Hệ đo: Vấn đề khoảng cách tương tự là có nên là hệ mét hay không vẫn chưa được quyết định chính thức khi sự nhìn nhận của con người là rất phức tạp và chưa được hiểu một cách đầy đủ Chúng ta mong muốn khoảng cách tương tự là một hệ đo khi ta xem xét những thuộc tính sau như là những yêu cầu rất tự nhiên:

- Sự bất biến của tương tự với chính nó: Khoảng cách giữa một ảnh với chính nó là hằng số độc lập với ảnh d(A,A)=d(B,B)

- Sự tối thiểu: Một ảnh giống với nó hơn là giống với ảnh khác d(A,A)<d(A,B)

Trang 20

- Sự đối xứng: Là vô lý nếu chúng ta nói rằng ảnh A giống với ảnh B nhưng ảnh B thì không giống ảnh A, d(A,B)=d(B,A)

- Sự bắc cầu: Là vô lý nếu ta nói ảnh A giống với ảnh B , ảnh B không giống ảnh C nhưng ảnh C lại rất giống với ảnh A Tuy nhiên thuộc tính bắc cầu này có thể không đúng cho một dãy các ảnh Thậm chí ảnh Ii là giống với ảnh Ii+1 với tất cả i=1,…,n thì điều này không có nghĩa rằng ảnh Ii tương tự với ảnh In Ví dụ trong băng Video mỗi frame tương tự với frame kề nó nhưng frame đầu tiên và frame cuối cùng có thể là rất khác nhau

- Sự bền vững: Hệ thống cần có khả năng để thay đổi những điều kiện ảnh, ví dụ nếu ảnh được lấy dưới ánh sáng đèn điện (hơi đỏ), thì hệ thống cũng phải cho kết quả đúng khi lấy ảnh dưới điều kiện ánh sáng ban ngày (hơi xanh)

Có nhiều độ đo khoảng cách tương tự đã được đưa ra nhưng chúng đều không đầy đủ các thuộc tính trên Dưới đây là một số độ đo chung nhất thường được sử dụng:

Histogram intersection Distance:

Độ đo khoảng cách này được định nghĩa trên phần chung của hai biểu đồ màu Cho hai biểu đồ màu h1, h2 khoảng cách giữa chúng có thể được định nghĩa như sau:

1

2 1

dis

Việc đo khoảng cách này rất nhanh vì nó dựa trên công thức đơn giản Tuy nhiên thông tin màu không được sử dụng khi nhận được khoảng cách bởi vậy có thể dẫn đến những kết quả không tốt

Lp Distance:

Trang 21

Khoảng cách dạng Minkowski Lp giữa hai biểu đồ màu được định nghĩa:

p

i

p i i

Quadratic form Distance:

Khoảng cách giữa hai biểu đồ màu N chiều h1 và h2 được định nghĩa: distQF  ( h1  h2) A ( h1  h2)

Với A=[aij] là ma trận với trọng số biểu thị sự giống nhau giữa mức i và mức j, aij được tính như sau:

aij = 1-(dij / dmax)k

Trong đó dij là khoảng cách giữa màu i và màu j ( thường dij là khoảng cách Euclidean giữa hai màu trong không gian màu đồng đều nào đó) và

dmax=maxij(dij) K là hằng số điều khiển trọng số giữa hai màu lân cận

Earth Mover Distance:

Độ đo này dựa trên chi phí tối thiểu để chuyển một phân bố thành phân

bố khác Nếu chi phí của việc di chuyển một đơn vị đặc trưng đơn trong không gian đặc trưng là khoảng cách chung thì khoảng cách giữa hai phân bố

sẽ là tổng cực tiểu giá trị để di chuyển những đặc trưng riêng Khoảng cách EMD có thể được định nghĩa như sau:

ij ij ij EMD

g

d

g dist

Trong đó gij biểu thị khoảng cách tương tự giữa mức i và mức j, gij >0 là

sự tối ưu hoá giữa hai phân bố như là tổng giá trị được cực tiểu hoá

Trang 22

ij h



) ,

1.4 Mô hình bài toán phát hiện chất liệu

Hình 1.1 Sơ đồ chức năng phát hiện chất liệu

Song để tăng cường độ chính xác, ta có thể sử dụng các mô hình học dữ liệu – cụ thể là học các đặc trưng của chất liệu Hiện nay, công nghệ ưu việt nhất vẫn công nghệ Mạng Nơron, hay các phương pháp học thống kê như mô hình Markov ẩn, mạng xác suất Bayes, v.v

Trang 23

Chương 2 - CÁC CÁCH TIẾP CẬN TRONG PHÁT HIỆN CHẤT LIỆU

Phần này trình bày một số phương pháp được sử dụng hiệu quả trong cách tiếp cận để giải quyết bài toán phát hiện chất liệu Trong đó bao gồm các kỹ thuật dựa vào các đặc trưng cơ bản của chất liệu và các cách tiếp cận phát hiện chất liệu dựa trên mạng nơron, mô hình xác suất Markov ẩn

2.1 Phương pháp Habin cải tiến

Như chúng ta đã biết, biểu đồ màu là một trong những phương pháp để đối sánh giữa hai chất liệu Đã có hai cách tiếp cận truyền thống để phát hiện chất liệu là biểu đồ màu toàn cục (Global Color Histogram - GCH) và biểu đồ màu cục bộ (Local Color Histogram - LCH), song chúng cũng chính là điểm khởi đầu cho phương pháp Habin GCH chỉ đưa ra biểu đồ màu của ảnh mà không có thông tin không gian (thông tin vùng), do vậy hiệu quả tìm kiếm chắc chắn sẽ bị giới hạn Ví dụ, trong hình 2.1, ảnh A và B có cùng biểu đồ màu do đó khoảng cách giữa A và và B sẽ bằng 0 Tuy nhiên hai ảnh này là khác nhau

Hình 2.1 Hai ảnh và biểu đồ màu toàn cục của chúng

Trang 24

Còn phương pháp LCH đề cập theo ba bước:

 Chia ảnh thành nhiều khối và xây dựng biểu đồ màu cho từng khối

 So sánh các khối theo các vị trí tương ứng của hai ảnh

 Tổng hợp khoảng cách của tất cả các khối

Với phương pháp này, khoảng cách giữa hai ảnh A và B được tính toán hợp lý hơn Mặc dù vậy, trong một số trường hợp như ảnh bị quay hoặc dịch chuyển thì tất cả các khối trong ảnh mới sẽ bị thay đổi vị trí, khi đó sử dụng phương pháp LCH để so sánh độ tương tự những khối ở những vị trí giống nhau sẽ không thích hợp như hình 2.2 bên dưới Để khắc phục hạn chế này của phương pháp LCH, K.Shih[11] đã đưa ra phương pháp mới tên là Habin trên cơ sở xây dựng đồ thị hai phía có trọng số, và tìm kiếm giá trị đối sánh cực đại hoặc cực tiểu trên đồ thị này Tuy nhiên, phương pháp Habin có độ phức tạp tính toán cao (O(mn2))[11] và trong quá trình tìm kiếm giá trị đối sánh trên đồ thị hai phía có thể làm tăng nhiễu cho khoảng cách, cuối cùng ảnh hưởng đến việc tìm kiếm, phát hiện

Hình 2.2 Ví dụ chỉ ra LCH bị lỗi

Trang 25

Shengjiu Wang [18] năm 2001 đã đề xuất phương pháp cải tiến dựa trên

cơ sở phương pháp Habin bằng cách đưa thêm ngưỡng vào trong quá trình xây dựng đồ thị hai phía để làm giảm nhiễu, kết hợp giữa phương pháp GCH

và Habin để giảm độ phức tạp tính toán, tăng hiệu suất cải thiện

2.1.1 Phương pháp Habin

Phương pháp gồm ba bước chính để so sánh khoảng cách giữa hai ảnh:

 Chia ảnh thành các khối và tính biểu đồ màu cho từng khối

 Xây dựng đồ thị hai phía có trọng số

 Tìm kiếm giá trị đối sánh cực đại hoặc cực tiểu, khoảng cách giữa hai ảnh sẽ là giá trị đối sánh nhỏ nhất

Trong hình 2.3 là ví dụ chỉ rõ cách xây dựng đồ thị hai phía Bước đầu giống như bước đầu của phương pháp LCH Trong việc xây dựng đồ thị hai phía G(X,Y,E), mỗi khối sẽ tương ứng với một đỉnh Trong ví dụ này một ảnh

sẽ chia làm bốn khối và như vậy đồ thị có hướng sẽ có tám đỉnh, mỗi khối trong một ảnh sẽ được nối với các khối của ảnh kia

Nếu trọng số của mỗi cạnh chỉ rõ khoảng cách giữa hai khối được nối với nhau thì phương pháp này sẽ tìm kiếm giá trị đối sánh nhỏ nhất trên đồ thị

và xử lý giá trị này như khoảng cách giữa hai ảnh Thực tế, sự tương tự giữa các khối có thể được tính bằng công thức:

Sij=dmax-dij

Với dmax là khoảng cách lớn nhất giữa các khối, khối i và khối j thuộc hai ảnh tương ứng, dij là khoảng cách giữa khối i và khối j Sij là độ tương tự giữa hai khối i và j

Trang 26

Hình 2.3 Xây dựng đồ thị hai phía

Hình 2.4 chỉ ra đồ thị hai phía với trọng số là khoảng cách giữa các đỉnh Khoảng cách giữa các biểu đồ được tính bằng hàm Euclidean, giá trị này nằm trong khoảng 0 và 1 Sau khi tìm kiếm được giá trị đối sánh nhỏ nhất (đường nét đậm trong hình 2.4) tổng hợp lại sẽ được giá trị đối sánh Giá trị đối sánh này sẽ là tổng giá trị đối sánh nhỏ nhất của các cạnh tìm được: cost=w(1,2) +w(2,4) +w(3,1) +w(4,3)=0.707

Hình 2.4 Đồ thị hai phía biểu diễn mối quan hệ giữa các khối và giá trị đối sánh nhỏ nhất

Trang 27

2.1.2 Phương pháp Habin cải tiến

Khi sử dụng phương pháp Habin để tìm khoảng cách giữa các ảnh thì kết quả đối sánh có thể bao gồm các cạnh với khoảng cách lớn (độ tương tự nhỏ) Mặc dù vậy khi khoảng cách giữa hai khối là quá lớn thì hai khối đó sẽ không giống nhau chút nào và những cạnh với khoảng cách khá lớn sẽ chỉ làm tăng nhiễu cho khoảng cách cuối cùng giữa hai ảnh Điều này có nghĩa là không cần phần biệt những khối có độ tương tự thấp Ví dụ với ảnh L, N, M nếu sử dụng phương pháp Habin để tính toán khoảng cách giữa hai ảnh L với M và hai ảnh L với N thì ta phải xây dựng hai đồ thị hai phía và tìm giá trị đối sánh cực tiểu trong đó Hình 2.5 chỉ rõ những cạnh được tính trong giá trị đối sánh cực tiểu

Hình 2.5 Sử dụng giá trị đối sánh cực tiểu để tính toán khoảng cách giữa hai ảnh L với M và L với N

Từ hình 2.5 ta thấy rằng khoảng cách giữa hai ảnh L & M và L & N là giống nhau và đều bằng 2, điều này có vẻ là không hợp lý bởi những cạnh có giá trị là 0,5 đã làm tăng nhiễu cho kết quả cuối cùng Để giảm bớt nhiễu khi xây dựng đồ thị hai phía, Shenggjiu Wang [18] đã sử dụng ngưỡng theo kinh nghiệm để làm thước đo xác định trọng số của các cạnh và gọi nó là  Nếu khoảng hai khối lớn hơn  thì trọng số của cạnh đó sẽ có giá trị cực đại (ở đây

Trang 28

giá trị cực đại bằng 1) Nếu sử dụng =0.5 thì trong đồ thị hai phía sẽ không

có cạnh nào có trọng số nằm trong khoảng giữa 0.5 và 1 Bằng việc đặt tất cả các khoảng cách có giá trị lớn hơn  bằng khoảng cách cực đại, chúng ta hy vọng giảm được nhiễu và cải thiện được kết quả Mặc dù vậy, nếu sử dụng  quá nhỏ thì sẽ loại bỏ những cạnh kết nối giữa những khối giống nhau và đây không phải là những gì mà chúng ta mong muốn Giá trị của  bằng bao nhiêu để có được kết quả tốt nhất sẽ phụ thuộc vào kết quả thử nghiệm

2.2 Phương pháp trừu tượng ảnh dựa trên chữ ký nhị phân

Hầu hết các phương pháp đã được đưa ra đã cải thiện được phần nào bằng cách kết hợp chặt chẽ các đặc tính nhận thức với biểu đồ màu, thông thường nhất là đặc tính không gian Một sự quan trọng đó được thể hiện trong biểu diễn trực tiếp ảnh chỉ thông qua màu sắc trong biểu đồ màu Để sử dụng dấu hiệu để trừu tượng ảnh, chúng ta phải thiết kế lược đồ như sau:

Mỗi ảnh trong cơ sở dữ liệu được lượng hóa thành một số cố định n màu, C=(c1, c2, , cn) để loại bỏ đi ảnh hưởng của sự thay đổi nhỏ bên trong ảnh và cũng để tránh điều đó khi sử dụng 1 file lớn do biểu diễn độ phân giải cao

Mỗi thành phần màu cj sau đó được mô tả thành t bin nhị phân (Bj =

t n n t

Trang 29

màu cj Để đơn giản, ta có thể viết một chuỗi con j

t j j b b

b1 2 như là Bj (1j  n)

Vì vậy chữ ký của một ảnh I cũng có thể được biểu diễn bằng SI = n

I I

B1 2

Giá trị được chuẩn hóa thu được sau khi trích chọn màu một cách tự động được sử dụng bằng tập tương ứng các bin để sinh ra một dãy các giá trị nhị phân, thể hiện sự xuất hiện hoặc vắng mặt của một màu trong một miền mật độ cụ thể Dựa vào cách tiếp cận CBA, mỗi màu cj sẽ được mã hóa theo điều kiện sau:

xt h ifi

b i j 1 j

Để ý rằng, ta giả sử lược đồ màu toàn cục (GCH) được chuẩn hóa theo tổng số các pixel trong một ảnh

Hình 2.6 Tập các mẫu ảnh

Ta xét ảnh A trong hình trên có 3 màu, tức là giả sử n=3, hay C=(c1, c2,

c3)=(black, grey, while) Sau đó màu được chuẩn hóa có thể được biểu diễn bởi một vector HA=(h1, h2, h3)=(0.18, 0.06, 0.76), trong đó hj biểu diễn phần trăm pixel màu cj Tiếp theo ta giả sử phân phối màu được mô tả bởi t=10 bin có kích thước bằng nhau, tức là mỗi bin chứa 1/10 tổng số các màu được biểu diễn Sau đó, b1 thể hiện % pixel từ 1% đến 10%, b2 là từ 11% đến 20%,….Vì vậy, ảnh A gồm 18% màu c1, 6% màu c2 và 76% màu c3 được biểu diễn bởi một dãy tín hiệu SA=0100000000 0000000000 0000000100(được biểu diễn trong bảng 1) Biểu diễn như vậy bằng một tập các bin màu có kích

Trang 30

thước giống nhau, tức là CBA Với cách tiếp cận VBA, dựa trên một cách mà các bin trong một tập có kích thước thay đổi được thể hiện trong đoạn con tiếp theo Các tham số n và t đóng vai trò quan trọng trong tính hiệu quả của phương pháp luận đã được đưa ra, ta sẽ thấy điều này trong các đoạn sau

Bảng 2.1 Chữ ký chi tiết dựa trên CBA

Mỗi bin được biểu diễn bởi một bit đơn, vì vậy chữ ký thu được rất cô đọng, là một biểu diễn hiệu quả của nội dung màu Tức là cũng đã giảm được không gian lưu trữ, giả sử để lưu trữ một số thực phải cần f byte, suy ra để lưu trữ GCH của một ảnh gồm n màu ta cần (n x f) byte, trong khi đó trừu tượng ảnh được đưa ra của chúng ta chỉ cần (n x t) bit để biểu diễn một ảnh Tương

tự, kỹ thuật Color Coherence Vector – CCV thì phải cần (2 x n x f) byte để biểu diễn một ảnh Do đó, kỹ thuật được đưa ra hiệu quả về mặt lưu trữ hơn

cả hai phương pháp CCV và GCH Cụ thể, sử dụng n=64, f=2 byte và t=10; thì chữ ký của CBA cần 80 byte cho mỗi ảnh, còn phương pháp GCH cần 128 byte, trong khi đó CCV cần 256 byte Tức là CBA nhỏ hơn 37% so với GCH

và 68.75% so với CCV Hơn nữa, nó cũng thích hợp với mong muốn một số lượng lớn các màu không thể được biểu diễn trong một ảnh, mà chỉ đưa đến

Trang 31

một chuỗi lớn các số 0, có thể sử dụng kỹ thuật nén như nén loạt mã dài trong việc lưu trữ

Với mỗi ảnh sẽ cho ta một chữ ký Vấn đề không kém phần quan trọng trong việc tìm kiếm đối sánh là tìm hàm xác định sự tương tự của 2 đối tượng,

ở đây sẽ là sự tương tự giữa hai chữ ký Ban đầu, người ta đã sử dụng độ đo

để phân tích sự tương tự của ảnh như sau:

B pos I

Trang 32

 2

1

) (

) ,

B pos I

Q d

Khi đó, ta có d(X,Y)=(4-4)2

+(5-3)2 +(3-3)2=4, d(X,Z)=(4-4)2+(4-3)2+ (4-3)2=2 Như thế rõ ràng là hợp lý hơn

2.3 Phương pháp ma trận Ordinal Co-occurrence

Đánh giá kết cấu là vấn đề hết sức quan trọng trong bài toán phát hiện

chất liệu Ma trận Co-occurrence đã được ứng dụng thành công trong phân

tích kết cấu [15] Tuy nhiên, vì nhiễu dịch chuyển trong mức xám, nên sự

phân tích ma trận Co-occurrence có thể dẫn đến kết quả sai lầm Vấn đề này

có thể được giảm bớt bởi việc sử dụng những thứ tự của giá trị xám thay vì sử

dụng chính giá trị của nó Mari Partio[23] đã cung cấp một phương pháp kết

cấu giữa độ đo thứ tự và ma trận Co-occurrence

2.3.1 Ma trận Ordinal Co-occurrence

Mục đích của phương pháp này là tạo ra một tập những đặc tính kết cấu

hoàn toàn dựa vào mối quan hệ thứ tự giữa những điểm trong một vùng kết

cấu T Những cặp điểm được sử dụng như là những phần tử cơ bản để xây

dựng những đặc điểm

Những đặc điểm được hình thành sử dụng một cửa sổ di chuyển W, kích

thước phụ thuộc vào số khoảng cách sử dụng Với mỗi vị trí của cửa sổ, nội

dung của nó trước tiên được phân ngưỡng bởi giá trị X0 là điểm trung tâm

trong cửa sổ Nếu giá trị điểm ảnh nhỏ hơn X0 thì giá trị được phân ngưỡng là

0, ngược lại giá trị được phân ngưỡng là 1 Bên trong cửa sổ lấy ngưỡng, tất

cả các điểm đều được so sánh với láng giềng của nó, như hình 2.7 bên dưới

Trang 33

Hình 2.7 Ma trận Co-occurrence

Những đặc tính được xây dựng đại diện cho tần số biến cố của những mối quan hệ thứ tự nhất định (“ Lớn hơn”, “Nhỏ hơn”, “Bằng nhau”) tại những khoảng cách D và hướng O khác nhau Vì chúng ta đề cập đến những cặp điểm, nên có thể có bốn quan hệ được đại diện trong ma trận Ordinal Co-occurrence: cooc11, cooc10, cooc01, cooc00 Mỗi ma trận có kích thước

ND*NO, với ND là số khoảng cách và NO là số hướng Cooc11(D,O) mô tả những biến cố của những giá trị ngưỡng của điểm hiện thời C và những điểm láng giềng của nó mà cả hai đều bằng 1 tại khoảng cách D và hướng O Trong khi Cooc00(D,O) biểu diễn trường hợp tương tự khi cả hai giá trị bằng 0, Cooc10(D,O) chỉ ra những biến cố nơi mà giá trị ngưỡng của điểm hiện thời

là 1 và giá trị ngưỡng của láng giềng là 0 Vị trí ngược lại mô tả trong Cooc01(D,O) dựa vào sự so sánh giữa những giá trị điểm, ô tương ứng trong

ma trận tương ứng được tăng lên như được chỉ ra trong hình 2.7 Ma trận occurrence thu được được sử dụng để mô tả đặc điểm kết cấu

Trang 34

Co-2.3.2 Giải thuật

Phương pháp này được thực hiện dựa trên việc quét tất cả các điểm NT trong vùng kết cấu T Quá trình xử lý sử dụng một khu lân cận NHC với kích thước của nó phụ thuộc vào khoảng cách ND được sử dụng

Ở đây, Pi và C là những điểm, off(C) là offset của điểm hiện thời, w và h

là chiều rộng và chiều cao của vùng kết cấu T, xC và yC là những tọa độ điểm hiện thời Chúng ta biểu thị bởi XjF là những phần tử XF Cho ví dụ, nếu chúng ta xem ND=1, thì:

4 ' 3 ' 2 ' 1 4 3 2

1 ,X ,X ,X ,X ,X ,X ,X

và X F X1F,X2F,X3F,X4F như chỉ ra trong hình 2.8

Hình 2.8 Vùng lân cận 3 x 3 với 4 cặp điểm đối xứng

Mô tả giải thuật xây dựng ma trận Ordinal Co-occurrence trong hình 2.9 Số lượng khoảng cách và hướng sử dụng có thể được lựa chọn: Để giảm

Trang 35

bớt lượng tính toán, những mặt nạ khoảng cách và hướng được tính toán trước Khi mặt nạ không cung cấp số điểm bằng nhau cho tất cả các khoảng cách và hướng thì ma trận Co-occurrence thu được sẽ được chuẩn hóa bởi tổng những cặp với khoảng cách và hướng tương ứng khi di chuyển qua vùng kết cấu T Sự chuẩn hoán này được thực hiện ở bước 18 trong giải thuật

2.3.3 So sánh đặc điểm

Ma trận được so sánh sử dụng khoảng cách Euclidean Toàn bộ sự khác nhau giữa hai vùng kết cấu T1 và T2 có thể thu được bằng cách cộng tất cả các

1 FOR all possible center positions in T

2 Threshold the windown W using threshold X 0

3 FOR all pixels C in W

4 FOR all forwarding neighbors X jF of C

Trang 36

sự khác nhau từ ma trận Cooc11, Cooc10, Cooc01 và Cooc00 Công thức khoảng cách được tính như sau:

j

T

T i j Cooc i j Cooc

,

2 2

1 ( , ) 11 ( , )) 11

,

2 2

1 ( , ) 10 ( , )) 10

01 (

j

T

T i j Cooc i j Cooc

,

2 2

1 ( , ) 00 ( , )) 00

Mạng nơron là một hệ thống gồm nhiều phần xử lý đơn giản- các nơron, liên kết với nhau và hoạt động song song Khả năng hoạt động của hệ thống phụ thuộc vào cấu trúc của hệ, các mối liên kết giữa các nơron và quá trình xử

lý bên trong của các nơron Mạng nơron có khả năng học dữ liệu và tổng quát hóa từ các số liệu đã luyện, nhớ, ngoại và nội suy, và quan trọng nhất đối với nhận dạng hay phát hiện là khả năng phân lớp mạnh của nó

Qua thời gian, lớp các mô hình và các thuật toán luyện đi kèm với nó đã được phát triển rất nhanh và đa dạng làm cho lý thuyết và công nghệ mạng nơron cũng như khả năng ứng dụng của chúng thật sự phong phú Trước hết

Trang 37

ta có thể tìm hiểu sơ qua về ý tưởng phương pháp mạng nơron trong phát hiện đối tượng

2.4.1 Mô hình Mạng Nơron nhân tạo

Một nơron nhân tạo (đơn vị xử ý -PE) phản ánh các tính chất cơ bản của nơron sinh học và được mô phỏng dưới dạng sau:

Nơron nhân tạo có n tín hiệu vào xi , i=1, 2,…, n và một tín hiệu ra y Trạng thái bên trong của nơron được xác định qua bộ tổng các đầu vào với các trọng số liên kết wi (i=1, 2, …, n) Đầu ra của nơron được xác định qua hàm phi tuyến nào đó Hình vẽ dưới đây cho ta một hình dung về nơron nhân tạo

x1

wj1

wjn

Như vậy mô hình định lượng của nơron nhân tạo có dạng:

) ) ( (

i x t w f

w Net ( ) ( )là tín hiệu tổng hợp đầu vào

Trang 38

0 1

) ( )

(

z neu

z neu z

sign z

- Hàm dạng sigma 1 ngưỡng (sigmoid function): Đây là hàm kích hoạt thường được sử dụng nhiều nhất trong các ứng dụng mạng nơron:

z e z

Để tăng khả năng làm việc, bắt chước hệ thần kinh, người ta phải nối các nơron vào mạng – như vậy hình thành mạng nơron

Thông thường phải có nơi tiếp nhận tín hiệu vào, có nơi để phát tín hiệu

ra và một số nơron khác nữa khi cần Vậy là hình thành khái niệm lớp các nơron Và năm 1958 F Rosenblatt đưa vào định nghĩa mạng nơron tổng quát hơn gọi là perceptron, từ đó chúng ta có khái niệm mạng perceptron nhiều lớp, mạng hồi quy v.v

2.4.3 Vấn đề học

Như vậy đối với công việc thiết kế mạng, cấu trúc và nhiều tham số của các perceptron tự do, người ta thấy ngay khả năng rộng lớn của các mạng nơron và thực tiễn hơn hai mươi năm qua (đặc biệt là sau năm 1982) đã chứng minh được điều đó Tính năng quan trọng của mạng Nơron là khả năng học để tổng quát hóa, dung thứ lỗi (chịu được lỗi) trong những trường hợp dữ liệu bị nhiễu, bị lỗi

Trang 39

Đứng từ góc độ thực tiễn, thứ nhất là góc độ thiết kế, mỗi một mạng là một mô hình cụ thể do người thiết kế xây dựng nên Mỗi mô hình như vậy đều nhằm vào mục tiêu cụ thể nào đó Từ đây xuất hiện hai loại bài toán sau:

 Giả sử cấu trúc mạng đã cho, phải thay đổi các trọng số liên kết như thế nào Bài toán này gọi là học tham số (hay luyện tham số) Có thuật toán tiêu biêu là thuật toán lan truyền ngược rất hay sử dụng trong nhận dạng

 Phải xây dựng mạng ra sao, bao nhiêu lớp, mỗi lớp bao nhiêu nơron Bài toán có quan hệ với cấu trúc mạng gọi là bài toán học cấu trúc hay luyện cấu trúc

Và từ đó cũng đã có các luật học tương ứng với chúng, các luật học nổi bật như các luật học Hebb, luật học của mạng Perceptron nhiều tầng thể hiện qua thuật toán lan truyền ngược, v.v

2.4.4 Mạng nơron dùng cho phân tích thành phần chính

Phân tích thành phần chính (Principle Component Analysis-PCA) là một công cụ quan trọng trong xử lý dữ liệu, đặc biệt với các những ai nghiên cứu

về bài toán nhận dạng Phân tích thành phần chính là công cụ để thu gọn số chiều như phép biến đổi Karhunen-Loeve rất cần trong xử lý thông tin, tiền

xử lý của nhận dạng, trong việc tạo ra các không gian đặc trưng ảnh và xấp xỉ Thuật toán chọn lọc thành phần chính thích nghi nổi bật là thuật toán APEC

2.4.5 Mạng nơron xoắn và bài toán phát hiện chất liệu

Xuất phát từ các nghiên cứu về não của Hubel và Wiessel (1962), các mạng nơron xoắn được phát triển và triển khai ứng dụng trong nhận dạng từ năm 1990 Le Cun và các cộng sự đã trình bày một thiết kế mạng nơron xoắn

để nhận dạng chữ viết tay Các mạng xoắn cố định kích thước đã được áp

Trang 40

dụng cho nhiều ứng dụng, như các hệ nhận dạng chữ viết tay, nhận dạng chữ

in, nhận dạng chữ viết tay online và nhận dạng mặt người

Các công trình đã nghiên cứu bước đầu chứng tỏ đây là một cách tiếp cận rất có triển vọng cho nhiều lớp bài toán trong đó trước hết cho các bài toán nhận dạng

Để dễ hiểu, chúng ta xét mạng nơron đơn giản như sau:

Mạng Perceptron truyền thẳng ba lớp

Có mười nút trong lớp nhận tín hiệu vào có 4 nơron trong lớp ẩn và 2 nơron ở lớp ra Có thể quy định ràng buộc ảnh hưởng tới các trọng số liên kết

và việc xử lý thông tin của các nơron trong lớp ẩn

Cách thiết kế đơn giản đước cho bởi minh họa sau:

Chỉ có 6 trong số liên kết {wi, i=1,2,…, 6}

Khi đó net vào cho nơron ẩn PEj với j=1,2,…,4 cho bởi:

i x w j

net v

Như vậy chúng ta đã sử dụng cùng 6 trọng số liên kết, nhưng mỗi tín hiệu vào không phải được tất cả các PEj trong lớp ẩn xử lý Phép lấy tổng của phương trình trên có dạng tổng xoắn cho nên gọi là mạng nơron xoắn

Định nghĩa: Mạng nơron xoắn là một mạng Perceptron truyền thẳng nhiều lớp được thiết kế đặc biệt để nhận dạng ảnh hai chiều kết hợp ba khái niệm kiến trúc: trường tiếp thu cục bộ trọng số chia sẻ và đại diện mẫu trong chiều không gian và thời gian nhằm đảm bảo mức độ bất biến nhất định đối với sự dịch chuyển, thay đổi

tỉ lệ biến dạng

Để dễ hình dung, ta sẽ xét một ví dụ cụ thể đó là mạng LeNet - 5

Định dạng
Số trang	83
Dung lượng	1,11 MB