Bố cục của luận văn bao gồm phần mở đầu, phần kết luận và ba chương nội dung được tổ chức như sau: Chương 1: Tổng quan về phát hiện chất liệu trong ảnh Chương này trình bày định nghĩa ch
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Thị Kim Nga
NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÁT HIỆN
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan toàn bộ nội dung bản luận văn này là do tôi tự sưu tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài
Nội dung luận văn này chưa từng được công bố hay xuất bản dưới bất kỳ hình thức nào và cũng không sao chép từ bất kỳ một công trình nghiên cứu nào
Tất cả phần mã nguồn của chương trình đều do tôi tự thiết kế và xây dựng, trong đó có sử dụng một số thư viện chuẩn và các thuật toán được các tác giả xuất bản công khai và miễn phí trên mạng Internet
Nếu sai tôi xin hoàn toàn chịu trách nhiệm
Hà nội, ngày 25 tháng 11 năm 2006
Trang 4LỜI CẢM ƠN
Tôi xin chân thành bày tỏ lòng biết ơn đến các thầy cô giáo đã nhiệt tình giảng dạy trong suốt thời gian tôi học tập tại lớp Cao học K11T2 trường Đại học Công Nghệ và đặc biệt tôi xin được gửi lời cảm ơn sâu sắc đến TS Đỗ Năng Toàn, Viện Công nghệ thông tin, Viện Khoa học Việt Nam - Người đã tận tình chỉ bảo, hướng dẫn và giúp đỡ tôi hoàn thành bản Luận văn này
Tôi xin bày tỏ lòng biết ơn tới gia đình, đã tạo điều kiện tốt nhất về mọi mặt, động viên tôi trong suốt quá trình học tập cũng như làm tốt nghiệp
Cuối cùng, xin cảm ơn các đồng nghiệp, các bạn bè đã động viên cổ vũ để tôi hoàn thành luận văn đúng thời hạn
Trang 5MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT 1
DANH MỤC CÁC BẢNG 1
DANH MỤC CÁC HÌNH VẼ 2
MỞ ĐẦU 4
Chương 1 -TỔNG QUAN VỀ PHÁT HIỆN CHẤT LIỆU TRONG ẢNH 7
1.1 Bài toán phát hiện chất liệu trong ảnh 7
1.1.1 Chất liệu trong ảnh 7
1.1.2 Phát hiện chất liệu 8
1.2 Các đặc trưng của chất liệu trong ảnh 9
1.2.1 Màu sắc 9
1.2.2 Kết cấu 10
1.2.3 Hình dạng 11
1.2.4 Mối quan hệ không gian 11
1.3 Các độ đo sự tương tự thường sử dụng 12
1.4 Mô hình bài toán phát hiện chất liệu 15
Chương 2 – CÁC CÁCH TIẾP CẬN TRONG PHÁT HIỆN CHẤT LIỆU 16
2.1 Phương pháp Habin cải tiến 16
2.1.1 Phương pháp Habin 18
2.1.2 Phương pháp Habin cải tiến 20
Trang 62.2 Phương pháp trừu tượng ảnh dựa trên chữ ký nhị phân 21
2.3 Phương pháp Ma trận Ordinal Co-occurrence 25
2.3.1 Ma trận Ordinal Co-occurrence 25
2.3.2 Giải thuật 27
2.3.3 So sánh các đặc điểm 28
2.4 Cách tiếp cận Mạng Nơron 29
2.4.1 Mô hình Mạng Nơron nhân tạo 30
2.4.2 Hàm kích hoạt 31
2.4.3 Vấn đề học 31
2.4.4 Mạng Nơron dùng cho phân tích thành phần chính 32
2.4.5 Mạng Nơron xoắn và bài toán phát hiện chất liệu 32
2.5 Cách tiếp cận mô hình Markov ẩn HMM 37
2.5.1 Nền tảng của phương pháp 37
2.5.2 Mô hình HMM 43
2.5.3 Vấn đề phát hiện bằng HMM 45
Chương 3 - ỨNG DỤNG PHÁT HIỆN CHẤT LIỆU 47
3.1 Phát hiện kính 47
3.1.1 Tính chất cơ lý của chất liệu thủy tinh 47
3.1.2 Thuật toán 55
Trang 73.1.3 Một số kết quả thực nghiệm 56
3.2 Phát hiện mặt người 56
3.2.1 Cách tiếp cận Mạng Nơron 56
3.2.2 Cách tiếp cận mô hình HMM 64
KẾT LUẬN 72
TÀI LIỆU THAM KHẢO 74
Trang 8BẢNG CÁC TỪ VIẾT TẮT
DANH MỤC CÁC BẢNG
Trang Bảng 2.1 Chữ ký chi tiết dựa trên CBA 23 Bảng 2.2 Chữ ký của ba ảnh X, Y, Z 24 Bảng 3.1 Thống kê một số tính chất và đặc trưng cơ bản của một vài loại
thủy tinh điển hình 48
Trang 9DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Sơ đồ chức năng phát hiện chất liệu 15
Hình 2.1 Hai ảnh và biểu đồ màu toàn cục của chúng 16
Hình 2.2 Ví dụ chỉ ra LCH bị lỗi 17
Hình 2.3 Xây dựng đồ thị hai phía 19
Hình 2.4 Đồ thị hai phía biểu diễn mối quan hệ giữa các khối và giá trị đối sánh nhỏ nhất 19
Hình 2.5 Sử dụng giá trị đối sánh cực tiểu để tính toán khoảng cách giữa hai ảnh L và M, L và N 20
Hình 2.6 Tập các ảnh mẫu 22
Hình 2.7 Ma trận Co-occurrence 26
Hình 2.8 Vùng lân cận 3 x 3 với 4 cặp điểm đối xứng 27
Hình 2.9 Mã mô tả giải thuật xây dựng ma trận Ordinal Co-occurrence 28
Hình 2.10 Nơron nhân tạo j 30
Hình 2.11 Cấu trúc LeNet-5, Mạng Nơron xoắn 34
Hình 2.12 Đồ thị của hai hàm P(x/1) và P(x/2) 39
Hình 2.13 Mô tả thuật toán Viterbi 42
Hình 2.14 Mô hình kiểu mẫu của một HMM ba trạng thái 43
Hình 3.1 Ảnh kết quả phát hiện chất liệu kính 56
Hình 3.2 Mô hình hoạt động của mạng nơron 57
Trang 10Hình 3.3 Ví dụ các đầu vào và đầu ra cho huấn luyện mạng định tuyến 58
Hình 3.4 Cấu trúc mạng xác định mặt 60
Hình 3.5 Ảnh gốc chứa một mặt trong ảnh 63
Hình 3.6 Vùng có da sau khi tách 63
Hình 3.7 Những vùng tìm được của mạng 63
Hình 3.8 Kết quả cuối cùng sau khi sử dụng ngưỡng động 63
Hình 3.9 Ảnh gốc với trường hợp có nhiều mặt 63
Hình 3.10 Vùng da sau khi được tách 64
Hình 3.11 Ảnh trước khi tách ngưỡng động 64
Hình 3.12 Kết quả sau khi tách ngưỡng với trường hợp ảnh chứa nhiều mặt.64 Hình 3.13 Một ảnh mẫu từ tập phân phối thỏa mãn D và có năng lượng cực tiểu 69
Hình 3.14 Kết quả phát hiện da mặt bằng mô hình HMM 71
Hình 3.15 Phát hiện nhầm màu da 71
Trang 11MỞ ĐẦU
Trong cuộc sống hằng ngày, chúng ta thường xuyên cần phải phát hiện
và phân biệt các sự vật hiện tượng trong thế giới thực như các đối tượng, chất liệu, thực phẩm, địa danh v.v và thậm chí là thời gian trong ngày Việc phát hiện các loại sự vật hiện tượng này một cách tự động là một vấn đề hết sức thiết thực trong một xã hội hiện đại
Ngày nay, với sự phát triển mạnh mẽ của ngành Khoa học máy tính cũng như sự bùng nổ của lĩnh vực Công nghệ thông tin đã đẩy nhanh sự phát triển của nhiều lĩnh vực xã hội như quân sự, y học, giáo dục, kinh tế, giải trí v.v
Sự phát triển của phần cứng cả về phương diện thu nhận, hiển thị, cùng với tốc độ xử lý đã mở ra nhiều hướng mới cho sự phát triển phần mềm, đặt biệt
là Công nghệ xử lý ảnh cũng như Công nghệ thực tại ảo đã ra đời và phát triển nhanh Nó có thể giải quyết được bài toán phát hiện hay nhận dạng tự động các loại đối tượng, chất liệu trong thực tế, chẳng hạn có thể tạo ra hệ thống phát hiện kẻ gian đột nhập vào các cơ quan cần được giám sát sau giờ hành chính như các Kho bạc, Ngân hàng v.v thay vì cần phải có những đội bảo vệ canh gác cẩn thận Hoặc có thể phát hiện có mảnh kính vỡ trong thực phẩm hay phát hiện những tấm kính trong một khu vực cần quan tâm v.v thậm chí có thể phát hiện những loại thực phẩm bị hỏng không thể sử dụng được Phát hiện mặt người trong một bức ảnh cũng đã có rất nhiều ý nghĩa trong quân sự, an ninh v.v Rõ ràng bài toán phát hiện đối tượng cũng như nhận dạng đối tượng ngày càng quan trọng đối với sự phát triển của xã hội, đặc biệt rất quan trọng cho xã hội Việt Nam
Trang 12Bài toán phát hiện đối tượng là một trong những bài toán cốt yếu trong các lĩnh vực nhận dạng mẫu hay thị giác máy, nó là cơ sở cho nhiều ứng dụng quan trọng, muốn nhận dạng thì trước hết phải phát hiện ra nó đã chứ Nhận dạng hay phát hiện đối tượng có rất nhiều cách tiếp cận để giải quyết, mặc dù mỗi một loại đối tượng sẽ có một kỹ thuật cụ thể, song chúng vẫn có một cơ
sở chung Cách tiếp cận dựa vào chất liệu của đối tượng đang là một hướng nghiên cứu mới hiện nay, ví dụ có thể phát hiện ra khuôn mặt người nhờ vào chất liệu da mặt, hoặc phát hiện người dựa vào chất liệu vải mà người đó đang mặc, hay có thể phát hiện ô tô dựa vào chất liệu kính v.v Song càng quan trọng hơn nếu ta xét đến tính thiết thực của loại chất liệu cần phát hiện Chẳng hạn, kính là một loại chất liệu được sử dụng rất phổ biến, nó có khắp mọi nơi như kính chắn gió của ô tô, các cửa bằng kính, các bóng đèn, kính làm tủ, làm bàn, làm các hộp, các chai v.v Có thể tạo ra các hệ thống phát hiện các toà nhà (hầu hết các tòa nhà lớn đều được làm chủ yếu là kính) trong một thành phố, phát hiện ô tô (vì ô tô luôn có kính) thông qua chất liệu kính Tất cả các bài toán trên đều có tầm quan trọng đáng kể, đặt biệt bài toán phát hiện ô tô là bài toán đang được nhiều quan tâm ở nước ta, là một trong những bài toán giám sát tự động: phát hiện, phân loại và đếm số ô tô tại các chốt giao thông hoặc tại các trạm thu phí nhằm nâng cao tiềm năng phát triển của mỗi quốc gia
Như vậy bài toán phát hiện chất liệu là một cách tiếp cận mới trong khoa học nhận dạng hay mô hình hóa trong thực tại ảo, là cơ sở để xây dựng nhiều ứng dụng quan trọng và cần thiết Bên cạnh đó, bài toán phát hiện chất liệu kính có thể ứng dụng cho bài toán giám sát giao thông tự động, đặt biệt ở Việt Nam hiện nay, đây chính là tính thời sự của vấn đề
Trang 13Mặt khác, hiện nay trên thế giới chưa có một đề cập nào về bài toán phát hiện chất liệu một cách rõ ràng, đặt biệt là chất liệu kính Vì thế mà vấn đề này rất có ý nghĩa khoa học
Trên đây đã điểm qua tầm quan trọng của bài toán phát hiện chất liệu, đặt biệt là chất liệu kính đã cho ta thấy rõ tính cần thiết cũng như tính thời sự đồng thời là ý nghĩa khoa học và thực tiễn của vấn đề Nhận thức được điều
này, tôi đã chọn đề tài luận văn: ”Nghiên cứu một số kỹ thuật phát hiện chất liệu và ứng dụng”
Bố cục của luận văn bao gồm phần mở đầu, phần kết luận và ba chương nội dung được tổ chức như sau:
Chương 1: Tổng quan về phát hiện chất liệu trong ảnh
Chương này trình bày định nghĩa chất liệu của một đối tượng trong ảnh, cũng như bài toán phát hiện chất liệu và cách giải quyết Đồng thời cũng trình bày một cách tổng quan về nội dung ảnh của chất liệu cùng với một số kỹ thuật phát hiện chất liệu cơ bản
Chương 2: Các kỹ thuật phát hiện chất liệu
Các kỹ thuật được trình bày dựa vào các đặc trưng cơ bản của chất liệu
và các phương pháp phát hiện dựa trên mạng nơron, mô hình xác suất Markov ẩn
Chương 3: Ứng dụng
Trong phần này luận văn trình bày ứng dụng phát hiện chất liệu kính và phát hiện mặt người theo mô hình màu da dựa trên mạng nơron và mô hình Markov ẩn
Trang 14Chương 1 - TỔNG QUAN VỀ PHÁT HIỆN CHẤT LIỆU
ta chỉ xét ô tô với kính chắn gió v.v
Như vậy phát hiện chất liệu cũng chính là phát hiện ảnh của chất liệu đó trong một bức ảnh Như thế nội dung ảnh của một đối tượng chính là nội dung của chất liệu trong ảnh hay còn gọi là nội dung ảnh Mà nội dung ảnh được thể hiện bởi các đặc trưng màu sắc, kết cấu, hình dạng Nhưng trong hầu hết mọi chất liệu, nội dung ảnh được phản ánh bởi màu sắc và kết cấu mà thôi
Trang 151.1.2 Phát hiện chất liệu
Cho trước một bức ảnh có thể tĩnh hoặc động, yêu cầu xác định xem trong bức ảnh đó có loại chất liệu mà ta cần quan tâm không, thậm chí là bao nhiêu chất liệu đó nằm trong bức ảnh
Cách giải quyết bài toán
Tư tưởng: Cho trước một ảnh của chất liệu, ta tìm trong ảnh cần xét (ảnh truy vấn) có ảnh của chất liệu đó hay không Bằng cách đánh giá mức độ giống nhau của ảnh chất liệu cho trước với ảnh của chất liệu có trong ảnh Nhưng đặc trưng của ảnh chất liệu chủ yếu là màu sắc, kết cấu, thông tin không gian, do đó giải quyết bài toán này bằng cách đối sánh các đặt trưng của ảnh chất liệu cho trước với các đặc trưng của ảnh Một cách nôm na thì đây chính là một trường hợp đặc biệt của bài toán tra cứu ảnh dựa trên nội dung Và cũng lưu ý rằng yếu tố thời gian thực luôn luôn được quan tâm cho mỗi bài toán, mức độ cần thiết của nó tùy thuộc vào bài toán mà ta giải quyết, yếu tố này quyết định sự thành công hay thất bại của nhiều bài toán
Như vậy, bài toán phát hiện chất liệu bằng kỹ thuật Xử lý ảnh gồm hai pha chính:
- Xác định và trích chọn các đặc trưng của chất liệu (vì mỗi loại chất liệu khác nhau sẽ được đặc tả bởi các đặc trưng khác nhau)
- Đánh giá độ tương tự (độ giống) của chất liệu cần xét với các đặt trưng
mà ta đã biết thông qua các đặc trưng mà ta đã trích chọn ở trên
Đó cũng chính là hai bài toán lớn trong lĩnh vực nhận dạng mẫu và thị giác máy
Như đã nói ở trên, ảnh của chất liệu được ghi lại trong hình hoặc camera phần lớn được thể hiện bởi các yếu tố như: Màu sắc, kết cấu, hình dạng, thông
Trang 16tin không gian Tuỳ thuộc mỗi một chất liệu sẽ có một đánh giá về đặc trưng riêng cho chúng Bên cạnh đó sẽ có những hàm đánh giá độ tương tự tương ứng cho phù hợp
1.2 Các đặc trưng của chất liệu trong ảnh
1.2.1 Màu sắc
Sự cảm nhận về màu là rất quan trọng đối với con người Sự cảm nhận màu phụ thuộc vào cả yếu tố hai ánh sáng vật lý và việc xử lý phức tạp của thần kinh mắt (eye-brain) tức là nó phải tích hợp những thuộc tính kích thích
và thực nghiệm Con người sử dụng thông tin màu sắc để phân biệt các đối tượng, chất liệu v.v
Mọi người đều biết màu là gì, nhưng sự mô tả chính xác và chi tiết về màu thì lại là một chuyện khác Màu sắc luôn là chủ đề lớn trong các ngành khoa học khác nhau Mặc dù vậy, một số vấn đề chủ yếu liên quan đến màu sắc, đặt biệt là trong cảm nhận màu của con người mà tại đó sự hoạt động của não đóng vai trò quan trọng vẫn chưa được hiểu một cách đầy đủ Những thuộc tính cấp thấp về cảm nhận màu của con người cũng đã được mô hình hoá thành công trong khuôn khổ phạm vi của các thiết bị đo màu Trong khuôn khổ này ta thấy rằng các phương pháp thống kê là công cụ đầy sức mạnh cho việc phân tích và mô tả dữ liệu hình ảnh
Một ảnh màu điển hình được lấy từ Camera số hoặc download từ Internet thường có ba kênh màu (ảnh xám chỉ có một kênh), những giá trị của
dữ liệu ba chiều này từ ảnh màu có thể cho ta biết vị trí của điểm ảnh trong không gian màu Những điểm ảnh có cùng giá trị ví dụ (1, 1, 1) cho những màu khác nhau trong những không gian màu khác nhau Như vậy mô tả đầy
đủ của một ảnh màu điển hình gồm thông tin không gian hai chiều với điểm ảnh trong vùng không gian này và dữ liệu màu ba chiều với điểm ảnh màu
Trang 17trong không gian mà chúng ta đang đề cập Ở đây giả thiết không gian màu là
cố định, bỏ qua thông tin không gian, thông tin màu trong ảnh có thể coi như
là tín hiệu ba chiều đơn giản
Nếu ta xem thông tin màu của ảnh là tín hiệu một, hai, hoặc ba chiều đơn giản thì việc phân tích các tín hiệu sử dụng ước lượng mật độ xác suất là một cách dễ nhất để mô tả thông tin màu của ảnh Biểu đồ màu là công cụ đơn giản nhất, những cách khác mô tả thông tin màu gồm đại diện màu, moment màu, vector kết dính màu v.v
1.2.2 Kết cấu
Nhưng thật không may có những ảnh có cùng phân phối màu nhưng chúng hoàn toàn khác nhau như bầu trời và nước biển hay lá cây và cỏ v.v Trong các trường hợp như vậy, cần phải tính toán đặc trưng kết cấu của ảnh Kết cấu được sử dụng rộng rãi và rất trực quan nhưng không có định nghĩa chính xác bởi tính biến thiên rộng của nó Có rất nhiều cách để mô tả kết cấu: Những phương pháp thống kê thường sử dụng tần số không gian, ma trận biến cố, tần số biên v.v Từ đó những đặc điểm như năng lượng, entropy,
độ tương phản, độ thô, tính đồng nhất, tính tương quan, đẳng hướng, pha, độ ráp đã được nhận ra Những phương pháp mô tả kết cấu này tính toán các thuộc tính kết cấu khác nhau và hoàn toàn phù hợp nếu cỡ của kết cấu gốc có thể được so sánh với cỡ của điểm ảnh
Một cách cơ bản, các phương pháp biểu diễn kết cấu có thể phân làm hai loại chính: phương pháp cấu trúc và phương pháp thống kê Các phương pháp cấu trúc bao gồm các phép toán hình thái học và đồ thị liền kề, mô tả kết cấu bởi việc đồng nhất cấu trúc ban đầu và quy tắc sắp xếp của chúng Chúng hiệu quả nhất khi áp dụng vào những kết cấu rất đều đặn Phương pháp thống kê, gồm: Fourier power spectra, co-occurrence matrices, shift-invariant principal
Trang 18component analysis (SPCA), Tamura feature, Wold decomposition, Markov random field, fractal model và kỹ thuật multi-resolution filtering như Gabor and wavelet transform mô tả kết cấu bằng phân phối thống kê của cường
độ điểm ảnh
1.2.3 Hình dạng
Định nghĩa hình dạng của đối tượng thường là rất khó Hình dạng thường được mô tả bằng lời nói hoặc hình vẽ, và mọi người thường sử dụng thuật ngữ như tròn, méo v.v Xử lý hình dạng dựa trên máy tính đòi hỏi rất phức tạp, trong khi rất nhiều phương pháp mô tả hình dạng thực tế đang tồn tại nhưng không có một phương pháp chung nào cho mô tả hình dạng Có hai kiểu đặc điểm hình dạng chính thường được sử dụng: Đặc điểm dựa trên biên, đặc điểm dựa trên vùng Đặc điểm dựa trên biên chỉ sử dụng đường bao ngoài của hình dạng trong khi đó đặc điểm vùng sử dụng toàn bộ vùng của hình dạng Ví dụ những đặc điểm biên bao gồm mã xích, mô tả Fourier, những đường viền hình học như uống cong, chiều dài biên v.v Đặc điểm vùng như
số chu trình, độ lệch tâm v.v
1.2.4 Mối quan hệ không gian
Mối quan hệ không gian đặc trưng cho sự sắp xếp các đối tượng bên trong một bức ảnh Mối quan hệ giữa hai đối tượng có thể được phân loại một cách rõ ràng như là hướng hoặc tô pô hình học Mối quan hệ hướng dựa vào
vị trí liên quan và khoảng cách mêtric giữa hai đối tượng trong ảnh Mặt khác, mối quan hệ tô pô hình học không dựa vào khoảng cách thu được giữa hai đối tượng mà dựa vào khái niệm lý thuyết tập hợp như giao, hợp, kết nối v.v
*** Một trong những vấn đề thách thức to lớn để giải quyết bài toán phát hiện hay nhận dạng đối tượng là việc chọn lựa và sự biểu diễn các đặc trưng này
Trang 191.3 Các độ đo sự tương tự thường sử dụng
Bên cạnh đó, những độ đo tương tự cũng là yếu tố đóng vai trò cốt yếu trong việc giải quyết bài toán được đặt ra Những độ đo lý tưởng phải có một
số thuộc tính sau:
- Độ đo tự tương quan: Đặc điểm khoảng cách giữa hai ảnh là lớn chỉ khi những ảnh không tương tự và ngược lại khoảng cách giữa hai ảnh là nhỏ nếu chúng tương tự Ảnh thường được mô tả trong không gian đặc điểm và sự tưong tự giữa các ảnh được đo bởi những độ đo khoảng cách trong không gian đặc điểm Số thuộc tính của không gian biểu diễn ảnh và những đặc tính của những đặt điểm vectơ mô tả ảnh là rất quan trọng trong việc cải thiện một
số thuộc tính độ tương tự trực quan của những độ đo tương tự được
đề xuất
- Hiệu quả: Sự đo đạc cần phải được tính toán nhanh để nhanh chóng đưa ra kết quả Vì hầu hết các ứng dụng của bài toán phát hiện đối tượng đều phải được thực hiện trong thời gian thực Vì thế đánh giá độ phức tạp tính toán là rất quan trọng
- Hệ đo: Vấn đề khoảng cách tương tự là có nên là hệ mét hay không vẫn chưa được quyết định chính thức khi sự nhìn nhận của con người là rất phức tạp và chưa được hiểu một cách đầy đủ Chúng ta mong muốn khoảng cách tương tự là một hệ đo khi ta xem xét những thuộc tính sau như là những yêu cầu rất tự nhiên:
- Sự bất biến của tương tự với chính nó: Khoảng cách giữa một ảnh với chính nó là hằng số độc lập với ảnh d(A,A)=d(B,B)
- Sự tối thiểu: Một ảnh giống với nó hơn là giống với ảnh khác d(A,A)<d(A,B)
Trang 20- Sự đối xứng: Là vô lý nếu chúng ta nói rằng ảnh A giống với ảnh B nhưng ảnh B thì không giống ảnh A, d(A,B)=d(B,A)
- Sự bắc cầu: Là vô lý nếu ta nói ảnh A giống với ảnh B , ảnh B không giống ảnh C nhưng ảnh C lại rất giống với ảnh A Tuy nhiên thuộc tính bắc cầu này có thể không đúng cho một dãy các ảnh Thậm chí ảnh Ii là giống với ảnh Ii+1 với tất cả i=1,…,n thì điều này không có nghĩa rằng ảnh Ii tương tự với ảnh In Ví dụ trong băng Video mỗi frame tương tự với frame kề nó nhưng frame đầu tiên và frame cuối cùng có thể là rất khác nhau
- Sự bền vững: Hệ thống cần có khả năng để thay đổi những điều kiện ảnh, ví dụ nếu ảnh được lấy dưới ánh sáng đèn điện (hơi đỏ), thì hệ thống cũng phải cho kết quả đúng khi lấy ảnh dưới điều kiện ánh sáng ban ngày (hơi xanh)
Có nhiều độ đo khoảng cách tương tự đã được đưa ra nhưng chúng đều không đầy đủ các thuộc tính trên Dưới đây là một số độ đo chung nhất thường được sử dụng:
Histogram intersection Distance:
Độ đo khoảng cách này được định nghĩa trên phần chung của hai biểu đồ màu Cho hai biểu đồ màu h1, h2 khoảng cách giữa chúng có thể được định nghĩa như sau:
1
2 1
dis
Việc đo khoảng cách này rất nhanh vì nó dựa trên công thức đơn giản Tuy nhiên thông tin màu không được sử dụng khi nhận được khoảng cách bởi vậy có thể dẫn đến những kết quả không tốt
Lp Distance:
Trang 21Khoảng cách dạng Minkowski Lp giữa hai biểu đồ màu được định nghĩa:
p
i
p i i
Quadratic form Distance:
Khoảng cách giữa hai biểu đồ màu N chiều h1 và h2 được định nghĩa: distQF ( h1 h2) A ( h1 h2)
Với A=[aij] là ma trận với trọng số biểu thị sự giống nhau giữa mức i và mức j, aij được tính như sau:
aij = 1-(dij / dmax)k
Trong đó dij là khoảng cách giữa màu i và màu j ( thường dij là khoảng cách Euclidean giữa hai màu trong không gian màu đồng đều nào đó) và
dmax=maxij(dij) K là hằng số điều khiển trọng số giữa hai màu lân cận
Earth Mover Distance:
Độ đo này dựa trên chi phí tối thiểu để chuyển một phân bố thành phân
bố khác Nếu chi phí của việc di chuyển một đơn vị đặc trưng đơn trong không gian đặc trưng là khoảng cách chung thì khoảng cách giữa hai phân bố
sẽ là tổng cực tiểu giá trị để di chuyển những đặc trưng riêng Khoảng cách EMD có thể được định nghĩa như sau:
ij ij ij EMD
g
d
g dist
Trong đó gij biểu thị khoảng cách tương tự giữa mức i và mức j, gij >0 là
sự tối ưu hoá giữa hai phân bố như là tổng giá trị được cực tiểu hoá
Trang 22ij h
) ,
1.4 Mô hình bài toán phát hiện chất liệu
Hình 1.1 Sơ đồ chức năng phát hiện chất liệu
Song để tăng cường độ chính xác, ta có thể sử dụng các mô hình học dữ liệu – cụ thể là học các đặc trưng của chất liệu Hiện nay, công nghệ ưu việt nhất vẫn công nghệ Mạng Nơron, hay các phương pháp học thống kê như mô hình Markov ẩn, mạng xác suất Bayes, v.v
Trang 23Chương 2 - CÁC CÁCH TIẾP CẬN TRONG PHÁT HIỆN CHẤT LIỆU
Phần này trình bày một số phương pháp được sử dụng hiệu quả trong cách tiếp cận để giải quyết bài toán phát hiện chất liệu Trong đó bao gồm các kỹ thuật dựa vào các đặc trưng cơ bản của chất liệu và các cách tiếp cận phát hiện chất liệu dựa trên mạng nơron, mô hình xác suất Markov ẩn
2.1 Phương pháp Habin cải tiến
Như chúng ta đã biết, biểu đồ màu là một trong những phương pháp để đối sánh giữa hai chất liệu Đã có hai cách tiếp cận truyền thống để phát hiện chất liệu là biểu đồ màu toàn cục (Global Color Histogram - GCH) và biểu đồ màu cục bộ (Local Color Histogram - LCH), song chúng cũng chính là điểm khởi đầu cho phương pháp Habin GCH chỉ đưa ra biểu đồ màu của ảnh mà không có thông tin không gian (thông tin vùng), do vậy hiệu quả tìm kiếm chắc chắn sẽ bị giới hạn Ví dụ, trong hình 2.1, ảnh A và B có cùng biểu đồ màu do đó khoảng cách giữa A và và B sẽ bằng 0 Tuy nhiên hai ảnh này là khác nhau
Hình 2.1 Hai ảnh và biểu đồ màu toàn cục của chúng
Trang 24Còn phương pháp LCH đề cập theo ba bước:
Chia ảnh thành nhiều khối và xây dựng biểu đồ màu cho từng khối
So sánh các khối theo các vị trí tương ứng của hai ảnh
Tổng hợp khoảng cách của tất cả các khối
Với phương pháp này, khoảng cách giữa hai ảnh A và B được tính toán hợp lý hơn Mặc dù vậy, trong một số trường hợp như ảnh bị quay hoặc dịch chuyển thì tất cả các khối trong ảnh mới sẽ bị thay đổi vị trí, khi đó sử dụng phương pháp LCH để so sánh độ tương tự những khối ở những vị trí giống nhau sẽ không thích hợp như hình 2.2 bên dưới Để khắc phục hạn chế này của phương pháp LCH, K.Shih[11] đã đưa ra phương pháp mới tên là Habin trên cơ sở xây dựng đồ thị hai phía có trọng số, và tìm kiếm giá trị đối sánh cực đại hoặc cực tiểu trên đồ thị này Tuy nhiên, phương pháp Habin có độ phức tạp tính toán cao (O(mn2))[11] và trong quá trình tìm kiếm giá trị đối sánh trên đồ thị hai phía có thể làm tăng nhiễu cho khoảng cách, cuối cùng ảnh hưởng đến việc tìm kiếm, phát hiện
Hình 2.2 Ví dụ chỉ ra LCH bị lỗi
Trang 25Shengjiu Wang [18] năm 2001 đã đề xuất phương pháp cải tiến dựa trên
cơ sở phương pháp Habin bằng cách đưa thêm ngưỡng vào trong quá trình xây dựng đồ thị hai phía để làm giảm nhiễu, kết hợp giữa phương pháp GCH
và Habin để giảm độ phức tạp tính toán, tăng hiệu suất cải thiện
2.1.1 Phương pháp Habin
Phương pháp gồm ba bước chính để so sánh khoảng cách giữa hai ảnh:
Chia ảnh thành các khối và tính biểu đồ màu cho từng khối
Xây dựng đồ thị hai phía có trọng số
Tìm kiếm giá trị đối sánh cực đại hoặc cực tiểu, khoảng cách giữa hai ảnh sẽ là giá trị đối sánh nhỏ nhất
Trong hình 2.3 là ví dụ chỉ rõ cách xây dựng đồ thị hai phía Bước đầu giống như bước đầu của phương pháp LCH Trong việc xây dựng đồ thị hai phía G(X,Y,E), mỗi khối sẽ tương ứng với một đỉnh Trong ví dụ này một ảnh
sẽ chia làm bốn khối và như vậy đồ thị có hướng sẽ có tám đỉnh, mỗi khối trong một ảnh sẽ được nối với các khối của ảnh kia
Nếu trọng số của mỗi cạnh chỉ rõ khoảng cách giữa hai khối được nối với nhau thì phương pháp này sẽ tìm kiếm giá trị đối sánh nhỏ nhất trên đồ thị
và xử lý giá trị này như khoảng cách giữa hai ảnh Thực tế, sự tương tự giữa các khối có thể được tính bằng công thức:
Sij=dmax-dij
Với dmax là khoảng cách lớn nhất giữa các khối, khối i và khối j thuộc hai ảnh tương ứng, dij là khoảng cách giữa khối i và khối j Sij là độ tương tự giữa hai khối i và j
Trang 26Hình 2.3 Xây dựng đồ thị hai phía
Hình 2.4 chỉ ra đồ thị hai phía với trọng số là khoảng cách giữa các đỉnh Khoảng cách giữa các biểu đồ được tính bằng hàm Euclidean, giá trị này nằm trong khoảng 0 và 1 Sau khi tìm kiếm được giá trị đối sánh nhỏ nhất (đường nét đậm trong hình 2.4) tổng hợp lại sẽ được giá trị đối sánh Giá trị đối sánh này sẽ là tổng giá trị đối sánh nhỏ nhất của các cạnh tìm được: cost=w(1,2) +w(2,4) +w(3,1) +w(4,3)=0.707
Hình 2.4 Đồ thị hai phía biểu diễn mối quan hệ giữa các khối và giá trị đối sánh nhỏ nhất
Trang 272.1.2 Phương pháp Habin cải tiến
Khi sử dụng phương pháp Habin để tìm khoảng cách giữa các ảnh thì kết quả đối sánh có thể bao gồm các cạnh với khoảng cách lớn (độ tương tự nhỏ) Mặc dù vậy khi khoảng cách giữa hai khối là quá lớn thì hai khối đó sẽ không giống nhau chút nào và những cạnh với khoảng cách khá lớn sẽ chỉ làm tăng nhiễu cho khoảng cách cuối cùng giữa hai ảnh Điều này có nghĩa là không cần phần biệt những khối có độ tương tự thấp Ví dụ với ảnh L, N, M nếu sử dụng phương pháp Habin để tính toán khoảng cách giữa hai ảnh L với M và hai ảnh L với N thì ta phải xây dựng hai đồ thị hai phía và tìm giá trị đối sánh cực tiểu trong đó Hình 2.5 chỉ rõ những cạnh được tính trong giá trị đối sánh cực tiểu
Hình 2.5 Sử dụng giá trị đối sánh cực tiểu để tính toán khoảng cách giữa hai ảnh L với M và L với N
Từ hình 2.5 ta thấy rằng khoảng cách giữa hai ảnh L & M và L & N là giống nhau và đều bằng 2, điều này có vẻ là không hợp lý bởi những cạnh có giá trị là 0,5 đã làm tăng nhiễu cho kết quả cuối cùng Để giảm bớt nhiễu khi xây dựng đồ thị hai phía, Shenggjiu Wang [18] đã sử dụng ngưỡng theo kinh nghiệm để làm thước đo xác định trọng số của các cạnh và gọi nó là Nếu khoảng hai khối lớn hơn thì trọng số của cạnh đó sẽ có giá trị cực đại (ở đây
Trang 28giá trị cực đại bằng 1) Nếu sử dụng =0.5 thì trong đồ thị hai phía sẽ không
có cạnh nào có trọng số nằm trong khoảng giữa 0.5 và 1 Bằng việc đặt tất cả các khoảng cách có giá trị lớn hơn bằng khoảng cách cực đại, chúng ta hy vọng giảm được nhiễu và cải thiện được kết quả Mặc dù vậy, nếu sử dụng quá nhỏ thì sẽ loại bỏ những cạnh kết nối giữa những khối giống nhau và đây không phải là những gì mà chúng ta mong muốn Giá trị của bằng bao nhiêu để có được kết quả tốt nhất sẽ phụ thuộc vào kết quả thử nghiệm
2.2 Phương pháp trừu tượng ảnh dựa trên chữ ký nhị phân
Hầu hết các phương pháp đã được đưa ra đã cải thiện được phần nào bằng cách kết hợp chặt chẽ các đặc tính nhận thức với biểu đồ màu, thông thường nhất là đặc tính không gian Một sự quan trọng đó được thể hiện trong biểu diễn trực tiếp ảnh chỉ thông qua màu sắc trong biểu đồ màu Để sử dụng dấu hiệu để trừu tượng ảnh, chúng ta phải thiết kế lược đồ như sau:
Mỗi ảnh trong cơ sở dữ liệu được lượng hóa thành một số cố định n màu, C=(c1, c2, , cn) để loại bỏ đi ảnh hưởng của sự thay đổi nhỏ bên trong ảnh và cũng để tránh điều đó khi sử dụng 1 file lớn do biểu diễn độ phân giải cao
Mỗi thành phần màu cj sau đó được mô tả thành t bin nhị phân (Bj =
t n n t
Trang 29màu cj Để đơn giản, ta có thể viết một chuỗi con j
t j j b b
b1 2 như là Bj (1j n)
Vì vậy chữ ký của một ảnh I cũng có thể được biểu diễn bằng SI = n
I I
B1 2
Giá trị được chuẩn hóa thu được sau khi trích chọn màu một cách tự động được sử dụng bằng tập tương ứng các bin để sinh ra một dãy các giá trị nhị phân, thể hiện sự xuất hiện hoặc vắng mặt của một màu trong một miền mật độ cụ thể Dựa vào cách tiếp cận CBA, mỗi màu cj sẽ được mã hóa theo điều kiện sau:
xt h ifi
b i j 1 j
Để ý rằng, ta giả sử lược đồ màu toàn cục (GCH) được chuẩn hóa theo tổng số các pixel trong một ảnh
Hình 2.6 Tập các mẫu ảnh
Ta xét ảnh A trong hình trên có 3 màu, tức là giả sử n=3, hay C=(c1, c2,
c3)=(black, grey, while) Sau đó màu được chuẩn hóa có thể được biểu diễn bởi một vector HA=(h1, h2, h3)=(0.18, 0.06, 0.76), trong đó hj biểu diễn phần trăm pixel màu cj Tiếp theo ta giả sử phân phối màu được mô tả bởi t=10 bin có kích thước bằng nhau, tức là mỗi bin chứa 1/10 tổng số các màu được biểu diễn Sau đó, b1 thể hiện % pixel từ 1% đến 10%, b2 là từ 11% đến 20%,….Vì vậy, ảnh A gồm 18% màu c1, 6% màu c2 và 76% màu c3 được biểu diễn bởi một dãy tín hiệu SA=0100000000 0000000000 0000000100(được biểu diễn trong bảng 1) Biểu diễn như vậy bằng một tập các bin màu có kích
Trang 30thước giống nhau, tức là CBA Với cách tiếp cận VBA, dựa trên một cách mà các bin trong một tập có kích thước thay đổi được thể hiện trong đoạn con tiếp theo Các tham số n và t đóng vai trò quan trọng trong tính hiệu quả của phương pháp luận đã được đưa ra, ta sẽ thấy điều này trong các đoạn sau
Bảng 2.1 Chữ ký chi tiết dựa trên CBA
Mỗi bin được biểu diễn bởi một bit đơn, vì vậy chữ ký thu được rất cô đọng, là một biểu diễn hiệu quả của nội dung màu Tức là cũng đã giảm được không gian lưu trữ, giả sử để lưu trữ một số thực phải cần f byte, suy ra để lưu trữ GCH của một ảnh gồm n màu ta cần (n x f) byte, trong khi đó trừu tượng ảnh được đưa ra của chúng ta chỉ cần (n x t) bit để biểu diễn một ảnh Tương
tự, kỹ thuật Color Coherence Vector – CCV thì phải cần (2 x n x f) byte để biểu diễn một ảnh Do đó, kỹ thuật được đưa ra hiệu quả về mặt lưu trữ hơn
cả hai phương pháp CCV và GCH Cụ thể, sử dụng n=64, f=2 byte và t=10; thì chữ ký của CBA cần 80 byte cho mỗi ảnh, còn phương pháp GCH cần 128 byte, trong khi đó CCV cần 256 byte Tức là CBA nhỏ hơn 37% so với GCH
và 68.75% so với CCV Hơn nữa, nó cũng thích hợp với mong muốn một số lượng lớn các màu không thể được biểu diễn trong một ảnh, mà chỉ đưa đến
Trang 31một chuỗi lớn các số 0, có thể sử dụng kỹ thuật nén như nén loạt mã dài trong việc lưu trữ
Với mỗi ảnh sẽ cho ta một chữ ký Vấn đề không kém phần quan trọng trong việc tìm kiếm đối sánh là tìm hàm xác định sự tương tự của 2 đối tượng,
ở đây sẽ là sự tương tự giữa hai chữ ký Ban đầu, người ta đã sử dụng độ đo
để phân tích sự tương tự của ảnh như sau:
B pos I
Trang 32 2
1
) (
) ,
B pos I
Q d
Khi đó, ta có d(X,Y)=(4-4)2
+(5-3)2 +(3-3)2=4, d(X,Z)=(4-4)2+(4-3)2+ (4-3)2=2 Như thế rõ ràng là hợp lý hơn
2.3 Phương pháp ma trận Ordinal Co-occurrence
Đánh giá kết cấu là vấn đề hết sức quan trọng trong bài toán phát hiện
chất liệu Ma trận Co-occurrence đã được ứng dụng thành công trong phân
tích kết cấu [15] Tuy nhiên, vì nhiễu dịch chuyển trong mức xám, nên sự
phân tích ma trận Co-occurrence có thể dẫn đến kết quả sai lầm Vấn đề này
có thể được giảm bớt bởi việc sử dụng những thứ tự của giá trị xám thay vì sử
dụng chính giá trị của nó Mari Partio[23] đã cung cấp một phương pháp kết
cấu giữa độ đo thứ tự và ma trận Co-occurrence
2.3.1 Ma trận Ordinal Co-occurrence
Mục đích của phương pháp này là tạo ra một tập những đặc tính kết cấu
hoàn toàn dựa vào mối quan hệ thứ tự giữa những điểm trong một vùng kết
cấu T Những cặp điểm được sử dụng như là những phần tử cơ bản để xây
dựng những đặc điểm
Những đặc điểm được hình thành sử dụng một cửa sổ di chuyển W, kích
thước phụ thuộc vào số khoảng cách sử dụng Với mỗi vị trí của cửa sổ, nội
dung của nó trước tiên được phân ngưỡng bởi giá trị X0 là điểm trung tâm
trong cửa sổ Nếu giá trị điểm ảnh nhỏ hơn X0 thì giá trị được phân ngưỡng là
0, ngược lại giá trị được phân ngưỡng là 1 Bên trong cửa sổ lấy ngưỡng, tất
cả các điểm đều được so sánh với láng giềng của nó, như hình 2.7 bên dưới
Trang 33
Hình 2.7 Ma trận Co-occurrence
Những đặc tính được xây dựng đại diện cho tần số biến cố của những mối quan hệ thứ tự nhất định (“ Lớn hơn”, “Nhỏ hơn”, “Bằng nhau”) tại những khoảng cách D và hướng O khác nhau Vì chúng ta đề cập đến những cặp điểm, nên có thể có bốn quan hệ được đại diện trong ma trận Ordinal Co-occurrence: cooc11, cooc10, cooc01, cooc00 Mỗi ma trận có kích thước
ND*NO, với ND là số khoảng cách và NO là số hướng Cooc11(D,O) mô tả những biến cố của những giá trị ngưỡng của điểm hiện thời C và những điểm láng giềng của nó mà cả hai đều bằng 1 tại khoảng cách D và hướng O Trong khi Cooc00(D,O) biểu diễn trường hợp tương tự khi cả hai giá trị bằng 0, Cooc10(D,O) chỉ ra những biến cố nơi mà giá trị ngưỡng của điểm hiện thời
là 1 và giá trị ngưỡng của láng giềng là 0 Vị trí ngược lại mô tả trong Cooc01(D,O) dựa vào sự so sánh giữa những giá trị điểm, ô tương ứng trong
ma trận tương ứng được tăng lên như được chỉ ra trong hình 2.7 Ma trận occurrence thu được được sử dụng để mô tả đặc điểm kết cấu
Trang 34Co-2.3.2 Giải thuật
Phương pháp này được thực hiện dựa trên việc quét tất cả các điểm NT trong vùng kết cấu T Quá trình xử lý sử dụng một khu lân cận NHC với kích thước của nó phụ thuộc vào khoảng cách ND được sử dụng
Ở đây, Pi và C là những điểm, off(C) là offset của điểm hiện thời, w và h
là chiều rộng và chiều cao của vùng kết cấu T, xC và yC là những tọa độ điểm hiện thời Chúng ta biểu thị bởi XjF là những phần tử XF Cho ví dụ, nếu chúng ta xem ND=1, thì:
4 ' 3 ' 2 ' 1 4 3 2
1 ,X ,X ,X ,X ,X ,X ,X
và X F X1F,X2F,X3F,X4F như chỉ ra trong hình 2.8
Hình 2.8 Vùng lân cận 3 x 3 với 4 cặp điểm đối xứng
Mô tả giải thuật xây dựng ma trận Ordinal Co-occurrence trong hình 2.9 Số lượng khoảng cách và hướng sử dụng có thể được lựa chọn: Để giảm
Trang 35bớt lượng tính toán, những mặt nạ khoảng cách và hướng được tính toán trước Khi mặt nạ không cung cấp số điểm bằng nhau cho tất cả các khoảng cách và hướng thì ma trận Co-occurrence thu được sẽ được chuẩn hóa bởi tổng những cặp với khoảng cách và hướng tương ứng khi di chuyển qua vùng kết cấu T Sự chuẩn hoán này được thực hiện ở bước 18 trong giải thuật
2.3.3 So sánh đặc điểm
Ma trận được so sánh sử dụng khoảng cách Euclidean Toàn bộ sự khác nhau giữa hai vùng kết cấu T1 và T2 có thể thu được bằng cách cộng tất cả các
1 FOR all possible center positions in T
2 Threshold the windown W using threshold X 0
3 FOR all pixels C in W
4 FOR all forwarding neighbors X jF of C
Trang 36sự khác nhau từ ma trận Cooc11, Cooc10, Cooc01 và Cooc00 Công thức khoảng cách được tính như sau:
j
T
T i j Cooc i j Cooc
,
2 2
1 ( , ) 11 ( , )) 11
,
2 2
1 ( , ) 10 ( , )) 10
01 (
j
T
T i j Cooc i j Cooc
,
2 2
1 ( , ) 00 ( , )) 00
Mạng nơron là một hệ thống gồm nhiều phần xử lý đơn giản- các nơron, liên kết với nhau và hoạt động song song Khả năng hoạt động của hệ thống phụ thuộc vào cấu trúc của hệ, các mối liên kết giữa các nơron và quá trình xử
lý bên trong của các nơron Mạng nơron có khả năng học dữ liệu và tổng quát hóa từ các số liệu đã luyện, nhớ, ngoại và nội suy, và quan trọng nhất đối với nhận dạng hay phát hiện là khả năng phân lớp mạnh của nó
Qua thời gian, lớp các mô hình và các thuật toán luyện đi kèm với nó đã được phát triển rất nhanh và đa dạng làm cho lý thuyết và công nghệ mạng nơron cũng như khả năng ứng dụng của chúng thật sự phong phú Trước hết
Trang 37ta có thể tìm hiểu sơ qua về ý tưởng phương pháp mạng nơron trong phát hiện đối tượng
2.4.1 Mô hình Mạng Nơron nhân tạo
Một nơron nhân tạo (đơn vị xử ý -PE) phản ánh các tính chất cơ bản của nơron sinh học và được mô phỏng dưới dạng sau:
Nơron nhân tạo có n tín hiệu vào xi , i=1, 2,…, n và một tín hiệu ra y Trạng thái bên trong của nơron được xác định qua bộ tổng các đầu vào với các trọng số liên kết wi (i=1, 2, …, n) Đầu ra của nơron được xác định qua hàm phi tuyến nào đó Hình vẽ dưới đây cho ta một hình dung về nơron nhân tạo
x1
wj1
wjn
Như vậy mô hình định lượng của nơron nhân tạo có dạng:
) ) ( (
i x t w f
w Net ( ) ( )là tín hiệu tổng hợp đầu vào
Trang 380 1
) ( )
(
z neu
z neu z
sign z
- Hàm dạng sigma 1 ngưỡng (sigmoid function): Đây là hàm kích hoạt thường được sử dụng nhiều nhất trong các ứng dụng mạng nơron:
z e z
Để tăng khả năng làm việc, bắt chước hệ thần kinh, người ta phải nối các nơron vào mạng – như vậy hình thành mạng nơron
Thông thường phải có nơi tiếp nhận tín hiệu vào, có nơi để phát tín hiệu
ra và một số nơron khác nữa khi cần Vậy là hình thành khái niệm lớp các nơron Và năm 1958 F Rosenblatt đưa vào định nghĩa mạng nơron tổng quát hơn gọi là perceptron, từ đó chúng ta có khái niệm mạng perceptron nhiều lớp, mạng hồi quy v.v
2.4.3 Vấn đề học
Như vậy đối với công việc thiết kế mạng, cấu trúc và nhiều tham số của các perceptron tự do, người ta thấy ngay khả năng rộng lớn của các mạng nơron và thực tiễn hơn hai mươi năm qua (đặc biệt là sau năm 1982) đã chứng minh được điều đó Tính năng quan trọng của mạng Nơron là khả năng học để tổng quát hóa, dung thứ lỗi (chịu được lỗi) trong những trường hợp dữ liệu bị nhiễu, bị lỗi
Trang 39Đứng từ góc độ thực tiễn, thứ nhất là góc độ thiết kế, mỗi một mạng là một mô hình cụ thể do người thiết kế xây dựng nên Mỗi mô hình như vậy đều nhằm vào mục tiêu cụ thể nào đó Từ đây xuất hiện hai loại bài toán sau:
Giả sử cấu trúc mạng đã cho, phải thay đổi các trọng số liên kết như thế nào Bài toán này gọi là học tham số (hay luyện tham số) Có thuật toán tiêu biêu là thuật toán lan truyền ngược rất hay sử dụng trong nhận dạng
Phải xây dựng mạng ra sao, bao nhiêu lớp, mỗi lớp bao nhiêu nơron Bài toán có quan hệ với cấu trúc mạng gọi là bài toán học cấu trúc hay luyện cấu trúc
Và từ đó cũng đã có các luật học tương ứng với chúng, các luật học nổi bật như các luật học Hebb, luật học của mạng Perceptron nhiều tầng thể hiện qua thuật toán lan truyền ngược, v.v
2.4.4 Mạng nơron dùng cho phân tích thành phần chính
Phân tích thành phần chính (Principle Component Analysis-PCA) là một công cụ quan trọng trong xử lý dữ liệu, đặc biệt với các những ai nghiên cứu
về bài toán nhận dạng Phân tích thành phần chính là công cụ để thu gọn số chiều như phép biến đổi Karhunen-Loeve rất cần trong xử lý thông tin, tiền
xử lý của nhận dạng, trong việc tạo ra các không gian đặc trưng ảnh và xấp xỉ Thuật toán chọn lọc thành phần chính thích nghi nổi bật là thuật toán APEC
2.4.5 Mạng nơron xoắn và bài toán phát hiện chất liệu
Xuất phát từ các nghiên cứu về não của Hubel và Wiessel (1962), các mạng nơron xoắn được phát triển và triển khai ứng dụng trong nhận dạng từ năm 1990 Le Cun và các cộng sự đã trình bày một thiết kế mạng nơron xoắn
để nhận dạng chữ viết tay Các mạng xoắn cố định kích thước đã được áp
Trang 40dụng cho nhiều ứng dụng, như các hệ nhận dạng chữ viết tay, nhận dạng chữ
in, nhận dạng chữ viết tay online và nhận dạng mặt người
Các công trình đã nghiên cứu bước đầu chứng tỏ đây là một cách tiếp cận rất có triển vọng cho nhiều lớp bài toán trong đó trước hết cho các bài toán nhận dạng
Để dễ hiểu, chúng ta xét mạng nơron đơn giản như sau:
Mạng Perceptron truyền thẳng ba lớp
Có mười nút trong lớp nhận tín hiệu vào có 4 nơron trong lớp ẩn và 2 nơron ở lớp ra Có thể quy định ràng buộc ảnh hưởng tới các trọng số liên kết
và việc xử lý thông tin của các nơron trong lớp ẩn
Cách thiết kế đơn giản đước cho bởi minh họa sau:
Chỉ có 6 trong số liên kết {wi, i=1,2,…, 6}
Khi đó net vào cho nơron ẩn PEj với j=1,2,…,4 cho bởi:
i x w j
net v
Như vậy chúng ta đã sử dụng cùng 6 trọng số liên kết, nhưng mỗi tín hiệu vào không phải được tất cả các PEj trong lớp ẩn xử lý Phép lấy tổng của phương trình trên có dạng tổng xoắn cho nên gọi là mạng nơron xoắn
Định nghĩa: Mạng nơron xoắn là một mạng Perceptron truyền thẳng nhiều lớp được thiết kế đặc biệt để nhận dạng ảnh hai chiều kết hợp ba khái niệm kiến trúc: trường tiếp thu cục bộ trọng số chia sẻ và đại diện mẫu trong chiều không gian và thời gian nhằm đảm bảo mức độ bất biến nhất định đối với sự dịch chuyển, thay đổi
tỉ lệ biến dạng
Để dễ hình dung, ta sẽ xét một ví dụ cụ thể đó là mạng LeNet - 5