1. Trang chủ
  2. » Luận Văn - Báo Cáo

Điểm bất động và ứng dụng trong nhận dạng đối tượng

68 1,1K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 1,89 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Như vậy bài toán nhận dạng đối tượng dựa vào các đặc trưng bất biến mà nền tảng là dựa vào các điểm bất động là một cách tiếp cận mới trong khoa học nhận dạng, là cơ sở để xây dựng nhiều

Trang 2

CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT

Auto-correlation matrix Ma trận tương quan tự động

Co-variance matrix Ma trận đồng biến

Second moment matrix Ma trận moment cấp hai

SIFT Scale Invariant Feature Transform

Trang 3

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Sơ đồ tổng quát một hệ nhận dạng 8

Hình 1.2 Hai đối tượng trên mặt phẳng 9

Hình 1.3 Các tứ giác và hình tròn trên mặt phẳng hai chiều 9

Hình 1.4 Ví dụ về các bất biến hình học đối phép quay và tịnh tiến 13

Hình 2.1 Một thể hiện đa tỷ lệ của một tín hiệu 25

Hình 2.2 Các mức khác nhau trong một thể hiện không gian tỷ lệ 26

Hình 2.3 Ví dụ về các tỷ lệ đặc trưng 29

Hình 2.4 Phát hiện điểm quan tâm bất biến tỷ lệ 32

Hình 2.5 Điểm quan tâm bất biến tỷ lệ trong các ảnh bị biến đổi affine 33

Hình 2.6 Biểu đồ giải thích phép chuẩn hóa affine 36

Hình 2.7 Phát hiện lặp lại của một điểm quan tâm bất biến affine 42

Hình 2.8 Phát hiện điểm quan tâm bất biến affine 43

Hình 2.9 Xây dựng một thể hiện không gian tỷ lệ 45

Hình 2.10 Các giá trị cực đại và cực tiểu của các ảnh DoG 45

Hình 2.11 Các giai đoạn lựa chọn các điểm khóa 48

Hình 2.12 Bộ mô tả điểm khóa 51

Hình 3.1 Ví dụ về bài toán nhận dạng đối tượng: xác định xem đối tượng 54

trong ảnh (b) có trong ảnh (a) không? 54

Hình 3.2 Sơ đồ chức năng nhận dạng đối tượng 55

Hình 3.3 Giao diện chương trình 58

Hình 3.4 (a) Ảnh truy vấn chứa nhiều đối tượng; (b) Ảnh huấn luyện; 59

(c) Kết quả nhận dạng 59

Hình 3.5 (a) Ảnh truy vấn chứa nhiều đối tượng; 60

(b) Ảnh chứa đối tượng cần nhận dạng; (c) Kết quả nhận dạng 60

Hình 3.6 Không nhận dạng được đối tượng 61

Trang 4

MỞ ĐẦU

Trong cuộc sống hằng ngày, chúng ta thường xuyên cần phải nhận dạng và phân biệt vô số các đối tượng kể cả các đối tượng quen thuộc và các đối tượng mới lạ Các đối tượng này có thể biến đổi đôi chút về hình thức, màu sắc, kết cấu, v.v… Các đối tượng được nhận dạng từ nhiều tư thế khác nhau (từ phía trước, bên cạnh hoặc phía sau), ở nhiều nơi và trong nhiều kích thước khác nhau Các đối tượng thậm chí có thể được nhận dạng khi chúng bị che khuất một phần bởi các đối tượng khác Vì vậy, việc nhận dạng đối tượng một cách tự động là một vấn đề hết sức thiết thực trong một xã hội hiện đại

Ngày nay, với sự phát triển mạnh mẽ của ngành Khoa học máy tính cũng như sự bùng nổ của lĩnh vực Công nghệ thông tin đã đẩy nhanh sự phát triển của nhiều lĩnh vực xã hội như quân sự, y học, giáo dục, kinh tế, giải trí v.v… Sự phát triển của phần cứng cả về phương diện thu nhận, hiển thị, cùng với tốc độ

xử lý đã mở ra nhiều hướng mới cho sự phát triển phần mềm, đặc biệt là Công nghệ xử lý ảnh phát triển nhanh Nó có thể giải quyết được bài toán phát hiện, nhận dạng tự động các loại đối tượng trong thực tế, chẳng hạn có thể tạo ra hệ thống phát hiện kẻ gian đột nhập vào các cơ quan cần được giám sát sau giờ hành chính như các Kho bạc, Ngân hàng v.v thay vì cần phải có những đội bảo

vệ canh gác cẩn thận Nhận dạng mặt người trong một bức ảnh cũng đã có rất nhiều ý nghĩa trong quân sự, an ninh v.v Rõ ràng bài toán phát hiện đối tượng cũng như nhận dạng đối tượng ngày càng quan trọng đối với sự phát triển của xã hội, đặc biệt rất quan trọng cho xã hội Việt Nam

Bài toán nhận dạng đối tượng là một trong những bài toán cốt yếu trong các lĩnh vực nhận dạng hay thị giác máy, nó là cơ sở cho nhiều ứng dụng quan trọng Nhận dạng đối tượng có rất nhiều cách tiếp cận để giải quyết, mặc dù mỗi một loại đối tượng sẽ có một kỹ thuật cụ thể, song chúng vẫn có một cơ sở chung Một trong những nguyên nhân quyết định cho chất lượng nhận dạng đối tượng trong ảnh đó chính là việc trích chọn đặc trưng Các đặc trưng được trích chọn thường dựa vào các đặc trưng bất biến

Lý thuyết về điểm bất động đã được nghiên cứu nhiều trong toán học và vật

lý Việc nghiên cứu áp dụng lý thuyết này để trích chọn đặc điểm phục vụ cho

Trang 5

nhận dạng trong xử lý ảnh là hướng tiếp cận mới và có nhiều hứa hẹn nhất là đối với các đối tượng có sự biến đổi về kích thước, hình dạng, các đối tượng bị che khuất một số bộ phận hoặc đối tượng chuyển động v.v Như vậy bài toán nhận dạng đối tượng dựa vào các đặc trưng bất biến mà nền tảng là dựa vào các điểm bất động là một cách tiếp cận mới trong khoa học nhận dạng, là cơ sở để xây dựng nhiều ứng dụng quan trọng và cần thiết

Trên đây đã điểm qua tầm quan trọng của bài toán nhận dạng đối tượng, đặc biệt là các đối tượng bị biến đổi đã cho ta thấy rõ tính cần thiết cũng như tính thời sự đồng thời là ý nghĩa khoa học và thực tiễn của vấn đề Nhận thức

được điều này, tôi đã chọn đề tài luận văn: “Điểm bất động và ứng dụng trong nhận dạng đối tượng”

Bố cục của luận văn bao gồm phần mở đầu, phần kết luận và ba chương nội dung được tổ chức như sau:

Chương 1: Tổng quan về bất biến và nhận dạng đối tượng

Chương này trình bày định nghĩa các loại bất biến, lý thuyết điểm bất động, cũng như bài toán nhận dạng đối tượng và cách giải quyết

Chương 2: Các phương pháp xác định điểm bất động trong ảnh

Chương này trình bày các kỹ thuật xác định các điểm bất động trong ảnh để xây dựng các đặc trưng bất biến của đối tượng và sử dụng các đặc trưng này cho việc so khớp nhận dạng đối tượng

Chương 3: Ứng dụng điểm bất động trong nhận dạng đối tượng

Trong phần này luận văn trình bày ứng dụng nhận dạng đối tượng dựa vào các đặc trưng bất biến được xây dựng từ các điểm bất động, cài đặt thử nghiệm một phương pháp đã trình bày ở chương 2

Trang 6

- Nhận dạng dựa vào kỹ thuật mạng nơron

Hai cách tiếp cận đầu là các kỹ thuật kinh điển Các đối tượng ảnh được quan sát và thu nhận được phải trải qua giai đoạn tiền xử lý nhằm tăng cường chất lượng, làm nổi các chi tiết, tiếp theo là trích chọn và biểu diễn các đặc trưng

và cuối cùng mới qua giai đoạn nhận dạng Cách tiếp cận thứ ba hoàn toàn khác

Nó dựa vào cơ chế đoán nhận, lưu trữ và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh con người Do cơ chế đặc biệt, các đối tượng thu nhận bởi thị giác người không cần qua giai đoạn cải tiến mà chuyển sang giai đoạn tổng hợp, đối sánh các mẫu đã lưu trữ để nhận dạng

Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào đó và gán cho chúng một lớp (gán cho đối tượng một tên gọi) dựa theo các quy luật và các mẫu chuẩn Quá trình nhận dạng dựa vào những mẫu học

biết trước gọi là nhận dạng có thầy hay học có thầy; trong trường hợp ngược lại gọi là học không có thầy

Trang 7

1.1.1 Không gian biểu diễn đối tƣợng, không gian diễn dịch

1.1.1.1 Không gian biểu diễn đối tƣợng

Các đối tượng khi quan sát hay thu nhận được, thường được biểu diễn bởi tập các đặc trưng hay đặc tính Như trong trường hợp xử lý ảnh, ảnh sau khi được tăng cường để nâng cao chất lượng, phân vùng và trích chọn đặc tính được biểu diễn bởi các đặc trưng như biên, miền đồng nhất, v.v Người ta thường phân các đặc trưng này theo các loại như: đặc trưng tôpô, đặc trưng hình học và đặc trưng chức năng Việc biểu diễn ảnh theo đặc trưng nào là tùy thuộc vào từng ứng dụng

Ở đây ta đưa ra một cách hình thức cho việc biểu diễn các đối tượng Giả

sử đối tượng X được biểu diễn bởi n thành phần (n đặc trưng): X={x1, x2,…,xn}; mỗi xi biểu diễn một đặc trưng Không gian biểu diễn đối tượng thường gọi tắt là không gian đối tượng X được định nghĩa:

X = { X1, X2,…, Xm} trong đó mỗi Xi biểu diễn một đối tượng Không gian này có thể là vô hạn Để xem xét chúng ta chỉ xét tập X là hữu hạn

1.1.1.2 Không gian diễn dịch

Không gian diễn dịch là tập các tên gọi của đối tượng Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng trong tập không gian đối tượng hay nói cách khác là đã nhận dạng được đối tượng Một cách hình thức gọi  là tập tên đối tượng:

 = {w1, w2, …, wk} với wi, i = 1, 2,…, k là tên của các đối tượng

Quá trình nhận dạng đối tượng f là một ánh xạ f: X   với f là tập các

quy luật để định một phần tử trong X ứng với một phần tử trong 

1.1.2 Mô hình và bản chất của quá trình nhận dạng

1.1.2.1 Mô hình

Việc lựa chọn một quá trình nhận dạng có liên quan mật thiết đến kiểu mô

tả mà người ta sử dụng để đặc tả đối tượng Trong nhận dạng, người ta phân chia làm hai họ lớn:

Trang 8

- Họ mô tả theo tham số

- Họ mô tả theo cấu trúc

Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng Như vậy, chúng

ta sẽ có hai loại mô hình: mô hình theo tham số và mô hình theo cấu trúc

* Mô hình tham số: sử dụng một vectơ để đặc tả đối tượng Mỗi phần tử của

vectơ mô tả một đặc tính của đối tượng Ví dụ trong các đặc trưng chức năng, người ta sử dụng các cơ sở trực giao để biểu diễn Và như vậy, ảnh sẽ được biểu diễn bởi một chuỗi các hàm trực giao Giả sử C là đường bao của ảnh và C(i,j) là điểm thứ i trên đường bao, i = 1, 2,…, N (đường bao gồm N điểm)

Vectơ tham số trong trường hợp này chính là các moment ij với i = 1, 2,…, p

và j = 1, 2,…, q Còn trong số các đặc trưng hình học, người ta sử dụng chu tuyến, đường bao, diện tích và tỷ lệ T = 4S/p2, với S là diện tích, p là chu tuyến

Việc lựa chọn phương pháp biểu diễn sẽ làm đơn giản cách xây dựng Tuy nhiên, việc lựa chọn đặc trưng nào là hoàn toàn phụ thuộc vào ứng dụng

* Mô hình cấu trúc: cách tiếp cận của mô hình này dựa vào việc mô tả đối

tượng nhờ một số khái niệm biểu thị các đối tượng cơ sở trong ngôn ngữ tự nhiên Để mô tả đối tượng, người ta dùng một số dạng nguyên thủy như đoạn thẳng, cung, v.v… Trong mô hình này, người ta sử dụng một bộ ký hiệu kết thúc

Vt, một bộ ký hiệu không kết thúc gọi là Vn Ngoài ra có dùng một tập các luật sản xuất để mô tả cách xây dựng các đối tượng phù hợp dựa trên các đối tượng đơn giản hoặc các đối tượng nguyên thủy (tập Vt) Trong cách tiếp cận này, ta chấp nhận một khẳng định là: cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo những nguyên tắc xác định bắt đầu từ một dạng gốc bắt đầu Một

Trang 9

cách hình thức, ta có thể coi mô hình này tương đương một văn phạm G = (Vt,

Quá trình nhận dạng gồm 3 giai đoạn chính:

- Lựa chọn mô hình biểu diễn đối tượng

- Lựa chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn quá trình học

- Học nhận dạng

Khi mô hình biểu diễn đối tượng đã được xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học Học là giai đoạn rất quan trọng Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp

Việc nhận dạng chính là tìm ra quy luật và các thuật toán để có thể gán đối tượng vào một lớp hay nói cách khác gán cho đối tượng một tên

Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ sau:

Hình 1.1 Sơ đồ tổng quát một hệ nhận dạng

1.1.3 Bài toán nhận dạng đối tƣợng ảnh

Cho trước các đối tượng hai chiều Tồn tại nhiều bài toán nhận dạng khác nhau đối với các đối tượng ảnh hai chiều

Trang 10

Bài toán 1: Cho hai đối tượng ảnh hai chiều trong Hình 1.2 Hãy so sánh

xem chúng có giống nhau hay không?

Hình 1.2 Hai đối tƣợng trên mặt phẳng

Bài toán này con người có thể giải quyết một cách nhanh chóng (Hai đối tượng này có diện tích giống nhau và chỉ khác nhau một lỗ hổng) Nhưng đối với máy thì việc giải bài toán này không dễ dàng gì

Bài toán 2: Cho hai đối tượng ảnh có kích thước khác nhau và đặt tùy ý

trên mặt phẳng Hãy so sánh xem chúng có “giống nhau” hay không?

Để giải bài toán này con người đặt chúng lại theo vị trí thích hợp sao cho hướng nằm của chúng giống nhau Sau đó dùng các độ đo khác nhau để so sánh hai đối tượng này Chẳng hạn, khi đặt các đối tượng theo các vị trí mới cần sử dụng các phép biến đổi như quay, tịnh tiến Trong các hoàn cảnh khác nhau người ta có thể xem rằng hai đối tượng đồng dạng là giống nhau Do đó, trong quá trình giải bài toán này con người đã tự mã hóa các thông số của các đối tượng ảnh bất biến theo vị trí, hướng và tỷ lệ Đây là một việc rất khó khăn

Bài toán 3: Cho các đối tượng trong Hình 1.3 Hãy phân loại chúng thành

hai lớp

Để giải bài toán này con người có thể phân chia các đối tượng thành hai lớp

đó là tứ giác {b,c,e} và hình tròn {a,d} Người ta cũng có thể chia thành hai lớp các đối tượng có diện tích bằng nhau {a,b,c} và {d,e}

Trang 11

Bài toán nhận dạng các đối tượng hai chiều rất phức tạp, nó liên quan đến các ràng buộc giữa các đặc trưng hình học Trong hình có các biểu diễn như cạnh, đỉnh, các góc Hai đối tượng được coi là giống nhau nếu chúng thỏa mãn ràng buộc nào đó Các ràng buộc này rất phức tạp

Bài toán 4: Cho tập hữu hạn các đối tượng, được gọi là mẫu Hãy so sánh

một đối tượng mới xem chúng có giống một trong các đối tượng mẫu hay không?

Rõ ràng để giải quyết bài toán này thì các đối tượng cần phải được mã hóa thành các tham số Cần so sánh các tham số của đối tượng với các tham số mẫu

Do đó xuất hiện nhu cầu cho việc mã hóa các đối tượng mẫu Các đặc trưng được mã hóa của các đối tượng là các moment bất biến không phụ thuộc vào vị

trí, tỷ lệ, hướng quay của các đối tượng

1.2 Tổng quan về bất biến và vai trò của bất biến trong nhận dạng

Phần này trình bày tổng quan một số dạng bất biến và các ứng dụng của nó trong nhận dạng ảnh Bất biến của ảnh là tập các thuộc tính mà chúng không thay đổi đối với các phép biến đổi ảnh Một trong những phép biến đổi tuyến tính đó là phép quay, tịnh tiến và co dãn ảnh Có các kiểu bất biến sau:

Bất biến thống kê: Dựa vào các điểm ảnh để tính toán các đặc trưng thống

kê, chẳng hạn các moment, độ lệch chuẩn của tập ảnh hay các độ đo thống kê khác mà chúng không phụ thuộc vào các phép biến đổi tuyến tính

Bất biến hình học: Số đo của các đối tượng ảnh

Bất biến tôpô: Biểu diễn các cấu trúc tôpô của các ảnh như số điểm đỉnh,

số lỗ hổng v.v

Bất biến đại số: Dựa vào việc tổ hợp các tham số tính được từ ảnh để tạo ra

tham số mới có tính chất bất biến

1.2.1 Bất biến moment thống kê

Cho một vùng ảnh bằng cách cho các điểm của nó, các moment có thể được sử dụng để mô tả đặc trưng bất biến của ảnh đối với các phép biến đổi ảnh: dịch chuyển, quay và co dãn ảnh Hàm f(x,y) xác định trên miền bị chặn D Đối với ảnh nhị phân thì ảnh được biểu diễn bởi hàm đặc trưng như sau:

Trang 12

f x y( , )

1, nếu (x,y) D

0, nếu khác đi Khi đó các moment bậc (p+q) của hàm f(x,y) trong miền D tồn tại và được xác định như sau:

là hoành độ và tung độ của trọng tâm ảnh

Bằng cách tổ hợp các moment bậc 3, ta thu được các moment bất biến như sau:

6=(20-02)[(30+12)2 -(21+03)2]+4(30+12)(03+21)

7=(321-03)(30+12)[(30+12)2 -3(21+03)2]

+(30-321)2(21+03)[(03+21)2-3(30+12)2]

Khi tính các moment pq theo tọa độ cực bằng cách thay x=rcos, y=rsin

và dxdy=rdrd vào (1.1) suy ra:

Trang 13

r k 

k g r g r dr( , ) ( , )

4

2 = r(4, (gej ))

ở đây RP, IP là các phép toán lấy phần thực và phần ảo của một số phức

Từ các đẳng thức trên dễ thấy rằng với k, l cho trước thì các hàm

|r (k,(gejl))|2

bất biến đối với phép quay và đối xứng đối với , khi r biến đổi từ 0 tới + Nếu r là số thực dương thì biểu thức sau là bất biến:

r(1, (e- r gejl))2

Trang 14

Như vậy hàm trọng số rk

có thể thay bằng hàm tham số mũ và các hàm tương tự như trên, biểu thức sau bất biến đối với phép quay:

S = i j f i j

j

N i

M

0 0 1

5) Độ com păc của ảnh (được tính bằng P

Lỗ hổng Rmax

Rmin

Trang 15

Các trục tọa độ mới ứng với  được gọi là các trục chính Có thể tìm được các trục tọa này nhờ các vectơ riêng Vmin, Vmax của ma trận moment quán tính:

7) Kích thước của hình chữ nhật nhỏ nhất bao quanh ảnh có các cạnh song song với các trục quán tính cực đại và cực tiểu l1 và l2

Ví dụ 1.2: Đối với hình chữ nhật kích thước a, b thì

Rmax  a2 b2 ,Rmin  min( , )a b ,Sab l, 1a l, 2 b,

max( , )min( , )

Trang 16

Ví dụ 1.4: Đối với hình elip x

a

yb

2 2

max( , )min( , )

1.2.3 Bất biến đại số

Các bất biến đại số thường được xác định bằng cách tổ hợp các hệ số của đa

thức mô tả đối tượng ảnh (chẳng hạn chu tuyến, phân bố của các điểm ảnh, v.v )

p!q!r!x x xpqr

p q rp+q+r=m

( 1, x , x ) = 2 3  1 2 3

Trong đó p, q, r là các số tự nhiên

Định nghĩa 1.2: Cho trước một đa thức f, và I(f) là hàm số phụ thuộc vào

các hệ số của đa thức f Gọi  là phép biến đổi tọa độ (x'1,x'2,,x'n)=

(x1,x2,,xn) I được gọi là bất biến đối với phép biến đổi  nếu và chỉ nếu:

I(f(x)) =  I(f((x)))

Trang 17

ở đây là hằng số chỉ phụ thuộc vào phép biến đổi 

1.2.4 Vai trò của bất biến trong nhận dạng

Vấn đề cơ bản trong bài toán nhận dạng ảnh là xác định các đối tượng không phụ thuộc vào vị trí, kích thước và hướng Các moment và các hàm moment đã được ứng dụng như các đặc trưng toàn thể của một ảnh trong nhận dạng Các bức ảnh rất phức tạp nên cần phân loại, phân tích chúng để tìm ra các moment bất biến hay các đặc trưng giúp cho việc xử lý ảnh trên máy tính có thể thực hiện được Thông thường những đặc trưng bất biến độc lập đối với các phép dịch chuyển, quay và co dãn ảnh Có nhiều dạng bất biến để mô tả một đối tượng ảnh như bất biến thống kê, đại số, tôpô, hình học, v.v Nếu lưu ảnh theo kiểu bitmap thì dung lượng nhớ rất lớn, nên trong quá trình lưu trữ phải tìm cách lưu các đặc trưng quan trọng nhằm giảm dung lượng bộ nhớ một cách đáng kể Các bất biến biểu diễn đặc trưng của các ảnh Việc trích chọn tốt các bất biến giúp cho việc nhận dạng các đối tượng ảnh chính xác, tăng tốc độ tính toán và giảm khối lượng bộ nhớ lưu trữ Tùy theo các ứng dụng cụ thể mà chọn các bất biến thích hợp

Các bất biến được sử dụng để:

 Nhận dạng chữ

 Nhận dạng các đối tượng ảnh công nghiệp (dùng các bất biến hình học, tôpô, đại số, thống kê)

 Nhận dạng các cấu trúc mạch điện tử (sử dụng các bất biến tôpô)

 Nhận dạng vân tay (dựa vào các bất biến địa phương như chỗ điểm xoáy của vân tay, tam phân điểm, hình tròn hay hình ô van)

 Nhận dạng các ký hiệu trên bản đồ (sử dụng các bất biến như màu sắc, histogram, bất biến thống kê, hình học)

 Nhận dạng chữ trên bản đồ (dùng các bất biến thống kê, đại số kết hợp với các phương pháp khác)

 Nhận dạng các cấu trúc sông (dùng bất biến cấu trúc tôpô, thống kê chẳng hạn như số điểm kỳ dị của đoạn sông trên đơn vị độ dài hay diện tích)

Trang 18

 Nhận dạng các hình bàn tay (dựa vào các bất biến thống kê, hình học kết hợp với cách tính histogram)

 Nhận dạng các kiểu ám hiệu bằng tay (cho phép giao tiếp người  máy hoặc thông qua mạng lưới máy tính với người khác bằng cử chỉ tay)

1.3 Điểm bất động và vai trò của điểm bất động trong nhận dạng

1.3.1 Lý thuyết điểm bất động

Các định lý điểm bất động đã cung cấp nhiều điều kiện để tìm ra các giải pháp cho các bài toán về ánh xạ (các ánh xạ đơn hoặc ánh xạ nhận đa giá trị) Bản thân lý thuyết này là một sự pha trộn tốt đẹp của hình học tôpô phân tích và hình học Năm mươi năm gần đây lý thuyết về các điểm bất động đã được khám phá như một công cụ rất quan trọng và có tác động mạnh mẽ trong việc nghiên cứu các hiện tượng phi tuyến tính Trong thực tế các kỹ thuật điểm bất động đã

và đang được áp dụng trong nhiều lĩnh vực khác nhau như sinh vật học, hóa học, kinh tế, lý thuyết game và vật lý Gần đây, ứng dụng của lý thuyết điểm bất động trong xử lý ảnh cũng đã được phân tích

Một số định lý điểm bất động kinh điển được sử dụng rộng rãi được phát biểu như sau:

* Định lý điểm bất động của Brouwer:

Trong toán học, định lý điểm bất động Brouwer là một định lý quan trọng

áp dụng cho các không gian hữu hạn chiều và hình thành cơ sở cho các định lý điểm bất động tổng quát hơn

Phát biểu định lý: với một ánh xạ liên tục f : S  S của một đơn hình

n-chiều vào chính nó tồn tại ít nhất một điểm x S mà f(x)=x

Định lý điểm bất động của Brouwer phát biểu rằng nếu một tập không rỗng, compact, lồi của một không gian tích trong thực hữu hạn chiều được ánh

xạ liên tục vào chính nó, thì có ít nhất một trong các điểm của nó vẫn không thay đổi

Định lý này có thể được minh họa bằng một ví dụ thú vị như sau: lấy hai tờ giấy có cùng kích thước và đặt lên chúng trong một hệ tọa độ, đặt tờ giấy thứ nhất lên bàn, vò nhàu tờ giấy thứ hai và đặt tờ giấy này lên trên tờ giấy thứ nhất Khi đó

Trang 19

sẽ có ít nhất một điểm của tờ giấy đã vò nhàu ở vị trí chính xác với điểm tương ứng của tờ giấy trên bàn (tức là điểm này vẫn giữa nguyên tọa độ) Đây là một hệ quả

của trường hợp n = 2 được áp dụng cho một ánh xạ liên tục để gán tọa độ của mỗi

điểm của tờ giấy đã vò nhàu với tọa độ của điểm thuộc tờ giấy phẳng ở dưới nó

* Định lý điểm bất động của Banach:

Định lý điểm bất động của Banach (được biết như định lý ánh xạ co hoặc nguyên lý ánh xạ co) là một công cụ quan trọng trong lý thuyết không gian metric; nó bảo đảm sự tồn tại và tính duy nhất của các điểm bất động của các ánh xạ vào chính nó của không gian metric, và cung cấp một phương pháp suy diễn để tìm ra các điểm cố định đó

Lấy (X, d) là một không gian metric đầy đủ không rỗng Cho T : X → X là một ánh xạ co trên X, tức là: có một số thực không âm q < 1 để

( , ) ( , )

d Tx Tyq d x y với mọi x, y thuộc X Khi đó ánh xạ T nhận được một và chỉ một điểm cố định x*

trong X (điều này có nghĩa là Tx* = x*) Hơn nữa, điểm bất

động này có thể được tìm thấy như sau: bắt đầu với một phần tử bất kỳ x0 trong

X và xác định một chuỗi lặp xn = Tx n-1 với n = 1, 2, 3, thì chuỗi này hội tụ, và giới hạn của nó là x*

Bất đẳng thức sau mô tả tốc độ hội tụ:

Chú ý rằng điều kiện d(Tx, Ty) < d(x, y) với x và y khác nhau thì không đủ

để đảm bảo sự tồn tại của một điểm cố định, như được thể hiện bởi ánh xạ

T : [1,∞) → [1,∞) với T(x) = x + 1/x, nó không có một điểm cố định nào cả Tuy

nhiên, nếu không gian X là compact, thì giả định lỏng lẻo này đưa đến tất cả các

phát biểu của định lý này Khi sử dụng định lý này trong thực tế, nhiệm vụ khó

nhất là xác định tập X một cách đúng đắn để T ánh xạ thực sự các phần tử từ X vào X, tức là để Tx luôn là một phần tử của X

Trang 20

1.3.2 Vai trò của điểm bất động trong nhận dạng đối tƣợng

Lý thuyết điểm bất động đóng một vai trò cơ bản trong nhiều lĩnh lực của khoa học máy tính, cấu trúc và các đặc tính của các điểm bất động đã được nghiên cứu trong nhiều framework khác nhau và đã được ứng dụng trong nhiều lĩnh vực của xử lý ảnh Chúng ta thấy rằng các thuật toán lặp hội tụ cho việc phục hồi ảnh có thể được xem xét trong phạm vi lớp thuật toán điểm bất động Tiếp đến là ứng dụng của lý thuyết này trong việc xử lý ảnh màu như nhận dạng đối tượng

Nhiều thuật toán về khôi phục ảnh đã sử dụng tính lặp đi lặp lại của các điểm bất động để làm tăng độ chính xác cho sự phục hồi ảnh

Còn trong nhận dạng đối tượng, căn cứ vào các điểm bất động ta có thể trích chọn được các đặc trưng bất biến để nhận dạng đối tượng tốt hơn, đây là một hướng nghiên cứu mới Khi đối tượng được thu nhận ở các tỷ lệ khác nhau, góc quay camera có thể thay đổi hoặc có sự biến đối đôi chút về hình dạng thì chúng vẫn giữ lại một số điểm nhất định không thay đổi, dựa vào các điểm bất biến này của đối tượng ta vẫn có thể nhận dạng được đối tượng

1.3.2.1 Trích chọn các đặc trƣng bất biến từ các điểm bất động

Một trong những ứng dụng quan trọng của điểm bất động trong nhận dạng

đó là trích chọn đặc trưng, vì điểm bất động là một dạng của bất biến nên các đặc trưng được trích chọn dựa vào các điểm bất động cũng bất biến nên nó thuận tiện trong việc so khớp và nhận dạng Sau khi phát hiện các điểm quan tâm bất biến trong ảnh, bước tiếp theo là tính toán các đặc trưng dựa vào vị trí của các điểm bất động, bằng cách tạo ra các bộ mô tả cho các điểm này Bộ mô tả điểm khóa được xây dựng như sau:

Sau khi đã xác định được vị trí, tỷ lệ cho mỗi điểm khóa Các tham số này

áp đặt cho hệ tọa độ 2D cục bộ để mô tả vùng ảnh cục bộ Bước tiếp theo là tính toán một bộ mô tả cho một vùng ảnh cục bộ xung quanh điểm khóa để có thể bất biến đối với các thay đổi còn lại như thay đổi độ sáng hoặc điểm nhìn 3D

Các bộ mô tả điểm khóa là các đạo hàm Gaussian được tính trong một vùng lân cận cục bộ xung quanh các điểm khóa Để tính toán bộ mô tả điểm khóa, đầu tiên các độ lớn và hướng gradient ảnh được lấy mẫu quanh vị trí điểm khóa, sử dụng tỷ lệ của điểm khóa để lựa chọn mức mờ Gaussian cho ảnh Để đạt được

Trang 21

sự ước lượng ổn định về hướng gradient, ta sử dụng hướng gradient trung bình trong một vùng lân cận của điểm khóa Sự bất biến đối với các biến đổi về cường độ affine được đạt đến bằng việc chia các đạo hàm bậc cao hơn thành các đạo hàm bậc nhất Như vậy, chúng ta thu được các bộ mô tả với số chiều hữu hạn biểu diễn các đặc trưng được trích chọn từ các điểm bất động

1.3.2.2 So khớp đặc trƣng

Nhận dạng đối tượng được thực hiện bằng việc so khớp mỗi đặc trưng một cách độc lập tới một cơ sở dữ liệu các đặc trưng được trích chọn từ các ảnh huấn luyện Một so khớp ứng cử tốt nhất cho mỗi đặc trưng được tìm thấy bằng việc xác định láng giềng gần nhất của nó trong một cơ sở dữ liệu các đặc trưng Láng giềng gần nhất được xác định bởi đặc trưng có khoảng cách Euclidean nhỏ nhất Giả sử các đặc trưng được mô tả thành các vectơ trong không gian Euclide

Rn thì khoảng cách Euclide giữa hai đặc trưng P = (p1, p2, , pn) và Q = (q1, q2, ,

qn) được định nghĩa như sau:

Khoảng cách Mahalanobis là một cách hữu ích cho việc xác định độ tương

tự của một tập các mẫu chưa biết tới một tập các mẫu đã biết Khác với khoảng cách Euclide, khoảng cách Mahalanobis tính đến các độ tương quan của tập dữ liệu và nó bất biến tỷ lệ, tức là không phụ thuộc vào tỷ lệ của các phép đo

Chính thức, khoảng cách Mahalanobis từ một nhóm giá trị với giá trị trung bình ( ,  1 2, 3, ,p)T và ma trận đồng biến  cho một vectơ đa biến

Trang 22

không đồng dạng giữa hai vectơ ngẫu nhiên x

y của cùng phân phối với ma trận đồng biến :

2 2 1

Trang 23

Trong những năm gần đây việc sử dụng các đặc trưng cục bộ đã trở thành một trong những hướng tiếp cận có ảnh hưởng lớn trong việc nhận dạng đối tượng dựa vào nội dung ảnh Việc phát hiện các điểm đặc biệt là bước đầu tiên trong quá trình so khớp và nhận dạng Vì vậy, một thuật toán đáng tin cậy cho việc trích chọn các điểm bất biến là rất cần thiết cho nhiều ứng dụng Chương này trình bày một số phương pháp mới cho việc xác định các điểm bất động trong ảnh Các hướng tiếp cận này bất biến đối với các phép biến đổi hình học

và phép biến đổi trắc quang Ở đây cũng nhấn mạnh vấn đề bất biến đối với phép biến đổi affine

Một góc được xác định bởi nơi giao nhau của hai cạnh Một góc cũng có thể được xác định như một điểm có hai hướng khác nhau trong một vùng cục bộ của điểm đó Một điểm quan tâm là một điểm trong ảnh có vị trí được xác định tốt và

có thể được phát hiện nhanh chóng Điều này có nghĩa là một điểm quan tâm có thể

là một góc nhưng cũng có thể là một điểm đơn có giá trị cường độ cực đại hoặc cực tiểu cục bộ, các điểm kết thúc của đường thẳng hoặc một điểm trên một đường

Trang 24

cong mà ở đó độ cong là tối đa cục bộ Thực tế, hầu hết các phương pháp phát hiện góc phát hiện các điểm hơn là các góc nói riêng

Phương pháp phát hiện góc Harris [5] là một phương pháp phát hiện điểm quan tâm phổ biến vì nó bất biến đối với phép quay, thay đổi độ sáng và tạp nhiễu ảnh Phương pháp này dựa trên hàm tương quan tự động cục bộ của một tín hiệu;

ở đó hàm tương quan tự động cục bộ đo các thay đổi cục bộ của tín hiệu với các mảnh ảnh được dịch chuyển một lượng nhỏ theo các hướng khác nhau

Cho trước sự dịch chuyển (x,y) và một điểm (x,y), hàm tương quan tự

động được định nghĩa như sau:

2 W

trong đó I(·,·) biểu thị hàm ảnh và (x i ,y i) là các điểm trong cửa sổ W đặt ở vị trí

(x,y) Ảnh được dịch chuyển được xấp xỉ bởi phép khai triển Taylor được lượt

Trang 25

riêng này tạo nên một sự mô tả bất biến đối với phép quay Có 3 trường hợp cần được xét:

1 Nếu cả 1, 2 đều nhỏ, để hàm tương quan tự động cục bộ không thay

đổi (tức là ít thay đổi tại c(x,y) theo bất kỳ hường nào) thì vùng ảnh nằm trong

cửa sổ gần như không thay đổi về cường độ Tức là trong trường hợp này, không

có điểm quan tâm nào được tìm thấy tại điểm ảnh (x,y)

2 Nếu một giá trị riêng là lớn và một giá trị riêng là nhỏ, thì chỉ có các dịch chuyển cục bộ theo một hướng (dọc theo đỉnh đó) tạo ra một sự thay đổi nhỏ ở

c(x,y) và thay đổi đáng kể ở hướng trực giao, điều này biểu thị cho một cạnh

3 Nếu cả hai giá trị riêng đều lớn, thì sự dịch chuyển theo bất kỳ hướng nào cũng sẽ đưa đến kết quả là làm tăng đáng kể cường độ; điều này biểu thị cho một góc

Thuật toán này đơn giản dễ hiểu, phát hiện được nhanh chóng các điểm quan tâm trong ảnh Tuy nhiên phương pháp này không bất biến đối với việc thay đổi tỷ lệ và các phép biến đổi affine

2.2 Phương pháp Harris-Laplace

Mục này trình bày một phương pháp mới trong việc phát hiện các điểm quan tâm bất biến tỷ lệ, phương pháp này kết hợp phương pháp Harris tin cậy và

sự lựa chọn tỷ lệ tự động

2.2.1 Sự thể hiện không gian tỷ lệ

Một đặc tính vốn có của các đối tượng thế giới thực là chúng tồn tại như các thực thể đầy ý nghĩa trên khắp các tỷ lệ khác nhau Một ví dụ đơn giản là khái niệm một nhánh cây, nó chỉ có nghĩa ở tỷ lệ từ một vài centimet tới nhiều nhất là vài mét, vì vậy thật vô nghĩa khi thảo luận khái niệm “cây” ở mức nanomet hoặc kilomet Với cơ sở lập luận này, thì các đối tượng trong thế giới xuất hiện theo các cách khác nhau tùy thuộc tỷ lệ quan sát nếu người ta nhằm vào việc mô tả chúng Vì vậy khái niệm tỷ lệ là cực kỳ quan trọng

Đặc biệt, sự cần thiết đối với việc thể hiện đa tỷ lệ nảy sinh khi thiết kế các phương pháp phân tích tự động và thu nhận thông tin từ các phép đo thế giới thực

Để có thể trích chọn bất kỳ thông tin nào từ dữ liệu ảnh, rõ ràng người ta phải

Trang 26

tương tác với dữ liệu ảnh bằng cách sử dụng các toán tử nào đó Kiểu thông tin có thể thu được phần lớn được xác định bởi mối quan hệ giữa kích thước của các cấu trúc hiện thực trong dữ liệu đó và kích thước của các toán tử Vài vấn đề rất cơ bản trong xử lý ảnh tập trung vào toán tử nào được dùng, nơi áp dụng chúng và chúng ở phạm vi như thế nào Nếu các vấn đề này không được quan tâm thích đáng thì việc giải thích cho sự đáp ứng của toán tử có thể rất khó khăn

Tuy nhiên, trong các hoàn cảnh khác nhau có thể không là hiển nhiên để xác định trước tỷ lệ nào là thích hợp Một ví dụ cho trường hợp như vậy là hệ thống thị giác với nhiệm vụ phân tích các cảnh chưa biết Bên cạnh các đặc tính

đa tỷ lệ vốn có của các đối tượng thế giới thực, thì một hệ thống như vậy phải đối mặt với các vấn đề như phép ánh xạ theo luật gần xa đưa đến các thay đổi về kích thước, tạp nhiễu cũng bị đưa vào trong quá trình thu nhận ảnh, và dữ liệu sẵn có là các tập dữ liệu hai chiều phản ánh các đặc tính gián tiếp của một thế giới 3 chiều Để có thể đối phó với các vấn đề này, một công cụ cần thiết là một

lý thuyết hình thức cho cách mô tả các cấu trúc ảnh ở các tỷ lệ khác nhau

* Sự thể hiện không gian tỷ lệ:

Hình 2.1 Một thể hiện đa tỷ lệ của một tín hiệu là một tập có thứ tự của các tín hiệu thu

nhận đƣợc dự định để thể hiện tín hiệu gốc ở các mức tỷ lệ khác nhau

Lý thuyết không gian tỷ lệ [6] là một framework cho các thao tác thị giác gần đây, lý thuyết này được phát triển bởi cộng đồng thị giác máy tính để xử lý bản chất đa tỷ lệ được đề cập ở trên của dữ liệu ảnh Một vấn đề chính đằng sau cấu trúc của nó là nếu không cho trước thông tin về các tỷ lệ thích hợp đối với một tập dữ liệu cho trước thì chỉ có một phương pháp duy nhất cho hệ thống thị giác không ràng buộc là thể hiện dữ liệu vào ở nhiều mức tỷ lệ khác nhau Điều này có nghĩa là tín hiệu gốc nên được nhúng vào một họ một tham số của các tín

Trang 27

hiệu thu nhận, ở đó các cấu trúc có tỷ lệ nhỏ được nén liên tiếp (Hình 2.1) Một

ý tưởng như vậy nên được thực hiện như thế nào trong thực tế? Một yêu cầu cốt yếu là các cấu trúc ở các tỷ lệ thô trong một thể hiện đa tỷ lệ sẽ là các sự đơn giản hóa của các cấu trúc tương ứng ở các tỷ lệ nhỏ hơn Tóm lại, đối với bất kỳ

tín hiệu n chiều nào f: RNR, thì một thể hiện không gian tỷ lệ của nó L: RNR+

 R được định nghĩa bởi công thức sau:

( )/ 2

2 / 2

1 ( ; )

Hình 2.2 Các mức khác nhau trong một thể hiện không gian tỷ lệ của một ảnh hai chiều

ở các mức tỷ lệ t = 0, 2, 8, 32, 128 và 512 cùng với các hình giọt nước mức xám biểu thị

các giá trị cực tiểu cục bộ ở mỗi tỷ lệ

Hình 2.2 thể hiện một ví dụ ứng với một ảnh hai chiều Ở đây, để nhấn mạnh các biến đổi cục bộ trong một ảnh cấp xám, các giá trị cực tiểu cục bộ

Trang 28

trong các ảnh cấp xám ở mỗi tỷ lệ được biểu thị bởi các hình giọt nước màu đen Chúng ta có thể thấy rằng phần lớn các hình giọt nước nhỏ là do tạp nhiễu và kết cấu được phát hiện ở các tỷ lệ nhỏ Sau khi làm trơn, các nút bấm trên bàn phím hiện ra rõ ràng hơn, trong khi đó ở các tỷ lệ lớn hơn các nút này hợp thành một khối Hơn nữa, các cấu trúc ảnh tối hơn (như máy tính, dây, và ống nghe điện thoại) xuất hiện như các hình giọt nước đơn ở các tỷ lệ lớn hơn Ví dụ này minh họa cho các kiểu phân tích hình dạng có thứ bậc mà các phân tích này có thể được đạt đến bằng việc thay đổi tham số tỷ lệ trong thể hiện không gian tỷ lệ đó Các mối liên hệ giữa các cấu trúc ảnh ở các tỷ lệ khác nhau được tạo ra theo cách này

được gọi là các cấu trúc theo độ sâu (deep structures)

2.2.2 Hàm Harris thích nghi tỷ lệ

Phương pháp phát hiện điểm quan tâm Harris dựa trên ma trận moment cấp hai Ma trận moment cấp hai, còn gọi là ma trận tương quan tự động, thường được dùng cho việc phát hiện đặc trưng hoặc mô tả các cấu trúc ảnh cục bộ Ma trận này được làm thích nghi với các thay đổi về tỷ lệ, làm cho nó độc lập với độ

phân giải của ảnh Ma trận moment cấp hai thích nghi tỷ lệ (scale-adapted

second moment matrix) được định nghĩa như sau:

ở đây I là tỷ lệ tích phân, D là tỷ lệ vi phân và L a là phép đạo hàm được tính

theo hướng a Ma trận này mô tả sự phân bố gradient trên một vùng lân cận cục

bộ xung quanh một điểm Các đạo hàm địa phương được tính với các nhân Gaussian có kích thước được xác định bởi tỷ lệ cục bộ D (tỷ lệ vi phân -

differentiation scale) Sau đó, các đạo hàm này được tính trung bình trong vùng

lân cận của điểm đó bằng việc làm trơn với cửa sổ Gaussian có kích thước I (tỷ

lệ tích phân - integration scale) Các giá trị riêng của ma trận này mô tả hai sự

thay đổi tín hiệu chủ yếu trong vùng lân cận của một điểm Đặc tính này cho phép trích chọn các điểm, mà đối với chúng cả hai độ cong đều đáng kể, điều này có nghĩa là sự thay đổi tín hiệu là đáng kể ở các hướng trực giao tức là các góc, các mối nối v.v Các điểm như vậy ổn định trong các điều kiện chiếu sáng tùy ý và đại diện cho một ảnh Một trong những phương pháp phát hiện điểm quan tâm tin cậy nhất, đó là phương pháp Harris, dựa theo nguyên tắc này Phép đo Harris kết

Trang 29

hợp dấu vết (trace) và định thức (det) của ma trận moment cấp hai được xác định như sau:

2det( ( , I, D)) trace ( ( , I, D))

Các giá trị cực đại cục bộ của cornerness xác định vị trí của các điểm quan

tâm, ở đó  được xác định thông qua thực nghiệm và thường nhận giá trị trong khoảng [0.04, ,0.15]

2.2.3 Sự lựa chọn tỷ lệ tự động

Sự lựa chọn tỷ lệ tự động và các đặc tính của các tỷ lệ được chọn đã được nghiên cứu rộng rãi Ý tưởng là lựa chọn tỷ lệ đặc trưng của một cấu trúc cục bộ,

mà đối với tỷ lệ này một hàm cho trước đạt được một cực trị trên tất cả các tỷ lệ

Liên quan tới việc lựa chọn tỷ lệ tự động, thuật ngữ characteristic trước tiên đề cập đến một vấn đề là tỷ lệ được chọn ước lượng chiều dài đặc trưng (characteristic

length) của các cấu trúc ảnh tương ứng, theo cách tương tự như khái niệm về chiều

dài đặc trưng được dùng trong Vật lý Tỷ lệ được chọn là đặc trưng theo nghĩa định lượng, vì nó đo được tỷ lệ mà ở đó có sự giống nhau tối đa giữa toán tử phát hiện đặc trưng và các cấu trúc ảnh cục bộ Sự ước lượng tỷ lệ này sẽ tuân thủ hoàn toàn với sự bất biến tỷ lệ khi có sự thay đổi tỷ lệ của mẫu ảnh

Cho một điểm trong một ảnh và một toán tử lựa chọn tỷ lệ chúng ta tính toán các đáp ứng của toán tử đó cho một tập các tỷ lệ n (Hình 2.3) Tỷ lệ đặc trưng tương ứng với cực trị địa phương của các đáp ứng đó Chú ý rằng có thể

có vài cực đại hoặc cực tiểu, đó là các tỷ lệ đặc trưng tương ứng với các cấu trúc ảnh khác nhau được đặt vào giữa điểm này Tỷ lệ đặc trưng không phụ thuộc nhiều vào độ phân giải của ảnh Nó liên quan tới cấu trúc và không liên quan tới

độ phân giải mà ở đó cấu trúc được miêu tả Tỷ lệ giữa các scale mà ở đó các

cực trị được tìm thấy cho các điểm tương ứng là thừa số tỷ lệ thực sự giữa các vùng lân cận của điểm đó Nếu có quá ít điểm quan tâm được phát hiện thì nội dung ảnh được miêu tả không tin cậy cho mấy Hơn nữa, các cuộc thí nghiệm đã

cho thấy rằng hàm Laplacian-of-Gaussian tìm được tỷ lệ phần trăm cao nhất của

các tỷ lệ đặc trưng chính xác được cho bởi công thức sau:

2 n

Trang 30

Hình 2.3 Ví dụ về các tỷ lệ đặc trƣng

Hình 2.3 minh họa cho các tỷ lệ đặc trưng Hàng trên thể hiện hai ảnh được

lấy với các chiều dài cục bộ khác nhau Dòng ở dưới thể hiện các đáp ứng của

hàm Fnorm(x,n ) trên các tỷ lệ, ở đó Fnorm là hàm LoG chuẩn (công thức (2.5)) Các

tỷ lệ đặc trưng này nằm trong khoảng 10.1 và 3.89 đối với ảnh trái và ảnh phải

Tỷ lệ giữa các tỷ lệ tương ứng là thừa số tỷ lệ (2.5) giữa hai ảnh Bán kính của các

vòng tròn bằng 3 lần tỷ lệ đặc trưng

Khi kích thước của nhân LoG khớp với kích thước của cấu trúc blob-like

thì đáp ứng của hàm đạt được một cực trị Vì vậy, hàm nhân LoG có thể được

giải thích như một bộ lọc so khớp Hàm LoG thích hợp cho việc phát hiện các

cấu trúc hình giọt nước (blob) vì tính đối xứng tròn của nó, nhưng nó cũng cung

cấp một sự ước lượng tốt về tỷ lệ đặc trưng cho các cấu trúc cục bộ khác như các

góc, các cạnh, các hình chóp và đa mối nối

2.2.3 Thuật toán phát hiện điểm bất biến Harris-Laplace

Mục này trình bày chi tiết về thuật toán phát hiện các điểm đặc trưng bất biến

tỷ lệ Phương pháp Harris-Laplace [10] dùng hàm Harris thích nghi tỷ lệ (công thức

(2.4)) để xác định các điểm trong không gian tỷ lệ Sau đó, nó lựa chọn các điểm

mà đối với chúng hàm Laplacian-of-Gaussian (công thức (2.5)) đạt được một giá

trị cực đại trên khắp tỷ lệ Người ta đề xuất 2 thuật toán Thuật toán thứ nhất là

thuật toán lặp để phát hiện đồng thời vị trí và tỷ lệ của các vùng đặc trưng Thuật

toán thứ hai là một thuật toán đơn giản, ít chính xác nhưng hiệu quả hơn nhiều

Trang 31

2.2.3.1 Thuật toán Harris-Laplace

Thuật toán này bao gồm hai bước: phát hiện điểm đa tỷ lệ (multi-scale

point) và lựa chọn lặp đi lặp lại tỷ lệ và vị trí Đầu tiên ta xây dựng một thể hiện

không gian tỷ lệ với hàm Harris cho các tỷ lệ được chọn trước n = n0, với  là thừa số tỷ lệ giữa hai mức liên tiếp ( = 1.4 ) Ở mỗi mức của sự thể hiện này ta trích chọn các điểm quan tâm bằng việc phát hiện các điểm cực đại địa phương

trong 8 láng giềng của điểm x Sử dụng một ngưỡng để loại bỏ các điểm cực đại

của cornerness nhỏ, vì chúng ít ổn định dưới các thay đổi trong các điều kiện

ảnh Ma trận (x,n) được tính với tỷ lệ tích phân  Invà tỷ lệ cục bộ

n

   , s là một hằng số (thiết lập 0.7 thông qua thực nghiệm) Sau đó đối với

mỗi điểm ta áp dụng thuật toán lặp để phát hiện đồng thời vị trí và tỷ lệ của các điểm quan tâm Các cực trị trên tỷ lệ của hàm LoG được dùng để lựa chọn tỷ lệ cho các điểm quan tâm Loại bỏ các điểm mà đối với chúng đáp ứng của hàm

LoG không đạt được cực trị nào và đáp ứng ở dưới ngưỡng Cho một điểm x ban

đầu với tỷ lệ I, các bước lặp:

1 Tìm cực trị địa phương trên tỷ lệ của hàm LoG cho điểm x(k), mặt khác loại bỏ điểm đó Một dãy các tỷ lệ được kiểm tra bị giới hạn tới (k 1) ( )k

nhất đối với I(k1) được chọn

3 Quay về bước 1 nếu I(k1) I( )k hoặc x(k+1) x(k)

Các điểm ban đầu được phát hiện với phương pháp Harris đa tỷ lệ có sự thay đổi lớn giữa hai mức tỷ lệ phát hiện liên tiếp là 1.4 Thực nghiệm cho thấy nếu

dùng một tỷ lệ nhỏ hơn (1.1) sẽ mang lại độ chính xác tốt hơn cho vị trí x và tỷ lệ

I Cho trước các điểm ban đầu được phát hiện với khoảng cách tỷ lệ ξ = 1.4, vòng lặp kiểm tra cẩn thận dãy các tỷ lệ tI với t[0.7, ,1.4], điều này tương ứng với khoảng cách giữa hai mức trong không gian tỷ lệ gần với tỷ lệ của điểm ban đầu là I Chú ý rằng các điểm ban đầu được phát hiện trên cùng cấu trúc cục

bộ nhưng ở các tỷ lệ khác nhau sẽ hội tụ đến cùng vị trí và cùng tỷ lệ Dễ dàng nhận ra các điểm này dựa vào các tọa độ và các tỷ lệ

Trang 32

2.2.3.2 Thuật toán Harris-Laplace đơn giản

Thuật toán Harris-Laplace có thể được đơn giản hóa để phát hiện nhanh chóng các điểm quan tâm Như trước đây các điểm ban đầu được phát hiện với phương pháp Harris đa tỷ lệ; ta xây dựng một thể hiện không gian tỷ lệ với hàm Harris và phát hiện các giá trị cực đại địa phương ở mỗi mức tỷ lệ Sau đó, xác minh cho mỗi điểm trong số các điểm ban đầu này liệu hàm LoG có đạt được một giá trị cực đại ở tỷ lệ của điểm này không Loại bỏ các điểm mà đối với chúng hàm Laplacian không đạt được cực trị hoặc đáp ứng ở dưới ngưỡng Theo cách này ta thu được một tập các điểm đặc trưng với các tỷ lệ kết hợp Đối với một số điểm có thể đỉnh của tỷ lệ không tương ứng với các tỷ lệ phát hiện được chọn của một ảnh Các điểm này hoặc bị loại bỏ, vì chúng không phải là điểm cực đại, hoặc vị trí và tỷ lệ rất không chính xác Vì vậy, khoảng cách tỷ lệ giữa hai mức liên tiếp nên nhỏ (khoảng 1.2) để việc xác định vị trí và tỷ lệ của một điểm quan tâm có độ chính xác cao hơn

Hướng tiếp cận Harris-Laplace cung cấp một tập các điểm súc tích và điển hình đặc trưng cho một ảnh và độ lớn của tỷ lệ Phương pháp thứ nhất mang lại

độ chính xác cao hơn ở vị trí và tỷ lệ của các điểm quan tâm Phương pháp thứ hai là sự cân bằng giữa độ chính xác và độ phức tạp tính toán

2.2.3.3 Ví dụ về các điểm bất biến

Hình 2.4 thể hiện 2 ví dụ về các điểm được phát hiện theo phương pháp Harris-Laplace đơn giản Dòng trên thể hiện các điểm được phát hiện với phương pháp phát hiện Harris đa tỷ lệ được dùng cho việc khởi tạo Ở đây, ta lựa chọn bằng tay các điểm tương ứng với cùng cấu trúc cục bộ Tỷ lệ phát hiện được thể hiện bởi một vòng tròn bao quanh điểm đó với bán kính 3I Chú ý cách thức mà một điểm quan tâm, được phát hiện đối với cùng cấu trúc ảnh đó, thay đổi vị trí của nó liên quan tới tỷ lệ phát hiện ở hướng gradient đó Người ta

có thể xác định một chuỗi các điểm và chỉ chọn một điểm trong chúng để thể hiện cho cấu trúc cục bộ Ở hướng tiếp cận này, phép đo LoG được dùng để chọn các điểm điển hình cho các cấu trúc như vậy Hơn nữa, hàm LoG cho phép lựa chọn các điểm đặc trưng tương ứng (dòng dưới) khi có sự biến đổi đáng kể giữa các ảnh Thỉnh thoảng, hai hoặc nhiều hơn hai điểm được chọn từ một tập

đa tỷ lệ, nhưng không cho biết trước về sự thay đổi tỷ lệ giữa các ảnh nên chúng

Trang 33

ta phải giữ lại tất cả các điểm đã chọn Như vậy, nhìn vào hình chúng ta có thể thấy vị trí và tỷ lệ của các điểm đúng với sự biến đổi giữa các ảnh

Hình 2.4 Phát hiện điểm quan tâm bất biến tỷ lệ: (Dòng trên) các điểm Harris đa tỷ lệ ban đầu tương ứng với một cấu trúc cục bộ (Dòng dưới) các điểm quan tâm được chọn với phương pháp Harris-Laplace đơn giản

2.3 Phương pháp xác định điểm bất biến Harris-Affine

Hướng tiếp cận bất biến tỷ lệ có thể được mở rộng để làm cho nó bất biến affine Phần này trình bày về phương pháp phát hiện điểm bất biến Harris-Laplace trong trường hợp có các phép biến đổi affine của ảnh Tiếp theo giới thiệu một phương pháp cho việc ước lượng hình dạng affine của một cấu trúc cục bộ Mỗi bước của thuật toán phát hiện được thảo luận chi tiết và trình bày một phác thảo của thủ tục lặp Phần này cũng trình bày một ví dụ về các điểm bất biến affine được phát hiện theo phương pháp này

2.3.1 Động cơ thúc đẩy

Trong trường hợp có các biến đổi affine thì nhìn chung sự thay đổi tỷ lệ là khác nhau ở mỗi hướng Phương pháp phát hiện Harris-Laplace được thiết kế chỉ để xử lý các thay đổi tỷ lệ đồng dạng nên nó sẽ thất bại trong trường hợp có các biến đổi affine đáng kể Hình 2.5 trình bày một cặp điểm được phát hiện trong các ảnh khi có phép biến đổi affine giữa chúng Dòng trên thể hiện các điểm được phát hiện với phương pháp Harris đa tỷ lệ Tỷ lệ (được chọn với hàm LoG) được hiển thị bằng màu đen Ở dòng dưới, các vùng Harris-Laplace được

Trang 34

thể hiện bằng màu đen và các hình elip màu trắng là các vùng tương ứng được chiếu từ ảnh khác với phép biến đổi affine Chúng ta có thể thấy rằng các vùng được phát hiện theo phương pháp Harris-Laplace không bao phủ cùng một bộ phần của ảnh bị biến dạng affine

Trong trường hợp có phép biến đổi affine, khi đó sự thay đổi tỷ lệ không nhất thiết phải giống nhau ở mỗi hướng, nên các tỷ lệ được chọn một cách tự động không phản ánh được sự biến đổi thực sự của một điểm Biết rằng các vị trí không gian của các điểm cực đại Harris làm thay đổi tương đối tỷ lệ phát hiện (Hình 2.4 và 2.5) Nếu các tỷ lệ phát hiện không phù hợp với thừa số tỷ lệ thực giữa các ảnh thì sẽ dẫn đến một lỗi dịch chuyển giữa các điểm tương ứng và các vùng liên đới cũng không phù hợp Các tỷ lệ phát hiện phải thay đổi độc lập với các hướng trực giao để xử lý bất kỳ tỷ lệ affine nào Vì vậy, chúng ta gặp phải vấn đề về việc tính toán ma trận moment cấp hai trong không gian tỷ lệ affine Gaussian, ở đó vùng lân cận hình tròn của một điểm được thay thế bằng hình elip Mục tiếp theo sẽ trình bày cách giải quyết vấn đề này

Hình 2.5 Điểm quan tâm bất biến tỷ lệ trong các ảnh bị biến đổi affine

2.3.2 Ma trận moment cấp hai affine

Ma trận moment cấp hai có thể được dùng để ước lượng hình dạng không đẳng hướng của một cấu trúc ảnh cục bộ Đặc tính này được tìm ra bởi Lindeberg (1998) và sau đó là Baumberg (2000) để phát hiện sự biến dạng affine của một cấu trúc đẳng hướng Sau đây là cách xác định hình dạng không

Ngày đăng: 25/03/2015, 09:40

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Thanh Thủy, 2002, “Nhập môn xử lý ảnh số”, Trường Đại học Bách khoa Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Nhập môn xử lý ảnh số
[2] Basri, R., and Jacobs, D.W. 1997. Recognition using region correspondences. International Journal of Computer Vision, 25(2):145- 166 Sách, tạp chí
Tiêu đề: Recognition using region correspondences
[3] Baumberg, A. 2000. Reliable feature matching across widely separated views. In Conference on Computer Vision and Pattern Recognition, Hilton Head, South Carolina, pp. 774-781 Sách, tạp chí
Tiêu đề: Reliable feature matching across widely separated views
[4] Brown, M. and Lowe, D.G. 2002. Invariant features from interest point groups. In The 13th British Machine Vision Conference, Cardiff University, UK, pp. 253–262 Sách, tạp chí
Tiêu đề: Invariant features from interest point groups
[5] Harris, C. and Stephens, M.J. 1988. A combined corner and edge detector. In Alvey Vision Conference, pages 147–152 Sách, tạp chí
Tiêu đề: A combined corner and edge detector
[6] Lindeberg, T. 1994. Scale-space theory: A basic tool for analysing structures at different scales. Journal of Applied Statistics, 21(2):224-270 Sách, tạp chí
Tiêu đề: A basic tool for analysing structures at different scales
[7] Lowe, D.G. 1999. Object recognition from local scale-invariant features. In International Conference on Computer Vision, Corfu, Greece, pp.1150-1157 Sách, tạp chí
Tiêu đề: Object recognition from local scale-invariant features
[8] Lowe, D.G. 2004. Distinctive image features from Scale-Invariant keypoints. International Journal of Computer Vision Sách, tạp chí
Tiêu đề: Distinctive image features from Scale-Invariant keypoints
[9] Mikolajczyk, K. 2002. Detection of local features invariant to affine transformations, Ph.D. thesis, Institut National Polytechnique de Grenoble, France Sách, tạp chí
Tiêu đề: Detection of local features invariant to affine transformations
[10] Mikolajczyk, K., and Schmid, C. 2004. Scale &amp; affine invariant interest point detectors. International Journal of Computer Vision 60(1), 63-86 Sách, tạp chí
Tiêu đề: Scale & affine invariant interest point detectors
[11] Mikolajczyk, K. and Schmid, C. 2005. A performance evaluation of local descriptors. In IEEE Transactions on Pattern Analysis and Machine Intelligence Sách, tạp chí
Tiêu đề: A performance evaluation of local descriptors
[12] Rothganger, F., Lazebnik, S., Schmid, C. and Ponce. J. 2005. Object modeling and recognition using local affine-invariant image descriptors and multi-view spatial consraints. In International Journal of Computer Vision Sách, tạp chí
Tiêu đề: Object modeling and recognition using local affine-invariant image descriptors and multi-view spatial consraints

HÌNH ẢNH LIÊN QUAN

Hình 1.2. Hai đối tƣợng trên mặt phẳng - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 1.2. Hai đối tƣợng trên mặt phẳng (Trang 10)
Hình 1.4. Ví dụ về các bất biến hình học đối phép quay và tịnh tiến - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 1.4. Ví dụ về các bất biến hình học đối phép quay và tịnh tiến (Trang 14)
Hình 2.1. Một thể hiện đa tỷ lệ của một tín hiệu là một tập có thứ tự của các tín hiệu thu  nhận đƣợc dự định để thể hiện tín hiệu gốc ở các mức tỷ lệ khác nhau - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 2.1. Một thể hiện đa tỷ lệ của một tín hiệu là một tập có thứ tự của các tín hiệu thu nhận đƣợc dự định để thể hiện tín hiệu gốc ở các mức tỷ lệ khác nhau (Trang 26)
Hình 2.2. Các mức khác nhau trong một thể hiện không gian tỷ lệ của một ảnh hai chiều  ở các mức tỷ lệ  t = 0, 2, 8, 32, 128 và 512 cùng với các hình giọt nước mức xám biểu thị - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 2.2. Các mức khác nhau trong một thể hiện không gian tỷ lệ của một ảnh hai chiều ở các mức tỷ lệ t = 0, 2, 8, 32, 128 và 512 cùng với các hình giọt nước mức xám biểu thị (Trang 27)
Hình 2.3. Ví dụ về các tỷ lệ đặc trƣng. - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 2.3. Ví dụ về các tỷ lệ đặc trƣng (Trang 30)
Hình 2.4. Phát hiện điểm quan tâm bất biến tỷ lệ: (Dòng trên) các điểm Harris đa tỷ lệ  ban đầu tương ứng với một cấu trúc cục bộ - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 2.4. Phát hiện điểm quan tâm bất biến tỷ lệ: (Dòng trên) các điểm Harris đa tỷ lệ ban đầu tương ứng với một cấu trúc cục bộ (Trang 33)
Hình 2.5. Điểm quan tâm bất biến tỷ lệ trong các ảnh bị biến đổi affine. - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 2.5. Điểm quan tâm bất biến tỷ lệ trong các ảnh bị biến đổi affine (Trang 34)
Hình  2.6. Biểu  đồ  giải  thích  phép  chuẩn  hóa  affine  dựa  trên  các  ma  trận  moment  cấp  hai - Điểm bất động và ứng dụng trong nhận dạng đối tượng
nh 2.6. Biểu đồ giải thích phép chuẩn hóa affine dựa trên các ma trận moment cấp hai (Trang 37)
Hình 2.7. Phát hiện lặp lại của một điểm quan tâm bất biến affine khi có sự hiện diện của  phép biến đổi affine (dòng ở trên và dưới). - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 2.7. Phát hiện lặp lại của một điểm quan tâm bất biến affine khi có sự hiện diện của phép biến đổi affine (dòng ở trên và dưới) (Trang 43)
Hình 2.8. Phát hiện điểm quan tâm bất biến affine. - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 2.8. Phát hiện điểm quan tâm bất biến affine (Trang 44)
Hình 2.9. Xây dựng một thể hiện không gian tỷ lệ - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 2.9. Xây dựng một thể hiện không gian tỷ lệ (Trang 46)
Hình  2.9  thể  hiện  một  phương  pháp  hiệu  quả  cho  việc  xây  dựng  hàm - Điểm bất động và ứng dụng trong nhận dạng đối tượng
nh 2.9 thể hiện một phương pháp hiệu quả cho việc xây dựng hàm (Trang 46)
Hình 2.11.  Các giai đoạn lựa chọn các điểm khóa. (a) Ảnh gốc với 233189 điểm ảnh. (b)  832  vị  trí  điểm  khóa  ban  đầu  ở  các  điểm  cực  đại  và  cực  tiểu  của  hàm   Difference-of-Gaussian - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 2.11. Các giai đoạn lựa chọn các điểm khóa. (a) Ảnh gốc với 233189 điểm ảnh. (b) 832 vị trí điểm khóa ban đầu ở các điểm cực đại và cực tiểu của hàm Difference-of-Gaussian (Trang 49)
Hình 2.12. Bộ mô tả điểm khóa - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 2.12. Bộ mô tả điểm khóa (Trang 52)
Hình 3.1. Ví dụ về bài toán nhận dạng đối tƣợng: xác định xem đối tƣợng  trong ảnh (b) có trong ảnh (a) không? - Điểm bất động và ứng dụng trong nhận dạng đối tượng
Hình 3.1. Ví dụ về bài toán nhận dạng đối tƣợng: xác định xem đối tƣợng trong ảnh (b) có trong ảnh (a) không? (Trang 55)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w