1. Trang chủ
  2. » Luận Văn - Báo Cáo

nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2

72 328 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 1,6 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

nước có các nghiên cứu ở mức luận văn tốt nghiệp cao học như của Trần Sơn Hải - Nghiên cứu phương pháp kết hợp các đặc trưng màu sắc hình dạng và vị trí để truy vấn ảnh[2], Nguyễn Thị Ho

Trang 1

PHẦN MỞ ĐẦU

Ngày nay, hình ảnh (sau đây gọi là ảnh) đóng một vai trò quan trọng, ảnh đã cùng len lõi vào tất cả các lĩnh vực của con người trong cuộc sống hiện tại, từ các lĩnh vực trong khoa học kỹ thuật như Y học, Xây dựng, Thiên văn… đến các lĩnh vực Văn hóa xã hội như: Giáo dục đào tạo, Mỹ thuật, Văn hóa nghệ thuật, Hội họa…v.v Từ các ảnh thu thập được từ thực tế bằng các phương pháp kỹ thuật như chụp, ghi hình đến các ảnh được tạo ra bằng phương pháp thủ công như vẽ Từ các ảnh thể hiện kích thước lớn đến các ảnh thể hiện các vật có kích thước nhỏ hay siêu nhỏ Trong mỗi lĩnh vực, ảnh đều mang lại các giá trị thiết thực, giúp làm phong phú quá trình phục vụ một nhu cầu nhất định của con người

Từ năm 1965, Sketchpad Ivan Sutherland đã ứng dụng khoa học máy tính vào việc tạo và lưu trữ hình ảnh trên máy tính với tính khả thi cao nhưng giá thành lại khá đắt do giá thành phần cứng và khả năng xử lý lưu trữ phụ thuộc vào phần cứng Đến những năm 1990, với việc công nghệ Internet được phát minh và WWW ra đời cho phép khả năng lưu trữ hình ảnh rộng rãi và tra cứu thông tin trên môi trường mạng trong đó có hình ảnh Từ đây, kho dữ liệu ảnh bắt đầu tăng nhanh với dung lượng lớn lên tới khoảng 30 triệu Tetrabyte và lĩnh vực nghiên cứu liên quan đến ảnh như thu thập, xử lý, tìm kiếm, truy vấn hình ảnh ngày càng được quan tâm Một ứng dụng nhỏ quá trình ứng dụng này là quá trình tìm kiếm, so sánh

và nhận biết (còn lại là truy vấn) các ảnh cần tìm thông qua màu sắc, hình dạng, từ ngữ đặc trưng hay nội dung liên quan đến ảnh

Quá trình nghiên cứu các thuật toán và áp dụng các thuật toán này để tạo ra các phương pháp để hiện thực hóa quá trình tìm kiếm (truy vấn) sao cho nội dung chính xác và phù hợp gần đúng nhất với các nội dung cần tìm, đã có nhiều nghiên cứu và ứng dụng để thực hiện Ở nước ngoài có các nhà cung cấp dịch vụ của Yahoo, Google được công bố rộng rãi cho tất cả người dùng, hay Visualseek, BlobWorld… được nghiên cứu để ứng dụng trong một lĩnh vực riêng biệt Ở trong

Trang 2

nước có các nghiên cứu ở mức luận văn tốt nghiệp cao học như của Trần Sơn Hải

- Nghiên cứu phương pháp kết hợp các đặc trưng màu sắc hình dạng và vị trí để truy vấn ảnh[2], Nguyễn Thị Hoàn – Phương pháp trích chọn đặc trưng ảnh trong thuật toán học máy tính tìm kiếm ảnh áp dụng vào bài toán tìm kiếm sản phẩm[3]…nhưng tất cả đều dựa trên một hay nhiều đặc trưng cụ thể của ảnh và

mỗi phương pháp đều thể hiện được những ưu điểm nổi bật riêng

Trong giới hạn của luận văn này, với mục đích nghiên cứu áp dụng các thuật toán để tạo ra một phương pháp truy vấn ảnh theo đặc trưng hình dạng nhằm phục

vụ giải quyết bài toán trước mắt là truy vấn các biển báo trong giao thông đường

bộ Chính vì vậy, mà toàn văn được lựa chọn tiêu đề “Nghiên cứu phương pháp

truy vấn ảnh theo đặc trưng hình dạng” và CSDL ảnh sử dụng phục vụ nghiên

cứu chỉ xem xét đến phạm vi ảnh tĩnh các biển báo giao thông đường bộ Nội dung chính của luận văn này gồm 03 chương nội dung với cấu trúc như sau:

Chương 1: Khái quát về truy vấn ảnh và truy vấn dựa vào hình dạng

Trình bày khái quát về các phương pháp truy vấn ảnh hiện có hay đã được nghiên cứu như: truy vấn theo nội dung, truy vấn theo bản thể, truy vấn theo đồ thị Đồng thời giới thiệu mô hình hệ thống truy vấn ảnh theo nội dung trong đó có một

số phương pháp như: truy vấn ảnh theo hình dạng, truy vấn ảnh theo nội dung, truy vấn ảnh theo đối tượng, truy vấn ảnh kết hợp với máy học

Chương 2: Một số vấn đề trong truy vấn ảnh dựa vào hình dạng

Trình bày về việc trích chọn đặc trưng hình dạng trong ảnh, đánh giá độ tương tự và xây dựng sơ đồ đánh chỉ số đồng thời nêu giải pháp tương tác với người dùng

Chương 3: Truy vấn biển báo giao thông dựa vào hình dạng

Nêu lên bài toán truy vấn các ảnh biển báo giao thông dựa vào hình dạng từ

đó phân tích hướng giải quyết và xây dựng chương trình để giải quyết bài toán, những hạn chế và khả năng mở rộng trong tương lai

Trang 3

Phần kết luận: Tóm lược các kết quả đạt được và định hướng một số nội

dung tiếp tục nghiên cứu trong thời gian tới

Tài liệu tham khảo: Các tài liệu tham khảo và nghiên cứu trong quá trình

thực hiện luận văn

Trang 4

CHƯƠNG 1: KHÁI QUÁT VỀ TRUY VẤN ẢNH

VÀ TRUY VẤN ẢNH DỰA VÀO HÌNH DẠNG 1.1 Khái quát về truy vấn ảnh:

1.1.1 Giới thiệu chung:

Ảnh là một đối tượng có ý nghĩa trong nhiều lĩnh vực phục vụ nhu cầu cần

có của con người Ảnh thường được hiểu cơ bản là những gì chúng ta thấy và được ghi nhận lại bằng mắt, bằng máy ảnh, máy ghi hình, thu nhận được qua máy quét hay do con người vẽ ra… và được lưu trữ lại để phục vụ một nhu cầu nào đó của con người Vì vậy, ở mỗi môi trường khác nhau, ảnh sẽ phục vụ lợi ích khác nhau

và có hình thức thể hiện khác nhau Với sự phát triển của khoa học kỹ thuật, ngoài việc lưu giữ ảnh bằng hình thức thông thường trong kho lưu giữ, thì con người còn lưu trữ các hình ảnh này trên các kho dữ liệu được số hóa trên máy tính Quá trình lưu trữ này có những ưu điểm như ít chiếm diện tích kho lưu trữ, chứa đựng được nhiều, ảnh ít bị thay đổi theo thời gian… Các ảnh được lưu trữ trên máy tính dưới dạng số hóa, thường được biểu diễn dưới dạng Ractor hoặc Vector Tiêu chuẩn đặt

ra là ảnh phải lưu trữ thế nào sao cho các ứng dụng khác nhau có thể thao tác trên các loại dữ liệu này Hiện nay có trên 30 kiểu lưu trữ ảnh khác nhau, trong đó ta thường gặp các dạng ảnh sau: TIFF, GIF, BMP, PCX, JPEG,…mỗi kiểu lưu ảnh

có ưu điểm riêng Các khái niệm cơ bản liên quan đến ảnh được số hóa như sau:

- Phần tử ảnh (pixel): Ảnh trong thực tế là một ảnh liên tục về không gian và

về giá trị độ sáng Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh Trong quá trình số hoá, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hoá về không gian) và lượng hoá thành phần giá trị mà về nguyên tắc, mắt thường không phân biệt được hai điểm kề nhau

Trong quá trình này, người ta sử dụng khái niệm Picture Element mà ta quen gọi

hay viết là pixel – phần tử ảnh Như vậy một ảnh là một tập hợp các pixel Mỗi pixel gồm một cặp toạ độ x, y và màu, cặp toạ độ x, y tạo nên độ phân giải Vậy khi được số hoá thì ảnh được biểu diễn 2 chiều, tập ảnh với các điểm ảnh I(x, y)

Trang 5

(0<x≤ W; 0<y≤ H; trong đó W, Y lần lượt là chiều rộng và chiều cao của ảnh) Một pixel thường được lưu trữ trên 1, 4, 8 hay 24 bit trên máy tính

- Mức xám và màu: là số các giá trị có thể có của các pixel của ảnh Mức xám

là kết quả của sự mã hoá tương ứng với cường độ sáng của mỗi điểm ảnh với một giá trị số Cách mã hoá kinh điển thường dùng là 16, 32 hay 64 mức Hiện nay, mã hoá 256 mức là thông dụng vì mỗi pixel được mã hoá 8 bit (28= 256)

- Ảnh đen trắng: là ảnh có hai màu đen và trắng (không chứa màu khác) với các mức xám ở các điểm ảnh có thể khác nhau

- Ảnh nhị phân: tuỳ theo vùng các giá trị mức xám của điểm ảnh, mà các ảnh được phân chia ra thành ảnh màu, ảnh xám, hay ảnh nhị phân Khi trên một ảnh chỉ

có giá trị 0 hoặc 1 thì ta nói đó là một ảnh nhị phân hoặc ảnh đen trắng và các điểm ảnh của nó gọi là điểm ảnh nhị phân

- Ảnh màu: chỉ đề cập đến không gian màu RGB (Red, Green, Blue), người ta dùng 3 byte để mô tả mức màu, khi đó gia trị màu trong khoảng {0, 23x 8

}

Một số ứng dụng trong thực tế đòi hỏi chúng ta cần thực hiện quá trình tìm kiếm các ảnh (truy vấn ảnh) từ trong kho dữ liệu được lưu trữ sẳn (CSDL) Kho lưu trữ này thường là một kho cục bộ được lưu trữ trên các thiết bị ghi nhớ hoặc là một kho lưu trữ được liên kết thông qua môi trường Internet từ nhiều kho khác nhau Quá trình tìm kiếm này thường trích chọn một số tiêu chí riêng biệt hay kết hợp nhiều tiêu chí như tên lưu trữ, nội dung mô tả, màu sắc, độ sáng của ảnh, sau

đó quá trình truy vấn sẽ so sánh các tiêu chí này của ảnh gốc so với các tiêu chí của các ảnh trong kho lưu trữ và cho ra kết quả cần tìm

Bài toán truy vấn ảnh bao gồm quá trình trích chọn các đặc trưng và quá trình truy vấn dựa trên các đặc trưng được trích chọn Quá trình truy vấn ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó Có hai kiểu mô tả đối tượng

- Mô tả tham số (truy vấn theo tham số)

Trang 6

- Mô tả theo cấu trúc (truy vấn theo cấu trúc)

Việc nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình ảnh thành những phần có nghĩa để phân biệt đối tượng này với đối tượng khác Dựa vào đó ta có thể mô tả cấu trúc của hình ảnh ban đầu Có thể liệt kê một số phương pháp truy vấn cơ bản như truy vấn biên của một đối tượng trên ảnh, tách cạnh, phân đoạn hình ảnh Kỹ thuật này được sử dụng nhiều trong y học (xử lý tế bào, nhiễm sắc thể)

Trong thực tế người ta đã thực hiện truy vấn khá thành công với nhiều đối tượng khác nhau như: ảnh vân tay, chữ (chữ cái, chữ số, chữ có dấu) Truy vấn chữ

in hoặc đánh máy trong văn bản phục vụ cho việc tự động hoá quá trình đọc tài liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tính, truy vấn chữ viết tay (với mức độ ràng buộc khác nhau về cách viết, kiểu chữ, …)

Quá trình truy vấn ảnh theo sơ đồ sau [5]:

a Quá trình “thu nhận ảnh”:

- Ảnh có thể thu nhận qua camera Thường ảnh thu nhận qua camera là tín hiệu tương tự (loại camera ống kiểu CCIR), nhưng cũng có thể là tín hiệu số hoá (loại CCD - Charge Coupled Device)

- Ảnh có thể thu nhận từ vệ tinh qua các bộ cảm ứng (sensor), hay ảnh, tranh được quét qua scanner

Kết quả truy vấn Thu nhận ảnh Số hoá Phân tích ảnh

Lưu trữ Hệ quyết định

Lưu trữ

Trang 7

b Quá trình “số hóa” (Digitalizer): để biến đổi tín hiệu tương tự sang

tín hiệu rời rạc (lấy mẫu) và số hóa bằng lượng hóa, trước khi chuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại

c Quá trình “phân tích ảnh”: bao gồm nhiều công đoạn nhỏ Trước tiên

là công việc tăng cường hình ảnh (Image Enhancement) để nâng cao chất lượng hình ảnh Do những nguyên nhân khác nhau: có thể do thiết bị thu nhận ảnh, do nguồn sáng hay do nhiễu, ảnh có thể bị suy biến Do vậy cần phải tăng cường và khôi phục (Image Restoration) lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống với trạng thái gốc- trạng thái trước khi ảnh bị biến dạng Giai đoạn tiếp theo là phát hiện các đặc tính như biên (Edge Detection), phân vùng ảnh (Image Segmentation), trích chọn các đặc tính (Feature Extraction),v.v

d Quá trình “kết quả truy vấn”: tuỳ theo mục đích của ứng dụng, sẽ là

kết quả truy vấn, phân lớp hay thực hiện các quyết định khác

Ngày nay, có nhiều hệ thống truy vấn ảnh (sử dụng mang tính thương mại

và thực nghiệm) được phát triển Ảnh được nghiên cứu và phát triển bao gồm ảnh tĩnh và ảnh động Ở phạm vi của luận văn, chỉ đề cập đến phạm vi ảnh tĩnh

1.1.2 Một số phương pháp truy vấn ảnh:

Mục tiêu của các phương pháp truy vấn ảnh là tìm ra ảnh đúng với nhu cầu cần tìm thông qua các đặc trưng của ảnh Hiện nay, có nhiều phương pháp truy vấn ảnh đã được nghiên cứu và áp dụng Trong số đó, có một số dạng truy vấn như:

1.1.2.1 Truy vấn ảnh theo bản thể :

Phương pháp đơn giản nhất trong việc truy vấn là tìm kiếm ảnh theo từ khoá, các từ khoá tương ứng với các trường trong CSDL lưu trữ ảnh Quá trình truy vấn là so khớp từ khoá với các từ được mô tả trong các trường thông qua biểu thức logic Tuy nhiên, các phương pháp tìm kiếm theo từ khoá phát sinh nhiều hạn chế như [9]:

Trang 8

- Một từ khoá trong văn bản không chỉ ra được văn bản đó có thích hợp hay không và các văn bản thích hợp lại có thể không chứa một từ khoá nhất định

- Các từ đồng nghĩa làm giảm độ thu hồi, các từ đồng âm làm giảm độ chính xác và các quan hệ ngữ nghĩa như quan hệ trái nghĩa, phản nghĩa chưa được đề cập đến

Đối với những người sử dụng biết các từ khoá dùng để đánh chỉ số ảnh thì việc truy vấn rất dễ dàng Nhưng đối với một số người sử dụng, họ không biết rõ

về CSDL, các khái niệm ngữ nghĩa có liên quan đến nội dung cần tìm, vì vậy sẽ phát sinh một số vấn đề như:

- Cấu thành thông tin cần thiết: người sử dụng không biết chính xác cần phải đặt câu hỏi gì

- Cấu thành truy vấn: người sử dụng không biết phải sử dụng từ khoá gì liên quan với thông tin mà họ muốn tìm kiếm

- Cấu thành kết quả: tạo danh sách các ảnh phù hợp với từ khoá có thể bỏ qua mất một phương diện hay nhất của việc lưu trữ là quan hệ giữa các ảnh trong

cơ sở dữ liệu rất đa dạng và phong phú

Công nghệ web ngữ nghĩa (semantic web) hứa hẹn có thể giải quyết được những khó khăn trên Các cách tiếp cận sau thường được sử dụng để chú giải ảnh:

- Từ khoá: danh sách các từ được phép sử dụng để chú giải ảnh được hạn

chế làm cho việc tìm kiếm dễ dàng hơn

- Phân loại: có nhiều hệ thống phân loại có khả năng phân loại theo nhiều

phương diện khác nhau thành các cây phân cấp theo chủ đề Một ảnh có thể chú thích bằng một tập các chủ đề mô tả ảnh đó Ví dụ: ảnh trên một chiếc phong bì vẽ một toà lâu đài có thể liên quan tới lớp “phong bì” và lớp “lâu đài”

Trang 9

- Mô tả ảnh: sử dụng những câu mô tả các đối tượng ảnh có trong ảnh Hệ

thống tra cứu thông tin có nhiệm vụ đánh chỉ số các văn bản này để có thể tìm kiếm bằng từ khoá

Các bản thể tạo thành hạt nhân của của các hệ thống tra cứu ảnh ngữ nghĩa được sử dụng cho ba mục đích:

- Thuật ngữ chú giải: mô hình bản thể cung cấp thuật ngữ và các khái niệm

để diễn tả dữ liệu về dữ liệu (metadata) của các ảnh

- Tìm kiếm theo cách nhìn: các bản thể của một mô hình, chẳng hạn Sự kiện, Con người hoặc Vị trí cho ta các cách nhìn khác nhau vào cùng một nội dung giới thiệu Mỗi cách nhìn bao gồm các lớp và các trường hợp ví dụ biểu diễn bằng metaphor của một trình duyệt hệ thống file trong đó các lớp tương ứng với các thư mục và các trường hợp ví dụ tương ứng với các file

- Duyệt ngữ nghĩa: sau khi tìm kiếm được tâm điểm chú ý là một ảnh nào

đó, mô hình bản thể ngữ nghĩa cùng với dữ liệu ảnh ví dụ có thể được sử dụng để tìm ra mối quan hệ giữa ảnh được lựa chọn và các ảnh trong cơ sở dữ liệu ảnh Các ảnh này sẽ được đưa ra cho người sử dụng chọn Những ảnh đó có thể không phù hợp hoàn toàn với truy vấn nhưng nói chung là tương đối phù hợp

1.1.2.2 Truy vấn ảnh theo nội dung:

Phương pháp này áp dụng dựa trên nguyên lý rút trích các thông số đặc trưng của ảnh như: màu sắc (mức xám), hình dạng (biên), vị trí…Hiện đã có nhiều công trình nghiên cứu về phương pháp này và theo nhiều hướng tiếp cận khác nhau như: VisualSeek và Webseek của 2 tác giả John R Smith and Shih-Fu Chang thuộc Đại học Columbia; cả 02 hệ thống này đều thực hiện truy vấn theo đặc trưng màu sắc, kết cấu, bố cục không gian QBIC (Query By Image Content)

do hãng IBM và trung tâm nghiên cứu Almaden cùng hợp tác phát triển; Hệ thống cho phép người sử dụng dùng công cụ đồ hoạ để mô tả và hiệu chỉnh truy vấn dựa

trên các đặc trưng như màu sắc, kết cấu, hình dạng của đối tượng

Trang 10

1.1.2.3 Truy vấn ảnh theo đồ thị :

Như đã giới thiệu ở phần 1.1.2.2, kỹ thuật tra cứu ảnh theo nội dung dựa vào những đặc điểm mức thấp như màu sắc, kết cấu và hình dạng của đối tượng ảnh Trong khi các phương pháp mô tả ảnh mức cao có khả năng mô tả gần gũi hơn với trực giác của người sử dụng nhưng việc phát triển những phương pháp đó mới dừng ở mức thử nghiệm và đòi hỏi rất nhiều quá trình xử lý phức tạp

Mặc dù việc mô tả ảnh bằng các đặc điểm mức thấp có thể thực hiện khá hiệu quả và đơn giản nhưng nhược điểm lớn nhất của phương pháp này là không gần gũi với sự cảm nhận trực quan của hầu hết người sử dụng và do đó thường không đủ đáp ứng nhu cầu của người sử dụng Những ảnh mà ta cảm nhận được sự giống nhau bằng mắt thường nhưng đôi khi lại rất khác nhau nếu so sánh bằng các đặc điểm mức thấp Phương pháp này dựa trên một thực tế là những ảnh thích hợp

về mặt trực giác thường không có chung những đặc điểm mức thấp nhưng vẫn có

sự tương tự về mặt khái niệm và về mặt ngữ cảnh đối với con người Ví dụ: những ảnh chụp người trong bộ đồ tắm thường có màu sắc, hình dạng và kết cấu rất đa dạng nhưng về mặt khái niệm thì lại được con người cảm nhận là tương tự nhau

Vì vậy phương pháp tra cứu ảnh theo đồ thị được giới thiệu ở đây không dựa trên các đặc điểm ở mức thấp (trừ giai đoạn khởi tạo) mà dựa vào những sự liên kết có tính trực giác giữa các ảnh được thiết lập bởi người sử dụng bằng cách phản hồi thích hợp

1.2 Mô hình hệ thống truy vấn ảnh theo nội dung:

Màu sắc được sử dụng nhiều nhất để mô tả nội dung trực quan của ảnh, vì màu sắc của ảnh có tác động lớn đến nhận thức của con người về nội dung của ảnh hơn là các đặc điểm khác như hình dạng của các đối tượng ảnh, kết cấu của ảnh hay sự phân bố không gian của các đối tượng ảnh

Màu sắc được biểu diễn thông qua một véctơ 3 chiều sẽ có khả năng biểu diễn tốt hơn so với việc chỉ sử dụng giá trị độ xám của ảnh (1 chiều) Một số phương pháp mô tả nội dung màu sắc của ảnh như:

Trang 11

1.2.1 Không gian màu:

Mỗi điểm ảnh trên một bức ảnh có thể được biểu diễn bằng một điểm trong một không gian màu 3 chiều Những không gian màu được sử dụng nhiều nhất

trong các hệ thống tra cứu ảnh là RGB, CMY, HSV, CIE L*a*b, CIE L*u*v và

không gian màu đối lập

Tính chất quan trọng nhất để một không gian màu phù hợp để sử dụng trong một hệ thống tra cứu ảnh là tính đồng nhất Một không gian màu được gọi là có tính đồng nhất nếu các cặp 2 màu tương tự nhau trong không gian màu thì cũng được con người cảm nhận như nhau hay khoảng cách đo được giữa hai màu bất kỳ phải có liên quan trực tiếp với độ tương tự sinh học giữa hai màu đó

RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh Không gian RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) và Xanh lam (Blue) Các thành phần này gọi là màu cộng bởi vì các màu sắc trong không gian RGB đều có thể thu được bằng cách cộng 3 thành phần màu này lại với nhau

CMY là không gian màu thường sử dụng trong in ấn Ba thành phần màu của không gian CMY là màu xanh lơ (Cyan), hồng sẫm (Magenta) và vàng (Yellow) Ba thành phần này gọi là các thành phần màu trừ vì mỗi màu trong không gian CMY được sinh ra bởi sự hấp thụ các thành phần màu đó

Cả RGB và CMY đều phụ thuộc thiết bị và không có tính đồng nhất

Không gian màu HSV được sử dụng rộng rãi trong đồ hoạ máy tính và được coi là một phương pháp biểu diễn màu sắc trực quan hơn Ba thành phần màu là sắc màu (hue), độ bão hoà màu (s) và giá trị độ sáng (v) Thành phần sắc màu không thay đổi khi ta thay đổi độ chiếu sáng hay góc quan sát vì vậy thích hợp để

sử dụng trong việc nhận dạng đối tượng ảnh Cũng có thể dễ dàng chuyển đổi các giá trị từ không gian HSV sang RGB và ngược lại

Các không gian màu CIE L*a*b và CIE L*u*v là các không gian màu không phụ thuộc thiết bị và có thể coi là đồng nhất Bao gồm các thành phần độ

Trang 12

sáng (L) và hai thành phần độ kết tủa màu (sắc độ màu) là a và b hoặc u và v CIE L*u*v được thiết kế để làm việc với việc trộn các thành phần màu cộng còn CIE L*a*b được thiết kế để làm việc với việc trộn các thành phần màu trừ

Các không gian màu RGB và CIE có thể chuyển đổi với nhau, tức là chúng

ta có thể sử dụng các công thức để chuyển đổi một giá trị màu từ không gian màu này sang không gian màu khác

Không gian màu đối lập sử dụng các trục màu ngược (R-G, 2B-R-G, R+G+B), cách biểu diễn này có ưu điểm là tách được thông tin về độ sáng ra một trục riêng biệt (trục thứ ba) Bằng cách này, hai thành phần kết tủa màu sẽ không

bị thay đổi khi thay đổi độ chiếu sáng

1.2.2 Các Moment màu:

Các moment màu đã được sử dụng rất thành công trong nhiều hệ thống tra cứu ảnh đặc biệt là khi ảnh chỉ chứa một đối tượng ảnh Các thành phần moment bậc nhất (trung vị), bậc hai (phương sai) và bậc ba (độ lệch) đã được chứng minh

là có thể được sử dụng rất hiệu quả để biểu diễn sự phân bố màu sắc của ảnh

Công thức toán học để biểu diễn 3 moment này như sau:

j ij

)(

1

i N

j ij

N

Trong đó:

- f ij là giá trị của thành phần màu thứ i của điểm ảnh thứ j

- N là số lượng điểm ảnh của ảnh đó

Trang 13

Sử dụng cả thành phần moment bậc ba s i sẽ giúp tăng cường hiệu năng tra cứu so với khi chỉ sử dụng các moment bậc nhất i và bậc hai i Đôi khi việc sử dụng moment bậc 3 làm cho việc biểu diễn đặc trưng của ảnh nhạy cảm hơn đối với những thay đổi của cảnh nền và do đó làm giảm khả năng của hệ thống

Do chỉ sử dụng 9 giá trị (3 moment cho mỗi màu trong bộ ba màu) để biểu diễn nội dung màu của mỗi ảnh nên việc sử dụng moment màu để biểu diễn véctơ đặc trưng màu là rất đơn giản nếu so sánh với các phương pháp biểu diễn khác Và cũng chính do sự đơn giản đó nên phương pháp này cho kết quả khá hạn chế

Thông thường, phương pháp biểu diễn bằng moment màu được sử dụng trong những bước đầu tiên của quá trình tra cứu ảnh với mục đích làm giảm kích thước không gian tìm kiếm trước khi áp dụng các phương pháp phức tạp hơn để truy vấn

1.2.3 Lược đồ màu (Histogram màu):

Histogram màu là cách hiệu quả để biểu diễn nội dung màu của một bức ảnh trong trường hợp mẫu màu của bức ảnh đó là duy nhất trong tập hợp các ảnh trong

cơ sở dữ liệu Histogram màu dễ tính toán và rất hiệu quả để biểu diễn cả sự phân

bố màu tổng quan và sự phân bố màu cục bộ của ảnh Ngoài ra, histogram màu không bị ảnh hưởng bởi sự dịch chuyển hay sự quay của ảnh và rất ít bị ảnh hưởng của tỉ lệ và góc nhìn ảnh

Do mỗi điểm ảnh được mô tả bằng ba thành phần trong một không gian ảnh xác định (ví dụ: ba thành phần Đỏ (R), Xanh lục (G) và Xanh da trời (B) trong không gian màu RGB hay ba thành phần là sắc màu (H), độ bão hoà màu (S) và giá trị màu (V) trong không gian HSV) nên có thể định nghĩa cho mỗi thành phần màu một histogram tức là một sự phân bố một số lượng điểm ảnh cho mỗi bin lượng tử màu Cụ thể hơn là càng sử dụng nhiều bin màu thì khả năng biểu diễn càng tốt Tuy nhiên việc sử dụng quá nhiều bin màu không chỉ làm tăng khối lượng tính toán mà còn không thích hợp để xây dựng một sơ đồ đánh chỉ số hiệu

Trang 14

quả cho cơ sở dữ liệu ảnh Hơn nữa việc lượng tử hoá quá mịn cũng không thật cần thiết trong nhiều trường hợp

Một cách để làm giảm số lượng bin màu là sử dụng không gian màu đối lập cho phép làm giảm số lượng mẫu độ sáng của ảnh Một cách khác là sử dụng các phương pháp phân cụm để xác định K màu tốt nhất trong một tập hợp ảnh xác định, mỗi một màu trong K màu tốt nhất đó được coi là một bin màu Do quá trình phân cụm tính toán sự phân bố màu của tất cả các ảnh trong cơ sở dữ liệu nên sẽ được giảm thiểu được số lượng các bin màu không chứa hoặc chứa rất ít điểm ảnh

Một cách khác là sử dụng các bin màu có chứa nhiều điểm ảnh nhất, khi đó chỉ cần một số lượng nhỏ bin màu cũng biểu diễn được đặc trưng quan trọng nhất của một bức ảnh Cách làm này không những không làm giảm hiệu năng của phương pháp so sánh histogram mà đôi khi còn làm tăng hiệu năng do các bin màu

có kích thước lớn sẽ tránh được ảnh hưởng của nhiễu

Khi cơ sở dữ liệu có chứa quá nhiều ảnh thì phương pháp so sánh histogram

có thể bị bão hoà, khi đó kết quả so sánh histogram màu chưa chắc đã phản ánh sự tương tự về nội dung của các ảnh, để khắc phục nhược điểm này người ta đưa ra

kỹ thuật histogram liên kết

Histogram liên kết có bổ sung thêm các thông tin khác mà không làm giảm

sự đơn giản của histogram màu Để đạt được điều này, người ta phải lựa chọn rất cẩn thận các đặc trưng cục bộ sẽ bổ sung vào histogram liên kết Mỗi phần tử trong lược đồ histogram liên kết chứa số lượng điểm ảnh trong ảnh được mô tả bởi một

bộ các giá trị đặc trưng Như vậy histogram liên kết là lược đồ histogram đa chiều

Mặt khác, do histogram màu không phản ánh được các thông tin mang tính không gian của các điểm ảnh, vì vậy về mặt lý thuyết, các ảnh rất khác nhau có thể

có sự phân bố màu tương tự nhau Vấn đề này rất dễ xảy ra đối với các cơ sở dữ liệu ảnh lớn Người ta đã đề xuất một vài cách khác nhau để khắc phục vấn đế này, một cách đơn giản nhất là chia các bức ảnh thành những phân vùng nhỏ hơn và

Trang 15

tính histogram của từng phân vùng Có thể sử dụng phương pháp phân vùng đơn giản là phân thành các hình chữ nhật đồng đều hoặc phức tạp hơn là phân theo các vùng ảnh hoặc các đối tượng ảnh Ảnh được phân vùng càng nhỏ thì độ chính xác càng cao nhưng khối lượng tính toán cũng nhiều hơn

1.2.4 Vecto gắn kết màu:

Một cách tiếp cận khác để đưa thông tin về không gian vào histogram màu

là sử dụng véctơ gắn kết màu (Color Cohefeence Vector - CCV) Phương pháp này có thể tóm tắt như sau:

Mỗi bin màu được phân thành 2 loại: loại có gắn kết nếu như bin màu đó thuộc vào vùng có màu đồng nhất lớn, ngược lại thì gọi là không gắn kết Ký hiệu

α i là số lượng các điểm ảnh gắn kết của trong bin màu thứ i và β i là số lượng các điểm ảnh không gắn kết trong một bức ảnh Thế thì, CCV của một bức ảnh được

định nghĩa là véc tơ: < (α 1 , β 1 ),(α 2 , β 2 ), , (α N , β N )>

Chú ý là <α 1 + β 1 , α 2 + β 2 , , α N + β N > chính là histogram màu của ảnh

Do có chứa các thông tin về không gian của các điểm ảnh nên sử dụng các véctơ gắn kết màu sẽ cho kết quả tra cứu tốt hơn so với sử dụng histogram màu, đặc biệt là đối với những ảnh có vùng đồng nhất màu lớn

Đối với cả phương pháp dùng véctơ gắn kết màu và phương pháp dùng histogram màu thì sử dụng không gian HSV sẽ cho kết quả tốt hơn là sử dụng không gian CIE L*u*v hay L*a*b

1.2.5 Sơ đồ tương quan màu:

Sơ đồ tương quan màu không chỉ thể hiện sự phân bố màu của các điểm ảnh

mà còn thể hiện sự tương quan về mặt không gian của từng cặp màu Trong sơ đồ tương quan màu, thành phần thứ nhất và thứ hai của một histogram màu 3 chiều thể hiện màu sắc của một cặp màu nào đó và thành phần thứ 3 là khoảng cách không gian của chúng

Trang 16

Sơ đồ tương quan màu là một bảng được đánh chỉ số bởi các cặp màu, trong

đó đầu vào thứ k của cặp (i,j) thể hiện xác suất để tìm thấy điểm ảnh có màu j ở khoảng cách k so với điểm ảnh có màu i trong ảnh Giả sử I là tập hợp tất cả các điểm ảnh trong ảnh và I c(i) là tập hợp các điểm ảnh có màu là c(i) thì có thể định

nghĩa sơ đồ tương quan màu như sau:

- |p1 – p2| là khoảng cách giữa hai điểm p1 và p2

Nếu chúng ta tính toán cho tất cả các cặp màu có thể thì kích thước của sơ

đồ tương quan màu sẽ là rất lớn O(N2d), vì vậy để đơn giản người ta thường sử dụng sơ đồ tự tương quan màu chỉ tính toán sự liên hệ không gian của các cặp màu giống nhau và vì vậy giảm độ phức tạp tính toán xuống còn O(Nd)

So sánh với phương pháp dùng histogram màu và phương pháp dùng véctơ gắn kết màu thì phương pháp dùng sơ đồ tương quan màu cho kết quả tra cứu tốt nhất, tuy nhiên độ phức tạp cao nhất do sử dụng số chiều nhiều hơn (3 chiều)

1.2.6 Các đặc điểm bất biến màu:

Màu sắc không chỉ phụ thuộc vào chất liệu của bề mặt vật thể mà còn ảnh hưởng bởi sự thay đổi của độ chói, phương hướng, góc chụp ảnh Tuy nhiên, sự bất biến của các yếu tố môi trường này đã không được tính đến trong khi trích chọn các đặc điểm màu sắc đã trình bày ở trên

Trang 17

1.2.7 Một số phương pháp truy vấn ảnh :

1.2.7.1 Truy vấn ảnh theo hình dạng :

Phương pháp này hiện đã được nghiên cứu rộng, trong đó dùng phương pháp phân đoạn ảnh để xác định biên của đối tượng từ đó xác định hình dạng của đối tượng cần tìm Có nhiều hướng tiếp cận để thực hiện phân đoạn ảnh như [2]:

- Phương pháp dựa trên không gian đặc trưng:

Nếu chúng ta giả định màu sắc bề mặt của các đối tượng trong ảnh là một thuộc tính bất biến và các màu sắc đó được ánh xạ vào một không gian màu nào đó, vậy thì chúng ta sẽ có một cái nhìn đối với mỗi đối tượng trong ảnh như là một cụm (cluster) các điểm trong không gian màu đó Mức độ phân tán của các điểm trong trong một cụm được xác định chủ yếu bởi sự khác biệt về màu sắc Một cách khác, thay vì ánh xạ các pixel trong ảnh vào một không gian màu cụ thể, ta xây dựng một histogram dựa trên các đặc trưng màu dạng ad-hoc cho ảnh đó (ví dụ như Hue), và thông thường các đối tượng trong ảnh sẽ xuất hiện như các giá trị đỉnh trong histogram đó Do đó, việc phân vùng các đối tượng trong ảnh tương ứng với việc xác định các cụm – đối với cách biểu diễn thứ nhất – hoặc xác định các vùng cực trị của histogram – đối với cách biểu diễn thứ hai

Các phương pháp tiếp cận này chỉ làm việc trên một không gian màu xác định chẳng hạn phương pháp của Park áp dụng trên không gian màu RGB, còn phương pháp của Weeks và Hague thì áp dụng trên không gian màu HIS Dựa trên không gian đặc trưng, ta có các phương pháp phân đoạn: phương pháp phân nhóm đối tượng không giám sát, phương pháp phân lớp trung bình-k thích nghi, phương pháp lấy ngưỡng histogram

- Phương pháp dựa trên không gian ảnh:

Phương pháp này hoạt động dựa trên không gian đặc trưng của ảnh Các vùng ảnh kết quả là đồng nhất tương ứng với các đặc trưng đã chọn cho từng không gian Tuy nhiên, không có gì đảm bảo rằng tất cả các vùng này thể hiển một

sự cô đọng (compactness) về nội dung xét theo ý nghĩa không gian ảnh (ý nghĩa

Trang 18

các vùng theo sự cảm nhận của hệ thần kinh con người) Đặc tính này là quan trọng thứ hai sau đặc tính về sự thuần nhất của các vùng ảnh Do các phương pháp gom cụm cũng như xác định ngưỡng histogram đã nêu đều bỏ qua thông tin về vị trí của các pixel trong ảnh

Một số các giải thuật để thực hiện như giải thuật áp dụng chia và trộn vùng, giải thuật áp dụng lý thuyết đồ thị, giải thuật dựa trên cạnh…

- Phương pháp dựa trên mô hình vật lý:

Áp dụng các mô hình vật lý để minh họa các thuộc tính phản chiếu ánh sáng trên bề mặt màu sắc của các đối tượng Điểm quan trọng trong lĩnh vực phân vùng

ảnh màu dựa trên mô hình vật lý được Shafer đặt ra Ông giới thiệu mô hình phản

xạ lưỡng sắc cho các vật chất điện môi không đồng nhất Dựa trên mô hình này,

Klinker đã đặt ra một giải thuật đặt ra một số giả thiết quang học liên quan đến màu sắc, bóng sáng, bóng mờ của các đối tượng và cố gắng làm phù hợp chúng với hình dạng của các cụm Hạn chế chính của giải thuật này là nó chỉ làm việc trên các vật chất điện môi không đồng nhất Hai ông cùng tên Tsang đã áp dụng

mô hình phản xạ lưỡng sắc trong không gian HSV để xác định các đường biên trong ảnh màu

1.2.7.2 Truy vấn ảnh theo nội dung:

Một số hệ thống truy vấn ảnh theo nội dung như :

- Phương pháp VisualSeek dựa trên đặc trưng không gian màu tương đồng của ảnh (166 màu) Trước hết, người dùng phác họa một số vùng trên ảnh cần so sánh và chọn màu sắc cho vùng, vị trí của vùng và độ lớn của vùng Hệ thống dùng hàm so sánh sự khớp nhau giữa các vùng trong 2 ảnh với công thức:

d(c q, c t )=(c q -c t ) t * A(c q -c t ) (1.5)

Trong đó: cq, ct là hai tập màu của hai ảnh và ma trận A(a[i,j]) là ma trận độ tương đồng của các màu

Trang 19

- Hệ thống Webseek là hệ thống truy vấn ảnh trên web theo danh mục ảnh cho trước và sử dụng phép biến đổi wavelet: tập hợp ảnh sau đó phân lớp ảnh, tạo chỉ mục và cuối cùng là tìm kiếm và hiển thị Người dùng phải chọn chủ đề trong danh mục, hệ thống dùng hàm so khớp để tìm kiếm trong chủ đề tương ứng ảnh giống nhất công thức:

d(h q , h t ) = (h q -h t ) t * A(h q - h t )   q +  t -2 k with hq[k]≥ r h q [k]r t [k] (1.6)

- Trong khi đó, phương pháp BlobWorld lại truy tìm ảnh theo ảnh mẫu dựa trên việc rút trích dữ liệu điểm nguyên thủy cùng các đặc tính giống nhau về màu sắc, kết cấu và hình dạng Màu sắc sẽ được biểu diễn dưới dạng histogram 218 màu, kết cấu đặc trưng bởi sự tương phản và tính không thẳng đứng, còn các đặc trưng hình dạng tính theo vùng với trọng tâm và hướng Ảnh truy vấn theo sự phác thảo của các vùng riêng biệt Hàm so sánh sự tương đồng như sau:

d(h 1, h 2 )=(h 1 -h 2 ) T * A(h 1 -h 2 ) (1.7)

Với A(a[i,j]) là ma trận đối xứng thể hiện sự tương đồng giữa màu i và j

1.2.7.3 Truy vấn ảnh theo đối tƣợng:

Hướng nghiên cứu theo phương pháp này đang được nghiên cứu thực hiện

vì có rất nhiều ứng dụng liên quan và thực tế trong cuộc sống như nhận dạng gương mặt người Tuy nhiên quá trình xác định đối tượng gặp nhiều khó khăn phụ thuộc vào các yếu tố như tỷ lệ kích thước các đối tượng trong các ảnh, vị trí xuất hiện đối tượng, xác định chính xác đối tượng trong ảnh cần truy vấn, màu sắc của các đối tượng và trong các hoàn cảnh khác nhau, sự xuất hiện của cùng 1 đối tượng khác nhau…

1.2.7.4 Truy vấn ảnh kết hợp với máy học:

Đây là một trong những phương pháp giải quyết vấn đề truy vấn đưa trên máy học Hiệu quả của phương pháp này thông qua quá trình huấn luyện nhiều lần cho máy và kết quả phụ thuộc nhiều vào quá trình huấn luyện Thông thường, bài toán huấn luyện áp dụng Mô hình Makov ẩn hoặc mạng Neuron để giải quyết

Trang 20

Ví dụ như truy vấn ảnh áp dụng mô hình MMM (Mediator Makov Model) của tác giả Nguyễn Phước Lộc Kết quả của hệ thống này cho thấy: trong 1048 ảnh thử nghiệm với 40 truy vấn mẫu sau khi đã có 200 phản hồi: số ảnh tìm được gần bằng 795, số ảnh tìm được đúng gần bằng 510 và số ảnh đúng trong CSDL 670 Nghĩa là tỷ lệ Precision=0.64, tỷ lệ Recall=0.76[2]

Trong các hệ thống truy vấn ảnh dùng mạng Neuron, dựa trên phản hồi của người dùng hệ thống thay đổi các trọng số quan hệ giữa các đặc trưng trong ảnh như màu sắc, hình dạng…Ví dụ như hệ thống Neuron Network based Flexible Image Retrieval (NNFIR) của HYOUNG K LEE và SUK I YOO sử dụng hàm RBF (Radial Basis Function) để xác lập mối quan hệ phi tuyến giữa các đặc trưng

có kết quả truy vấn với tỷ lệ Precision là 81.70% và tỷ lệ recall là 54.22%[2]

Một số chuyên gia còn thử nghiệm nhúng Fuzzy Logic vào việc truy vấn nhưng chưa mang lại hiệu quả như mong muốn do chưa có hàm đo độ tương đồng thích hợp cho số mờ vì các hàm tín toán đơn giản trên số mờ thì tốt trong khi các tính toán cao cấp phực tạp trên số mờ thì hạn chế Ví dụ như phương pháp nhúng Fuzzy Logic vào Truy vấn ảnh dựa trên nội dung (Embedding Fuzzy Logic in Content Based Image Retrieval) của Constantin Vertan, Nozha Boujemaa truy vấn ảnh dựa trên Fuzzy Histogram thử nghiệm với nhiều độ đo khác nhau (Zadeh, Algebaric, Lukasiewicz, Hamacher , L1…) kết quả truy vấn tỷ lệ Precision đều nhỏ hơn 70.00% [2] Sau này, Yixin Chen và James Z Wang (2002) đã xây dựng một hệ thống truy vấn ảnh theo vùng dựa vào Fuzzy logic sử dụng độ đo Unified feature matching (UFM) cho kết quả khá khả quan

Bên cạnh đó, sử dụng máy học Support Vector Machine (SVM) dựa trên các phản hồi của người dùng để xác định ảnh kết quả trả ra nào là giống và khác với ảnh truy vấn Sau đó, hệ thống sẽ đưa ra tập kết quả chính xác hơn Ví dụ như hệ

thống “Support Vector machine Learning for Image Retrieval” của Lei Zhang,

Fuzong, Bo Zhang cho tỷ lệ recall là 0.743 Phương pháp này đòi hỏi cơ chế ngăn

Trang 21

chặn sự phản hồi sai của người dùng, đồng thời cần có một quá trình huấn luyện cho máy học thì hệ thống mới hoạt động tốt [2]

Trang 22

CHƯƠNG 2: MỘT SỐ VẤN ĐỀ TRONG TRUY VẤN ẢNH

DỰA VÀO HÌNH DẠNG 2.1 Trích chọn đặc trưng hình dạng:

Các đặc điểm hình dạng của các vùng ảnh và các đối tượng ảnh được sử dụng trong rất nhiều hệ thống tra cứu ảnh So với các đặc điểm về màu sắc và các đặc điểm về kết cấu thì các đặc điểm về hình dạng thường chỉ được sử dụng sau khi ảnh đã phân thành các vùng hoặc các đối tượng ảnh Nhưng do việc phân vùng

và tách đối tượng ảnh khó thu được kết quả tốt nên việc sử dụng các đặc điểm hình dạng để tra cứu ảnh thường bị bó hẹp trong một số ứng dụng mà ở đó các vùng ảnh hoặc đối tượng ảnh đã được tách biệt rõ ràng

Các phương pháp trích chọn đặc điểm hình dạng thường được chia thành hai

loại là trích chọn theo đường biên (xấp xỉ đa giác, mô hình phần tử hữu hạn, mô tả hình dạng theo Fourier) và trích chọn theo vùng ảnh (mô hình thống kê)

Một phương pháp trích chọn đặc điểm hình dạng tốt phải đảm bảo yêu cầu

là phải không phụ thuộc vào vị trí, góc quay hay sự co giãn của đối tượng ảnh

Trước khi áp dụng các phương pháp trích chọn đặc điểm hình dạng, các đối tượng ảnh cần phải được tách ra khỏi ảnh Giả sử là trong mỗi ảnh chỉ có một đối tượng ảnh duy nhất, nhiệm vụ của hệ thống trước hết là phải tách được đối tượng ảnh ra khỏi nền ảnh

Cách biểu diễn hình dạng của đối tượng ảnh có thể chia thành hai kiểu:

- Theo đường viền bao quanh (biên)

- Theo vùng

Cách biểu diễn theo đường viền bao quanh chỉ sử dụng đường biên bên ngoài của hình dạng, điều này có thể thực hiện được bằng cách mô tả vùng đang quan tâm bằng các đặc tính bên ngoài của nó tức là các điểm ảnh dọc theo đường viền bao quanh đối tượng ảnh Cách biểu diễn theo vùng sử dụng cả vùng ảnh bằng cách mô tả vùng đang quan tâm bằng các đặc tính bên trong tức là các điểm

Trang 23

ảnh ở bên trong vùng đó Hình 2.1 sau biểu diễn hình dạng theo đường biên và theo vùng [5]:

Hình 2.1: Biểu diễn hình dạng theo đường biên và theo vùng

2.1.1 Biên và các phương pháp phát hiện biên:

Nếu đã biết là một đối tượng có một biên rời rạc bao quanh và có thể tìm được một điểm nằm trên biên đó thì từ điểm đó có thể đi theo đường biên bao quanh đối tượng và quay trở lại điểm xuất phát Dò biên là một thao tác rất quan trọng, đặc biệt là khi cần xác định xem một điểm ảnh có nằm trong một vùng ảnh nào đó hay không

Một điểm ảnh được gọi là biên nếu ở đó có sự thay đổi đột ngột về mức xám Tập hợp các điểm biên tạo thành biên của ảnh

2.1.1.1 Phương pháp phát hiện biên trực tiếp:

Phương pháp này làm nổi biên dựa vào sự biến thiên độ xám của ảnh Kỹ thuật chủ yếu dùng để phát hiện biên là kỹ thuật đạo hàm

a Kỹ thuật phát hiện biên Gradient

Gradient là một vec tơ f(x, y) có các thành phần biểu thị tốc độ thay đổi mức xám của điểm ảnh (theo hai hướng x, y trong bối cảnh xử lý ảnh hai chiều)

(2.1)

Trang 24

Trong đó, dx, dy là khoảng cách (tính bằng số điểm) theo hướng x và y Tuy

ta nói là lấy đạo hàm nhưng thực chất chỉ là mô phỏng và xấp xỉ đạo hàm bằng các

kỹ thuật nhân chập vì ảnh số là tín hiệu rời rạc nên đạo hàm không tồn tại (thực tế chọn dx= dy=1)

Theo định nghĩa về Gradient, nếu áp dụng nó vào xử lý ảnh, việc tính toán

sẽ rất phức tạp Để đơn giản mà không mất tính chất của phương pháp Gradient, người ta sử dụng kỹ thuật Gradient dùng cặp mặt nạ H1, H2 trực giao (theo 2 hướng vuông góc)

Mặt nạ Prewitt

- Kỹ thuật sử dụng 2 mặt nạ nhập chập xấp xỉ đạo hàm theo 2 hướng x và y là:

- Tính I  Hx + I  Hy để ra được kết quả

- Ví dụ:

Trang 26

- Kết quả thu được bằng cách tính 

b Kỹ thuật phát hiện biên Laplace

Toán tử Laplace được định nghĩa như sau:

f x

),1(),()

,(),1(

y x f y x f y x f

y x f y x f y x f y x f

x f y y

f y

2 2

y

f x

f f

Trang 27

   

)1,(),(2)1,(

)1,(),(),()1,(

x

f

y x f y x f y x f y

x f

c Kỹ thuật phát hiện biên Canny

Đây là một thuật toán tương đối tốt, có khả năng đưa ra đường biên mảnh,

và phát hiện chính xác điểm biên với điểm nhiễu

Ta có thuật toán như sau:

491294

51215125

491294

24542

Trang 28

- Bước 2: Tính gradient của ảnh bằng mặt nạ Prewitt, kết quả đặt vào Gx,Gy

Gx = G  Hx, Gy = G  Hy

- Bước 3: Tính gradient hướng tại mỗi điểm (i,j) của ảnh Hướng này sẽ

được nguyên hóa để nằm trong 8 hướng [0 7], tương đương với 8 lân cận của một

điểm ảnh

- Bước 4: Dùng ràng buộc “loại bỏ những điểm không phải là cực đại” để

xóa bỏ những điểm không là biên Xét (i,j),  là gradient hướng tại (i,j) I1, I2 là

hai điểm lân cận của (i,j) theo hướng  Theo định nghĩa điểm biên cục bộ thì (i,j)

là biên nếu I(i,j) cực đại địa phương theo hướng gradient  Nếu I(i,j) > I1 và I(i,j)

> I2 thì mới giữ lại I(i,j), ngược lại xóa I(i,j) về điểm ảnh nền Hình 2.2 sau minh

hoạ cách xác định điểm biên [5]:

- Bước 5: Phân ngưỡng: với các điểm được giữ lại, thực hiện lấy ngưỡng

gradient biên độ lần cuối để xác định các điểm biên thực sự

2.1.1.2 Phương pháp phát hiện biên gián tiếp:

Nếu bằng một cách nào đó ta phân được ảnh thành các vùng thì ranh giới

giữa các vùng là đó chính là biên Kỹ thuật dò biên và kỹ thuật phân vùng ảnh là

hai bài toán đối ngẫu nhau bởi vì dò biên để thực hiện phân lớp đối tượng mà khi

Hình 2.2: Minh họa xác định điểm biên

Trang 29

đã phân lớp xong thì có nghĩa là đã phân vùng được ảnh và ngược lại khi đã phân vùng được ảnh tức là đã phân lớp được thành các đối tượng do đó ta có thể phát hiện được biên

Kỹ thuật dò biên gián tiếp đơn giản:

Giả sử đã tìm được một vị trí (x, y) nằm trên biên của một vùng ảnh hoặc đối tượng ảnh nào đó

Đánh dấu điểm đó là "đã sử dụng" (để điểm đó không bị sử dụng lại) và đánh giá tất cả giá trị gradient Sobel 3×3 (hoặc lớn hơn) có trung tâm lần lượt là các điểm trong 8 điểm lân cận với (x, y)

Chọn ra ba điểm có biên độ gradient tuyệt đối lớn nhất Đẩy vị trí của ba điểm đó vào một mảng có 3 cột, mỗi cột tương ứng với vị trí của một điểm, sắp xếp thành từng hàng theo độ lớn của biên độ gradient Chọn điểm có biên độ gradient lớn nhất

Bây giờ điểm này sẽ là một trong 8 hướng từ 0 đến 7 xung quanh điểm (x, y) sắp xếp theo mô hình sau (trong đó * là vị trí điểm (x, y)):

4 5 6

3

* 7

2 1 0

Ví dụ: nếu biên độ gradient cực đại đã tìm được bằng toán tử Sobel với trung tâm là điểm (x+1, y) thì hướng sẽ là 3 Gọi hướng của dịch chuyển là d

Giả sử là hình dạng của đối tượng không quá đặc biệt, lặp lại thuật toán trên nhưng thay vì xem xét tất cả các điểm xung quanh điểm mới thì chỉ cần xem xét hướng d, (d+1) mod 8 và (d-1) mod 8 Nếu không tìm thấy một giá trị biên độ gradient nào đủ lớn thì loại bỏ điểm đó ra khỏi danh sách và chọn một trong ba điểm đã được sắp xếp Nếu tất cả ba điểm đều bị loại bỏ ra khỏi danh sách thì dịch chuyển lên một hàng và chọn điểm tốt nhất tiếp theo từ hàng trước Việc dò biên

Trang 30

kết thúc khi gặp lại điểm xuất phát hoặc việc dò đã diễn ra quá lâu hoặc số hàng trong danh sách là quá lớn

Đây là một kỹ thuật dò biên đơn giản, tuy nhiên vấn đề có thể xảy ra là thời gian tiêu tốn khá lớn

Kỹ thuật dò biên gián tiếp bằng cách xác định chu tuyến của đối tượng ảnh

Kỹ thuật này chỉ xét với ảnh nhị phân vì mọi ảnh đều có thể đưa về ảnh nhị phân bằng kỹ thuật phân ngưỡng

Ký hiệu F là tập các điểm vùng (điểm đen), F' là tập các điểm nền

- Định nghĩa chu tuyến:

Chu tuyến của một đối tượng ảnh là dãy các điểm ảnh của đối tượng p0, p1, , pn sao cho:

+ i, Q không thuộc đối tượng ảnh là 4-láng giềng của pi

+ pi và pi+1 là các 8-láng giềng của nhau

+ p0 trùng với pn

- Định nghĩa chu tuyến đối ngẫu

Chu tuyến c = <p1, p2, , pn>, c = <Q1, Q2, , Qm> được gọi là đối ngẫu của nhau nếu:

+ i, j, k sao cho:

1 Qj là 4-láng giềng của pi

2 Qk là 8-láng giềng của pi+1

3 Qj và Qk là 8-láng giềng của nhau

+ Nếu pi là nền thì Qj là vùng và ngược lại

+ Các điểm Qj nằm về một phía với pi

Trang 31

- Thuật toán dò biên tổng quát như sau:

+ Bước 1: Xác định cặp nền-vùng xuất phát: cặp nền-vùng xuất phát được

xác định bằng cách duyệt ảnh lần lượt từ trên xuống dưới, từ trái sang phải và kiểm

tra theo định nghĩa cặp nền-vùng

+ Bước 2: Xác định cặp nền-vùng tiếp theo

+ Bước 3: Lựa chọn điểm biên

+Bước 4: Nếu gặp lại cặp xuất phát thì dừng, nếu không quay lại

bước 2

2.1.2 Xử lý ảnh trong miền tần số và biến đổi Fourier:

Nhiều quá trình xử lý tín hiệu có thể được thực hiện trong một không gian toán học như miền tần số Để biểu diễn dữ liệu trong miền tần số cần phải thực hiện một số biến đổi thông qua các phép biến đổi Phép biến đổi thường được sử dụng nhiều nhất là biến đổi Fourier

Theo nghiên cứu của Fourier thì tất cả các tín hiệu tuần hoàn đều có thể được tổng hợp từ một loạt các tín hiệu sin có tần số và biên độ khác nhau

Có nghĩa là bất kỳ tín hiệu nào cũng được tạo thành từ những thành phần tần

số khác nhau, điều này áp dụng được cho cả các tín hiệu một chiều như tín hiệu âm tần đưa ra loa hoặc tín hiệu hai chiều như ảnh số chẳng hạn

Tần số không gian của một ảnh biểu thị tốc độ thay đổi độ chói của các điểm ảnh

Cách dễ nhất để xác định các thành phần tần số của tín hiệu là khảo sát tín hiệu đó trong miền tần số Miền tần số biểu diễn độ lớn (cường độ) của các thành phần tần số khác nhau của một tín hiệu

Xét một ví dụ đơn giản: tín hiệu đầu vào có dạng hình cosin được biểu diễn trong miền thời gian và miền tần số như hình vẽ dưới đây:

Trang 32

Hình 2.3: Miền thời gian và miền tần số

Trong hình vẽ trên chỉ có một thành phần hình sin nên chỉ có một giá trị tần

số biểu diễn trong miền tần số

Biến đổi Fourier cho tín hiệu 2 chiều được biểu diễn qua công thức toán học như sau:

h ( , ) ( , ) j2(ux vy)

Trong đó j   1 , ejx  cos( x )  j sin( x )

Cũng có thể biến đổi dữ liệu ảnh từ miền tần số về miền không gian thông qua phép biến đổi Fourier ngược

Trong miền tần số, u thể hiện tần số không gian dọc theo trục x và v là thể hiện tần số không gian dọc theo trục y Trung tâm của ảnh là gốc của trục toạ độ

Trang 33

, ( )

, ( u v R2 u v I2 u v

) , ( tan

) ,

v u R

v u I v

Hình 2.4: Ảnh thực (a) và ảnh thu được sau biến đổi Fourier (b)

Mỗi điểm ảnh trong phổ tần số biểu thị sự thay đổi của tần số không gian của một chu kỳ theo chiều rộng của ảnh gốc Gốc toạ độ (ở giữa ảnh) biểu diễn thành phần cố định (hay còn gọi là thành phần 1 chiều của ảnh) Nếu tất cả điểm ảnh đều xám thì chỉ có một giá trị trong phổ tần số và điểm đó chính là gốc toạ độ

(2.8)

(2.9)

Trang 34

Điểm ảnh tiếp theo bên phải gốc toạ độ biểu thị một chu kỳ theo chiều rộng của ảnh, điểm ảnh cạnh đó biểu diễn 2 chu kỳ theo chiều rộng của ảnh các điểm ảnh càng xa gốc toạ độ biểu diễn cho thành phần tần số không gian càng cao

Biến đổi Fourier rời rạc (DFT)

Khi làm việc với ảnh số, chúng ta không thể có được các tín hiệu liên tục mà phải làm việc với một số hữu hạn các mẫu rời rạc, các mẫu này là các điểm ảnh tạo nên bức ảnh Vì vậy để phân tích ảnh số phải sử dụng biến đổi Fourier rời rạc

Công thức biến đổi Fourier rời rạc cho ảnh kích thước M×N là:

2

) , (

1 )

, (

ux je y x

h MN

v u

2) , (

1 )

ux je v u

H MN

y x

Biến đổi Fourier nhanh (FFT)

Phép biến đổi Fourier rời rạc có độ phức tạp rất cao, cần phải có N2

phép nhân số phức khi tính chuỗi Fourier cho N phần tử

Người ta phát hiện ra rằng có thể chia dãy biến đổi Fourier rời rạc có đội dài

N thành 2 dãy có độ dài mỗi dãy là N/2 Sau đó mỗi dãy con lại có thể chia đôi tiếp đến khi chỉ còn dãy chỉ còn 2 phần tử

Kỹ thuật chia để trị được sử dụng để xây dựng phép biến đổi Fourier nhanh (FFT), thuật toán này giúp làm giảm độ phức tạp của thuật toán từ cấp N2

xuống cấp NlogN

(2.10)

(2.11)

Trang 35

Để thực hiện trước khi thực hiện FFT, dãy tín hiệu vào phải có số phần tử

là 2N

Trong xử lý ảnh, tính chất chia đôi được của dãy Fourier cho phép chúng ta tách phép biến đổi một phép biến đổi 2 chiều thành 2 phép biến đổi 1 chiều, có nghĩa là ta sẽ tính biến đổi Fourier cho từng hàng trước sau đó biến đổi Fourier cho các cột

Hai thuật toán cơ bản để thực hiện biến đổi Fourier nhanh là thuật toán con bướm (Butterfly) để tính toán cho 2 phần tử và thuật toán Đảo bit (Bit reversal) để sắp xếp dãy đầu vào theo thứ tự hợp lý để thực hiện biến đổi

Ngoài biến đổi Fourier, người ta còn sử dụng rất nhiều phép biến đổi khác như biến đổi Harley, biến đổi Hough

2.1.3 Mô tả Fourier:

Bộ mô tả Fourier mô tả hình dạng của đối tượng ảnh bằng một biến đổi Fourier của đường biên của đối tượng Một lần nữa ta lại coi biên của một đối tượng ảnh 2D là dãy liên tiếp các điểm ảnh biên nằm cạnh nhau (xs,ys), trong đó 0

≤ s ≤ N-1 và N là tổng số điểm ảnh nằm ở biên của đối tượng Vậy có thể định

nghĩa ba loại biểu diễn đường biên là biểu diễn bằng độ cong, bằng khoảng cách trọng tâm và bằng hàm toạ độ phức

Độ cong K(s) tại một điểm s nằm trên biên có thể được định nghĩa là tốc độ

thay đổi hướng của tiếp tuyến của đường biên tại điểm đó, tức là:

ds

s d s

Trong đó: (s) là hàm xoay của đường biên (xem công thức 2.9)

Khoảng cách trọng tâm được định nghĩa là hàm khoảng cách giữa giữa một

điểm ảnh nằm trên biên và trọng tâm (xc, yc) của đối tượng ảnh:

(2.12)

Trang 36

2 2

) (

) (

Để không bị phụ thuộc vào góc quay của đối tượng (tức là việc mã hoá đường biên không bị ảnh hưởng bởi cách chọn điểm tham chiếu) thì ta chỉ sử dụng biên độ của các hệ số phức và bỏ qua thành phần pha

Để không bị phụ thuộc vào tỉ lệ thì ta phải chia biên độ của các hệ số phức cho biên độ của thành phần một chiều DC hay là cho hệ số khác 0 đầu tiên

Bản thân các cách biểu diễn đường biên này đã không phụ thuộc vào sự tịnh tiến của đối tượng ảnh

Mô tả Fourier của độ cong là:

2 0

1

, , ,

F

F F

F F

F

Trong đó: F i là thành phần hệ số thứ i của biến đổi Fourier Ở đây ta chỉ quan tâm đến các trục tần số dương bởi vì các hàm độ cong và hàm khoảng cách trọng tâm là các hàm thực do đó biến đổi Fourier của chúng đối xứng nhau

Mô tả Fourier của hàm toạ độ phức là:

Ngày đăng: 28/11/2014, 09:02

HÌNH ẢNH LIÊN QUAN

Hình 2.1:  Biểu diễn hình dạng theo đường biên và theo vùng - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
Hình 2.1 Biểu diễn hình dạng theo đường biên và theo vùng (Trang 23)
Hình 2.2: Minh họa xác định điểm biên - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
Hình 2.2 Minh họa xác định điểm biên (Trang 28)
Hình 2.3: Miền thời gian và miền tần số - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
Hình 2.3 Miền thời gian và miền tần số (Trang 32)
Hình 2.4: Ảnh thực (a) và ảnh thu được sau biến đổi Fourier (b) - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
Hình 2.4 Ảnh thực (a) và ảnh thu được sau biến đổi Fourier (b) (Trang 33)
Hình vẽ 2.4 sau mô tả ảnh của một điểm sáng và ảnh thu được sau phép biến  đổi Fourier: - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
Hình v ẽ 2.4 sau mô tả ảnh của một điểm sáng và ảnh thu được sau phép biến đổi Fourier: (Trang 33)
Hình 3.1:  Biển báo cấm - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
Hình 3.1 Biển báo cấm (Trang 52)
Hình 3.2: Biển báo nguy hiểm - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
Hình 3.2 Biển báo nguy hiểm (Trang 54)
Hình 3.3: Biển báo hiệu lệnh - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
Hình 3.3 Biển báo hiệu lệnh (Trang 55)
3.3.1. Sơ đồ khối tổng quát và truy vấn theo hình dạng: - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
3.3.1. Sơ đồ khối tổng quát và truy vấn theo hình dạng: (Trang 56)
Hình 3.5: Kết quả 01 sau khi chạy thử ứng dụng theo kịch bản 01 - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
Hình 3.5 Kết quả 01 sau khi chạy thử ứng dụng theo kịch bản 01 (Trang 62)
Hình 3.6: Kết quả 02 sau khi chạy thử ứng dụng theo kịch bản 01 - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
Hình 3.6 Kết quả 02 sau khi chạy thử ứng dụng theo kịch bản 01 (Trang 62)
Hình 3.10: Kết quả 03 sau khi chạy thử ứng dụng theo kịch bản 02 - nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng_2
Hình 3.10 Kết quả 03 sau khi chạy thử ứng dụng theo kịch bản 02 (Trang 65)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w