1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu một số kỹ thuật tra cứu ảnh và ứng dụng vào bài toán kiểm chứng cổ vật luận văn ths công nghệ thông tin 1 01 10

95 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 95
Dung lượng 692,17 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ý tưởng phương pháp này là trích chọn các đặc điểm dựa vào nội dung trực quan của ảnh như màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc tra cứu, sắp xếp,

Trang 1

DANH MỤC CÁC CHỮ VIẾT TẮT 6

MỞ ĐẦUU 7

CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH 11

1.1 VẤN ĐỀ TRA CỨU ẢNH 11

1.2 MỘT SỐ PHƯƠNG PHÁP TRA CỨU ẢNH 12

1.2.1 Tra cứu ảnh theo nội dung 13

1.2.2 Tra cứu ảnh theo bản thể (ontology-based image retrieval) 15

1.2.3 Tra cứu ảnh theo đồ thị (graph based image retrieval) 17

CHƯƠNG 2: TRA CỨU ẢNH THEO NỘI DUNG 19

2.1 GIỚI THIỆUU 19

2.2 MÔ HÌNH HỆ THỐNG TRA CỨU ẢNH THEO NỘI DUNG 20

2.3 CÁC PHƯƠNG PHÁP MÔ TẢ NỘI DUNG ẢNH 21

2.3.1 Mô tả các đặc điểm màu sắc 22

2.3.2 Mô tả các đặc điểm kết cấu 29

2.3.3 Mô tả các đặc điểm hình dạng 40

2.3.4 Thông tin về không gian 55

2.4 ĐÁNH GIÁ ĐỘ TƯƠNG TỰ VÀ XÂY DỰNG SƠ ĐỒ ĐÁNH CHỈ SỐ 59

2.4.1 Đánh giá độ tương tự 59

2.4.2 Xây dựng sơ đồ đánh chỉ số 62

2.5 TƯƠNG TÁC VỚI NGƯỜI SỬ DỤNG 67

2.5.1 Đặc tả truy vấn 67

2.5.2 Xử lý phản hồi 69

2.6 HIỆU NĂNG CỦA HỆ THỐNG TRA CỨU ẢNH 70

CHƯƠNG 3: ỨNG DỤNG 73

3.1 GIỚI THIỆU BÀI TOÁN TRA CỨU CỔ VẬT 73

3.2 PHÂN TÍCH BÀI TOÁN 74

3.3 XÂY DỰNG CHƯƠNG TRÌNH QUERYIMAGE 75

3.3.1 Sơ đồ khối tổng quát 75

3.3.2 Tra cứu theo hình dạng 76

3.3.3 Tra cứu theo màu sắc 81

3.3.4 Sử dụng chương trình QueryImage 82

3.4 KHẢ NĂNG MỞ RỘNG CỦA CHƯƠNG TRÌNH 84

3.4.1 Những hạn chế của chương trình 84

3.4.2 Khả năng mở rộng 84

KẾT LUẬN 86

TÀI LIỆU THAM KHẢO 89

Trang 2

Chữ tắt Dạng đầy đủ Nghĩa tiếng Việt

PCA Principal Component Analysis Phân tích thành phần cơ bản

KL Karhumen-Loeve (transform) Biến đổi Karhumen-Loeve

Kullback-Leibler

SAR Simultaneous Auto-Regressive Tự thoái lui đồng thời

MLE Maximum likelihood estimation Phép ước lượng khả năng tối đaLSE Least square error Sai số bình phương tối thiểu

PWT Pyramid-structured Biến đổi dạng sóng kiểu hình chóp

wavelet transform

TWT Tree-structured Biến đổi dạng sóng kiểu hình cây

wavelet transform

MRF Markov random field Trường ngẫu nhiên Markov

DC Direct Current Thành phần một chiều

SOM Self Organization Map Bản đồ tự tổ chức

AVR Average rank Thứ hạng trung bình

MRR Modified retrieval rank Thứ hạng tra cứu sửa đổi

NMRR Nomalized Modified Thứ hạng tra cứu sửa đổi

retrieval rank chuẩn hoá

Trang 3

MỞ ĐẦU

Những năm gần đây, ảnh số ngày càng thu hút được sự quan tâm của nhiềungười, một phần là do các thiết bị thu nhận ảnh số ngày càng phổ biến và có giá cảphù hợp, cho phép nhiều người có thể sở hữu và sử dụng Mặt khác các công nghệchế tạo thiết bị lưu trữ luôn được cải tiến để cho ra đời các thiết bị lưu trữ có dunglượng lớn và giá thành hạ làm cho việc lưu trữ ảnh dưới dạng các file trở nên phổbiến Thêm nữa là sự phát triển của mạng Internet làm cho số lượng ảnh số đượcđưa lên lưu trữ và trao đổi qua Internet là rất lớn

Tuy nhiên khi số lượng ảnh được lưu trữ trở nên rất lớn thì vấn đề là phải cónhững phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm kiếm,tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt

Việc tìm kiếm được một bức ảnh mong muốn trong hàng triệu bức ảnh thuộc

đủ loại chủ đề khác nhau là rất khó khăn

Khi số lượng ảnh trong một bộ sưu tập còn ít, việc nhận diện một bức ảnh hayviệc so sánh sự giống và khác nhau giữa nhiều bức ảnh có thể thực hiện được bằngmắt thường, tuy nhiên khi có số lượng rất lớn ảnh thì việc so sánh bằng mắt thường

là rất khó khăn, đòi hỏi phải có những phương pháp hiệu quả và chính xác hơn.Trong thực tế, bài toán tra cứu ảnh số có rất nhiều ứng dụng quan trọng Ví dụnhư trong lĩnh vực ngân hàng việc so sánh chữ ký của khách hàng với mẫu chữ ký

đã được lưu trữ sẵn có thể thực hiện rất nhanh và chính xác nếu có được một phầnmềm so sánh mẫu chữ ký tốt Thực tế hiện nay tại các ngân hàng ở Việt nam người

ta vẫn phải sử dụng phương pháp so sánh bằng mắt thường vì việc so sánh chữ kýbằng phần mềm vẫn chưa thực hiện được Một ví dụ khác là bài toán quản lý biểu

Trang 4

trưng (logo) trong lĩnh vực sở hữu trí tuệ Khi một đơn vị muốn đăng ký logo riêngcho đơn vị của mình thì cơ quan quản lý phải tiến hành đánh giá xem mẫu logo đó

đã được sử dụng hay chưa hoặc có tương tự với mẫu logo nào đó đang được sửdụng hay không Trong trường hợp này nếu sử dụng mắt thường để duyệt thì sẽ tốnrất nhiều thời gian, nếu có các phần mềm cho phép tìm kiếm trong cơ sở dữ liệu ảnh

có sẵn những biểu trưng tương tự với biểu trưng mẫu thì việc đánh giá sự tương tự

sẽ dễ dàng hơn nhiều

Các ứng dụng phức tạp hơn như so sánh mẫu vân tay, tìm kiếm ảnh tội phạmv.v là những bài toán tra cứu ảnh được áp dụng trong ngành khoa học hình sự.Đối với lĩnh vực bảo tồn, bảo tàng, vấn đề lưu trữ và tra cứu ảnh số có vai tròngày càng quan trọng Ảnh của các tác phẩm hội hoạ, điêu khắc hoặc các cổ vậtđược lưu trữ dưới dạng các file ảnh sẽ đảm bảo được chất lượng tốt hơn, thời gianlưu trữ lâu dài hơn và việc trao đổi hay giới thiệu với công chúng cũng dễ dàng hơn.Bài toán tra cứu cổ vật xuất phát từ một thực tế của ngành bảo tồn, bảo tàng là khisưu tầm được một cổ vật mới, người ta cần xác định hàng loạt các thuộc tính nhưniên đại, chất liệu, nguồn gốc và có thể là chủ sở hữu của cổ vật đó Nếu có được sựtrợ giúp của phần mềm tra cứu ảnh phù hợp thì người ta có thể dễ dàng xác địnhxem mẫu cổ vật đó đã được lưu trữ trong cơ sở dữ liệu nào hay chưa, có những loại

cổ vật nào tương tự với nó trong kho tàng cổ vật của thế giới và phần mềm có thểđưa ra ảnh của các loại cổ vật có màu sắc, hình dạng, hoa văn tương tự với cổ vậtvừa tìm thấy Những thông tin này sẽ giúp ích rất nhiều cho các chuyên gia trongquá trình phân loại, kiểm chứng một cổ vật

Vấn đề này chính là động lực để chúng tôi tìm hiểu các phương pháp tra cứuảnh số đang được ứng dụng nhiều trong thực tế và tìm kiếm phương pháp phù hợpnhất để giải quyết bài toán này

Trước năm 1990, người ta thường sử dụng phương pháp tra cứu ảnh theo vănbản (Text Based Image Retrieval) Theo cách này người ta sẽ gán cho mỗi bức ảnhmột lời chú thích phù hợp với nội dung hoặc một đặc điểm nào đó của ảnh, sau đó

Trang 5

việc tra cứu ảnh được thực hiện dựa trên những lời chú thích này Phương pháp nàykhá đơn giản, tuy nhiên lại không thể áp dụng để tra cứu các cơ sở dữ liệu ảnh có sốlượng ảnh lớn và kết quả tra cứu thì mang tính chủ quan và cảm ngữ cảnh [1].

Một trong những phương pháp được nhiều người quan tâm nghiên cứu hiệnnay là phương pháp “Tra cứu ảnh dựa theo nội dung” (Content Based Image

Retrieval) Ý tưởng phương pháp này là trích chọn các đặc điểm dựa vào nội dung

trực quan của ảnh như màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để

làm cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh [1, 6, 10]

Một số hệ thống tra cứu ảnh nổi tiếng như QBIC (IBM), Virage (Virage Inc.),Photobook (MIT), VisualSEEK (Columbia University) đã áp dụng khá thành côngphương pháp tra cứu này [1, 6, 7, 12, 17]

Trên cơ sở của phương pháp tra cứu ảnh theo nội dung người ta còn tìm cách

bổ sung, cải tiến để cho ra đời một số phương pháp tra cứu ảnh khác như tra cứuảnh theo bản thể, tra cứu ảnh theo đồ thị, tra cứu ảnh theo nhận thức v.v [8, 9]Nội dung của đề tài này giới thiệu cơ sở lý thuyết và các ứng dụng chính của

một số phương pháp tra cứu ảnh, trong đó đi sâu vào giới thiệu phương pháp tra

cứu ảnh theo nội dung Trên những cơ sở đó tiến hành thử nghiệm một phương

pháp cụ thể để xây dựng một chương trình phần mềm tra cứu cổ vật cho phép đọcvào một ảnh cổ vật mẫu và tìm kiếm những ảnh tương tự với ảnh mẫu trong một tậphợp các ảnh cho trước theo hai đặc điểm là hình dạng và màu sắc của cổ vật

Chương trình sẽ trợ giúp đắc lực cho công tác bảo tồn, bảo tàng cũng như cóthể cải tiến để áp dụng cho một số lĩnh vực khác như giáo dục, sở hữu trí tuệ, y học,khoa học hình sự

Nội dung luận văn gồm có ba chương:

Chương 1: Trình bày tổng quan vấn đề tra cứu ảnh, giới thiệu sơ lược một số

phương pháp tra cứu ảnh và một số hệ thống tra cứu ảnh tiêu biểu

Trang 6

Chương 2: Giới thiệu chi tiết về phương pháp tra cứu ảnh theo nội dung, trong

đó giới thiệu mô hình của một hệ thống tra cứu ảnh theo nội dung và một số kỹthuật cơ bản được sử dụng để xây dựng hệ thống tra cứu ảnh theo nội dung

Chương 3: Giới thiệu một ứng dụng của phương pháp tra cứu ảnh theo nội

dung áp dụng vào bài toán tìm kiếm cổ vật; những hạn chế và khả năng mở rộng củachương trình ứng dụng đó

Trang 7

CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH

1.1 VẤN ĐỀ TRA CỨU ẢNH

Những năm gần đây, vấn đề tra cứu ảnh số nhận được sự quan tâm ngày cànglớn Nguyên nhân một phần là do sự phát triển của công nghệ chế tạo thiết bị thunhận và lưu trữ ảnh số cũng như sự phát triển mạnh mẽ của mạng Internet Người sửdụng trong nhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các kho lưutrữ ảnh thuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau Tuy nhiênngười ta cùng nhận thấy rằng việc tìm được một bức ảnh mong muốn trong bộ sưutập ảnh đa dạng có kích thước lớn là rất khó khăn

Tra cứu ảnh là một quá trình tìm kiếm trong một cơ sở dữ liệu ảnh những ảnhthoả mãn một yêu cầu nào đó Ví dụ, người sử dụng có thể tìm kiếm tất cả các ảnh

về chủ đề về biển trong một cơ sở dữ liệu ảnh hoặc một người sử dụng khác lạimuốn phân loại cơ sở ảnh của mình thành các bộ sưu tập có chủ đề khác nhau Một

ví dụ khác về tra cứu ảnh là một người muốn tìm tất cả các ảnh tương tự với mộtbức ảnh mẫu nào đó trong một cơ sở dữ liệu ảnh

Vấn đề tra cứu ảnh đã được nhìn nhận rộng rãi và việc tìm kiếm các giải phápcho vấn đề này trở thành một lĩnh vực rất sôi động, thu hút sự quan tâm của nhiềunhà nghiên cứu và phát triển

Những kỹ thuật tra cứu ảnh số đã được nghiên cứu từ cuối những năm 70 củathế kỷ 20 Năm 1979 một cuộc hội thảo chuyên đề về "Các kỹ thuật tổ chức cơ sở

dữ liệu cho các ứng dụng đồ hoạ" được tổ chức ở thành phố Florence, Italia Từ đóđến nay, khả năng ứng dụng cao của các kỹ thuật quản lý cơ sở dữ liệu ảnh đã thuhút sự quan tâm của nhiều nhà nghiên cứu [1]

Trang 8

1.2 MỘT SỐ PHƯƠNG PHÁP TRA CỨU ẢNH

Các phương pháp tra cứu ảnh được sử dụng đầu tiên không dựa trên các đặcđiểm trực quan của ảnh mà dựa trên các chú thích bằng lời của các bức ảnh, đầu tiênngười ta gán cho mỗi ảnh một câu chú thích bằng lời (text) dựa trên một đặc điểmnào đó của ảnh, sau đó sử dụng các kỹ thuật tìm kiếm văn bản thông thường để tìmkiếm ảnh

Phương pháp tra cứu ảnh dựa trên văn bản như trên sử dụng các kỹ thuật cơ sở

dữ liệu truyền thống để quản lý ảnh Dựa vào các lời chú thích, người ta có thể tổchức cơ sở dữ liệu ảnh bằng các phân lớp theo chủ đề hay theo ngữ nghĩa và việcduyệt cơ sở dữ liệu ảnh chỉ dựa trên các truy vấn kiểu Bool thông thường Phương

pháp tra cứu ảnh dựa trên chú thích như trên còn được gọi là tra cứu ảnh theo từ

khoá Do việc xây dựng các thuật toán có khả năng tự động sinh ra các chú thích

cho một cơ sở dữ liệu ảnh có nhiều chủ đề là hết sức khó khăn nên nói chung các hệthống tra cứu ảnh kiểu này vẫn yêu cầu phải chú thích ảnh một cách thủ công vàtrên thực tế việc chú thích ảnh như vậy tốn rất nhiều công sức và quan trọng hơn là

nó mang tính chủ quan, bị ảnh hưởng của hoàn cảnh và thường là không đầy đủ Vìvậy các hệ thống tra cứu ảnh dựa theo từ khoá không hỗ trợ được những kiểu truyvấn phụ thuộc tác vụ [1, 8, 9]

Phương pháp tra cứu ảnh theo nội dung ra đời đã khắc phục được nhữngnhược điểm của phương pháp từ khoá Nội dung chính của phương pháp này là dựatrên sự tương tự của những đặc điểm trực quan của ảnh như màu sắc, hình dạng, kếtcấu hay bố cục không gian của ảnh để phân loại, sắp xếp các ảnh trong một cơ sở dữliệu ảnh Tuy nhiên những đặc điểm mà phương pháp này trích chọn để tra cứu vẫn

là những đặc điểm ở mức thấp, chưa phản ánh được nội dung mang tính ngữ nghĩacủa một đối tượng ảnh Vì vậy người ta đã đưa ra một số cách tiếp cận mới pháttriển phương pháp tra cứu ảnh theo nội dung thành các phương pháp tra cứu ảnhtheo đồ thị [9] hay tra cứu ảnh theo bản thể [8]

Trang 9

Phần sau đây giới thiệu sơ lược một số mốc phát triển quan trọng của phươngpháp tra cứu ảnh theo nội dung và một số phương pháp tra cứu ảnh cải tiến đangđược áp dụng trong các hệ thống tra cứu ảnh.

Chi tiết về phương pháp tra cứu ảnh theo nội dung sẽ được đề cập trongchương 2

Đầu những năm 1990, do sự phát triển của Internet và các công nghệ ảnh sốtiên tiến, số lượng ảnh số trong các lĩnh vực khoa học, giáo dục, y tế, công nghiệp được tung ra cho người sử dụng truy cập tăng lên một cách nhanh chóng Điều nàylàm cho những khó khăn của các hệ thống tra cứu ảnh dựa theo văn bản càng thêmkhó giải quyết Sự cần thiết phải có một hệ thống quản lý hiệu quả các thông tin trựcquan là vô cùng cấp bách Nhu cầu đó chính là động lực thúc đẩy các nhà nghiêncứu vào cuộc mạnh mẽ hơn và cũng là nguyên nhân dẫn đến sự ra đời của phương

pháp tra cứu ảnh theo nội dung.

Năm 1992, Quỹ Khoa học Quốc gia (National Science Foundation) của Hoa

Kỳ đã tổ chức một buổi Hội thảo về các hệ thống quản lý thông tin trực quan để xácđịnh hướng đi mới cho các hệ thống quản lý cơ sở dữ liệu ảnh Tại buổi hội thảo nàyngười ra phải công nhận với nhau rằng cách hiệu quả nhất để thể hiện và sắp xếpcác thông tin trực quan của một bức ảnh là phải dựa trên các thuộc tính được tríchchọn từ chính những bức ảnh đó Các nhà nghiên cứu từ các lĩnh vực khác nhau nhưthị giác máy tính (computer vision), quản lý cơ sở dữ liệu, giao diện người-máy vàtra cứu thông tin đã cùng bị hấp dẫn bới hướng nghiên cứu này [1]

Từ đó đến nay, những công trình nghiên cứu về tra cứu ảnh theo nội dungđược triển khai rất nhiều

Từ năm 1997 những kết quả nghiên cứu về tra cứu ảnh theo nội dung như các

kỹ thuật trích chọn thông tin trực quan, tổ chức, sắp xếp, thiết kế truy vấn, tương tác

Trang 10

với người dùng, quản lý cơ sở dữ liệu được công bố ngày một nhiều Tương tựnhư vậy, một số lượng lớn các mô hình nghiên cứu cũng như sản phẩm thương mạicác hệ thống tra cứu ảnh theo nội dung đã được các trường đại học, các cơ quannghiên cứu và các công ty tin học cho ra đời.

Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu:

o QBIC hay Query By Image Content do hãng IBM và Trung tâm

nghiên cứu Almaden hợp tác phát triển Hệ thống này cho phép người sử dụng dùng cáccông cụ đồ hoạ để mô tả và hiệu chỉnh truy vấn dựa trên nhiều thuộc tính trực quan nhưmàu sắc, kết cấu và hình dạng của đối tượng ảnh QBIC hỗ trợ các kiểu truy vấn dựa trênảnh mẫu, dựa trên hình phác thảo hoặc dựa trên các mẫu màu hoặc mẫu kết cấu [17]

o VIR Image Engine do Công ty Virage Inc phát triển, cũng giống như

QBIC, hệ thống này cho phép tra cứu ảnh dựa trên các thuộc tính màu sắc, kết cấu và cấutrúc [17]

(Mỹ) phát triển Cả hai hệ thống này đều hỗ trợ các cách tìm kiếm theo màu sắc, kết cấu

và bố cục không gian [17]

o NeTra do trường Đại học Tổng hợp California (Mỹ) phát triển Hệ

thống này hỗ trợ tìm kiếm theo màu sắc, hình dạng, bố cục không gian và kết cấu cũngnhư theo sự phân mảnh của ảnh [17]

học Tổng hợp Illinois phát triển, hỗ trợ tìm kiếm theo màu sắc, bố cục không gian, kếtcấu và hình dạng [17]

o Viper hay Visual Information Processing for Enhanced Retrieval do

trường Đại học Geneva phát triển, tìm kiếm theo màu sắc và kết cấu [17]

Trang 11

Ngoài ra người ta còn giới thiệu nhiều phương pháp tra cứu ảnh khác như tracứu ảnh theo nhận thức (Perception based image retrieval), tra cứu ảnh theo phânđoạn (Segment based image retrieval), tra cứu ảnh theo đồ thị (Graph based imageretrieval), tra cứu ảnh theo bản thể (Ontology based image retrieval) Tuy nhiênphần lớn trong số các phương pháp đó lại sử dụng các nguyên tắc cơ bản của tra cứuảnh theo nội dung.

1.2.2.1 Giới thiệu

Cách đơn giản nhất để xuất bản một ảnh lên kho lưu trữ là tạo một giao diệntruy vấn dựa trên từ khoá cho một cơ sở dữ liệu Ở đó người sử dụng có thể chọngiá trị lọc hoặc sử dụng từ khoá cho các trường khác nhau của cơ sở dữ liệu, chẳnghạn như "người tạo" hoặc "thời gian" hoặc cho các mô tả nội dung bao gồm phânloại và nội dung văn bản Nhiều truy vấn có thể kết hợp bằng cách sử dụng các biểuthức logic [8]

Các phương pháp tìm kiếm theo từ khoá có rất nhiều hạn chế: một từ khoátrong văn bản không chỉ ra được văn bản đó có thích hợp hay không và các văn bảnthích hợp lại có thể không chứa một từ khoá nhất định Các từ đồng nghĩa làm giảm

độ thu hồi, các từ đồng âm làm giảm độ chính xác và các quan hệ ngữ nghĩa nhưquan hệ thượng hạ vị, trái nghĩa, phản nghĩa chưa được đề cập đến

Việc tìm kiếm theo từ khoá có ích cho những người sử dụng đã những từ khoánào được sử dụng để đánh chỉ số ảnh và do đó có thể dễ dàng tạo truy vấn Tuynhiên cách tiếp cận này khá khó khăn khi người sử dụng chưa có mục đích rõ ràng,không biết có gì trong cơ sở dữ liệu và kiểu khái niệm ngữ nghĩa có liên quan đếnlĩnh vực đang quan tâm Các vấn đề nảy sinh khi sử dụng phương pháp tìm kiếmbằng từ khoá:

Trang 12

• Cấu thành thông tin cần thiết: người sử dụng không biết chính xác cầnphải đặt câu hỏi gì.

• Cấu thành truy vấn: người sử dụng không biết phải sử dụng từ khoá gìliên quan với thông tin mà họ muốn tìm kiếm

• Cấu thành kết quả: tạo danh sách các ảnh phù hợp với từ khoá có thể

bỏ qua mất một phương diện hay nhất của việc lưu trữ là quan hệ giữa các ảnh trong cơ

sở dữ liệu rất đa dạng và phong phú

Công nghệ web ngữ nghĩa (semantic web) hứa hẹn có thể giải quyết được những khó khăn trên

1.2.2.2 Chú giải ngữ nghĩa

Các cách tiếp cận sau thường được sử dụng để chú giải ảnh:

- Từ khoá: danh sách các từ được phép sử dụng để chú giải ảnh được hạn chế

làm cho việc tìm kiếm dễ dàng hơn

- Phân loại: có nhiều hệ thống phân loại có khả năng phân loại theo nhiều

phương diện khác nhau thành các cây phân cấp theo chủ đề Một ảnh có thể chú thíchbằng một tập các chủ đề mô tả ảnh đó Ví dụ, ảnh trên một chiếc phong bì vẽ một toà lâuđài có thể liên quan tới lớp “phong bì” và lớp “lâu đài”

- Mô tả ảnh: Sử dụng những câu mô tả các đối tượng ảnh có trong ảnh Hệ

thống tra cứu thông tin có nhiệm vụ đánh chỉ số các văn bản này để có thể tìm kiếm bằng

từ khoá

1.2.2.3 Tra cứu ảnh ngữ nghĩa

Các bản thể tạo thành hạt nhân của của các hệ thống tra cứu ảnh ngữ nghĩa được sử dụng cho ba mục đích:

Trang 13

o Thuật ngữ chú giải: mô hình bản thể cung cấp thuật ngữ và các khái niệm để diễn tả dữ liệu về dữ liệu (metadata) của các ảnh.

o Tìm kiếm theo cách nhìn: các bản thể của một mô hình, chẳng hạn Sựkiện, Con người hoặc Vị trí cho ta các cách nhìn khác nhau vào cùng một nội dung giớithiệu Mỗi cách nhìn bao gồm các lớp và các trường hợp ví dụ biểu diễn bằng metaphorcủa một trình duyệt hệ thống file trong đó các lớp tương ứng với các thư mục và cáctrường hợp ví dụ tương ứng với các file

o Duyệt ngữ nghĩa: Sau khi tìm kiếm được tâm điểm chú ý là một ảnhnào đó, mô hình bản thể ngữ nghĩa cùng với dữ liệu ảnh ví dụ có thể được sử dụng để tìm

ra mối quan hệ giữa ảnh được lựa chọn và các ảnh trong cơ sở dữ liệu ảnh Các ảnh này

sẽ được đưa ra cho người sử dụng chọn Những ảnh đó có thể không phù hợp hoàn toànvới truy vấn nhưng nói chung là tương đối phù hợp

Hạn chế cơ bản của phương pháp tra cứu ảnh theo nội dung và phản hồi thíchhợp là chúng dựa trên các đặc điểm mức thấp (màu sắc, kết cấu, hình dạng) của ảnh

mà những đặc điểm mức thấp lại rất hạn chế khi thể hiện không chỉ sự tương tự vềmặt nội dung mà cả sự tương tự về mặt khái niệm và ngữ cảnh giữa các ảnh vớinhau

Mặt khác, các công cụ tra cứu ảnh dựa trên văn bản (text-based) lại bị hạn chếbởi không phải lúc nào ảnh cũng được chú thích đầy đủ và những chú thích nếu cócũng rất khó mô tả đầy đủ được nội dung của một tấm ảnh

Phần sau đây giới thiệu một cách tiếp cận mới xây dựng một hệ thống tra cứutheo nội dung, khái niệm và ngữ cảnh cho phép sử dụng những phản hồi của người

Trang 14

-17-sử dụng về sự thích hợp giữa các ảnh chỉ -17-sử dụng các liên kết giữa các ảnh màkhông dựa vào các đặc điểm của ảnh hay các lời chú thích.

Như đã giới thiệu ở phần 1.2.1, kỹ thuật tra cứu ảnh theo nội dung dựa vàonhững đặc điểm mức thấp như màu sắc, kết cấu và hình dạng của đối tượng ảnh.Trong khi các phương pháp mô tả ảnh mức cao có khả năng mô tả gần gũi hơn vớitrực giác của người sử dụng nhưng việc phát triển những phương pháp đó mới dừng

ở mức thử nghiệm và đòi hỏi rất nhiều quá trình xử lý phức tạp

Mặc dù việc mô tả ảnh bằng các đặc điểm mức thấp có thể thực hiện khá hiệuquả và đơn giản nhưng nhược điểm lớn nhất của phương pháp này là không gần gũivới sự cảm nhận trực quan của hầu hết người sử dụng và do đó thường không đủđáp ứng nhu cầu của người sử dụng Những ảnh mà ta cảm nhận được sự giốngnhau bằng mắt thường nhưng đôi khi lại rất khác nhau nếu so sánh bằng các đặcđiểm mức thấp

Động lực của phương pháp này dựa trên một thực tế là những ảnh thích hợp vềmặt trực giác thường không có chung những đặc điểm mức thấp nhưng vẫn có sựtương tự về mặt khái niệm và về mặt ngữ cảnh đối với con người Ví dụ, những ảnhchụp người trong bộ đồ tắm thường có màu sắc, hình dạng và kết cấu rất đa dạngnhưng về mặt khái niệm thì lại được con người cảm nhận là tương tự nhau

Vì vậy phương pháp tra cứu ảnh theo đồ thị được giới thiệu ở đây không dựatrên các đặc điểm ở mức thấp (trừ giai đoạn khởi tạo) mà dựa vào những sự liên kết

có tính trực giác giữa các ảnh được thiết lập bởi người sử dụng bằng cách phản hồithích hợp

Mục tiêu của phương pháp này là xây dựng một sơ đồ để tích luỹ thông tin donhững tương tác với người sử dụng theo cách đơn giản hơn phản hồi thích hợp và sửdụng những thông tin này để việc tra cứu ảnh cho những kết quả có ý nghĩa trựcgiác hơn [8, 9]

Trang 15

CHƯƠNG 2: TRA CỨU ẢNH THEO NỘI DUNG

2.1 GIỚI THIỆU

Phương pháp tra cứu ảnh theo nội dung (Content-Based Image Retrieval) sử

dụng các nội dung trực quan của ảnh như màu sắc, hình dạng, kết cấu (texture) và

phân bố không gian để thể hiện và đánh chỉ số các ảnh [1, 6, 7, 11] Trong một hệ

thống tra cứu ảnh theo nội dung điển hình (hình vẽ 2.1) các nội dung trực quan của

ảnh được trích chọn và mô tả bằng những véc tơ đặc trưng nhiều chiều Tập hợp các vec tơ đặc trưng của các ảnh trong một cơ sở dữ liệu ảnh tạo thành cơ sở dữ liệu

đặc trưng Quá trình tra cứu ảnh được tiến hành như sau: người sử dụng cung cấp

cho hệ thống tra cứu một ảnh mẫu cụ thể hoặc hình vẽ phác thảo của đối tượng ảnh

cần tìm Sau đó hệ thống sẽ chuyển những mẫu này thành các véc tơ đặc trưng vàtính toán sự giống nhau (hay độ tương tự) giữa véc tơ đặc trưng của ảnh mẫu và véc

tơ đặc trưng của các ảnh trong cơ sở dữ liệu Sau cùng việc tra cứu được tiến hànhvới sự trợ giúp của các sơ đồ đánh chỉ số Sử dụng sơ đồ đánh chỉ số là cách hiệuquả để tìm kiếm trong các cơ sở dữ liệu ảnh Một số hệ thống tra cứu ảnh mới pháttriển gần đây còn tích hợp cả chức năng xử lý phản hồi của người sử dụng để cảitiến các qui trình tra cứu để đưa ra những kết quả tra cứu tốt hơn

Trang 16

2.2 MÔ HÌNH HỆ THỐNG TRA CỨU ẢNH THEO

NỘI DUNG

Phản hồi thích hợp

Tra cứu và Đánh chỉ số

Đầu ra

Kết quả tra cứu

Hình 2.1: Mô hình hệ thống Tra cứu ảnh theo nội dung

Trong mô hình này, người sử dụng sẽ tạo truy vấn bằng cách chọn một ảnh

mẫu trong một cơ sở dữ liệu ảnh cho trước hoặc phác thảo một hình vẽ mô tả đối

tượng ảnh cần tìm bằng cách sử dụng một giao diện đồ hoạ của hệ thống

Ảnh mẫu đó được đưa qua khối mô tả nội dung trực quan, trong đó người ta sử

dụng một phương pháp mô tả nội dung trực quan nào đó để trích chọn một đặc điểm

nội dung trực quan để xây dựng thành một véc tơ đặc trưng

Véc tơ đặc trưng của ảnh mẫu sẽ được so sánh với véc tơ đặc trưng tương ứng

Trang 17

ảnh tìm được (đã được sắp xếp) được đưa ra đầu ra của hệ thống.

Trang 18

-20-2.3 CÁC PHƯƠNG PHÁP MÔ TẢ NỘI DUNG ẢNH

Nếu nhìn một cách tổng quát thì nội dung của một bức ảnh có thể bao gồm cả

nội dung trực quan và nội dung ngữ nghĩa [1].

Nội dung trực quan của ảnh lại được phân làm hai loại là nội dung tổng quan

và nội dung đặc tả Nội dung tổng quan bao gồm màu sắc, kết cấu, hình dạng và các

quan hệ không gian giữa các đối tượng ảnh hoặc giữa các vùng ảnh Nội dung đặc tảthì tuỳ vào từng ứng dụng cụ thể, ví dụ với các ứng dụng tra cứu ảnh người thì mặtngười hoặc con mắt là các nội dung đặc tả; với các ứng dụng tra cứu ảnh ô tô thìbánh xe là một nội dung đặc tả [1]

Nội dung ngữ nghĩa có thể phát hiện thông qua các chú thích hoặc sử dụng cácphương pháp suy diễn từ nội dung trực quan

Trong khuôn khổ của luận văn này chúng tôi chỉ tập trung vào việc mô tả nội

dung trực quan tổng quan của ảnh.

Một phương pháp mô tả nội dung trực quan được thiết kế tốt phải có tính bấtbiến đối với các biến đổi bất thường sinh ra trong quá trình xử lý ảnh (ví dụ nhưnhững biến đổi bất thường của độ sáng của cảnh vật) Tuy nhiên cũng cần phải chú

ý tới sự cân bằng giữa tính bất biến và khả năng đáp ứng những thay đổi tuỳ ý củacác đặc trưng trực quan của ảnh, bởi vì một hệ thống có tính bất biến lớn thì thường làkhông có tính nhạy cảm, mất khả năng phản ánh những thay đổi nhỏ nhưng rất quantrọng

Một phương pháp mô tả nội dung trực quan có thể là phương pháp toàn cục

hoặc phương pháp cục bộ Phương pháp mô tả nội dung toàn cục sử dụng các đặc trưng trực quan của toàn bộ bức ảnh còn phương pháp mô tả nội dung cục bộ lại sử

dụng những đặc trưng trực quan của các vùng ảnh hoặc các đối tượng ảnh để mô tảnội dung của ảnh

Để mô tả được nội dung cục bộ trước hết người ta phải chia ảnh thành cácphần riêng biệt Cách đơn giản nhất để phân chia ảnh là sử dụng một bộ phân hoạch

Trang 19

chia ảnh thành các ô có kích thước và hình dạng giống nhau Cách phân chia đơngiản như vậy không tạo ra được những vùng ảnh có ý nghĩa thực sự nhưng nó làcách đơn giản để biểu diễn nội dung toàn cục của ảnh với độ chính xác cao hơn.Một phương pháp phân chia tốt hơn là phân chia ảnh thành các vùng đồng nhất dựavào các tiêu chí sử dụng các thuật toán phân vùng ảnh đã được nghiên cứu và ápdụng trong ngành thị giác máy tính.

Một cách phức tạp hơn để phân chia ảnh là thực hiện phân chia theo các đốitượng ảnh để tách ra các đối tượng ảnh có nghĩa thực sự (như quả bóng, cái ô tô haycon ngựa) [1, 10]

Phần tiếp theo giới thiệu một số một số kỹ thuật đang được sử dụng rộng rãi đểtrích chọn các đặc điểm màu sắc, kết cấu, hình dạng và các quan hệ không gian củacác đối tượng ảnh

Trên thực tế thì màu sắc được sử dụng nhiều nhất để mô tả nội dung trực quancủa ảnh Lý do là vì màu sắc của ảnh có tác động lớn đến nhận thức của con người

về nội dung của ảnh hơn là các đặc điểm khác như hình dạng của các đối tượng ảnh,kết cấu của ảnh hay sự phân bố không gian của các đối tượng ảnh

Màu sắc được biểu diễn thông qua một véc tơ 3 chiều sẽ có khả năng biểu diễntốt hơn so với việc chỉ sử dụng giá trị độ xám của ảnh (1 chiều) Trước khi xem xét

kỹ hơn về các phương pháp mô tả nội dung màu sắc, chúng ta cùng tìm hiểu sơ lược

về các không gian màu

2.3.1.1 Không gian màu

Mỗi điểm ảnh trên một bức ảnh có thể được biểu diễn bằng một điểm trongmột không gian màu 3 chiều Những không gian màu được sử dụng nhiều nhất

Trang 20

trong các hệ thống tra cứu ảnh là RGB, CIE L*a*b, CIE L*u*v, HSV và không gian

màu đối lập

Người ta cũng chưa chỉ ra được rằng không gian màu nào được sử dụng tốthơn cho việc tra cứu ảnh Tuy nhiên tính chất quan trọng nhất để một không gianmàu phù hợp để sử dụng trong một hệ thống tra cứu ảnh là tính đồng nhất Mộtkhông gian màu được gọi là có tính đồng nhất nếu các cặp 2 màu tương tự nhautrong không gian màu thì cũng được con người cảm nhận như nhau Nói một cáchkhác, khoảng cách đo được giữa hai màu bất kỳ phải có liên quan trực tiếp với độtương tự sinh học giữa hai màu đó

RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh Khônggian RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) và Xanhlam (Blue) Các thành phần này gọi là màu cộng bởi vì các màu sắc trong khônggian RGB đều có thể thu được bằng cách cộng 3 thành phần màu này lại với nhau.Ngược lại, CMY là không gian màu thường sử dụng trong in ấn Ba thànhphần màu của không gian CMY là màu xanh lơ (Cyan), hồng sẫm (Magenta) vàvàng (Yellow) Ba thành phần này gọi là các thành phần màu trừ vì mỗi màu trongkhông gian CMY được sinh ra bởi sự hấp thụ các thành phần màu đó

Cả RGB và CMY đều phụ thuộc thiết bị và không có tính đồng nhất

Các không gian màu CIE L*a*b và CIE L*u*v là các không gian màu khôngphụ thuộc thiết bị và có thể coi là đồng nhất Bao gồm các thành phần độ sáng (L)

và hai thành phần độ kết tủa màu (sắc độ màu) là a và b hoặc u và v CIE L*a*bđược thiết kế để làm việc với việc trộn các thành phần màu trừ còn CIE L*u*v đượcthiết kế để làm việc với việc trộn các thành phần màu cộng

Các không gian màu RGB và CIE có thể chuyển đổi với nhau, tức là chúng ta

có thể sử dụng các công thức để chuyển đổi một giá trị màu từ không gian màu nàysang không gian màu khác

Trang 21

Không gian màu HSV được sử dụng rộng rãi trong đồ hoạ máy tính và được

coi là một phương pháp biểu diễn màu sắc trực quan hơn Ba thành phần màu là sắc

màu (hue), độ bão hoà màu (s) và giá trị độ sáng (v) Thành phần sắc màu không

thay đổi khi ta thay đổi độ chiếu sáng hay góc quan sát vì vậy thích hợp để sử dụng

trong việc nhận dạng đối tượng ảnh Cũng có thể dễ dàng chuyển đổi các giá trị từ

không gian HSV sang RGB và ngược lại

Không gian màu đối lập sử dụng các trục màu ngược (R-G, 2B-R-G, R+G+B),

cách biểu diễn này có ưu điểm là tách được thông tin về độ sáng ra một trục riêng

biệt (trục thứ ba) Bằng cách này, hai thành phần kết tủa màu sẽ không bị thay đổi

khi thay đổi độ chiếu sáng

Các phần tiếp theo sẽ giới thiệu một số phương pháp mô tả nội dung màu sắc

của ảnh: các moment màu, histogram màu, véc tơ gắn kết màu và biểu đồ tương

quan màu

2.3.1.2 Các moment màu

Các moment màu đã được sử dụng rất thành công trong nhiều hệ thống tra cứu

ảnh đặc biệt là khi ảnh chỉ chứa một đối tượng ảnh Các thành phần moment bậc

nhất (trung vị), bậc hai (phương sai) và bậc ba (độ lệch) đã được chứng minh là có

thể được sử dụng rất hiệu quả để biểu diễn sự phân bố màu sắc của ảnh

Công thức toán học để biểu diễn 3 moment này như sau:

Trang 22

s i = 3 N1

N

Trong đó f ij là giá trị của thành phần màu thứ i của điểm ảnh thứ j và N là số

lượng điểm ảnh của ảnh đó

Sử dụng cả thành phần moment bậc ba s i sẽ giúp tăng cường hiệu năng tra cứu

so với khi chỉ sử dụng các moment bậc nhất μ i và bậc hai σ i Tuy nhiên đôi khi việc

sử dụng moment bậc 3 làm cho việc biểu diễn đặc trưng của ảnh nhạy cảm hơn đối

với những thay đổi của cảnh nền và do đó làm giảm khả năng của hệ thống

Do chỉ sử dụng 9 giá trị (3 moment cho mỗi màu trong bộ ba màu) để biểu

diễn nội dung màu của mỗi ảnh nên việc sử dụng moment màu để biểu diễn véc tơ

đặc trưng màu là rất đơn giản nếu so sánh với các phương pháp biểu diễn khác Và

cũng chính do sự đơn giản đó nên phương pháp này cho kết quả khá hạn chế

Thông thường, phương pháp biểu diễn bằng moment màu được sử dụng trong

những bước đầu tiên của quá trình tra cứu ảnh với mục đích làm giảm kích thước

không gian tìm kiếm trước khi áp dụng các phương pháp phức tạp hơn để tra cứu

2.3.1.3 Lược đồ màu (histogram màu)

Histogram màu là cách hiệu quả để biểu diễn nội dung màu của một bức ảnh

trong trường hợp mẫu màu của bức ảnh đó là duy nhất trong tập hợp các ảnh trong

cơ sở dữ liệu Histogram màu dễ tính toán và rất hiệu quả để biểu diễn cả sự phân

bố màu tổng quan và sự phân bố màu cục bộ của ảnh Ngoài ra, histogram màu

không bị ảnh hưởng bởi sự dịch chuyển hay sự quay của ảnh và rất ít bị ảnh hưởng

của tỉ lệ và góc nhìn ảnh

Trang 23

Do mỗi điểm ảnh được mô tả bằng ba thành phần trong một không gian ảnhxác định (ví dụ: ba thành phần Đỏ (R), Xanh lục (G) và Xanh da trời (B) trongkhông gian màu RGB hay ba thành phần là sắc màu (H), độ bão hoà màu (S) và giátrị màu (V) trong không gian HSV) nên có thể định nghĩa cho mỗi thành phần màumột histogram tức là một sự phân bố một số lượng điểm ảnh cho mỗi bin lượng tửmàu Cụ thể hơn là càng sử dụng nhiều bin màu thì khả năng biểu diễn càng tốt Tuynhiên việc sử dụng quá nhiều bin màu không chỉ làm tăng khối lượng tính toán màcòn không thích hợp để xây dựng một sơ đồ đánh chỉ số hiệu quả cho cơ sở dữ liệuảnh Hơn nữa việc lượng tử hoá quá mịn cũng không thật cần thiết trong nhiềutrường hợp.

Một cách để làm giảm số lượng bin màu là sử dụng không gian màu đối lậpcho phép làm giảm số lượng mẫu độ sáng của ảnh Một cách khác là sử dụng cácphương pháp phân cụm để xác định K màu tốt nhất trong một tập hợp ảnh xác định,mỗi một màu trong K màu tốt nhất đó được coi là một bin màu Do quá trình phâncụm tính toán sự phân bố màu của tất cả các ảnh trong cơ sở dữ liệu nên sẽ đượcgiảm thiểu được số lượng các bin màu không chứa hoặc chứa rất ít điểm ảnh

Một cách khác là sử dụng các bin màu có chứa nhiều điểm ảnh nhất, khi đó chỉcần một số lượng nhỏ bin màu cũng biểu diễn được đặc trưng quan trọng nhất củamột bức ảnh Cách làm này không những không làm giảm hiệu năng của phươngpháp so sánh histogram mà đôi khi còn làm tăng hiệu năng do các bin màu có kíchthước lớn sẽ tránh được ảnh hưởng của nhiễu

Khi cơ sở dữ liệu có chứa quá nhiều ảnh thì phương pháp so sánh histogram cóthể bị bão hoà, khi đó kết quả so sánh histogram màu chưa chắc đã phản ánh sựtương tự về nội dung của các ảnh, để khắc phục nhược điểm này người ta đưa ra kỹthuật histogram liên kết

Histogram liên kết có bổ sung thêm các thông tin khác mà không làm giảm sựđơn giản của histogram màu Để đạt được điều này, người ta phải lựa chọn rất cẩnthận các đặc trưng cục bộ sẽ bổ sung vào histogram liên kết Mỗi phần tử trong lược

Trang 24

đồ histogram liên kết chứa số lượng điểm ảnh trong ảnh được mô tả bởi một bộ cácgiá trị đặc trưng Như vậy histogram liên kết là lược đồ histogram đa chiều.

Mặt khác, do histogram màu không phản ánh được các thông tin mang tínhkhông gian của các điểm ảnh, vì vậy về mặt lý thuyết, các ảnh rất khác nhau có thể

có sự phân bố màu tương tự nhau Vấn đề này rất dễ xảy ra đối với các cơ sở dữ liệuảnh lớn Người ta đã đề xuất một vài cách khác nhau để khắc phục vấn đế này, mộtcách đơn giản nhất là chia các bức ảnh thành những phân vùng nhỏ hơn và tínhhistogram của từng phân vùng Có thể sử dụng phương pháp phân vùng đơn giản làphân thành các hình chữ nhật đồng đều hoặc phức tạp hơn là phân theo các vùngảnh hoặc các đối tượng ảnh Ảnh được phân vùng càng nhỏ thì độ chính xác càngcao nhưng khối lượng tính toán cũng nhiều hơn

2.3.1.4 Véc tơ gắn kết màu

Một cách tiếp cận khác để đưa thông tin về không gian vào histogram màu là

sử dụng véc tơ gắn kết màu (Color Cohefeence Vector - CCV) Phương pháp này cóthể tóm tắt như sau:

Mỗi bin màu được phân thành 2 loại: loại có gắn kết nếu như bin màu đó thuộc vào vùng có màu đồng nhất lớn, ngược lại thì gọi là không gắn kết Ký hiệu α i

là số lượng các điểm ảnh gắn kết của trong bin màu thứ i và β i là số lượng các điểmảnh không gắn kết trong một bức ảnh Thế thì, CCV của một bức ảnh được địnhnghĩa là véc tơ:

<(α 1 , β 1 ),(α 2 , β 2 ), , (α N , β N )>

Chú ý là <α 1 + β 1 ,α 2 + β 2 , , α N + β N > chính là histogram màu của ảnh.

Do có chứa các thông tin về không gian của các điểm ảnh nên sử dụng các véc

tơ gắn kết màu sẽ cho kết quả tra cứu tốt hơn so với sử dụng histogram màu, đặcbiệt là đối với những ảnh có vùng đồng nhất màu lớn

Trang 25

Đối với cả phương pháp dùng véc tơ gắn kết màu và phương pháp dùng

histogram màu thì sử dụng không gian HSV sẽ cho kết quả tốt hơn là sử dụng

không gian CIE L*u*v hay L*a*b

2.3.1.5 Sơ đồ tương quan màu

Sơ đồ tương quan màu không chỉ thể hiện sự phân bố màu của các điểm ảnh

mà còn thể hiện sự tương quan về mặt không gian của từng cặp màu Trong sơ đồ

tương quan màu, thành phần thứ nhất và thứ hai của một histogram màu 3 chiều thể

hiện màu sắc của một cặp màu nào đó và thành phần thứ 3 là khoảng cách không

gian của chúng

Sơ đồ tương quan màu là một bảng được đánh chỉ số bởi các cặp màu, trong

đó đầu vào thứ k của cặp (i,j) thể hiện xác suất để tìm thấy điểm ảnh có màu j ở

khoảng cách k so với điểm ảnh có màu i trong ảnh Giả sử I là tập hợp tất cả các

điểm ảnh trong ảnh và I c(i) là tập hợp các điểm ảnh có màu là c(i) thì có thể định

nghĩa sơ đồ tương quan màu như sau:

|| p − p

2

trong đó i, j ∈ {1, 2, , N}, k ∈ {1, 2, , d}, và |p1 – p2| là khoảng cách giữa

hai điểm p1 và p2 Nếu chúng ta tính toán cho tất cả các cặp màu có thể thì kích

thước của sơ đồ tương quan màu sẽ là rất lớn (O(N2d), vì vậy để đơn giản người ta

thường sử dụng sơ đồ tự tương quan màu Sơ đồ tự tương quan màu chỉ tính toán sự

liên hệ không gian của các cặp màu giống nhau và vì vậy giảm độ phức tạp tính

toán xuống còn cỡ O(Nd)

Nếu so sánh với phương pháp dùng histogram màu và phương pháp dùng véc

tơ gắn kết màu thì phương pháp dùng sơ đồ tương quan màu cho kết quả tra cứu tốt

nhất, tuy nhiên độ phức tạp cao nhất do sử dụng số chiều nhiều hơn (3 chiều)

Trang 26

2.3.1.6 Các đặc điểm bất biến màu

Màu sắc không chỉ phụ thuộc vào chất liệu của bề mặt vật thể mà còn ảnhhưởng bởi sự thay đổi của độ chói, phương hướng, góc chụp ảnh Cần phải chú ýđến những yếu tố này Tuy nhiên, sự bất biến của các yếu tố môi trường này đãkhông được tính đến trong khi trích chọn các đặc điểm màu sắc đã trình bày ở trên.Việc biểu diễn các yếu tố màu bất biến đã được giới thiệu trong một số hệthống tra cứu ảnh theo nội dung gần đây

Kết cấu (texture) là một tính chất quan trọng khác của ảnh Kết cấu là mộtthành phần có ảnh hưởng rất quan trọng đối với sự nhận thức trực quan của conngười Tất cả mọi người đều có thể nhận ra kết cấu nhưng lại rất khó có thể địnhnghĩa chính xác nó là gì

Không giống như màu sắc, kết cấu “xảy ra” trên một vùng chứ không phải tạimột điểm ảnh và thường được định nghĩa bằng các mức xám

Rất nhiều cách thể hiện kết cấu đã được nghiên cứu trong lĩnh vực nhận dạng

và thị giác máy tính Xét một cách cơ bản, các phương pháp biểu diễn kết cấu có thể

được chia thành hai loại: các phương pháp cấu trúc và các phương pháp thống kê Các phương pháp cấu trúc bao gồm các toán tử hình thái và đồ thị liền kề, mô

tả kết cấu bằng cách định nghĩa các nguyên thuỷ cấu trúc và luật sắp đặt của chúng.Các phương pháp này tỏ ra có hiệu quả khi áp dụng trong trường hợp kết cấu thôngthường

Các phương pháp thống kê bao gồm: Phương pháp phổ năng lượng Fourier,

ma trận đồng khả năng, Tamura, Phân tích Wold, trường ngẫu nhiên Markov, môhình fractal, các bộ lọc đa phân giải như biến đổi Gabor và biến đổi dạng sóng thểhiện kết cấu bằng sự phân bố thống kê của độ sáng của các điểm ảnh

Trang 27

Phần tiếp theo sẽ trình bày một số phương pháp biểu diễn kết cấu được sử

dụng rộng rãi và có hiệu quả trong các hệ thống tra cứu ảnh theo nội dung

2.3.2.1 Các đặc trưng Tamura

Các đặc trưng Tamura bao

tuyến tính, độ đồng đếu và độ gồ

thị giác con người đối với kết cấu

gồm độ thô, độ tương phản, độ định hướng, độ

ghề, được thiết kế phù hợp với sự cảm nhận của

Ba thành phần đầu tiên của các đặc trưng Tamura là độ thô, độ tương phản và

độ định hướng được dùng nhiều nhất trong các hệ thống tra cứu ảnh nổi tiếng như

QBIC, Photobook

Cách tính toán các đại lượng đặc trưng này như sau:

Độ thô

Độ thô được dùng để đo tính chất hạt của kết cấu Để tính toán độ thô, tại mỗi

điểm ảnh (x,y) ta tính toán một trung bình động (average moving) Ak(x,y) sử dụng

một cửa sổ kích thước 2kx2k (k = 0, 1, , 5):

x+2 k−1−1 y+2 k=1 −1

A k (x, y) = ∑ ∑ g(i, j) / 2 2k (2.5)

i= x−2 k−1 j = y−2 k−1

Trong đó g(i,j) là độ sáng của điểm ảnh ở vị trí (i,j).

Bước tiếp theo là tính toán sự khác nhau giữa các cặp trung bình động không

chồng lấn lên nhau theo chiều dọc và chiều ngang của các điểm ảnh:

Trang 28

Sau đó, giá trị k nào làm cho E lớn nhất theo bất kỳ chiều nào sẽ được sử dụng

để đặt cho kích thước tốt nhất cho mỗi điểm ảnh, nghĩa là:

Ngoài ra người ta cũng có thể tính toán độ thô bằng cách sử dụng histogram để

tính toán sự phân bố của Sbest Nếu so sánh với việc chỉ dùng một giá trị để thể hiện

độ thô thì các tính toán độ thô kiểu histogram có thể giúp cải thiện đáng kể hiệu

năng của hệ thống tra cứu ảnh vì cách này có khả năng phù hợp với các ảnh hoặc

vùng ảnh có nhiều loại kết cấu

Trang 29

Trong đó α4 =σ μ44 , μ4 là moment thứ tư (trung vị) và σ2 là độ biến đổi Công

thức này có thể sử dụng trên toàn bức ảnh hoặc trong một vùng ảnh nào đó

trong đó H V là các sai khác theo chiều ngang và chiều dọc của tích chập

Sau đó bằng cách lượng tử hoá θ và đếm số điểm ảnh có trọng số | G| lớn hơn

một mức ngưỡng nào đó ta có thể xây dựng được histogram của θ và ký hiệu là H D

Histogram này sẽ có nhiều đỉnh cực đại nếu ảnh có độ định hướng cao, còn với

những ảnh không có tính định hướng thì histogram này sẽ bằng phẳng hơn

Cuối cùng, tính toán histogram tổng hợp của cả ảnh để xác định độ định hướng

tổng thể dựa trên độ sắc của các đỉnh:

n p

p Φ∈w p

Trang 30

Trong công thức này, p chạy trên tất cả các đỉnh n p , và đối với mỗi đỉnh p, w p

là tập các bin phân bố trên đỉnh đó còn Φ p là bin đạt giá trị tại đỉnh đó

2.3.2.2 Các đặc trưng Wold

Một cách tiếp cận khác để biểu diễn kết cấu là sử dụng phân tích Wold Phân

tích Wold có 3 thành phần độ hài hoà, độ phai mờ và độ bất định tương ứng với các

đặc điểm tính chu kỳ, tính định hướng và tính ngẫu nhiên của kết cấu.

Các kết cấu có tính chu kỳ có thành phần độ hài hoà cao, các kết cấu có tính

định hướng cao có thành phần độ phai mờ lớn còn các kết cấu có tính cấu trúc ít hơn

thì thành phần độ bất định lớn hơn.

Đối với trường ngẫu nhiên đồng đều thuần nhất {y(m,n), (m,n) ∈Z 2 } thì phép

phân tích Wold 2D sẽ cho 3 thành phần trực giao từng đôi một:

y(m,n) = u(m,n) + d(m,n) = u(m,n) + h(m,n) + e(m,n)

trong đó Fy (ξ ,η), Fu (ξ ,η), Fd (ξ ,η), Fh (ξ ,η), Fe (ξ ,η) tương ứng là các hàm phân

bố phổ (SDF) của {y(m,n)}, {u(m,n)}, {d(m,n)}, {h(m,n)} và {e(m,n)} (2.15)

Trong miền không gian, 3 thành phần trực giao có thể tính toán được bằng

phép ước lượng khả năng tối đa (MLE) liên quan đến việc điều chỉnh qui trình tự

Trang 31

thoái lui (AR) bậc cao, tối thiểu hàm định giá và giải hệ các phương trình tuyến

tính

Trong miền tần số, có thể tính toán được các thành phần Wold bằng cách đặt

ngưỡng tổng thể cho các biên độ phổ Fourier của ảnh

2.3.2.3 Mô hình tự thoái lui đồng thời (mô hình SAR)

Mô hình SAR là một biến thể của trường ngẫu nhiên Markov (MRF), được sử

dụng rất hiệu quả để mô hình hoá kết cấu ảnh trong những năm gần đây So với

những mô hình MRF khác, SAR sử dụng ít tham số hơn Trong mô hình SAR, độ

chói của các điểm ảnh được coi như các biến ngẫu nhiên Độ chói g(x,y) của điểm

ảnh (x,y) được coi như là một tổ hợp tuyến tính của đội chói của điểm ảnh liền kề

g(x’,y’) và mẫu nhiễu dương ε(x,y) tức là:

g(x, y) = μ + θ (x', y')g(x', y') + ε (x, y) (2.16)

( x', y')∈D

trong đó μ là giá trị sai lệch xác định bởi giá trị trung bình trên toàn ảnh; D là

tập các điểm ảnh lân cận của (x,y); θ(x’,y’) là tập các trọng số của các điểm ảnh lân

cận; ε(x,y) là biến ngẫu nhiên Gauss độc lập với trung bình θ và biến thiên σ 2

Các tham số θ và σ được sử dụng để đo kết cấu Ví dụ, giá trị σ cao hơn thể

hiện kết cấu mịn hơn, đỡ thô hơn; các giá trị θ(x,y+1) và θ(x,y-1) lớn hơn cho biết

ảnh có tính định hướng theo chiều dọc Kỹ thuật sai số bình phương tối thiểu (LSE)

hoặc phương pháp ước lượng khả năng tối đa (MLE) thường được sử dụng để ước

lượng các tham số của mô hình SAR

Trang 32

2.3.2.4 Ma trận đồng khả năng (Co-occurrence matrix) [7]

Cách biểu diễn kết cấu bằng

mặt không gian của các mức xám

như sau:

ma trận đồng khả năng thể hiện sự liên quan về Định nghĩa toán học của ma trận đồng khả năng

o Giả sử có một toán tử vị trí P(i,j)

o A là một ma trận kích thước n×n, phần tử A[i][j] biểu thị số lần mà

các điểm có mức xám (độ chói) là g[i] và g[j] thoả mãn toán tử P.

o Đặt C là ma trận kích thước n×n tính được bằng cách chia ma trận A

cho tổng số cặp điểm thoả mãn toán tử P C[i][j] là xác suất để một cặp điểm thoả mãn

toán tử P có cặp giá trị g[i], g[j].

Một ví dụ về toán tử P: “i nằm phía trên j”, hoặc “i nằm ở cách j một vị trí về

phía phải và hai vị trí về phía dưới”

Cũng có thể diễn tả về ma trận đồng khả năng theo cách sau đây: giả sử t là

một dịch chuyển, khi đó ma trận đồng khả năng C t của một vùng được định nghĩa

cho mỗi cặp mức xám (a,b) theo công thức:

C t (a,b) = card{(s, s+t) ∈ R 2 | A[s] = a, A[s+t] = b} (2.17)

đây, C t (a, b) là số cặp điểm (ký hiệu là (s, s+t)) được xác định bới véc tơ

dịch chuyển t mà a là độ xám của s và b là độ xám của s+t.

Ví dụ: với một ảnh có 8 mức xám và véc tơ t là một dịch chuyển một vị trí thì:

Với ảnh mẫu:

1 2 1 3 4

2 3 1 2 4

3 3 2 1 1

Trang 33

Ta thu được một ma trận đồng khả năng như sau:

Trước hết người ta xây dựng những ma trận đồng khả năng dựa trên phương

hướng và khoảng cách giữa các điểm ảnh Sau đó từ những ma trận đó có thể rút ra

được các con số thống kê có nghĩa về kết cấu

Một số đặc trưng của kết cấu có thể tính được dựa vào phương pháp ma trận

Ngoài ra còn có thể xây dựng được nhiều đặc trưng khác như độ tương quan,

phương sai, tổng trung bình, tổng phương sai, tổng entropy, trung vị cục bộ

Như vậy với mỗi đặc trưng kết cấu chúng ta thu được một ma trận đồng khả

năng Những ma trận đồng khả năng này thể hiện sự phân bố không gian và sự phụ

thuộc của các mức xám trong một vùng cục bộ nào đó Mỗi phần tử (i,j) của ma trận

biểu diễn xác suất xuất hiện một điểm có mức xám i và một điểm có mức xám j ở

những vị trí có khoảng cách và tạo thành một góc đã được qui định trước Dựa vào

Trang 34

những ma trận này có thể tính toán được các con số thống kê về ảnh hay chính là

các véc tơ đặc trưng cho kết cấu của ảnh đó

2.3.2.5 Lọc Gabor [1, 7, 14]

Bộ lọc Gabor được sử dụng khá rộng rãi để trích chọn đặc điểm của ảnh số,

đặc biệt là các đặc điểm kết cấu Lọc Gabor được coi là tối ưu xét về khả năng tối

thiểu hoá những sự không chắc chắn liên kết trong không gian và tần số và thường

được sử dụng như là bộ phát hiện hướng và phát hiện biên điều hướng được Có

nhiều cách tiếp cận để phát hiện các đặc điểm kết cấu dựa vào bộ lọc Gabor Ý

tưởng chính của việc sử dụng bộ lọc Gabor để trích chọn các đặc điểm kết cấu như

Trang 35

đây dấu * thể hiện liên hợp phức Sau đó trung vị μ mn và độ lêch tiêu chuẩn

σ mn của biên độ của W mn (x,y) là

có thể được sử dụng để biểu diễn các đặc điểm của một kết cấu thuần nhất

2.3.2.6 Biến đổi dạng sóng (wavelet transform)

Cũng giống như phương pháp lọc Gabor, phương pháp biến đổi dạng sóng là

cách phân tích và phân loại áp dụng cho các kết cấu nhiều chiều

Biến đổi dạng sóng phân tích một tín hiệu thành một họ các hàm cơ sở ψ mn (x)

bằng cách dịch chuyển và co giãn một hàm gốc ψ(x), tức là:

Trong đó m và n là tham số co giãn và tham số dịch chuyển Một tín hiệu f(x)

có thể được biểu diễn dưới dạng:

Trang 36

f (x) = c mn ψ mn (x) (2.25)

m,n

Việc tính toán các biến đổi dạng sóng của các tín hiệu hai chiều có liên quan

tới quá trình lọc đệ qui và lấy mẫu lại Ở mỗi mức thì tín hiệu được phân tích thành

4 dải tần số con là LL, LH, HL và HH, trong đó L ký hiệu cho tần số thấp và H ký

hiệu cho tần số cao

Hai dạng biến đổi dạng sóng chủ yếu được dùng trong phân tích kết cấu ảnh là

biến đổi dạng sóng theo kiểu hình hình chóp (PWT) và biến đổi dạng sóng theo

kiểu hình cây (TWT).

PWT phân tích một cách đệ qui dải tần số LL, tuy nhiên đối với một số loại

kết cấu thì những thông tin quan trọng nhất thường xuất hiện ở các kênh tần số

trung bình Để khắc phục nhược điểm này của PWT thì TWT còn có thể phân tích ở

các dải tần số khác như LH, HL hoặc HH nếu cần

Sau quá trình phân tích, có thể xây dựng các véc tơ đặc trưng bằng cách sử

dụng trung vị và độ lệch chuẩn của phân bố năng lượng của mỗi dải tần con

(sub-band) tại mỗi mức đệ qui

Khi thực hiện phân tích mức thì PWT cho kết quả là một véc tơ đặc trưng có

3×4×2 thành phần Đối với TWT, véc tơ đặc trưng phụ thuộc vào thứ tự phân tích

các dải tần số con Có thể xây dựng được một cây phân tích cố định bằng cách phân

tích tuần tự các dải tần LL, LH và HH, kết quả cho ra sẽ là một véc tơ đặc trưng có

52×2 thành phần

Lưu ý là trong ví dụ này thì véc tơ đặc trưng kết quả của phân tích PWT chỉ là

tập con của véc tơ do phân tích TWT sinh ra Ngoài ra qua so sánh sự khác nhau của

véc tơ đặc trưng thu được khi sử dụng các phương pháp biến đổi dạng sóng

Trang 37

khác nhau, người ta thấy rằng việc lựa chọn bộ lọc dạng sóng không ảnh hưởng lớnlắm đến các phân tích kết cấu ảnh.

Các đặc điểm hình dạng của các vùng ảnh và các đối tượng ảnh được sử dụngtrong rất nhiều hệ thống tra cứu ảnh So với các đặc điểm về màu sắc và các đặcđiểm về kết cấu thì các đặc điểm về hình dạng thường chỉ được sử dụng sau khi ảnh

đã phân thành các vùng hoặc các đối tượng ảnh Nhưng do việc phân vùng và táchđối tượng ảnh khó thu được kết quả tốt nên việc sử dụng các đặc điểm hình dạng đểtra cứu ảnh thường bị bó hẹp trong một số ứng dụng mà ở đó các vùng ảnh hoặc đốitượng ảnh đã được tách biệt rõ ràng

Các phương pháp trích chọn đặc điểm hình dạng thường được chia thành hai

loại là trích chọn dựa theo đường biên (xấp xỉ đa giác, mô hình phần tử hữu hạn,

mô tả hình dạng theo Fourier) và trích chọn dựa theo vùng ảnh (mô hình thống kê).

Một phương pháp trích chọn đặc điểm hình dạng tốt phải đảm bảo yêu cầu làphải không phụ thuộc vào vị trí, góc quay hay sự co giãn của đối tượng ảnh

Trước khi áp dụng các phương pháp trích chọn đặc điểm hình dạng, các đốitượng ảnh cần phải được tách ra khỏi ảnh Giả sử là trong mỗi ảnh chỉ có một đốitượng ảnh duy nhất, nhiệm vụ của hệ thống trước hết là phải tách được đối tượngảnh ra khỏi nền ảnh

Cách biểu diễn hình dạng của đối tượng ảnh có thể chia thành hai kiểu: [1, 12]

o Theo đường bao quanh (biên)

Cách biểu diễn theo đường viền bao quanh chỉ sử dụng đường biên bên ngoàicủa hình dạng, điều này có thể thực hiện được bằng cách mô tả vùng đang quan tâmbằng cách đặc tính bên ngoài của nó tức là các điểm ảnh dọc theo đường viền bao

Trang 38

quanh đối tượng ảnh Cách biểu diễn theo vùng sử dụng cả vùng ảnh bằng cách mô

tả vùng đang quan tâm bằng các đặc tính bên trong tức là các điểm ảnh ở bên trongvùng đó

Hình 2.2: Biểu diễn hình dạng theo đường biên và theo vùng

2.3.3.1 Biên và các phương pháp phát hiện biên

Nếu đã biết là một đối tượng có một biên rời rạc bao quanh và có thể tìm đượcmột điểm nằm trên biên đó thì từ điểm đó có thể đi theo đường biên bao quanh đốitượng và quay trở lại điểm xuất phát Dò biên là một thao tác rất quan trọng, đặcbiệt là khi cần xác định xem một điểm ảnh có nằm trong một vùng ảnh nào đó haykhông

Một điểm ảnh được gọi là biên nếu ở đó có sự thay đổi đột ngột về mức xám.Tập hợp các điểm biên tạo thành biên của ảnh

Phương pháp này làm nổi biên dựa vào sự biến thiên độ xám của ảnh Kỹ thuậtchủ yếu dùng để phát hiện biên là kỹ thuật đạo hàm

o Nếu lấy đạo hàm bậc nhất của ảnh ta có phương pháp Gradient Vìảnh số là các tín hiệu rời rạc nên không tồn tại đạo hàm nên thực chất phương pháp nàychỉ là mô phỏng và xấp xỉ đạo hàm bằng kỹ thuật nhân chập

Trang 39

Các kỹ thuật Gradient làm việc khá tốt khi độ xám thay đổi rõ nét.

o Nếu lấy đạo hàm bậc hai của ảnh ta có kỹ thuật Laplace Một số dạng

xấp xỉ đạo hàm bậc hai của ảnh:

Các kỹ thuật Laplace làm việc hiệu quả với ảnh có mức xám thay đổi chậm,

miền chuyển tiếp trải rộng

Ngày đăng: 11/11/2020, 22:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w