1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số kỹ thuật tìm kiếm ảnh theo nội dung trong cơ sở dữ liệu đa phương tiện

60 425 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 60
Dung lượng 690,67 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tuy nhiên, trong những năm gần đây xuất hiện nhu cầu vô cùng lớn về khả năng khai thác và xử lý dữ liệu với số lượng khổng lồ mà các dữ liệu này thì không dễ dàng diễn tả bằng các kí hiệ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

DƯƠNG HOÀNG HUYÊN

MỘT SỐ KỸ THUẬT TÌM KIẾM ẢNH THEO NỘI DUNG

TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

LUẬN VĂN THẠC SĨ

Hà Nội - 2005

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

DƯƠNG HOÀNG HUYÊN

MỘT SỐ KỸ THUẬT TÌM KIẾM ẢNH THEO NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

Ngành : Công nghệ thông tin

Trang 3

Tổng quan về cơ sở dữ liệu đa phương tiện 7

1.1 Các khái niệm cơ bản 7

1.2 Nguyên lý thiết kế CSDL đa phương tiện 8

1.3 Kiến trúc hệ thống và mô hình dữ liệu CSDL đa phương tiện 11 1.3.1 Kiến trúc tổng quát 11

1.3.2 Mô hình dữ liệu 13

1.3.3 Giao diện người dùng 14

1.3.4 Trích chọn đặc trưng, chỉ số hóa và độ đo tương tự 16

Trang 4

2.2 Tìm kiếm ảnh dựa vào đặc trưng màu 26

2.2.1 Không gian màu 26

2.2.2 Lượng tử hóa màu 28

2.2.3 Biểu đồ màu 29

2.2.4 Độ đo khoảng cách của biểu đồ màu 30

2.2.5 Kỹ thuật tìm kiếm ảnh dùng biểu đồ màu 32

2.2.6 Kỹ thuật tìm kiếm ảnh dùng moment màu 40

2.3 Tìm kiếm ảnh dựa vào đặc trưng texture 41

2.3.1 Một số khái niệm về texture 41

2.3.2 Ma trận đồng hiện (co-occurrence matrix) 44

2.3.3 Phương pháp chuỗi texture (texture spectrum methods) 46 2.3.4 Đặc trưng tương quan tự động 48

2.3.5 Các đặc trưng của Tamura 49

2.3.6 Độ đo tương tự của texture 50

2.4 Tìm kiếm ảnh dựa vào đặc trưng hình dạng 50

2.4.1 Moment bất biến 51

2.4.2 Biểu diễn hình dạng dựa vào vùng 52

2.4.3 Kí hiệu mô tả Fourier 54

Trang 5

3.1.1 Phương pháp dùng biểu đồ màu cục bộ 58

3.1.2 Phương pháp dùng biểu đồ màu toàn cục 62

3.1.3 Phương pháp dùng moment màu 62

3.2 Tìm kiếm dựa vào đặc trưng texture sử dụng ma trận đồng hiện 66

3.3 Tìm kiếm dựa vào đặc trưng hình dạng sử dụng các moment bất biến 69 Kết luận 72

Tài liệu tham khảo 73

Tiếng Việt 73

Tiếng Anh 73

Trang 6

HSV Hue, Saturation, Value

LBP Local Binary Pattern

LCH Local Color Histogram

MMDBMS Multimedia DataBase Management System RGB Red, Blue, Green

SQL Structure Query Language

URL Uniform Resouse Locator

XLB X-Lower Boundary

XUB X-Upper Boundary

Trang 7

Danh sách các hình trong luận văn

Hình 1.1 Sơ đồ nguyên lý tự trị 9

Hình 1.2 Sơ đồ nguyên lý thống nhất 9

Hình 1.3 Sơ đồ nguyên lý tổ chức lai 10

Hình 1.4 Kiến trúc tổng quát của MMDBMS 12

Hình 1.5 Mô hình dữ liệu tổng quát 14

Hình 1.6 Hệ thống tìm kiếm ảnh theo nội dung tiêu biểu 24

Hình 2.1 Không gian màu RGB 27

Hình 2.2 Không gian màu HSV 28

Hình 2.3 ảnh trước và sau khi lượng tử hóa 29

Hình 2.4 Khoảng cách dạng Minkowski 31

Hình 2.5 Khoảng cách dạng toàn phương 31

Hình 2.6 Biểu đồ màu của 3 ảnh A, B, C 32

Trang 8

Hình 2.15 ảnh trước và sau khi chuyển thành ảnh xám 42

Hình 2.16 Một số texture tiêu biểu 43

Hình 2.17 Ví dụ ma trận đồng hiện 44

Hình 2.18 Ví dụ phương pháp mẫu nhị phân cục bộ 47

Hình 2.19 Ví dụ hàm tương quan tự động 48

Hình 2.20 Ví dụ biểu diễn hình dạng theo vùng 53

Hình 3.1 Kết quả thực nghiệm phương pháp LCH với lưới 16?16 61 Hình 3.2 Kết quả thực nghiệm phương pháp LCH với lưới 8?8 61

Hình 3.3 Kết quả thực nghiệm phương pháp GCH 65

Hình 3.4 Kết quả thực nghiệm phương pháp moment màu 65

Hình 3.5 Kết quả thực nghiệm ma trận đồng hiện với d(0,1) 68

Hình 3.6 Kết quả thực nghiệm ma trận đồng hiện với d(1,1) 68

Hình 3.7 Kết quả thực nghiệm moment bất biến 71

Trang 9

Mở đầu

Ngay từ ban đầu máy tính đ• được coi là các thiết bị xử lý các biểu tượng, các kí

tự đầu vào có dạng alphabet và đầu ra là các biểu tượng có cùng dạng trên Điều này đ• trở thành mô hình tính toán chuẩn dựa trên cơ sở máy Turing

Tuy nhiên, trong những năm gần đây xuất hiện nhu cầu vô cùng lớn về khả năng khai thác và xử lý dữ liệu với số lượng khổng lồ mà các dữ liệu này thì không dễ dàng diễn tả bằng các kí hiệu, dưới đây là một số ví dụ về kiểu dữ liệu như đ• nêu:

Dữ liệu hình ảnh (Image data): Các công ty thiết kế logo cho các cơ quan tổ chức nào đó Họ cần phải duy trì một CSDL ảnh các logo để khi tạo ra một logo mới sẽ không bị trùng lặp với những logo đ• có

Dữ liệu video (Video data): Trong ngữ cảnh khác, các sinh viên học từ xa muốn có một bài giảng bằng video về một chủ đề nào đó của môn học Trong trường hợp này các trường học cần phải tạo ra một tập hợp các video có nội dung về bài giảng của giáo viên với một chủ đề nào đó

Dữ liệu âm thanh (Audio data): Tình huống tương tự như trên, các sinh viên học

từ xa muốn có các đoạn audio bài giảng của các giáo viên Hoặc tình huống khác như sinh viên học ngoại ngữ muốn có các đoạn audio các cuộc đàm thoại Trong trường hợp này cũng cần phải tập hợp các đoạn audio trên theo một chủ đề nào

đó để thuận tiện trong việc sử dụng sau này

Dữ liệu tài liệu (Document data): CSDL văn bản bao gồm các đoạn văn bản, các

từ, câu, đoạn văn CSDL tài liệu khác văn bản ở chỗ nó không chỉ chứa các thông tin ở dạng thô mà còn chứa đựng cấu trúc và hình ảnh nhúng Khi đó người dùng tìm kiếm ảnh nhưng không thể tìm trong CSDL ảnh Tuy nhiên nếu có một CSDL tài liệu thì ta có thể truy cập vào ảnh trong tài liệu đó

Trang 10

Dữ liệu viết bằng tay (Handwritten data): Nhiều người thường ghi chú lên những mảnh giấy nhỏ, điều này thường hay bị mất thông tin, hoặc thông tin dễ bị mờ

Xu thế gần đây trên thế giới người ta cho rằng ghi chép điện tử ngày càng phát triển trong tương lai Người sử dụng sẽ dùng các thiết bị điện tử để ghi chép và lưu trữ các ghi chú cá nhân Mặc dù có nhiều ghi chép có thể chuyển sang m• ASCII bằng kỹ thuật phân tích chữ viết tay, nhưng có rất nhiều ghi chú không thể thực hiện được bởi vì các ghi chú thường chứa cả các nét loằng ngoằng hay các biểu đồ khối

Các kiểu dữ liệu liệt kê trên đây chỉ là một phần trong rất nhiều hình thức biểu hiện của dữ liệu phát sinh tự nhiên trong các ứng dụng khác nhau Từ những dữ liệu mới phát sinh trên, ta thấy rằng các CSDL truyền thống không thể quản lý các kiểu dữ liệu này được Do đó cần phải có có một hệ thống quản lý tất cả các loại dữ liệu media và CSDL đa phương tiện được hình thành

Trong khuôn khổ của luận văn này, chúng tôi trình bày một số vấn đề cơ bản của một hệ quản trị CSDL đa phương tiện chẳng hạn các khái niệm, kiến trúc hệ thống và mô hình dữ liệu đa phương tiện Trong đó, tập trung nghiên cứu và cài đặt thử nghiệm một số phương pháp tìm kiếm theo nội dung trên dữ liệu đa phương tiện, cụ thể là dữ liệu ảnh

Chương 1

Tổng quan về cơ sở dữ liệu đa phương tiện

1.1 Các khái niệm cơ bản

Dữ liệu Media là các kiểu thông tin hoặc biểu diễn của các kiểu thông tin như các

kí tự, ảnh, audio và video Multimedia là tập hợp các kiểu media được sử dụng với nhau Hệ quản trị cơ sở dữ liệu đa phương tiện (Multimedia DataBase

Trang 11

Management System - MMDBMS) là một hệ thống giúp người dùng thao tác trên các dữ liệu media một cách thích hợp và hiệu quả Các thao tác cơ bản của hệ quản trị CSDL thường là chèn, cập nhật, xóa và tìm kiếm một đối tượng trong CSDL Các dữ liệu media có những đặc điểm chính như sau:

- Dữ liệu media, đặc biệt là dữ liệu audio và video có dung lượng rất lớn Ví dụ một một đoạn phim khoảng 10 phút với chất lượng bình thường có thể đến 1,5

GB ở dạng không nén

- Dữ liệu audio và video có tham số thời gian Nó phải được thể hiện ở một tốc

độ cố định để đạt được hiệu quả mong muốn

- Dữ liệu media được biểu diễn ở dạng đặc thù, không có cấu trúc ngữ nghĩa rõ ràng để máy tính có thể tự động nhận biết nội dung

- { nghĩa dữ liệu đa phương tiện đôi khi không rõ ràng phụ thuộc vào cách quan sát và ý kiến chủ quan của con người Cùng một hình ảnh nhưng có thể có các nhận xét khác nhau bởi nhiều người

- Dữ liệu đa phương tiện rất giàu thông tin, để biểu diễn đầy đủ nội dung cần phải có rất nhiều tham số

1.2 Nguyên lý thiết kế CSDL đa phương tiện

Trong MMDBMS, thông thường ta sử dụng ba nguyên l{ sau đây để tổ chức nội dung của một MMDBMS:

1 Nguyên lý tự trị (principle of automony): ta phải lựa chọn để nhóm chung media cùng loại Chỉ số hóa mỗi loại media này theo cách riêng và hiệu quả nhất

để thuận tiện khi truy cập vào các đối tượng Ta gọi là tự trị vì mỗi loại media được tổ chức riêng và phù hợp với từng loại Hình 1.1 mô tả sơ đồ nguyên lý tự trị

2 Nguyên l{ đồng nhất (Principle of unformity): cố gắng tìm ra một cấu trúc trừu tượng hơn để chỉ số hóa mọi kiểu dữ liệu, khi truy cập vào các kiểu media khác nhau đều thông qua chỉ số này Nói cách khác, chúng ta biểu diễn nội dung của các đối tượng media khác nhau (ảnh, tài liệu, audio, video ) trong cùng một cấu

Trang 12

trúc dữ liệu, sau đó phát triển thuật toán để truy cập vào cấu trúc dữ liệu đó Hình 1.2 mô tả sơ đồ nguyên lý thống nhất

3 Nguyên lý tổ chức lai (Principle of hybird organization): là sự kết hợp hai

nguyên lý trên Theo nguyên lý này, một số dữ liệu media sử dụng chỉ số riêng và những dữ liệu còn lại sẽ sử dụng cùng một chỉ số Hình 1.3 mô tả tổng quát một

sơ đồ nguyên lý tổ chức lai

Cả ba nguyên l{ trên đều có những ưu và nhược điểm riêng Nguyên lý tự trị đòi hỏi phải tạo ra các thuật toán và cấu trúc dữ liệu cho mỗi media riêng và cần phải có kỹ thuật kết nối giữa các dữ liệu khác nhau Ngược lại tổ chức dữ liệu theo nguyên lý tự trị có thể dẫn tới thời gian xử lý nhanh Hơn nữa, trong nhiều trường hợp cấu trúc dữ liệu và thuật toán cho kho dữ liệu cụ thể đang tồn tại, nguyên lý tự trị là một lựa chọn tốt

Hình 1.3 Sơ đồ nguyên lý tổ chức lai

Ngược lại với nguyên lý tự trị, nguyên lý thống nhất đòi hỏi chúng ta tìm ra cấu trúc dữ liệu chung để có thể lưu trữ thông tin về ảnh, video, audio, tài liệu , điều này đòi hỏi phải khảo sát nội dung mỗi loại thông tin và cố gắng đưa ra các phần chung của nó, sau đó chỉ số hóa trên các phần chung đó Lợi thế của

nguyên lý thống nhất là dễ cài đặt và thuật toán thường chạy nhanh Trong công nghiệp, nguyên lý thống nhất được sử dụng rộng r•i thông qua các thiết bị chú giải (metadata) Bất lợi là chú giải thường được tạo một cách thủ công Tiến

Trang 13

trình tạo ra bằng tay thường mất nhiều thời gian và kinh phí Hơn nữa một số thông tin có thể bị mất nếu ngôn ngữ chú giải không đầy đủ { nghĩa để mô tả mọi khía cạnh của nội dung Ví dụ, ngôn ngữ chú thích nội dung ảnh có thể làm mất thông tin của từng điểm ảnh Tương tự, ngôn ngữ chú thích âm thanh có thể làm mất thông tin về biên độ và tần số tín hiệu tại một số điểm

Nguyên lý tổ chức dữ lai tận dụng được các lợi thế của hai kiến trúc trước đó và hạn chế được các bất lợi của nó Giả sử ta muốn tạo ra một MMDBMS có các kiểu M1, , Mn Ta sẽ chia các kiểu thành 2 tập hợp: những kiểu media có sẵn và đ• có chỉ số, ta giữ lại các chỉ số và các m• chương trình đ• tồn tại; những kiểu media không có sẵn và chưa được chỉ số, ta biểu diễn theo các chỉ số thống nhất Sau đó tạo lập m• chương trình để kết nối nhiều nguồn dữ liệu khác nhau nhờ các chỉ số của chúng Theo nguyên lý này, sẽ sử dụng tối đa các m• nguồn đang tồn tại, tiết kiệm được thời gian và sức lực bởi vì tận dụng được các chỉ số đ•

1.3 Kiến trúc hệ thống và mô hình dữ liệu CSDL đa phương tiện

1.3.1 Kiến trúc tổng quát

Kiến trúc hệ thống của một MMDBMS phải mềm dẻo và có khả năng mở rộng để

hỗ trợ các ứng dụng, các kiểu truy vấn và nội dung dữ liệu Để giải quyết vấn đề này, MMDBMS bao gồm một số module chức năng, các chức năng mới có thể thêm vào, các chức năng cũ có thể loại bỏ, cập nhật

Một tính chất quan trọng của MMDBMS đó là các dữ liệu được tổ chức phân tán Lý do là dữ liệu media thường có dung lượng lớn, được dùng chung bởi nhiều người, nếu duy trì một CSDL riêng cho từng cá nhân sẽ rất tốn kém Vì vậy, trong các MMDBMS thường có thêm một module chức năng truyền thông

Hình 1.4 mô tả kiến trúc tổng quát của một MMDBMS Trong đó có các khối chức năng chính là giao diện người dùng, khối trích chọn đặc trưng, bộ phận truyền thông, công cụ tìm kiếm và chỉ số hóa, và cuối cùng bộ phận quản lý lưu trữ Các khối chức năng này được mô tả thông qua các hoạt động

Trang 14

Các thao tác chính trong một MMDBMS đó là chèn và tìm kiếm Trong thao tác chèn, người dùng chỉ ra các đối tượng mới thông qua giao diện Các đối tượng này được lưu trữ thành các file hoặc là dữ liệu được nhập vào từ các thiết bị ngoại vi như microphone, camera, v.v… Các nội dung hoặc các đặc trưng của các đối tượng này sẽ được trích chọn tự động hoặc bán tự động thông qua các công

cụ được cung cấp trong khối trích chọn đặc trưng Các đặc trưng này và các đối tượng gốc sẽ được gởi đến server thông qua bộ phận truyền thông Tại server, các đặc trưng sẽ được tổ chức và chỉ số hóa một cách thích hợp sao cho việc tìm kiếm đạt hiệu quả tốt nhất Các đối tượng gốc sẽ được lưu trữ trên server thông qua bộ phận lưu trữ

Hình 1.4 Kiến trúc tổng quát của MMDBMS

Trong thao tác tìm kiếm, người dùng đưa ra truy vấn thông qua giao diện người dùng Truy vấn có thể là một file trên đĩa hoặc dữ liệu được nhập vào thông qua các thiết bị ngoại vi Giao diện người dùng cũng cho phép trình diễn các đối tượng trong CSDL, người dùng có thể chọn một đối tượng trong đó để làm truy vấn Nếu đối tượng trong truy vấn không có trong CSDL, các đặc trưng chính của đối tượng này được trích chọn và gởi đến server thông qua khối truyền thông Khối chỉ số hóa và tìm kiếm tìm trong CSDL các đối tượng tương tự nhất và gởi các đối tượng này đến giao diện người dùng thông qua khối truyền thông, giao diện người dùng sẽ trình diễn các đối tượng đó

1.3.2 Mô hình dữ liệu

Mô hình dữ liệu trong CSDL cung cấp một ngôn ngữ mô tả tính chất của dữ liệu dùng để lưu trữ và tìm kiếm Ngôn ngữ này phải cho người dùng định nghĩa, chèn, xóa, sửa đổi và tìm kiếm các đối tượng trong CSDL Mô hình dữ liệu đa phương tiện nắm bắt các tính chất động, tĩnh của dữ liệu đa phương tiện và cung cấp các dạng cơ bản để phát triển các công cụ sử dụng dữ liệu đa phương tiện Các tính chất tĩnh có thể là các đối tượng tạo ra dữ liệu đa phương tiện, các mối liên hệ giữa các đối tượng và các tính chất của đối tượng Các tính chất động của dữ liệu có thể là sự tương tác giữa các đối tượng, các thao tác trên đối

Trang 15

tượng Các mô hình dữ liệu phương tiện phải đáp ứng các yêu cầu cơ bản như sau:

- Mô hình dữ liệu phải có khả năng mở rộng, do đó các đối tượng mới có thể được bổ sung

- Mô hình dữ liệu phải có khả năng biểu diễn các kiểu media cơ bản và các mối quan hệ không gian và thời gian của đối tượng

- Mô hình dữ liệu phải cho phép lưu trữ và tìm kiếm hiệu quả

Một mô hình dữ liệu tổng quát thể hiện trong hình 1.5 Tầng đối tượng chỉ rõ các mối quan hệ về không gian, thời gian và sự tích hợp giữa các đối tượng Tầng các kiểu media chứa các kiểu media chung như text, image, audio và video Tại mức này, các đặc trưng và thuộc tính của đối tượng được chỉ rõ Ví dụ, đối với ảnh có thể có các tính chất như kích thước ảnh, biểu đồ màu, các đối tượng chính chứa trong ảnh Tầng khuôn dạng media chỉ rõ khuôn dạng mà dữ liệu được lưu trữ Một kiểu media thông thường có nhiều khuôn dạng ví dụ như ảnh

có thể có dạng thô hoặc dạng nén Kiến trúc vừa nêu chỉ là một kiến trúc tổng quát, tùy theo mỗi ứng dụng khác nhau sẽ có một mô hình dữ liệu khác nhau, không có một tiêu chuẩn chung cho các tầng

Hình 1.5 Mô hình dữ liệu tổng quát

1.3.3 Giao diện người dùng

Người dùng tương tác với MMDBMS thông qua một giao diện Chức năng chính của giao diện là cho phép người dùng chèn, xóa, cập nhật các đối tượng trong CSDL, nhập vào các truy vấn và biểu diễn các kết quả truy vấn Một giao diện người dùng tốt phải hỗ trợ các chức năng sau đây:

- Cung cấp công cụ cho người dùng chèn các đối tượng mới vào CSDL một cách

dễ dàng

- Cung cấp công cụ cho người dùng nhập truy vấn một cách hiệu quả hoặc cho

hệ thống biết các thông tin cần thiết của truy vấn

Trang 16

- Biểu diễn kết quả truy vấn một cách hiệu quả

- Giao diện thân thiện với người dùng

Vì các tính chất đặc thù của dữ liệu đa phương tiện, nên giao diện và truy vấn của MMDBMS có một số điểm cần lưu ý như sau:

- Trong CSDL truyền thống, các bản ghi có cấu trúc với số lượng các thuộc tính cố định, mỗi bản ghi được chèn một cách thủ công vào CSDL bằng việc chỉ ra giá trị các thuộc tính Trong MMDBMS, mỗi mục dữ liệu có thể là một kiểu media bất kì hoặc là sự kết hợp của các kiểu media Những dữ liệu này không có cấu trúc và thuộc tính cố định, do đó giao diện người dùng phải cho phép người dùng chỉ rõ các kiểu dữ liệu vào, các kiểu media kết hợp các kiểu thuộc tính để trích chọn và chỉ số hóa

- Các truy vấn trong MMDBMS thường có nhiều loại và có nội dung không rõ ràng Truy vấn nhiều loại là vì người dùng có thể đặc tả truy vấn trong nhiều cách khác nhau Truy vấn là không rõ ràng bởi vì người dùng có thể chỉ biết

những gì mà họ thấy nhưng không mô tả một cách chính xác hoặc các thông tin cần thiết không được định nghĩa rõ ràng

Tìm kiếm là một thao tác rất quan trọng trong các hệ quản trị CSDL, trong

MMDBMS thông thường có hai dạng tìm kiếm: tìm kiếm bằng cách đặc tả và tìm kiếm theo mẫu Giao diện người dùng cần phải hỗ trợ hai phương pháp tìm kiếm này Tìm kiếm bằng cách đặc tả là người dùng chỉ ra các từ khóa và các tham số mô tả các đặc trưng hoặc các thuộc tính chính của thông tin cần thiết

Có hai loại truy vấn hỗ trợ cho các thao tác tìm kiếm bằng cách đặc tả đó là:

- Truy vấn dựa vào metadata: metadata là các dạng thuộc tính của các mục dữ liệu trong CSDL ví dụ nó có thể là tên tác giả và ngày tạo lập của một đối tượng tài liệu, hoặc có thể là tên file dữ liệu

- Truy vấn dựa vào chú thích: chú thích là các chuỗi văn bản mô tả nội dung của một mục dữ liệu Truy vấn là các từ khóa hoặc là các chuỗi văn bản, Việc tìm kiếm dựa vào tính chính xác giữa nội dung truy vấn và các chú thích

Trang 17

Đối với tìm kiếm bằng mẫu, giao diện người dùng đặc tả truy vấn với các kiểu media khác nhau hoặc kết hợp của các kiểu dữ liệu media Truy vấn đưa ra một đối tượng mẫu và hệ thống sẽ tìm trong CSDL đối tượng tương tự với đối

tượng mẫu Khi đó giao diện người dùng phải hỗ trợ các chức năng nhập dữ liệu

để người dùng mô tả các mẫu, chẳng hạn như microphone, camera, scanner Tuy nhiên, người dùng cũng có thể sử dụng các đối tượng đ• tồn tại trong CSDL

để làm truy vấn Để làm được điều này, giao diện phải có chức năng trình diễn các đối tượng trong CSDL Khi đó người dùng có thể chọn một đối tượng đang trình diễn để làm truy vấn Một lý do nữa để giao diện phải hỗ trợ chức năng trình diễn, đó là do người dùng nhiều khi không biết chính xác những gì họ

muốn, họ chỉ có thể nhận ra nó khi họ thấy nó Khi đó chức năng trình diễn sẽ hiển thị tất cả hoặc là một số các đối tượng, người dùng sau đó sẽ chọn ra một đối tượng thích hợp để làm truy vấn

Một vấn đề quan trọng trong giao diện đó là vấn đề trình diễn các kết quả truy vấn cho người dùng Giao diện phải biểu diễn được tất cả các loại media và các mối quan hệ không gian và thời gian của các đối tượng tích hợp Kết quả truy vấn ở nhiều dạng khác nhau có thể là một đoạn audio dài, một ảnh có kích

thước lớn, khi đó giao diện phải trích chọn những đoạn thông tin chủ yếu để trình diễn cho người dùng lựa chọn

1.3.4 Trích chọn đặc trưng, chỉ số hóa và độ đo tương tự

Các dữ liệu đa phương tiện trong CSDL được trích chọn đặc trưng và trích chọn các thuộc tính Trong quá trình tìm kiếm, các đặc trưng và thuộc tính được so sánh thay vì so sánh các đối tượng, do đó chất lượng của trích chọn đặc trưng quyết định hiệu quả tìm kiếm Nếu đặc trưng của một đối tượng không được trích chọn thì các đối tượng này sẽ không được tìm thấy trong quá trình tìm kiếm Thao tác trích chọn đặc trưng phải giải quyết được các vấn đề sau:

- Đặc trưng và thuộc tính đ• trích chọn phải đầy đủ để có thể biểu diễn nội dung của các mục thông tin

- Đặc trưng và thuộc tính đ• được trích chọn phải cô đọng, súc tích Nếu đặc trưng quá phức tạp và lớn sẽ ảnh hưởng đến hiệu quả tìm kiếm

Trang 18

- Tính toán khoảng cách của đặc trưng phải hiệu quả

Tổng quát, có bốn loại đặc trưng cơ bản sau: metadata, chú thích văn bản, đặc trưng nội dung ở mức thấp, và đặc trưng nội dung ở mức cao Metadata bao gồm các dạng hoặc các thuộc tính thực của đối tượng ví dụ như tên tác giả, ngày tạo và tiêu đề của đối tượng Metadata không mô tả hoặc giải thích nội dung của đối tượng

Chú thích văn bản là dùng văn bản để mô tả nội dung đối tượng Chú thích văn bản có thể các từ khóa hoặc chuỗi văn bản tự do Mặc dù chú thích văn bản có những hạn chế như phụ thuộc người mô tả và thường là không đầy đủ { nghĩa, tuy nhiên nó vẫn được sử dụng rộng r•i và hữu ích Thông thường, người dùng

sử dụng chú thích văn bản kết hợp với một số đặc trưng khác

Đặc trưng mức thấp nắm bắt, các thông số của đối tượng đa phương tiện và các mối quan hệ không gian và thời gian của các cặp đối tượng Các loại media khác nhau sẽ có những đặc trưng mức thấp khác nhau Trong audio, đặc trưng mức thấp bao gồm âm sắc, phân phối tầng số, sóng siêu âm Các đặc trưng mức thấp của ảnh bao gồm phân phối màu, kết cấu bề mặt, hình dạng đối tượng và các mối quan hệ không gian Các đặc trưng mức thấp của video bao gồm tham số thời gian và một số đặc trưng giống như ảnh Điểm thuận lợi của các đặc trưng mức thấp là nó có thể được trích chọn một cách tự động

Đặc trưng mức cao cố gắng nhận dạng và hiểu các đối tượng Ngoại trừ nhận dạng văn bản và tiếng nói, rất khó để có thể nhận dạng được các mẫu audio và các đối tượng trực quan khác

Sau khi đ• trích chọn đặc trưng, các kỹ thuật chỉ số hóa giúp tổ chức các đặc trưng để tìm kiếm hiệu quả Mỗi đối tượng có thể có nhiều đặc trưng để biểu diễn và mỗi đặc trưng lại có nhiều tham số, do đó cần phải có cơ chế chỉ số hóa tốt để tổ chức các đặc trưng này

Thao tác tìm kiếm trong dữ liệu đa phương tiện thường dựa vào tính tương tự thay vì tìm kiếm chính xác giữa các mục trong CSDL Tính tương tự được tính toán dựa vào các đặc trưng và thuộc tính đ• trích chọn Tuy nhiên, sự thích hợp của kết quả tìm kiếm là đánh giá chủ quan của con người Do đó yêu cầu chính

Trang 19

của độ đo tương tự là giá trị tương tự được tính phải phù hợp nhận xét của con người

1.4 Cơ sở dữ liệu ảnh

ảnh số có một vị trí vượt trội so với các dữ liệu media khác như video, audio, v.v…Tuy nhiên, không giống như dữ liệu video, audio (được sử dụng rộng r•i trong các ngành công nghiệp giải trí và tin tức), ảnh là một phần quan trọng trong nhiều lĩnh vực như nghệ thuật, lịch sử, y tế, thăm dò dầu khí, dự báo thời tiết v.v… ảnh số cũng đóng vai trò rất quan trọng các hoạt động của con người như nông nghiệp, quản lý rừng, khoa học trái đất, quy hoạch đô thị, xa hơn nữa

đó là thể thao và giải trí Trước khi giới thiệu về CSDL ảnh, chúng tôi giới thiệu khái quát một số CSDL truyền thống

1.4.1 Các cơ sở dữ liệu truyền thống

Định nghĩa một cách không hình thức CSDL quan hệ là một bảng gồm các cột và các dòng, mỗi dòng được gọi là một bộ, mỗi cột gọi là một thuộc tính, mỗi thuộc tính phải có một kiểu dữ liệu duy nhất Một ví dụ về CSDL quan hệ có tên là Client lưu trữ các thông tin khách hàng của một ngân hàng nào đó Lược đồ chi tiết như sau: Client(Comp, Fname, Lname, AcountNum, PhoneNum, StreetNum, StreetName, City) trong đó, các thuộc tính Comp, Fname, Lname, StreetName, City có kiểu dữ liệu là chuỗi văn bản mô tả tên công ty, họ và tên khách hàng, tên đường, thành phố tương ứng AcountNum, PhoneNum, StreetNum có kiểu là số nguyên dương mô tả số tài khoản, số điện thoại cá nhân và số nhà tương ứng của khách hàng Thao tác truy vấn trong CSDL quan hệ thường dùng các công cụ như SQL hoặc đại số quan hệ Một câu truy vấn thông thường trong SQL là

“SELECT A1, A2,…, An FROM R1, R2, …, Rk WHERE F” { nghĩa của câu truy vấn trên là chọn những giá trị của các thuộc tính A1, A2, …, An trong quan hệ R1, R2,

…, Rk với điều kiện F cho trước Trong ví dụ mô tả ở trên, giả sử ta muốn biết số điện thoại của một khách hàng có tên là: “John Smith” khi đó câu truy vấn trong SQL có thể như sau “Select PhoneNum From Client Where Fname=John &

Lname=Smith”

Trang 20

Mô hình dữ liệu quan hệ được sử dụng rộng r•i trong các ứng dụng hiện nay Tuy nhiên CSDL quan hệ gặp phải một số trở ngại cụ thể là:

- Dữ liệu được tổ chức dưới dạng các bộ quan hệ và các bộ với các trường khó phản ánh được các cấu trúc dữ liệu phức tạp

- Cơ chế quan hệ trên là một quan hệ tĩnh, không có cách để thay đổi số lượng các thuộc tính trong quan hệ

- Mối quan hệ nội dung giữa một bảng này với một bảng khác phải được m• hóa một cách rõ ràng thông qua cách sử dụng của cấu trúc ví dụ các ràng buộc nhất quán

Để khắc phục những nhược điểm trên, ta sử dụng CSDL hướng đối tượng Trong CSDL này, các thuộc tính được biểu diễn như là các đối tượng độc lập Tập hợp các đối tượng có tính chất giống nhau được gọi là lớp Bên trong lớp ta có thể định nghĩa các thuộc tính và các thao tác trên đối tượng Các thao tác này gọi phương thức Một ưu điểm rất quan trọng trong CSDL hướng đối tượng đó là tính kế thừa Kế thừa là một hình thức khi ta tạo ra một lớp đối tượng mới có những thuộc tính và phương thức giống với một lớp đ• có Khi đó, ta không cần phải khai báo lại toàn bộ các thuộc tính và phương thức giống nhau đó mà chỉ cần cho lớp mới kế thừa một lớp đ• tồn tại Kỹ thuật kế thừa tận dụng được tính chất đ• có, hơn nữa còn cho phép ta mở rộng các đối tượng đ• có để tạo ra một đối tượng mới, điều này khắc phục được các trở ngại của CSDL quan hệ Ngôn ngữ truy vấn trong CSDL hướng đối tượng tương tự như ngôn ngữ truy vấn trong CSDL quan hệ, tuy nhiên có sự khác nhau đó là các đối tượng có cấu trúc lồng nhau Một trường của đối tượng có thể chứa các kiểu dữ liệu phức tạp khác ví dụ như tập hợp hoặc danh sách Ngôn ngữ truy vấn trong CSDL hướng đối tượng cho phép truy xuất vào các kiểu này Ví dụ câu truy vấn sau tìm tất cả các địa chỉ Url của tài liệu có tên tác giả là P Rõ ràng một tài liệu có thể ở trên nhiều địa chỉ Url, do đó trường Url phải là một kiểu danh sách để lưu trữ các địa chỉ Url của tài liệu Cụ thể câu truy vấn trên có thể như sau: “Select struct (field : x.Url) From Document x Where x.author=P” Nếu sử dụng CSDL quan hệ để mô tả đối tượng Document, ta thấy có sự bất tiện là phải lưu trữ nhiều bảng ghi để

mô tả đầy đủ các địa chỉ web của một tài liệu

Trang 21

Một sự kết hợp của các mô hình CSDL trên, đó là mô hình quan hệ-đối tượng Theo mô hình này, ta sẽ duy trì một CSDL quan hệ và các thuộc tính trong CSDL quan hệ này có thể là một đối tượng với các thuộc tính và phương thức riêng Dạng tổng quát của một mô hình quan hệ-đối tượng có thể như sau: (A1:T1, A2:T2,…, AN :TN) trong đó Ai là một thuộc tính của quan hệ và Ti là một đối

tượng nào đó với các thuộc tính và phương thức riêng Theo mô hình này, ta có thể mở rộng mô hình quan hệ để quản l{ được các dữ liệu phức tạp hơn Xét ví

dụ đ• đề cập ở trên, trong quan hệ Client, để dễ quản lý các khách hàng ta bổ xung vào quan hệ này một thuộc tính mới đó là thuộc tính Pic thể hiện ảnh của khách hàng Dựa trên mô hình quan hệ đối tượng, quan hệ Client sẽ có lược đồ như sau: Client(Comp: String, Fname: String, Lname: String, AcountNum: Integer, PhoneNum: Integer, StreetNum: Integer, StreetName: String, City: String, Pic: Image) trong đó Image là một lớp đối tượng

1.4.2 Cơ sở dữ liệu ảnh

Nội dung ảnh bao gồm các đối tượng trong ảnh mà ta cho nó là quan trọng từ góc nhìn ứng dụng Các đối tượng trong ảnh phải có các đặc tính kết hợp như sau:

- Mô tả hình dạng: mô tả hình dạng/vị trí của vùng chứa đối tượng

- Mô tả đặc tính của từng điểm ảnh ví dụ như giá trị RGB của điểm ảnh, mức xám của ảnh đen trắng Thông thường ta không kết hợp đặc tính với từng điểm ảnh mà kết hợp với tế bào Trước khi đi vào chi tiết CSDL ảnh, xét một số định nghĩa sau đây

Mỗi ảnh I có các cặp số nguyên dương m, n kết hợp được gọi là độ phân giải của lưới ảnh Nó chia ảnh thành m?n tế bào có kích thước bằng nhau được gọi là lưới ảnh

Thuộc tính của tế bào là bộ ba (Name, Value, Method), trong đó Name xâu kí tự chỉ tên của đặc tính, Value là tập giá trị có thể gán cho đặc tính Method là giải thuật cho biết cách tính toán đặc tính

Trang 22

Một hình dạng của đối tượng là tập, P, các điểm ảnh nếu có hai điểm p, q bất kì trong hình dạng luôn tồn tại một trật tự các điểm p1, p2, …, pn trong P thỏa m•n các tính chất sau:

i/ p=p1 và q=pn

ii/ Với mọi 1 = i = n ta có pi+1 là một trong “tám láng giềng” của pi

Hình chữ nhật là hình dạng đối tượng nếu tồn tại các số nguyên XLB, XUB, YLB, YUB thỏa điều kiện: P={(x,y): XLB = x = XUB và YLB = y = YUB}

Cơ sở dữ liệu ảnh là một bộ ba (GI, Prop, Rec) trong đó GI là tập các lưới ảnh mỗi tế bào có dạng (Image, m, n), Prop là tập các đặc tính tế bào, Rec là tập các

số nguyên mô tả hình dạng của đối tượng trong mỗi ảnh

Thông thường ta dùng cơ sở dữ liệu quan hệ-đối tượng để biểu diễn CSDL ảnh Xét quan hệ có tên là Images(image, Object, XLB, XUB, YLB, YUB) trong đó Image

là tên tệp ảnh, Object là một đối tượng nằm trong ảnh đó, XLB, XUB, YLB, YUB là hình chữ nhật chứa đối tượng Tùy theo ứng dụng cụ thể mà ta định nghĩa đối tượng Object thuộc lớp nào đó Ví dụ, giả sử ta muốn duy trì một CSDL ảnh lưu trữ các logo của các tổ chức Khi đó ta có thể định nghĩa một lớp đối tượng như sau:

Trang 23

Như vậy khi gặp câu truy vấn “cho biết logo của công ty có tên là C” Ta có thể sử dụng câu truy SQL thông thường để biểu diễn truy vấn trên Cụ thể là “ Select image From Logo Where Organization.Name = C ” Tuy nhiên khi gặp câu truy vấn như sau “đây là một logo, h•y cho biết logo này giống logo của tổ chức nào”, trong trường hợp này ta không thể sử dụng các câu truy vấn thông thường Để

xử lý câu truy vấn trên ta phải cài đặt trong lớp Organization một phương thức

so khớp ảnh, giả sử phương thức Match(image I, image Q) ?[0,1] Phương thức này trả về giá trị trong đoạn [0,1] và cho biết xác suất ảnh I và ảnh Q giống nhau

là bao nhiêu Câu truy vấn trên có thể như sau: “Select image From Organization Where match(image, I)>0.7”, { nghĩa câu truy vấn trên là chọn những image trong bảng logo có xác suất giống logo I cho trước lớn hơn 0.7

Từ câu truy vấn trên có vấn đề đặt ra là: “làm thế nào để tính được xác suất hai ảnh giống nhau là bao nhiêu?” Để giải quyết vấn đề này, ta sẽ xét một số các kỹ thuật tìm kiếm ảnh theo nội dung sẽ được trình bày chi tiết trong chương 2 1.4.3 Tìm kiếm ảnh theo nội dung

Tìm kiếm ảnh theo nội dung (Content-Based Image Retrieval- CBIR) là kỹ thuật sử dụng các nội dung trực quan (nội dung mức thấp) để tìm kiếm ảnh từ CSDL ảnh rộng lớn CBIR là một lĩnh vực đ• được nghiên cứu từ những năm 90 của thế kỉ trước Các kỹ thuật trước đây thông thường không dựa vào các đặc trưng trực quan mà dựa vào các chú thích văn bản của ảnh Nói cách khác, đầu tiên ảnh được chú thích bằng văn bản sau đó sử dụng các phương pháp tìm kiếm dựa vào văn bản từ các hệ quản trị CSDL truyền thống Thông qua các mô tả văn bản, ảnh được tổ chức theo chủ đề hoặc phân cấp ngữ nghĩa để dễ dàng điều chỉnh

và trình diễn dựa vào các truy vấn logic Tuy nhiên, việc đặc tả cho một CSDL ảnh rộng lớn là không khả thi, rất nhiều hệ thống tìm kiếm ảnh dựa vào văn bản đòi hỏi phải chú thích ảnh bằng tay Rõ ràng, chú thích ảnh bằng tay là một công việc nặng nề và tốn kém nếu CSDL ảnh rất lớn và thông thường không mô tả đầy đủ { nghĩa của ảnh Do đó các phương pháp dựa vào văn bản truyền thống rất khó

hỗ trợ cho các truy vấn đa dạng trong tìm kiếm ảnh theo nội dung

Tìm kiếm ảnh theo nội dung, sử dụng các đặc trưng trực quan của ảnh như màu, hình dạng, kết cấu và phân phối không gian Hệ thống tìm kiếm ảnh theo nội

Trang 24

dung tiêu biểu thể hiện trong hình 1.6, các nội dung trực quan của ảnh trong CSDL được trích chọn và mô tả bởi vector đặc trưng đa chiều Các vector đặc trưng của các ảnh trong CSDL tạo ra một CSDL đặc trưng Để tìm kiếm ảnh, người sử dụng cung cấp cho hệ thống tìm kiếm ảnh mẫu Sau đó hệ thống

chuyển đổi các ảnh mẫu này thành các vector đặc trưng Tính tương tự hay khoảng cách giữa các vector đặc trưng của ảnh mẫu và tất cả các đặc trưng của ảnh trong CSDL được tính toán và việc tìm kiếm sẽ được thực hiện với sự trợ giúp của một cơ chế chỉ số hóa Cơ chế chỉ số hóa cung cấp một cách tìm kiếm hiệu quả các ảnh trong CSDL Trong các chương sau của luận văn này sẽ giới thiệu một số kỹ thuật cơ bản của tìm kiếm ảnh theo nội dung

Hình 1.6 Hệ thống tìm kiếm ảnh theo nội dung tiêu biểu

Chương 2

Một số kỹ thuật tìm kiếm theo nội dung trong cơ sở dữ liệu ảnh

2.1 Kí hiệu mô tả nội dung ảnh

Nói một cách tổng quát, nội dung ảnh có thể bao gồm nội dung trực quan và ngữ nghĩa Nội dung trực quan có thể rất tổng quát hoặc có thể là lĩnh vực riêng Nội

Trang 25

dung trực quan tổng quát bao gồm màu (color), kết cấu (texture), hình dạng (shape) và mối quan hệ không gian (spatial relation), v.v… Nội dung trực quan của một lĩnh vực đặc biệt, ví dụ như mặt người, là một ứng dụng phụ thuộc vào một ứng dụng khác và có thể bao gồm cả tri thức của lĩnh vực đó Nội dung ngữ nghĩa

có thể nhận được bằng các chú thích văn bản hoặc bằng một thủ tục sinh phức tạp dựa vào nội dung trực quan Chương này tập trung vào kí hiệu mô tả nội dung trực quan tổng quát

Một kí hiệu mô tả nội dung trực quan tốt phải bất biến đối với các biến đổi hình học ví dụ như phép tịnh tiến, phép xoay và co gi•n Tuy nhiên phải có sự cân bằng giữa sự bất biến và khả năng phân biệt của các đặc trưng trực quan

Một kí hiệu mô tả đặc trưng có thể là toàn cục hay cục bộ Kí hiệu mô tả đặc trưng toàn cục mô tả đặc trưng trên toàn bộ ảnh, trong khi kí hiệu mô tả cục bộ

mô tả các đặc trưng cho một vùng ảnh hoặc đối tượng Để nhận được kí hiệu

mô tả nội dung cục bộ, đầu tiên các ảnh được chia thành các phần Cách đơn giản nhất chia ảnh thành các phần có kích thước hoặc hình dạng bằng nhau Một cách chia đơn giản như trên không sinh ra các vùng có { nghĩa nhưng là một cách biểu diễn các đặc trưng toàn cục của ảnh trong trường hợp độ phân giải của ảnh rất lớn Các phần còn lại trong chương này sẽ giới thiệu khái quát một

số kỹ thuật trích chọn các đặc trưng trực quan của ảnh để phục vụ cho quá trình tìm kiếm

2.2 Tìm kiếm ảnh dựa vào đặc trưng màu

Mắt người rất nhạy cảm với màu, và đặc trưng màu là một phần quan trọng mà con người có thể nhận biết ảnh Vì vậy, màu là một đặc trưng cơ bản của nội dung ảnh Đôi khi đặc trưng màu cũng cung cấp những thông tin hữu ích để phân loại ảnh và rất hữu ích để tìm kiếm ảnh Do đó, tìm kiếm ảnh dựa vào đặc trưng màu được sử dụng rộng r•i trong các hệ thống CBIR

2.2.1 Không gian màu

Không gian màu mô tả màu như là một vector, thường định nghĩa trong không gian ba chiều Các không gian màu được phân biệt thành đồng dạng (uniform) và không đồng dạng (non-uniform) phụ thuộc vào sự nhận thức khác nhau của con

Trang 26

người Khái niệm đồng dạng ở đây có thể hiểu là hai màu có khoảng cách gần nhau trong không gian màu thì cũng có khoảng cách gần nhau trong nhận thức của con người

Các dạng ảnh sử dụng rộng r•i nhất hiện nay như JPEG, GIF, BMP lưu trữ và thể hiện màu trong không gian RGB Trong thực tế có rất nhiều không gian màu

được sử dụng trong tìm kiếm ảnh như Munsell, HSV Các không gian màu có ảnh hưởng đến kết quả tìm kiếm Trong luận văn này chỉ sử dụng các kỹ thuật tìm kiếm trong không gian màu RGB Hình 2.1 minh họa không gian màu RGB

Ba màu R (Red), G (Green), B (Blue), được sử dụng để m• hóa màu trong các thiết bị máy tính hiện nay Một màu thể hiện trên màn hình là tổ hợp của ba màu trên Trong các hệ thống máy tính hiện nay, không gian màu RGB thường được biểu diễn bằng hệ thống màu thực 24-bit Trong hệ thống màu 24-bit, một màu được biểu diễn bởi 3 số nguyên: {red, blue, green} và mỗi số nguyên này có phạm vi từ 0 đến 28-1, khi ba giá trị r=g=b=0 sẽ cho màu đen, khi r=g=b=255 sẽ cho màu trắng Vì mỗi giá trị r, g, b có thể nhận đến 256 giá trị do đó số màu có thể lên đến khoảng 256?256?256?16 triệu màu Điều này tác động rất lớn đến hiệu quả tìm kiếm trong các hệ thống CBIR, hơn nữa con người chỉ có thể phân biệt các màu với số lượng ít Vì vậy việc đầu tiên trong các hệ thống tìm kiếm dựa theo màu đó là phải giảm số màu trong ảnh để tăng hiệu quả tìm kiếm Thao tác giảm số màu của ảnh còn được gọi là lượng tử hóa

Hình 2.1 Không gian màu RGB

Một không gian màu khác được sử dụng rất phổ biến trong các hệ thống CBIR đó

là không gian HSV Không gian màu này gần với nhận thức trực quan của con người hơn không gian RGB Hình 2.2 thể hiện không gian màu HSV Các trục của không gian màu này biểu diễn sắc thái (Hue), độ b•o hòa (Saturation) và cường

độ (Value)

Hình 2.2 Không gian màu HSV

Trang 27

2.2.2 Lượng tử hóa màu

Lượng tử hóa màu là một quá trình giảm số màu biểu diễn ảnh Một cơ chế lượng tử hóa được xác định bởi không gian màu và cách chia các thành phần trong không gian màu đó Trong cơ chế lượng tử hóa, mỗi trục của không gian màu được chia thành một số phần Khi các trục được chia thành k, l, m phần thì

số các màu biểu diễn ảnh sẽ là n=k?l?m Việc chia các trục trong không gian màu thành các phần phụ thuộc vào không gian màu được sử dụng Trong luận văn này sẽ sử dụng không gian màu RGB, các trục sẽ được chia thành 5 phần, các giá trị đại diện cho 5 phần trên là {25, 76, 127, 178, 229} Công thức lượng tử hóa như sau:

r’= , g’= , b’ = , trong đó r, g, b là giá trị ba thành phần của màu trước khi lượng

tử hóa, r’, g’, b’ là giá trị ba thành phần của màu sau khi đ• lượng tử hóa Để minh họa vấn đề này, xét ví dụ ở hình 2.3 Trong ví dụ này, hình 2.3a là ảnh gốc, hình 2.3b là ảnh sau khi đ• lượng tử hóa thành 5?5?5 = 125 màu theo phương pháp đ• mô tả ở trên

HI[m] = , m=1, , M

Trong đó ?(I(i,j),ym) = 1 nếu I(i,j)=ym và = 0 trong trường hợp còn lại, H[m] còn được gọi là bin thứ m trong biểu đồ và cho biết tổng số điểm ảnh có màu ym trong ảnh Nói cách khác, biểu đồ màu là một vector có M phần tử, mỗi phần tử

Trang 28

thứ k=1 M trong vector này cho biết số lượng điểm ảnh trong ảnh có cùng màu

yk trong tập các màu sau khi lượng tử hóa Tuy nhiên, theo định nghĩa này thì khi tính biểu đồ màu của hai ảnh có kích thước khác nhau (nhưng có thể giống nhau)

sẽ cho hai biểu đồ khác nhau Do đó khi so sánh hai ảnh khác nhau về kích thước thì biểu đồ màu này phải được chuẩn hóa Ta định nghĩa biểu đồ chuẩn hóa như sau:

H’=,H’*1+, H’*2+, , H’*M+-, trong đó H’*i+ = , với P là tổng số điểm ảnh Lưu ý, nếu sử dụng ít màu trong tập màu lượng tử hóa sẽ làm giảm khả năng phân biệt các màu khác nhau, nghĩa là các màu rất khác nhau có thể sẽ cùng màu sau khi lượng tử hóa, tuy nhiên nếu sử dụng nhiều màu trong vector lượng tử hóa sẽ tăng thời gian xử lý và không gian lưu trữ Do đó cần phải cân bằng hai yếu tố trên để đạt được kết quả tốt

2.2.4 Độ đo khoảng cách của biểu đồ màu

Có rất nhiều độ đo khoảng cách giữa hai biểu đồ màu Ta xét hai dạng hàm tính khoảng cách tiêu biểu sau đây

2.2.4.1 Độ đo khoảng cách dạng Minkowski

Trong độ đo khoảng cách dạng Minkowski chỉ dùng để so sánh hai biểu đồ có cùng số lượng màu, hình 2.4 thể hiện khoảng cách dạng Minkowski Độ đo được định nghĩa như sau:

Hình 2.4 Khoảng cách dạng Minkowski

2.2.4.2 Độ đo khoảng cách dạng toàn phương

Trang 29

Khoảng cách này đ• được cài đặt trong hệ thống QBIC của IBM (một hệ thống thương mại tìm kiếm ảnh đầu tiên dựa vào ba đặc trưng Color, Texture, Shape)

Độ đo này được định nghĩa như sau:

d(Q,I)=(HQ-HI)TA(HQ-HI)

với Q, I là hai ảnh, HQ là biểu đồ màu của ảnh Q, HI là biểu đồ màu của ảnh I, A=[aij] là ma trận cấp NxN, N số màu của biểu đồ màu, aij cho biết tính tương tự giữa màu i và j Khoảng cách dạng toàn phương khắc phục được các nhược điểm của dạng Minkowski vì dạng Minkowski không đề cập đến sự liên quan giữa các màu trong biểu đồ màu Hình 2.5 thể hiện khoảng cách dạng toàn

phương

Hình 2.5 Khoảng cách dạng toàn phương

2.2.5 Kỹ thuật tìm kiếm ảnh dùng biểu đồ màu

2.2.5.1 Kỹ thuật dùng biểu đồ màu toàn cục

Kỹ thuật biểu đồ màu toàn cục (Global Color Histogram-GCH) biểu diễn ảnh với một biểu đồ, tức là tính một biểu đồ màu cho toàn bộ ảnh, sau đó tính khoảng cách hai ảnh dựa vào biểu đồ này Ta có thể sử dụng các khoảng cách đ• xét ở phần trước để tính khoảng cách này Ví dụ hình 2.6 thể hiện ba ảnh và các biểu

đồ màu tương ứng của nó

Hình 2.6 Biểu đồ màu của 3 ảnh A, B, C

Trong ví dụ trên, vector lượng tử có ba màu ,đen, trắng, xám} và biểu đồ màu tương ứng của ảnh A là {25%, 25%, 50%}, ảnh B là {18.75%, 37.5%, 43.75%}, và ảnh C có cùng biểu đồ với ảnh B Nếu ta sử dụng cách tính khoảng cách

Euclidean thì khoảng cách của ảnh A và B là:

Trang 30

khoảng cách ảnh A với ảnh C bằng khoảng cách ảnh A với ảnh B Như ví dụ trên

ta thấy kỹ thuật biểu đồ màu toàn cục không có thông tin liên quan đến phân phối màu của từng vùng trong ảnh, vì vậy đôi khi không thể hiện sự khác biệt thật sự giữa các ảnh Ví dụ, theo cảm nhận trực quan thì khoảng cách giữa ảnh

A và C phải nhỏ hơn khoảng cách giữa ảnh A và B, tuy nhiên khi sử dụng GCH lại cho kết quả bằng nhau Hơn nữa có những trường hợp hai ảnh rất khác nhau nhưng lại có khoảng cách rất ngắn giữa hai biểu đồ (như ví dụ trên, ảnh B và C

có khoảng cách bằng 0) Đây là hạn chế chính của kỹ thuật GCH

2.2.5.2 Kỹ thuật dùng biểu đồ màu cục bộ

Để khắc phục nhược điểm của kỹ thuật biểu đồ màu toàn cục, ta xét kỹ thuật dựa vào biểu đồ màu cục bộ sau đây Kỹ thuật dựa vào biểu đồ màu cục bộ (Local Color Histogram-LCH) có đề cập đến phân phối màu của vùng Kỹ thuật LCH sẽ chia ảnh thành các tế bào (cell) với số lượng hoặc kích thước cố định, sau

đó tính biểu đồ màu mỗi tế bào Các ảnh sẽ được biểu diễn bởi các biểu đồ này Khi so sánh hai ảnh, ta phải tính khoảng cách giữa một vùng trong ảnh này với một vùng trong ảnh khác có cùng vị trí Khoảng cách giữa hai ảnh sẽ là tổng các khoảng cách đó Nếu sử dụng khoảng cách Euclidean, khoảng cách giữa hai ảnh

Q và I được định nghĩa như sau: , M là số các vùng trong ảnh, N là số các màu trong vector lượng tử hóa, ( ) là giá trị các bin trong biểu đồ màu ( ) biểu diễn vùng k trong ảnh Q (I) Ví dụ sau sử dụng các ảnh A, B và C minh họa ở hình 2.6 Các ảnh được chia thành bốn vùng có kích thước bằng nhau Khi đó khoảng cách giữa hai ảnh A và B (xem hình 2.7) được tính như sau:

Vậy dLCH(A,B)=1.768 (dGCH(A,B)=0.153) Tương tự hình 2.8 thể hiện khoảng cách của hai ảnh A và C, dLCH(A,C)=0.707 (dGCH(A,C)=0.153) Hình 2.9 thể hiện khoảng cách B và C, dLCH(B,C)=1.768 (dLCH(B,C)=0)

Hình 2.7 Khoảng cách hai ảnh A và B

Ngày đăng: 25/03/2015, 09:53

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[7] Shengjiu Wang, A Robust Approach Using Local Color Histogram Sách, tạp chí
Tiêu đề: A Robust Approach Using Local Color Histogram
Tác giả: Shengjiu Wang
[2] D. Feng, W.C. Siu, H.J.Zhang, Multimedia Information Retrieval and Management: Technological Fundamentals and Applications, Chapter 1, Springer Khác
[3] Eva M. van Rikxoort (2005), Content-Based Image Retrieval: Utilizing color, texture and shape, Master Thesis in Artificial Intelligence, Faculty of Social Sciences, Radboud University Mijmegen, Mijmengen, The Netherlands Khác
[4] Guojun Lu (1999), Multimedia Database Management Systems, Artech House Boston London Khác
[5] Mihran Tuceryan and Anil K. Jain, Texture Analysis Khác
[6] Nicu Sebe and Michael S. Lew, Texture Features for Content-Based Retrieval Khác
[8] Vittorio Castelli., Lawrence D. Bergman.,(2002), Image Databases: Search and Retrieval of Digital Imagery, JOHN WILEY & SONS, INC Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w