1. Trang chủ
  2. » Công Nghệ Thông Tin

ÁP DỤNG PHẢN HỒI LIÊN QUAN TRONG NÂNG CAO CHẤT LƯỢNG TRA CỨU ẢNH DỰA VÀO NỘI DUNG

32 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 1,5 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ÁP DỤNG PHẢN HỒI LIÊN QUAN TRONG NÂNG CAO CHẤT LƯỢNG TRA CỨU ẢNH DỰA VÀO NỘI DUNG Chương 1. Tổng quan về tra cứu ảnh dựa vào nội dung. 1.1. Bài toán tra cứu ảnh. 1.2. Các đặc trưng trong tra cứu ảnh. 1.3. Các độ đo sử dụng trong tra cứu ảnh. 1.4. Kết luận chương 1. Chương 2. Phản hồi liên quan và ứng dụng trong tra cứu ảnh dựa vào nội dung. 2.1. Tra cứu khởi tạo. 2.2. Chiến lược phản hồi liên quan. 2.3. Ứng dụng phản hồi liên quan trong tra cứu ảnh dựa vào nội dung. 2.4. Kết luận chương 2. Chương 3. Cài đặt và đánh giá hệ thống. 3.1. Môi trường thực nghiệm. 3.2. Giao diện hệ thống. 3.3. Đánh gia và kết quả thực nghiệm 3.4. Kết luận chương 3. Kết luận và hướng nghiên cứu trong tương lai. Những kết quả đạt được. Những hạn chế và hướng phát triển. Kết luận. Chương 1. Tổng quan về tra cứu ảnh dựa vào nội dung. 1.1. Bài toán tra cứu ảnh. Ngày nay, lĩnh vực tra cứu ảnh nhận được sự quan tâm ngày càng lớn. Lý do một phần là sự phát triển của công nghệ chế tạo thiết bị thu nhận và lưu trữ ảnh cũng như sự phát triển mạnh mẽ của mạng Internet. Người sử dụng trong nhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các kho lưu trữ ảnh thuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau. Các dạng nguồn đa phương tiện khác nhau (văn bản, tiếng nói, ảnh, video) đang tăng lên nhanh chóng, chẳng hạn dữ liệu được trực quan trong các điện thoại thông minh, các ứng dụng 2D3D, nội dung web... Thế giới đang chứng kiến một sự tiến hóa về lượng, sự sẵn có, độ phức tạp, sự đa dạng và sự quan trọng của các ảnh trong tất cả các lĩnh vực. Nhu cầu về các dịch vụ ảnh trở nên quan trọng hơn bao giờ hết. Các ảnh đóng một vai trò quan trọng trong một phạm vi rộng các ứng dụng và các lĩnh vực như giáo dục, chăm sóc y tế, dự báo thời tiết, nghiên cứu về tội phạm, quảng cáo, thiết kế nghệ thuật, web, phương tiện xã hội và giải trí. Tuy nhiên, phương tiện trực quan yêu cầu một lượng xử lý và lưu trữ đáng kể, cần có các phương pháp hiệu quả cao để đánh chỉ số, lưu trữ, phân tích và tra cứu thông tin trực quan từ các cơ sở dữ liệu ảnh. Do đó, tra cứu các ảnh nhanh, chính xác và hiệu quả cho tất cả các loại tập ảnh trở thành một trong những nhiệm vụ thách thức nhất. CBIR là một ứng dụng của các kỹ thuật thị giác máy tính đối với bài toán tra cứu ảnh. Mục tiêu của hệ thống CBIR là sử dụng nội dung trực quan của các ảnh để tìm các ảnh quan tâm từ một cơ sở dữ liệu ảnh lớn. “Tra cứu ảnh dựa vào nội dung có nghĩa là tra cứu sẽ phân tích nội dung của ảnh hơn là các siêu dữ liệu như từ khóa, thẻ và các mô tả văn bản đi kèm với ảnh. Thuật ngữ nội dung ở đây được hiểu là màu, hình dạng, kết cấu hoặc bất cứ một thông tin nào mà có thể lấy ra từ bản thân ảnh. Trong CBIR, các ảnh có thể được tra cứu hoặc sử dụng các đặc trưng mức thấp hoặc sử dụng các đặc trưng mức cao hay các đặc trưng ngữ nghĩa. Kiến trúc của hệ thống tra cứu ảnh dựa vào nội dung được chỉ ra trên Hình 1.1.1.

Trang 1

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN TỐT NGHIỆPĐỀ TÀI: ÁP DỤNG PHẢN HỒI LIÊN QUAN TRONG NÂNG CAO CHẤT LƯỢNG TRA CỨU ẢNH DỰA VÀO NỘI

DUNG

Sinh viên thực hiện : NGUYỄN TRỌNG KIÊN

Mã sinh viên : 1681310038 Giảng viên hướng dẫn : THS PHƯƠNG VĂN CẢNH Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : CÔNG NGHỆ PHẦN MỀM

Trang 2

Sinh viên thực hiện:

Trang 3

Mục lục

LỜI CAM ĐOAN 4

Lời cảm ơn 5

Lời nói đầu 6

Chương 1 Tổng quan về tra cứu ảnh dựa vào nội dung 8

1.1 Bài toán tra cứu ảnh 8

1.2 Các đặc trưng trong tra cứu ảnh 9

1.2.1 Đặc trưng màu sắc 9

1.2.2 Đặc trưng kết cấu 11

1.2.3 Đặc trưng hình dạng 12

1.2.4 Đặc trưng không gian 12

1.3 Các độ đo sử dụng trong tra cứu ảnh 14

1.3.1 Khoảng cách Minkoski 14

1.3.2 Khoảng cách Mahalanobis: 14

1.3.3 Khoảng cách Cosine 15

1.3.4 Khoảng cách Kullback-Leibler và Jeffrey divergence 15

1.3.5 Khoảng cách Hamming 15

1.3.6 Khoảng cách Earth Mover 16

1.3.7 Khoảng cách Euclid 17

1.4 Kết luận chương 1 18

Chương 2 Phản hồi liên quan và ứng dụng trong tra cứu ảnh dựa vào nội dung 19

2.1 Tra cứu khởi tạo 21

2.2 Chiến lược phản hồi liên quan 23

2.3 Ứng dụng phản hồi liên quan trong tra cứu ảnh dựa vào nội dung 25

2.4 Kết luận chương 2 25

Trang 4

Chương 3 Cài đặt và đánh giá hệ thống 26

3.1 Môi trường thực nghiệm 26

3.2 Giao diện hệ thống 26

3.3 Đánh giá và kết quả thực nghiệm 27

3.4 Kết luận chương 3 27

Kết luận và hướng nghiên cứu trong tương lai 28

1 Kết quả đạt được 28

2 Những hạn chế và hướng phát triển 28

3 Kết luận 28

Tài liệu tham khảo 29

Hình 1.1 Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung 9

Hình 2.1 Mô hình hoạt động hệ thống tra cứu ứng dụng phản hồi liên quan 20

Trang 5

LỜI CAM ĐOANTôi xin cam đoan đồ án “Áp dụng phản hồi liên quan trong nâng cao chất lượng tra cứu ảnh dựa vào nội dung” là do chính tôi thực hiện dưới sựhướng dẫn của giảng viên hướng dẫn ThS Phương Văn Cảnh

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồngốc một cách rõ ràng từ danh mục tài liệu tham khảo trong đồ án Trong đồ án,không có việc sử dụng tài liệu, công trình nghiên cứu của người khác mà khôngchỉ rõ về tài liệu tham khảo Các chương trình thực nghiệm đều là do tôi thựchiện mà có được, không sao chép từ bất cứ nguồn nào

Hà Nội ngày 31 tháng 12 năm 2020

Sinh viênNguyễn Trọng Kiên

Trang 6

Lời cảm ơnTrong lời đầu tiên của báo cáo đồ án tốt nghiệp “Áp dụng phản hồi liên quan trong nâng cao chất lượng tra cứu ảnh dựa vào nội dung” này, em

muốn gửi những lời cám ơn và biết ơn chân thành nhất của mình tới tất cảnhững người đã hỗ trợ, giúp đỡ em về kiến thức và tinh thần trong quá trình thựchiện đồ án

Trước hết, em xin chân thành cám ơn Thầy Giáo - Ths Phương Văn Cảnh,Giảng viên Khoa Công Nghệ Thông Tin, Trường Đại học Điện Lực, người đãtrực tiếp hướng dẫn, nhận xét, giúp đỡ em trong suốt quá trình thực hiện đồ án.Xin chân thành cảm ơn các thầy cô trong Khoa Công Nghệ Thông Tin vàcác phòng ban nhà trường đã tạo điều kiện tốt nhất cho em cũng như các bạnkhác trong suốt thời gian học tập và làm tốt nghiệp

Cuối cùng em xin gửi lời cảm ơn đến gia đình, bạn bè, người thân đã giúp

đỡ động viên em rất nhiều trong quá trình học tập và làm Đồ án Tốt Nghiệp

Do thời gian thực hiện có hạn, kiến thức còn nhiều hạn chế nên Đồ án thựchiện chắc chắn không tránh khỏi những thiếu sót nhất định Em rất mong nhậnđược ý kiến đóng góp của thầy cô giáo và các bạn để em có thêm kinh nghiệm

và tiếp tục hoàn thiện đồ án của mình

Em xin chân thành cảm ơn!

Sinh viên thực hiện

Kiên Nguyễn Trọng Kiên

Trang 7

Lời nói đầu

Ngày nay, lĩnh vực tra cứu ảnh nhận được sự quan tâm ngày càng lớn Lý

do một phần là sự phát triển của công nghệ chế tạo thiết bị thu nhận và lưu trữảnh cũng như sự phát triển mạnh mẽ của mạng Internet Người sử dụng trongnhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các kho lưu trữ ảnhthuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau

Phương pháp tra cứu ảnh theo nội dung (Content-Based Image Retrieval)

sử dụng các nội dung trực quan của ảnh như màu sắc, hình dạng, kết cấu(texture) và phân bố không gian để thể hiện và đánh chỉ số các ảnh Trong một

hệ thống tra cứu ảnh theo nội dung điển hình các nội dung trực quan của ảnhđược trích chọn và mô tả bằng những véctơ đặc trưng nhiều chiều

Tập hợp các véctơ đặc trưng của các ảnh trong một cơ sở dữ liệu ảnh tạothành cơ sở dữ liệu đặc trưng Hệ thống sẽ chuyển những mẫu này thành các véc

tơ đặc trưng và tính toán sự giống nhau (hay độ tương tự) giữa véc tơ đặc trưngcủa ảnh mẫu và véc tơ đặc trưng của các ảnh trong cơ sở dữ liệu Sau cùng việctra cứu được tiến hành với sự trợ giúp của các sơ đồ đánh chỉ số Sử dụng sơ đồđánh chỉ số là cách hiệu quả để tìm kiếm trong các cơ sở dữ liệu ảnh

Cấu trúc đề tài:

Chương 1 Tổng quan về tra cứu ảnh dựa vào nội dung.

1.1 Bài toán tra cứu ảnh

1.2 Các đặc trưng trong tra cứu ảnh

1.3 Các độ đo sử dụng trong tra cứu ảnh

1.4 Kết luận chương 1

Chương 2 Phản hồi liên quan và ứng dụng trong tra cứu ảnh dựa vào nội dung.

2.1 Tra cứu khởi tạo

2.2 Chiến lược phản hồi liên quan

2.3 Ứng dụng phản hồi liên quan trong tra cứu ảnh dựa vào nội dung

Trang 8

2.4 Kết luận chương 2.

Chương 3 Cài đặt và đánh giá hệ thống.

3.1 Môi trường thực nghiệm

Trang 9

Chương 1 Tổng quan về tra cứu ảnh dựa vào nội dung.1.1 Bài toán tra cứu ảnh.

Ngày nay, lĩnh vực tra cứu ảnh nhận được sự quan tâm ngày càng lớn Lý

do một phần là sự phát triển của công nghệ chế tạo thiết bị thu nhận và lưu trữảnh cũng như sự phát triển mạnh mẽ của mạng Internet Người sử dụng trongnhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các kho lưu trữ ảnhthuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau

Các dạng nguồn đa phương tiện khác nhau (văn bản, tiếng nói, ảnh, video)đang tăng lên nhanh chóng, chẳng hạn dữ liệu được trực quan trong các điệnthoại thông minh, các ứng dụng 2D/3D, nội dung web Thế giới đang chứngkiến một sự tiến hóa về lượng, sự sẵn có, độ phức tạp, sự đa dạng và sự quantrọng của các ảnh trong tất cả các lĩnh vực

Nhu cầu về các dịch vụ ảnh trở nên quan trọng hơn bao giờ hết Các ảnhđóng một vai trò quan trọng trong một phạm vi rộng các ứng dụng và các lĩnhvực như giáo dục, chăm sóc y tế, dự báo thời tiết, nghiên cứu về tội phạm, quảngcáo, thiết kế nghệ thuật, web, phương tiện xã hội và giải trí Tuy nhiên, phươngtiện trực quan yêu cầu một lượng xử lý và lưu trữ đáng kể, cần có các phươngpháp hiệu quả cao để đánh chỉ số, lưu trữ, phân tích và tra cứu thông tin trựcquan từ các cơ sở dữ liệu ảnh Do đó, tra cứu các ảnh nhanh, chính xác và hiệuquả cho tất cả các loại tập ảnh trở thành một trong những nhiệm vụ thách thứcnhất

CBIR là một ứng dụng của các kỹ thuật thị giác máy tính đối với bài toántra cứu ảnh Mục tiêu của hệ thống CBIR là sử dụng nội dung trực quan của cácảnh để tìm các ảnh quan tâm từ một cơ sở dữ liệu ảnh lớn “Tra cứu ảnh dựa vàonội dung có nghĩa là tra cứu sẽ phân tích nội dung của ảnh hơn là các siêu dữliệu như từ khóa, thẻ và các mô tả văn bản đi kèm với ảnh Thuật ngữ nội dung ởđây được hiểu là màu, hình dạng, kết cấu hoặc bất cứ một thông tin nào mà cóthể lấy ra từ bản thân ảnh

Trang 10

Trong CBIR, các ảnh có thể được tra cứu hoặc sử dụng các đặc trưng mứcthấp hoặc sử dụng các đặc trưng mức cao hay các đặc trưng ngữ nghĩa Kiến trúccủa hệ thống tra cứu ảnh dựa vào nội dung được chỉ ra trên Hình 1.1.1.

Hình 1.1 Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung.

1.2 Các đặc trưng trong tra cứu ảnh.

Các đặc trưng của ảnh bao gồm các đặc tính cơ bản và các đặc tính ngữnghĩa/logic Các đặc tính cơ bản đó là: màu sắc (color), hình dạng (shape), kếtcấu (texture), vị trí không gian (spatial location) Chúng có thể được trích xuất

tự động hoặc bán tự động Đặc tính logic cung cấp mô tả trừu tượng của dữ liệuhình ảnh ở các cấp độ khác nhau Thông thường, các đặc tính logic được chiếtxuất bằng tay hoặc bán tự động Một hoặc nhiều đặc trưng có thể được sử dụngtrong ứng dụng cụ thể

1.2.1 Đặc trưng màu sắc.

Đặc trưng màu là một trong những đặc trưng thị giác rộng nhất do quan

hệ chặt chẽ với các đối tượng ảnh, tiền cảnh, và nền Màu cũng là một đặc trưngtrực quan mạnh do nó không phụ thuộc vào trạng thái của các nội dung ảnh nhưhướng, cỡ và góc Các biểu diễn màu phổ biến là lược đồ màu, mô men màu,tương quan màu và ma trận đồng hiện màu

Không gian màu được phân lớp thành các không gian màu tuyến tính (tứcRGB, XYZ, CMY, YIQ và YUV) và các không gian màu phi tuyến (tức L*a*b,HSV, Nxyz và L*u*v) Không gian màu RGB là một không gian màu cộng tính

Trang 11

dựa vào ba màu chính: đỏ, xanh lá cây và xanh lam Các màu khác có thể đượcsinh ra bởi sử dụng các màu chính, chẳng hạn, sử dụng đỏ với xanh lam tạo ra

đỏ tươi, xanh lá cây và xanh lam ta ra màu lục và sự kết hợp của màu đỏ, xanh

lá cây và màu xanh lam ở cường độ tối đa tạo ra màu trắng Tuy nhiên, khônggian RGB không hiệu quả trong việc xử lý các ảnh trong thế giới thực, do đó nó

bị tránh trong nhiều thuật toán tra cứu ảnh vì nó thiếu khả năng đo lường sựtương tự về nhận thức Hơn nữa, khoảng cách trong không gian RGB có ít thôngtin ngữ nghĩa về mặt nhận thức thị giác của con người

Theo đó, không gian màu HSV được sử dụng thay cho không gian màuRGB vì các thành phần màu sắc và độ bão hòa rất gần với nhận thức thị giác củacon người Mô hình HSV có ba thành phần cấu thành: “hue” đề cập đến màusắc, “saturation” đề cập đến độ sắc nét của màu và “value” là độ sáng của màusắc

Một không gian màu khác, không gian màu YCbCr được chia thành độchói (Y) và sắc độ (Cb, Cr), trong khi Cb và Cr lần lượt biểu thị sự khác biệtmàu xanh-vàng và đỏ-lục

Không gian màu L * a * b * cũng được lấy từ không 9 gian màu XYZ đểđạt được sự đồng nhất về nhận thức Như trong YCbCr, L * a * b bao gồm mộtchiều độ sáng (L) và hai chiều sắc độ (a *, b *) dựa trên quá trình đối lập màu

Lược đồ màu không có thông tin về sự phân bố không gian của màu; do

đó, các biểu diễn khác đã được đề xuất như tương quan màu sắc và sự tươngquan Các phương pháp này cung cấp thông tin về tương quan không gian củacác cặp màu thay đổi như thế nào đối với khoảng cách trong một ảnh, và chúng

đã cho thấy hiệu quả tra cứu tốt hơn so với lược đồ màu

Đặc trưng màu sắc là một trong những đặc tính được sử dụng phổ biếntrong tra cứu ảnh Màu sắc được định nghĩa trên một không gian màu lựa chọn

Sự đa dạng của không gian màu là có sẵn, chúng thường được dùng cho các ứngdụng khác nhau Không gian màu được thể hiện gần gũi hơn với nhận thức củacon người và được sử dụng rộng rãi trong RGB, LAB, HSV… Đặc trưng màusắc phổ biến hoặc các mô tả trong hệ thống CBIR bao gồm: ma trận hiệp biếnmàu, biểu đồ màu, moment màu, và véc-tơ kết hợp màu

Trang 12

Vào năm 1999, Gevers và cộng sự đã quan tâm đến các đối tượng lấy từcác điểm quan sát khác nhau và sự chiếu sáng Theo kết quả, một tập các điểmbất biến đặc trưng màu đã được tính toán Các bất biến màu được xây dựng trên

cơ sở của “hue”, “cặp hue-hue”, và ba đặc trưng màu được tính toán từ các môhình đối xứng Việc lựa chọn đặc trưng màu phụ thuộc vào kết quả phân đoạn

Ví dụ, nếu việc phân đoạn cung cấp đối tượng mà không có màu đồng nhất, thì

rõ ràng màu trung bình không phải là lựa chọn tốt Với các ứng dụng đặc biệtnhư cơ sở dữ liệu khuôn mặt người, thì miền tri thức có thể được khai thác đểgán trọng số cho từng điểm ảnh trong việc tính toán vùng màu

Lược đồ màu (Histogram) là đại lượng đặc trưng cho phân bố màu cục bộcủa ảnh Được định lượng:

Trong đó:

Ci : là màu của điểm ảnhn(ID) : Tổng số điểm ảnh trong ảnhm(ID, Ci) : Biểu diễn số điểm ảnh có giá trị màu Ci

H : Lược đồ màu của ảnh

1.2.2 Đặc trưng kết cấu.

Trong thị giác máy tính, không có định nghĩa chính xác về kết cấu ảnh,nhưng nó có thể được xác định như tất cả những gì còn lại sau khi xem xét cácmàu và các hình, hoặc như một mô tả của cấu trúc ảnh, tính ngẫu nhiên 11(randomness), hột (granulation), đường thẳng (linearity), độ nhám (roughness)

và tính đồng nhất (homogeneity) Kết cấu ảnh là một đặc trưng ảnh quan trọng

để mô tả các thuộc tính bề mặt của một đối tượng và mối quan hệ của nó với cácvùng xung quanh Do các đặc trưng kết cấu được xuất hiện trong nhiều ảnh thực,chúng rất quan trọng và có lợi ích trong các nhiệm vụ tra cứu ảnh và nhận dạngmẫu Tuy nhiên, độ phức tạp tính toán và độ chính xác tra cứu là những nhượcđiểm chính của các hệ thống tra cứu ảnh dựa vào kết cấu

Trang 13

Nhiều phương pháp tra cứu ảnh dựa vào kết cấu đã được đề xuất và đượccải tiến trong ngữ cảnh CBIR Một số thuật toán được sử dụng phổ biến như mô

tả kết cấu là lọc Gabor, biến đổi Wavelet, ma trận đồng hiện mức, trường ngẫunhiên Markov, mô tả lược đồ cạnh, phân rã, và các đặc trưng Tamura

1.2.3 Đặc trưng hình dạng.

Hình dạng là một khái niệm được định nghĩa khá tốt Đặc trưng hình dạngcủa các ứng dụng nói chung bao gồm: tỷ lệ aspect, tuần hoàn, mô tả Fourier, bấtbiến thời điểm, phân đoạn đường bao liên tiếp Đặc trưng hình dạng là đặctrưng ảnh quan trọng, mặc dù chúng chưa được sử dụng rộng rãi trong CBIRnhư là đặc trưng màu và đặc trưng kết cấu Đặc trưng hình dạng đã thể hiện tínhhữu ích trong nhiều miền ảnh đặc biệt như là các đối tượng nhân tạo Đối vớiảnh màu thì được sử dụng trong hầu hết các loại giấy tờ, tuy nhiên, nó lại khókhăn để áp dụng đặc trưng hình dạng so với màu sắc và kết cấu do sự thiếuchính xác của phân đoạn Mặc dù gặp khó khăn, đặc trưng hình dạng chỉđược sửdụng trong một số hệ thống và cho thấy tiềm năng có ích cho CBIR Ví dụ, vàonăm 2003, Mezaris và các cộng sự đã sửdụng các đặc trưng hình dạng đơn giảnchẳng hạn như: độ lệch tâm và định hướng Một hệ thống mà Wang và cộng sựvào năm 1999 đã sử dụng tiêu chuẩn hoá quán tính của thứ tự từ 1-3 để mô tảhình dạng khu vực

1.2.4 Đặc trưng không gian.

Các vùng hoặc đối tượng với thuộc tính màu sắc và kết cấu tương tự cóthể được nhận ra một cách dễ dàng bởi ràng buộc không gian Ví dụ, các vùng

có bầu trời và biển màu xanh có thể có biểu đồ màu tương tự, nhưng lại có vị tríkhông gian trong ảnh khác nhau Vì thế, vị trí không gian của các vùng (hoặccác đối tượng) hoặc mối liên hệ không gian giữa nhiều vùng trong một ảnh thìrất hữu dụng cho việc tra cứu ảnh Một biểu diễn của mối liên hệ không gianđược sử dụng rộng rãi nhất là “2D strings” được Chang và các cộng sự đưa ravào năm 1987 Kỹ thuật này được xây dựng bằng cách chiếu các ảnh theo trục x

và y Cho hai tập ký hiệu V và A, được định nghĩa trên phép chiếu Cứ mỗi kýhiệu trong V thì được biểu diễn bởi một đối tượng trong ảnh Còn mỗi ký hiệutrong A thì được biểu diễn bởi một loại liên hệ không gian giữa các đối tượng.Nếu chúng khác nhau, thì kỹthuật “2DG-string” sẽ cắt tất cả các đối tượng dọc

Trang 14

theo đường bao hộp nhỏ nhất và mở rộng mối liên hệ không gian vào trong haitập toán tử không gian Một tập toán tử thì định nghĩa mối liên hệ không giancục bộ Và tập còn lại thì định nghĩa mối liên hệ không gian toàn cục, chỉ ra rằngphép chiếu của hai đối tượng là tách ra, nối liền hoặc được xác định ở cùng vịtrí Ngoài ra, kỹthuật “2D C-string” thì được đề xuất bởi Lee và các cộng sự vàonăm 1990 để cực tiểu con số đối tượng đã cắt Còn kỹthuật “2D B-string” thì lạiđược giới thiệu vào năm 1992 bởi Yang và các cộng sự Kỹ thuật này sẽ biểudiễn một đối tượng bởi hai ký hiệu, thay thế cho việc mở đầu và kết thúc đườngbao của đối tượng

Hầu hết các phương pháp trên có thể tạo ra ba kiểu truy vấn Kiểu truy vấn

0 sẽ tìm tất cả các ảnh chứa đối tượng O1, O2, , On Kiểu truy vấn 1 sẽ tìm tất

cả các ảnh chứa đối tượng mà có mối liên hệ chắc chắn giữa từng đối tượngkhác, nhưng khoảng cách giữa chúng là không có nghĩa Cuối cùng, kiểu truyvấn 2 sẽ tìm tất cảcác ảnh mà có liên kết khoảng cách chắc chắn với từng đốitượng khác

Ngoài kỹ thuật “2D string” ở trên, còn có các kỹ thuật khác như: “spatialquad-tree” được giới thiệu vào năm 1984 bởi Samet, và “symbolic image” đượcgiới thiệu vào năm 1995 bởi Gudivada và Raghavan.Hai kỹthuật này thì đượcdùng để biểu diễn thông tin không gian Tuy nhiên, tra cứu ảnh dựa trên mối liên

hệ không gian của vùng thì vẫn là một bài toán khó trong nghiên cứu tra cứu ảnhdựa trên nội dung Bởi vì, các phân đoạn của đối tượng hoặc các vùng đáng tincậy thì thường không khả thi trừ khi trong các ứng dụng rất giới hạn Mặc dù,một số hệ thống đơn giản phân chia ảnh vào trong các khối con chuẩn, mà chỉđạt được thành công nhỏ với phương pháp phân chia không gian từ hầu hết ảnh

tự nhiên không bị nén vào các khối con chuẩn Để giải quyết vấn đề này, mộtphương pháp dựa trên kỹthuật “Radon transform”, một kỹ thuật mà sẽ khai tháccác đặc trưng trực quan của sắp xếp không gian mà không cần phân đoạn phứctạp Phương pháp này được đề xuất vào năm 1998 bởi Guo và các cộng sự

1.3 Các độ đo sử dụng trong tra cứu ảnh.

Việc lựa chọn xác định loại độ đo khoảng cách mà sử dụng để so sánh độtương tự của từng cặp ảnh còn phụ thuộc vào cấu trúc của các véc tơ đặc trưng

Trang 15

và mỗi ảnh trong cơ sở dữ liệu Để thu được tra cứu chính xác hơn và hiệu năngtốt hơn, hệ thống CBIR nên tận dụng độ đo đối sánh tương tự hiệu quả, mô tả vàđịnh lượng tốt các tương tự nhận thức.

1.3.1 Khoảng cách Minkoski.

Được sử dụng rộng rãi để đo sự tương tự trong các hệ thống CBIR Với haiảnh X và Y được cho, được biểu diễn trong không gian dữ liệu bởi hai véc tơ nchiều (�1, �2, … ��) và (�1, �2… ��) tương ứng Khoảng cách Minkowskigiữa X và Y, d(X, Y) được xác định như sau:

d(X, Y) = (∑ |xi − yi|r n i=1 )1/r (1.1)

Ở đây r là nhân tố chuẩn hóa cho khoảng cách Minkowski, và � ≥ 1 Khi �

= 1, � = 2 và � = ∞, nó trở thành Manhattan (tức �1), Euclid (tức �2) vàChebyshev (tức �∞) tương ứng

1.3.2 Khoảng cách Mahalanobis:

Với điểm A và phân bố B được cho, Mahalanobis đo khoảng cách giữa A

và B bằng việc tính bao nhiêu độ lệch chuẩn từ A so với trung bình của B Cho

ma trận hiệp phương sai M, và hai ảnh X và Y mà biểu diễn trong không gian dữliệu bởi hai véc tơ n chiều (�1, �2… ��) và (�1, �2… ��) Khoảng cáchMahalanobis giữa X và Y được xác định như sau:

�(�, �) = (∑ |�� − ��|��−1 � �=1 )1/� (1.2)Nếu � = 2 và ma trận hiệp phương sai S là ma trận đơn vị thì nó tươngđương với khoảng cách Euclid, nhưng nếu S là ma trận trực giao thì nó tươngđương với khoảng cách Euclid chuẩn hóa

1.3.3 Khoảng cách Cosine.

Với hai ảnh X và Y được cho mà biểu diễn trong không gian dữ liệu bởi haivéc tơ n chiều, khoảng cách được cho bởi góc giữa các véc tơ sử dụng tích vôhướng và độ lớn là:

�(�, �) = 1 − ���������������� � = 1 − �.� ‖�‖.‖�‖

Trang 16

1.3.4 Khoảng cách Kullback-Leibler và Jeffrey divergence.

Dựa trên lý thuyết thông tin, phân kỳ K-L đo lường mức độ trung bìnhkhông hiệu quả của việc mã hóa một lược đồ bằng cách sử dụng một lược đồkhác làm code-book Cho hai lược đồ � = {ℎ� } và � = {�� }, ở đây ℎ� và �� làcác bin lược đồ, phân kỳ Kullback-Leibler (K-L) được xác định như sau:

Tuy nhiên, phân kỳ K-L nhạy cảm với việc tạo lược đồ và không đối xứng.Phân kỳ Jeffrey có nguồn gốc thực nghiệm là một sự điều chỉnh của phân kỳ K-

L đối xứng về số, ổn định và mạnh với nhiều và kích thước của các bin lược đồ.Khoảng cách này đo lường mức độ khó có thể xảy ra khi một phân phối đượclấy ra từ quần thể biểu diễn bởi một phân phối khác và được xác định như sau:

ở đây �� = (ℎ� + ��)/2 và với các thống kê:

1.3.5 Khoảng cách Hamming.

Một không gian dữ liệu hữu hạn F được cho với n thành phần, khoảng cáchHamming �(�, �) giữa hai véc tơ �, � ∈ � (�) là số các hệ số mà chúng khácnhau, hoặc có thể được giải thích như số tối thiểu các cạnh trong một đường kếtnối hai đỉnh của không gian n chiều Trong hệ thống CBIR, khoảng cáchHamming được sử dụng để tính toán sự không giống nhau giữa các véc tơ đặctrưng mà biểu diễn các ảnh cơ sở dữ liệu và ảnh truy vấn Khoảng cáchHamming mờ là một mở rộng của khoảng cách Hamming cho các véc tơ với cácgiá trị thực Với các giá trị thực � và �, mức độ khác nhau giữa � và �, đượcđiều chỉnh bởi >0, biểu thị bởi ��������������� (�, �) được xác định bởi:

1.3.6 Khoảng cách Earth Mover

Khoảng cách Earth Mover được dựa trên vấn đề vận chuyển từ tối ưu tuyến

Ngày đăng: 12/02/2022, 00:20

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w