1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoàng cách tt

27 99 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,67 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sau đó, phương pháp đánh giá hiệu năng được sử dụng để so sánh các kết quả được tra cứu này với các ảnh liên quan đến ảnh truy vấn trong cơ sở dữ liệu.. Kết luận Chương 1 và định hướng n

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

…… ….***…………

ĐÀO THỊ THÚY QUỲNH

NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT ĐIỀU CHỈNH TRỌNG SỐ

Trang 2

Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ -

Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Người hướng dẫn khoa học 1: PGS.TS Ngô Quốc Tạo

Người hướng dẫn khoa học 2: PGS.TS Nguyễn Hữu Quỳnh

Có thể tìm hiểu luận án tại:

- Thư viện Học viện Khoa học và Công nghệ

- Thư viện Quốc gia Việt Nam

Trang 3

MỞ ĐẦU

1 Tính cấp thiết của luận án

Cơ sở dữ liệu ảnh ngày càng trở nên phổ biến trong các lĩnh vực ứng dụng khác nhau như viễn thám, phòng chống tội phạm, y học,… Sự tiến triển của các

kỹ thuật thu, truyền và lưu trữ ảnh đã cho phép xây dựng các cơ sở dữ liệu ảnh rất lớn Các nhân tố này đã thúc đẩy sự quan tâm nghiên cứu các phương pháp khai thác hiệu quả cơ sở dữ liệu ảnh này

Các kỹ thuật tra cứu ảnh dựa vào văn bản mô tả ảnh tốn nhiều thời gian, chi phí cao và phụ thuộc vào cảm nhận chủ quan của chuyên viên kỹ thuật Hơn nữa,

hệ thống dựa vào từ khoá rất khó thay đổi về sau này

Để khắc phục khó khăn này, tra cứu ảnh dựa vào nội dung (Content-based image retrieval-CBIR) đã ra đời vào đầu những năm 90 Ý tưởng cơ bản của cách tiếp cận này là sử dụng kỹ thuật trích rút đặc trưng trực quan một cách tự động để cho ra các mô tả nội dung từ ảnh như đặc trưng màu sắc, kết cấu, và hình dạng làm chỉ số ảnh Có nhiều hệ thống tra cứu ảnh dựa vào nội dung đã được đề xuất Tuy nhiên, nhiều thực nghiệm trên các hệ thống CBIR chỉ ra rằng các nội dung mức thấp thường thất bại trong mô tả các khái niệm ngữ nghĩa mức cao trong ý nghĩ của người dùng Do đó, hiệu năng của hệ thống CBIR vẫn còn xa so với các

kỳ vọng của người dùng

Do đó, luận án chọn đề tài “Nâng cao độ chính xác tra cứu ảnh dựa vào nội

dung sử dụng kỹ thuật điều chỉnh trọng số của hàm khoảng cách” để góp

phần giải quyết các vấn đề đặt ra

2 Mục tiêu của luận án

Luận án nghiên cứu đề xuất một số phương pháp tra cứu ảnh nhằm nâng cao

độ chính xác tra cứu Các phương pháp này sẽ hướng tới giải quyết các vấn đề về giảm khoảng cách ngữ nghĩa giữa đặc trưng mức thấp và khái niệm mức cao của ảnh

Trang 4

Chương 1 TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG

1.1 Giới thiệu

Các dạng nguồn đa phương tiện khác nhau đang tăng lên nhanh chóng, chẳng hạn dữ liệu trực quan trong các điện thoại thông minh, các ứng dụng 2D/3D, nội dung web, Do đó, nhu cầu về các dịch vụ ảnh trở nên quan trọng hơn bao giờ hết Tuy nhiên, phương tiện trực quan yêu cầu một lượng xử lý và lưu trữ đáng

kể, cần có các phương pháp hiệu quả để đánh chỉ số, lưu trữ, phân tích và tra cứu thông tin trực quan từ các cơ sở dữ liệu ảnh Do đó, tra cứu các ảnh nhanh, chính xác và hiệu quả cho các loại tập ảnh trở thành một trong những nhiệm vụ thách thức

1.1.1 Tra cứu ảnh dựa vào văn bản

Cách tiếp cận ban đầu cho tra cứu ảnh là dựa vào văn bản, trong đó các ảnh được đánh chỉ số bằng các từ khóa, chủ đề hoặc mã phân loại Các từ khóa, chủ

đề hoặc mã phân loại này được sử dụng trong quá trình tra cứu Tuy nhiên, với các cơ sở dữ liệu ảnh lớn, các khó khăn phải đối mặt của cách tiếp cận tra cứu dựa vào văn bản ngày càng trở nên nghiêm trọng hơn và quá trình này tốn nhiều nhân lực và thời gian Để khắc phục các vấn đề này, các nội dung của ảnh (gồm mầu, kết cấu và hình dạng) được trích rút tự động từ bản thân các ảnh đã được sử dụng cho tra cứu ảnh

1.1.2 Tra cứu ảnh dựa vào nội dung

Trong tra cứu ảnh dựa vào nội dung, các ảnh có thể được tra cứu thông qua các đặc trưng mức thấp (tức là màu, hình dạng, và kết cấu) hoặc sử dụng các đặc trưng ngữ nghĩa mức cao hay các đặc trưng ngữ nghĩa

Hình 1.1 Minh họa khoảng cách ngữ nghĩa

Kiến trúc hệ thống tra cứu ảnh dựa vào đặc trưng thị giác được chỉ ra như Hình 1.2

Tập ảnh

Ảnh truy vấn

Cơ sở dữ liệu đặc trưng

Véc tơ đặc trưng

Trích rút đặc trưng

Trích rút đặc trưng

Sắp xếp Đầu ra

Trang 5

Hình 1.3 chỉ ra cơ chế hoạt động của phản hồi liên quan trong CBIR Khi có

kết quả tra cứu khởi tạo, người dùng chọn các ảnh liên quan trong danh sách kết quả này để làm các mẫu có nhãn (dương hay âm) Dựa trên tập mẫu huấn luyện này, một thuật toán máy học được thực hiện để điều chỉnh các tham số Dựa trên các tham số vừa được học, tra cứu ảnh được thực hiện Quá trình tra cứu được lặp lại cho đến khi người dùng thỏa mãn

Hình 1.3: Sơ đồ phản hồi liên quan

1.1.3 Một số nghiên cứu về tra cứu ảnh dựa vào nội dung

Một số phương pháp tra cứu ảnh dựa vào nội dung đã được đưa ra, chẳng hạn: VisualSeek, SIMPLicity, Blobwworld, WebSeek, Image Rover…

1.2.Trích rút đặc trƣng,

Trang 6

1.2.4 Thông tin không gian

Thông tin không gian biểu thị vị trí không gian tuyệt đối và vị trí không gian tương đối của các vùng Các vùng hoặc đối tượng với các đặc trưng màu tương tự

có thể được phân biệt tốt hơn bằng việc tận dụng các thông tin không gian

1.5 Giảm khoảng cách ngữ nghĩa

Có nhiều cách tiếp cận để giảm khoảng cách ngữ nghĩa trong tra cứu ảnh dựa vào nội dung Luận án lựa chọn theo hướng tiếp cận học máy để đưa ra đề xuất giảm khoảng cách này

1.6 Đánh giá hiệu năng

Để đánh giá một ứng dụng tra cứu ảnh, một cơ sở dữ liệu ảnh và một tập các truy vấn được yêu cầu Các truy vấn được thực hiện để thu được các kết quả tra cứu Sau đó, phương pháp đánh giá hiệu năng được sử dụng để so sánh các kết quả được tra cứu này với các ảnh liên quan đến ảnh truy vấn trong cơ sở dữ liệu

1.7 Kết luận Chương 1 và định hướng nghiên cứu

Trong chương này, luận án đã trình bày về các đặc trưng mức thấp của ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc trưng mức thấp và phân tích một số phương pháp tra cứu ảnh dựa vào đặc trưng mức thấp Bên cạnh đó, luận án cũng

đã trình bày một số phương pháp giảm khoảng cách ngữ nghĩa theo cách tiếp cận phản hồi liên quan Một số kỹ thuật tra cứu ảnh với ngữ nghĩa mức cao đã được phân tích

Ở thời điểm hiện nay, khi chúng ta đề xuất một thuật toán hiệu quả cho CBIR, một số vấn đề cần phải được giải quyết Vấn đề đầu tiên đó là giảm gánh nặng cho người dùng, tức là không yêu cầu người dùng phải cung cấp đồng thời nhiều ảnh truy vấn đa dạng Vấn đề thứ hai đó là các ảnh liên quan ngữ nghĩa không thuộc về cùng một cụm mà nằm rải rác trong không gian đặc trưng Do đó để tăng

độ chính xác, cần thiết phải có cách thức lấy được các ảnh nằm rải rác trong không gian đặc trưng Vấn đề thứ ba đó là vùng chứa các điểm truy vấn tối ưu khác nhau có thể rất khác nhau Do đó, để nâng cao độ chính xác, cần khai thác thông tin địa phương của mỗi vùng

Trang 7

Trong luận án này, tác giả sẽ tập trung vào vấn đề nâng cao độ chính xác tra cứu ảnh theo hướng tiếp cận giảm khoảng cách ngữ nghĩa

Thứ nhất, luận án sẽ đề xuất phương pháp tra cứu ảnh liên quan ngữ nghĩa để thu được tập ảnh kết quả có sự đa dạng nằm rải rác trong toàn bộ không gian đặc trưng mà không yêu cầu người dùng tạo truy vấn phức tạp [CT5]

Thứ hai, luận án sẽ đề xuất phương pháp tra cứu ảnh sử dụng bộ trọng số thích nghi Thay vì sử dụng chung một bộ trọng số cho các cụm chứa ảnh truy vấn tối

ưu, phương pháp xác định trọng số cho từng cụm cụ thể [CT6]

Trang 8

Chương 2 PHƯƠNG PHÁP TRA CỨU ẢNH LIÊN QUAN NGỮ NGHĨA 2.1 Giới thiệu

Các cách tiếp cận đối với CBIR giả thiết rằng, trong một không gian nào đó,

vị trí của các ảnh liên quan gần với ảnh truy vấn Giả thiết này phù hợp với bài toán mà ở đó người dùng chỉ muốn tìm những ảnh có cùng đặc trưng mức thấp, chẳng hạn: tìm những bông hồng màu đỏ Tuy nhiên, với bài toán mà ở đó người dùng đặt ra yêu cầu là tìm ra những ảnh có thể có đặc trưng mức thấp khác nhau nhưng cùng ngữ nghĩa, chẳng hạn: tìm tất cả những bông hồng (bao gồm cả hoa hồng màu đỏ, màu vàng, màu trắng) trong cơ sở dữ liệu ảnh, thì giả thiết này không phù hợp Chương này và chương sau của luận án sẽ đề xuất các phương pháp giải quyết bài toán tìm ra những ảnh có thể có đặc trưng mức thấp khác nhau nhưng cùng ngữ nghĩa (tức là cùng một chủ đề)

Sự tương tự giữa các ảnh mà con người nhận thức (các ảnh liên quan về mặt ngữ nghĩa) lại khác với sự tương tự giữa chúng trong không gian đặc trưng Tức

là, các ảnh liên quan về mặt ngữ nghĩa có thể nằm phân tán trong toàn bộ không gian đặc trưng và nằm rải rác ở một số cụm chứ không phải một cụm duy nhất Trong trường hợp này, cách tiếp cận phản hồi liên quan truyền thống [2,29,61,74] không làm việc tốt (do họ sử dụng cách tiếp cận một điểm truy vấn)

Thực hiện phản hồi liên quan đề cập đến việc tính toán một hoặc nhiều điểm truy vấn mới trong không gian đặc trưng và thay đổi hàm khoảng cách Các phương pháp được trình bày theo cách tiếp cận phản hồi liên quan với truy vấn tách rời đều có ưu điểm cho kết quả là các ảnh liên quan ngữ nghĩa nằm rải rác trong toàn bộ không gian đặc trưng Tuy nhiên, những phương pháp này có những hạn chế:

(1) Yêu cầu người dùng phải cung cấp đồng thời các ảnh truy vấn đa dạng, chẳng hạn, để truy vấn chủ đề hoa hồng, người dùng phải cung cấp các ảnh hoa hồng đỏ, hoa hồng vàng, hoa hồng trắng, làm truy vấn Nếu điều kiện này không được thỏa mãn, kết quả tra cứu khởi tạo sẽ là các ảnh nằm trong một vùng nào đó chứ không bao gồm các ảnh liên quan nằm trong các vùng khác nhau Nếu người dùng cung cấp cho hệ thống các ảnh truy vấn là các ảnh hoa hồng màu vàng, kết quả tra cứu khởi tạo chỉ có thể trả về các ảnh hoa hồng màu vàng

mà bỏ qua các ảnh hoa hồng màu trắng và màu đỏ Lý do của việc này là vì trong các hệ thống tra cứu ảnh truyền thống, các ảnh có véc tơ đặc trưng mức thấp tương tự nhau sẽ nằm gần nhau (hay trong cùng một cụm đặc trưng mức thấp) Trên danh sách kết quả khởi tạo gồm có các bông hồng màu vàng, người dùng chỉ

có thể chọn được các bông hồng màu vàng Hệ thống dựa vào các phản hồi là các bông hồng màu vàng để tiếp tục tra cứu Các pha tra cứu tiếp theo sẽ dịch chuyển đến các vùng màu vàng Kết quả của hệ thống chỉ có thể thu được các bông hồng màu vàng Vì vậy, các vùng hoa hồng màu đỏ và trắng sẽ bị bỏ qua, do đó độ chính xác của hệ thống sẽ bị giới hạn cho dù pha tra cứu sau đó có ưu việt đến đâu

Trang 9

(2) Số lần truy vấn cho lần lặp tiếp theo phụ thuộc vào số ảnh liên quan do người dùng cung cấp, do đó có hai khả năng không thuận lợi xảy ra: Khả năng thứ nhất, người dùng chọn quá ít ảnh phản hồi (ít hơn số cụm trong không gian đặc trưng) Trong khả năng này, độ chính xác của hệ thống sẽ không được đảm bảo vì theo lý thuyết phân cụm, nhiều truy vấn sẽ phủ nhiều cụm hơn Khả năng thứ hai là người dùng chọn quá nhiều ảnh phản hồi Khả năng này sẽ làm tăng gánh nặng cho pha gộp các danh sách kết quả (mỗi truy vấn sẽ có một danh sách kết quả) Ngoài ra, quá nhiều truy vấn cũng không cải tiến nhiều độ chính xác của

hệ thống (thực nghiệm trong [49] đã chỉ ra rằng độ chính xác tăng nhanh từ 1 đến

8 truy vấn và tăng chậm khi số truy vấn từ 8 đến 20) Chẳng hạn, trong cơ sở dữ liệu Corel với chủ đề hoa hồng, mỗi ảnh truy vấn hoa hồng cũng chỉ nằm rải rác trong 4 cụm (mỗi cụm tương ứng với một màu của hoa hồng)

(3) Sử dụng các trọng số của các truy vấn ngang bằng nhau, tức là, độ quan trọng của các truy vấn là như nhau cho dù mỗi truy vấn có lân cận khác nhau (4) Các đặc trưng có trọng số như nhau cho dù mỗi thành phần đặc trưng có một độ quan trọng khác nhau

Những hạn chế này là nguyên nhân chính dẫn đến độ chính xác của hệ thống tra cứu chưa cao

Trên cơ sở phân tích các hạn chế của các phương pháp đã có, luận án đề xuất một phương pháp tra cứu ảnh liên quan ngữ nghĩa Phương pháp đề xuất có ưu điểm là:

(1) Chỉ sử dụng một truy vấn để tạo ra kết quả tra cứu khởi tạo đa dạng, gồm các ảnh nằm trong các vùng khác nhau (giảm gánh nặng cho người dùng trong việc không phải chọn nhiều ảnh truy vấn)

(2) Phân cụm các ảnh liên quan với thời gian thấp

(3) Xác định được độ quan trọng ngữ nghĩa của từng truy vấn

(4) Xác định độ quan trọng theo từng đặc trưng

Bốn ưu điểm này đã được thể hiện trong phương pháp đã được công bố trong [CT5, CT6]

2.2 Sơ đồ phương pháp đề xuất

Trên cơ sở các phân tích ở mục 2.1 ở trên, luận án đề xuất sơ đồ của phương pháp như trên Hình 2.5

Trang 10

Hình 2.5 Cấu trúc phương pháp đề xuất

Phần tiếp theo của luận án sẽ trình bày chi tiết phương pháp đề xuất Phần tiếp theo cần có một số định nghĩa, do đó luận án đưa ra một số định nghĩa ở đây

Định nghĩa 2.1 (Tập đặc trưng) Một tập đặc trưng F gồm có N bộ đặc

trưng, mỗi bộ gồm m thành phần, mỗi thành phần là một giá trị thực

(2.1)

Định nghĩa 2.2 (Không gian đặc trưng) Một không gian đặc trưng FS gồm

m chiều, mỗi chiều tương ứng với một thành phần thực của bộ đặc trưng t

ứng với một bộ đặc trưng trong F

(2.2)

Định nghĩa 2.3 (Không gian đặc trưng thứ i) Một không gian đặc trưng thứ

(2.3)

Định nghĩa 2.4 (Đo khoảng cách giữa hai điểm trong không gian đặc trưng FS i

) Đo khoảng cách giữa hai điểm và (k,l=1 N) và kl ,được ký

Ý tưởng chính của phương pháp đề xuất là không đặt các ảnh (bao gồm cả

ảnh cơ sở dữ liệu và ảnh truy vấn) trong cùng một không gian đặc trưng mà đặt trong nhiều không gian đặc trưng (trong ngữ cảnh của chương này, luận án ánh xạ mỗi một biểu diễn của ảnh vào một không gian đặc trưng tương ứng), sau đó thực hiện tra cứu bằng việc truy vấn trên mỗi không gian đặc trưng này và nhập các kết quả tương ứng với các không gian đặc trưng thành một kết quả cuối cùng

Lý do mà phương pháp trong luận án có thể lấy được các ảnh nằm rải rác trong không gian đặc trưng màu gốc là vì các ảnh được chuyển về biểu diễn xám Theo biểu diễn này, các đặc trưng hình dạng và kết cấu sẽ không bị át bởi màu Một

Độ quan trọng đặc trưng

Độ quan trọng truy vấn

tra cứu

Tập phản hồi

Trang 11

đặc trưng Trong không gian này, do đặc trưng mầu không được bao gồm cho nên các ảnh cùng chủ đề (chẳng hạn: bông hoa hồng vàng, trắng và đỏ) sẽ có vị trí gần nhau Do vậy, phương pháp đề xuất có thể lấy ra được các ảnh hoa hồng màu

đỏ, màu hồng và màu vàng tương ứng với ảnh truy vấn màu đỏ

Đến đây, quá trình tra cứu sẽ đối sánh giữa ảnh truy vấn và ảnh cơ sở dữ liệu trong mỗi một không gian đặc trưng riêng lẻ để có được một danh sách kết quả Như vậy, ta sẽ có 4 danh sách kết quả Tiếp theo, bốn danh sách kết quả sẽ được gộp lại để được một danh sách kết quả cuối cùng

2.3 Phản hồi liên quan với truy vấn đa điểm

Cách tiếp cận ban đầu đối với tra cứu ảnh dựa vào nội dung không thích ứng với tra cứu dựa vào nhận thức của người dùng về độ tương tự trực quan Để khắc phục vấn đề này, một số phương pháp tra cứu ảnh sử dụng phản hồi liên quan được đề xuất Có hai thành phần để học phản hồi liên quan đó là hàm khoảng cách và điểm truy vấn mới Hàm khoảng cách được thay đổi thông qua việc học các trọng số của các thành phần đặc trưng và điểm truy vấn mới thu được bằng việc học điểm mong muốn mà người dùng tìm kiếm

2.4 Thuật toán tra cứu ảnh đề xuất

Định nghĩa 2.5 (Truy vấn đa điểm): Một truy vấn đa điểm MQ=<n MQ , P MQ ,

rằng các trọng số được chuẩn hóa tức là ∑ ), D MQ là khoảng cách mà

khi được cho hai điểm bất kỳ p i và p j trong không gian đặc trưng sẽ trả lại khoảng

cách giữa chúng và k là số các điểm được tra cứu trong mỗi lần lặp

2.4.1 Phân cụm tập ảnh phản hồi

Thuật toán 2.1 dưới đây là thuật toán phân cụm sử dụng k véc tơ riêng CISE

(Clustering Images Set using Eigenvectors) thực hiện việc phân cụm tập các ảnh

thành k cụm

Thuật toán 2 Thuật toán phân cụm sử dụng k véc tơ riêng

Input: -Tập các ảnh S s1,s2 sn với si Rn

- Số cụm k

Output: k cụm: C1, C2 Ck

Trang 12

2.4.2 Thuật toán đề xuất cho phân cụm gia tăng

Sau khi thực hiện phân cụm tập ảnh phản hồi của người dùng, để tránh việc phận cụm lại toàn bộ tập ảnh phản hồi Luận án thực hiện phân cụm gia tăng cho mỗi cụm

Giả sử dữ liệu có phân phối Gauss Trong thuật toán này, ta coi mỗi cụm như một nhóm Khi huấn luyện, ta sẽ ước lượng tâm và ma trận hiệp phương sai Công việc xác định cụm của một đối tượng được tác giả qui về bài toán tìm một ước lượng sao cho: với một đầu vào được cho , nhãn cụm của nó sẽ được xác định theo:

0 y (2.8) Tuy nhiên, rất khó tính toán, do đó thay vì tính toán , ta sẽ ước lượng qua và Y Theo luật Bayes, với i là nhãn của nhóm, ta có công thức:

(2.9)

∑ (2.10) Giả sử rằng là phân phối chuẩn đa biến với hàm mật độ:

Trang 13

số mẫu huấn luyện

Đến đây, chúng ta thu được công thức:

và lấy logarit của cả hai vế của (2.17), ta được:

log log log ∑ (2.18) Giá trị của vế phải (2.18) đúng với mọi nhóm i nên ta chỉ quan tâm đến:

log ∑ (2.19)

=log [ ∑ ∑ ] ∑ (2.20) Như vậy, mục tiêu của ta là cực đại công thức (2.20) theo i

Do ∑ trong (2.20) không phụ thuộc vào i nên ta coi nó là một hằng số

nên (2.20) biến đổi thành

log ∑ ∑ (2.21)

Bỏ qua hằng số , ta có hàm mục tiêu:

Ngày đăng: 25/10/2019, 22:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w