Luận án tiến sĩ khoa học máy tính kết hợp cấu trúc r tree với đồ thị tri thức cho mô hình tìm kiếm ản

TỔNG QUAN VỀ TÌM KIẾM ẢNH, CẤU TRÚC R-TREE VÀ ĐỒ THỊ TRI THỨC

Giới thiệu

Hệ thống tìm kiếm ảnh đã được áp dụng trong nhiều lĩnh vực khác nhau như hệ thống nhận dạng khuôn mặt trong điều tra hình sự [1], hệ thống nhận diện hàng hóa qua hình ảnh [2], hệ thống tìm kiếm ảnh y tế trong chẩn đoán y khoa [34] và nhiều hệ thống khác Để tìm kiếm trong các hệ thống này, các phương pháp tiếp cận tìm kiếm các hình ảnh có chứa các thông tin trực quan khác nhau (màu sắc, hình dạng, kết cấu, vị trí, không gian) và phát hiện các đối tượng trong hình ảnh đó một cách chính xác và nhanh chóng là cần thiết Vì vậy, tìm kiếm ảnh IR (Image Retrieval) và phát hiện đối tượng OD (Object Detection) đã được nghiên cứu trong nhiều thập kỷ qua, trong đó bài toán tìm kiếm ảnh tương tự và phân lớp ngữ nghĩa hình ảnh được phát triển về lý thuyết, triển khai ứng dụng và cho nhiều kết quả khả quan [35, 36]

Mô tả nội dung thị giác của hình ảnh và tạo cấu trúc lưu trữ cho nội dung thị giác là hai vấn đề cần thiết khi thực hiện bài toán tìm kiếm ảnh theo nội dung [17,

37] Nhiều phương pháp để lưu trữ dữ liệu đa chiều bao gồm KD-Tree, M-Tree, R- Tree, graph, v.v [17, 19, 38, 39] được ứng dụng cho hình ảnh và thực hiện quá trình tìm kiếm ảnh tương tự Trong đó, R-Tree là một trong những cấu trúc được sử dụng phổ biến để lưu trữ dựa trên phân vùng dữ liệu [19] Dữ liệu đa phương tiện ngày càng gia tăng nhanh theo thời gian chính là thách thức cho việc lưu trữ và tìm kiếm hiệu quả Do đó, việc kết hợp các phương pháp khác nhau cho bài toán tìm kiếm ảnh cần được thực hiện nhằm nâng cao hiệu suất, giảm thời gian tìm kiếm cũng như tối ưu hóa không gian lưu trữ là cần thiết [40].

Tìm kiếm ảnh theo nội dung

Hiện nay, các hệ thống tìm kiếm ảnh theo từ khóa chú thích bên ngoài hình ảnh không khả thi và bị hạn chế do việc chú thích thủ công và dữ liệu không có sẵn [41] Trong khi đó, hệ thống CBIR sử dụng các kỹ thuật trích xuất đặc trưng nội dung hình ảnh như màu sắc, kết cấu, hình dạng, vị trí và các đặc trưng khác nhằm mô tả nội dung thị giác của hình ảnh dưới dạng véc-tơ đặc trưng đa chiều [42]

Tìm kiếm ảnh theo nội dung là phương pháp thực hiện tìm kiếm tập các hình ảnh tương tự dựa trên việc trích xuất tự động các đặc trưng cấp thấp của hình ảnh như màu sắc, kết cấu và hình dạng, vị trí, không gian và một số đặc trưng khác Hệ thống lưu trữ các đặc trưng cấp thấp của bộ dữ liệu hình ảnh dưới dạng các véc-tơ đặc trưng đa chiều và đối sánh các véc-tơ đặc trưng dựa trên một độ đo tương tự [43] Vì vậy, hệ thống tìm kiếm ảnh theo nội dung CBIR là cần thiết đối với dữ liệu ảnh số đang tăng trưởng rất lớn như hiện nay [44] Một mô hình tìm kiếm ảnh theo nội dung được trình bày trong Hình 1.1

Hình 1.1 Mô hình tìm kiếm ảnh tương tự theo nội dung Để giải quyết bài toán tìm ảnh theo nội dung, hai vấn đề quan trọng cần được thực hiện bao gồm (1) tạo véc-tơ đặc trưng đa chiều nhằm mô tả đặc trưng nội dung cấp thấp của hình ảnh, (2) xây dựng mô hình tìm kiếm nhằm thực hiện tìm kiếm ảnh tương tự dựa trên dữ liệu đặc trưng cấp cao của hình ảnh Trong [44], Eakins đã đề cập đến ba cấp độ tìm kiếm trong hệ CBIR:

Cấp độ 1: Tìm kiếm theo các đặc trưng ban đầu như màu sắc, kết cấu, hình dạng hoặc vị trí không gian của các phần tử hình ảnh

Cấp độ 2: Tìm kiếm các đối tượng được xác định bởi các đặc trưng nguyên thủy, với một số mức độ suy luận logic Ví dụ: tìm hình ảnh chứa một chiếc xe hơi

Cấp độ 3: Tìm kiếm theo các thuộc tính trừu tượng, liên quan đến một lượng lớn suy luận cấp cao về ngữ nghĩa của các đối tượng được mô tả Điều này bao gồm việc tìm kiếm tên của các sự kiện, ngữ nghĩa của các bức ảnh, v.v Ví dụ: tìm một bức ảnh có cô gái đội nón màu xanh và đang cười

Các hệ thống tìm kiếm theo nội dung dựa trên các đặc trưng cấp thấp đã đạt được nhiều kết quả khả quan và được áp dụng vào thực tế Tuy nhiên, hạn chế của các hệ thống này là tồn tại một độ sai lệch giữa các đặc trưng cấp thấp và ngữ nghĩa cấp cao của hình ảnh (semantic gap) [11] Giải quyết “semantic gap” là một bài toán đầy thách thức của các hệ thống tìm kiếm ảnh dựa trên nội dung [12] Do đó, tìm kiếm ảnh theo tiếp cận ngữ nghĩa được các nhà khoa học đặc biệt quan tâm và đã sử dụng nhiều phương pháp khác nhau để giải quyết vấn đề độ sai lệch ngữ nghĩa như: dựa vào ontology, dựa vào các công cụ học máy, dựa vào phản hồi liên quan RF (Relative Feedback), mẫu ngữ nghĩa và nhiều phương pháp khác [44] Đặc biệt, trong những năm gần đây, kể từ khi Google đưa ra định nghĩa đồ thị tri thức vào năm 2012, đồ thị tri thức đã trở thành công nghệ hiện đại để mô tả ngữ nghĩa của các đối tượng trong thế giới thực Các công trình nghiên cứu gần đây đã áp dụng đồ thị tri thức và đồ thị ngữ cảnh cho các hệ thống tìm kiếm theo tiếp cận ngữ nghĩa để giảm “semantic gap” giữa các đặc trưng cấp thấp và ngữ nghĩa cấp cao của hình ảnh [45-47]

Hiệu suất của hệ thống tìm kiếm ảnh dựa trên nội dung phụ thuộc vào các phương pháp trích xuất đặc trưng cấp thấp và đo độ tương tự giữa các véc-tơ đặc trưng của hình ảnh [48] Trong các hệ thống CBIR, các vec-tơ đặc trưng được thực hiện trích xuất từ các hình ảnh nhằm giảm chi phí đối sánh và thời gian tìm kiếm ảnh Mặc dù đã có nhiều kỹ thuật được đề xuất, nhưng đây vẫn là một trong những vấn đề thách thức nhất trong nghiên cứu phương pháp CBIR Các kỹ thuật học sâu đã mang lại nhiều đóng góp đáng kể trong lĩnh vực xử lý ảnh Tuy nhiên, các phương pháp trích xuất đặc trưng ảnh truyền thống vẫn được sử dụng rộng rãi vì một số lý do sau:

(1) Hiệu quả tính toán: Các phương pháp trích xuất đặc trưng truyền thống thường có tốc độ tính toán nhanh hơn so với các mô hình học sâu phức tạp hơn

(2) Số lượng dữ liệu có giới hạn: Trong nhiều trường hợp, số lượng dữ liệu không đủ lớn để huấn luyện các mô hình học sâu Các phương pháp truyền thống có thể được huấn luyện trên các tập dữ liệu nhỏ hơn và vẫn đưa ra kết quả tốt

(3) Thực tiễn ứng dụng: Các phương pháp trích xuất đặc trưng truyền thống thường dễ hiểu và dễ áp dụng trong các ứng dụng thực tiễn

(4) Kết hợp với các mô hình học sâu: Các phương pháp truyền thống vẫn được sử dụng để trích xuất đặc trưng từ ảnh và sau đó được đưa vào các mô hình học sâu để tăng cường hiệu suất Việc sử dụng các phương pháp truyền thống này cũng giúp tăng độ chính xác và tốc độ huấn luyện của các mô hình học sâu

Do đó, dù cho các kỹ thuật học sâu đang phát triển mạnh mẽ, các phương pháp trích xuất đặc trưng ảnh truyền thống vẫn đóng một vai trò quan trọng trong lĩnh vực xử lý ảnh Đặc trưng màu sắc là một trong những đặc trưng cơ bản của hình ảnh được sử dụng trong các hệ thống tìm kiếm ảnh theo nội dung Các kỹ thuật khác nhau của kỹ thuật trích xuất đặc trưng màu như: lược đồ màu (Color Histogram), véc-tơ liên kết màu CCV (Color Coherence Vector), bộ mô tả màu trội DCD (Dominant Color

Descriptor), ma trận đồng xuất hiện màu CCM (Color Co-occurrence Matrix) Một số không gian màu đã được sử dụng như RGB, CIE-lab, HSV [42, 49, 50] Đặc trưng kết cấu bề mặt được trích xuất bằng cách tính toán thống kê điểm ảnh hoặc tìm cấu trúc điểm ảnh cục bộ trong miền không gian [43, 51, 52] Các kỹ thuật sử dụng trích xuất đặc trưng kết cấu bao gồm: kỹ thuật đặc trưng kết cấu Tamura TTF (Tamura Texture Feature), kỹ thuật mô hình kim tự tháp SP (Steerable Pyramid), phép biến đổi Wavelet WT (Wavelet Transform), phép biến đổi Gabor Wavelet GWT (Gabor Wavelet Transform), v.v Đặc trưng hình dạng là một đặc trưng chứa tất cả các thông tin hình học của một đối tượng trong hình ảnh Hình dạng thường không thay đổi ngay cả khi hướng hoặc vị trí của đối tượng bị thay đổi Đặc trưng này giải quyết việc trích xuất các đối tượng có ý nghĩa từ hình ảnh bằng cách sử dụng kỹ thuật phân đoạn ảnh [42, 53] Một số kỹ thuật trích xuất đặc trưng hình dạng bao gồm: lược đồ định hướng cạnh HED (Histogram of Edge Directions), trích xuất đặc trưng Hu-Moments (Hu-Monents

Feature Extraction), trích xuất đặc trưng Zernike Moments, máy dò cạnh Sobel SED

(Sobel Edge Detector) và các phương pháp khác Để nâng cao hiệu quả của các hệ thống tìm kiếm, nhiều công trình nghiên cứu sử dụng các phương pháp kết hợp các đặc trưng cấp thấp cho bài toán tìm kiếm ảnh: Zenggang, X và cộng sự (2021) [54] đề xuất một thuật toán tìm kiếm ảnh dựa trên sự kết hợp của các đặc điểm màu sắc và hình dạng Phương pháp lược đồ tích lũy (Cumulative Histogram) được sử dụng để tính toán các đặc trưng màu sắc của hình ảnh và 7 moments bất biến được tính như các đặc điểm hình dạng Các đặc điểm về màu sắc và hình dạng được kết hợp với một số trọng số nhất định và khoảng cách Euclid được sử dụng làm thước đo độ tương tự Ashraf và cộng sự (2020) [55] đã phát triển hệ thống CBIR trên cơ sở kết hợp các đặc trưng cấp thấp gồm kết cấu bề mặt và màu sắc Các moment màu trong không gian màu HSV được sử dụng để trích xuất các đặc trưng màu, phương phép DWT và Gabor wavelet được sử dụng để trích xuất các đặc trưng của kết cấu.Ahmed và cộng sự (2019) [21] đã tiến hành một nghiên cứu về CBIR bằng cách kết hợp giữa các đặc trưng màu sắc không gian và các đặc trưng hình dạng Nazir và cộng sự (2018) [56] đã trình bày một phương pháp tìm kiếm ảnh dựa trên nội dung sử dụng đặc trưng màu sắc và kết cấu Phép biến đổi wavelet rời rạc và bộ mô tả lược đồ cạnh EHD (Edge Histogram Descriptor) được sử dụng để trích xuất đặc trưng kết cấu bề mặt Li và cộng sự (2017) [52] đã đề xuất một phương pháp hiệu quả để tìm kiếm ảnh dựa trên màu sắc và kết cấu bằng cách sử dụng mô hình copula Gaussian dựa trên wavelets Gabor Bu và cộng sự (2017) [57] đã đề xuất hệ thống CBIR bằng cách kết hợp các đặc trưng màu sắc và kết cấu được trích xuất từ hình ảnh bằng cách sử dụng bộ lọc đa hướng đa độ phân giải MRMD (Multi-Resolution MultiDirectional) Kết quả cho thấy rằng phương pháp này hiệu quả hơn so với các kỹ thuật hiện có

Kết quả trích xuất đặc trưng của hình ảnh có ảnh hưởng lớn đến hiệu suất hệ thống tìm kiếm ảnh Bởi vì, các đặc trưng này được sử dụng để tính toán độ đo tương tự giữa các hình ảnh trong tập cơ sở dữ liệu Việc sử dụng một loại đặc trưng duy nhất để thực hiện tìm kiếm sẽ làm giảm hiệu suất của hệ thống Do đó, nhiều công trình đã thực hiện kết hợp các loại đặc trưng khác nhau nhằm nâng cao độ chính xác của tập ảnh tương tự [58] Các đặc trưng cấp thấp được sử dụng phổ biến trong các hệ tìm kiếm ảnh theo nội dung bao gồm: màu sắc, kết cấu, vị trí và hình dạng [59] Trong nghiên cứu này, các phương pháp trích xuất đặc trưng cấp thấp được kết hợp minh họa như Hình 1.2-1.5, bao gồm: đặc trưng màu sắc MPEG7 (Hình 1.2); đặc trưng vị trí Shi-tomasi MPEG7 (Hình 1.3); đặc trưng vị trí và kết cấu MaxPooling Sobel (Hình 1.4); đặc trưng hình dạng và kết cấu Sobel HOG (Hình 1.5) Số đặc trưng của hình ảnh được trích xuất là 242 chiều được mình họa trong Bảng 1.1

Bảng 1.1 Các giá trị véc-tơ đặc trưng được trích xuất

Mô tả đặc trưng Kích thước Đặc trưng màu sắc MPEG7 25 Đặc trưng vị trí Shi-tomasi MPEG7 25 Đặc trưng vị trí và kết cấu MaxPooling Sobel 48 Đặc trưng hình dạng và kết cấu Sobel HOG 144

Hình 1.2 Đặc trưng màu sắc MPEG7

Hình 1.3 Đặc trưng vị trí Shi-tomasi MPEG7

Hình 1.4 Đặc trưng vị trí và kết cấu MaxPooling Sobel

Hình 1.5 Đặc trưng hình dạng và kết cấu Sobel HOG 1.2.2 Độ đo tương tự giữa hai hình ảnh

Cấu trúc R-Tree và các biến thể cho tìm kiếm ảnh

R-Tree [18] là một cấu trúc dữ liệu dạng cây được sử dụng để lưu trữ các dữ liệu không gian đa chiều một cách hiệu quả Trong cấu trúc R-Tree nguyên thủy, mỗi nút trong (Node) là một bộ 〈𝑀𝐵𝑅, 𝑝〉, trong đó, 𝑀𝐵𝑅 (Minimun Bounding Rectangle) là một vùng không gian hình chữ nhật tối thiểu chứa các vùng không gian nút con bên trong nó và 𝑝 là con trỏ liên kết đến các nút con Mỗi nút lá (Leaf) là một bộ

〈𝑀𝐵𝑅, 𝑜𝑖𝑑〉, trong đó, 𝑀𝐵𝑅 vùng không gian hình chữ nhật chứa đối tượng dữ liệu và 𝑜𝑖𝑑 là định danh đối tượng Mỗi nút lá trên cây có số phần tử tối thiểu là 𝑚 và số phần tử tối đa là 𝑀 Mỗi nút lá phân chia dữ liệu thành một cụm trong không gian d- chiều.Cấu trúc R-Tree có các tính chất sau: (1) Bao gồm một gốc duy nhất, tập các nút trong và tập các nút lá; (2) Nút gốc chứa con trỏ đến vùng lớn nhất trong miền không gian; (3) Các nút cha chứa các con trỏ tới các nút con trong đó vùng của các nút con nằm bên trong vùng của các nút cha; (4) Các nút lá chứa dữ liệu các đối tượng; (5) Nút gốc phải có ít nhất hai nút con trừ khi nó là một nút lá; (6) Tất cả các lá nằm trên cùng một cấp Cấu trúc R-Tree được minh họa như trong Hình 1.6 và Hình 1.7

Hình 1.6 Cấu trúc R-Tree dạng phân cấp

Hình 1.7 Cấu trúc R-Tree dạng phẳng

R-Tree nguyên thủy có hai nhược điểm quan trọng: (1) Việc tìm kiếm một điểm trong cấu trúc R có thể dẫn đến việc phải xét nhiều đường dẫn từ gốc đến lá Tính chất này có thể dẫn đến suy giảm hiệu suất, đặc biệt khi có sự chồng lấp của các vùng không gian; (2) Các vùng không gian lưu trữ lớn có thể làm tăng mức độ chồng lấp, dẫn đến suy giảm hiệu suất khi thực hiện tìm kiếm vùng, do không gian trống; (3) Các nút trên R-Tree là các vùng không gian hình chữ nhật, điều này tốn nhiều chi phí tính toán khi cập nhật trong quá trình tạo cấu trúc cây

Các cấu trúc lập dữ liệu đa chiều được sử dụng rộng rãi nhất là R-Tree, R*-Tree, SS-Tree và đã được chứng minh là hoạt động khá tốt với việc phân cụm dữ liệu [63-

71] Kỹ thuật này phân vùng tập dữ liệu đa chiều thành một khối siêu hình chữ nhật để xây dựng cấu trúc lưu trữ dữ liệu [67, 70] Các cấu trúc lưu trữ dữ liệu dựa trên R-Tree được sử dụng cho tìm kiếm dữ liệu điểm và dữ liệu không gian [18, 72] R*- Tree có ưu thế nhờ kết hợp tối ưu hóa heuristic vùng không gian để giải quyết các vấn đề liên quan đến chồng lấp không gian Cây SS-Tree sử dụng các hình cầu giới hạn thay cho các hình chữ nhật giới hạn để giảm thiểu tính toán và chồng lấp không gian Mặc dù R-Tree, R*-Tree và SS-Tree hỗ trợ lưu trữ dữ liệu không gian, nhưng việc lựa chọn cấu trúc lưu trữ hiệu quả bị ảnh hưởng rất nhiều bởi một số yếu tố là thuộc tính dữ liệu, phương pháp xây dựng dữ liệu và cách thức tìm kiếm [67]

Các biến thể của R-Tree được phát triển đáp ứng các nhiệm vụ khác nhau như nâng cao hiệu suất tìm kiếm, mở rộng với các ứng dụng khác nhau Tuy nhiên, trong luận án này, các biến thể dựa trên sự thay đổi tiến trình xây dựng bao gồm: R+-Tree, R*-Tree, SS-Tree, SR-Tree ứng dụng cho lĩnh vực tìm kiếm ảnh được khảo sát Biến thể R+-Tree [73] được giới thiệu để tăng hiệu suất tìm kiếm, đặc biệt là các tìm kiếm điểm Sự chồng lấp không gian và vùng bao phủ là hai yếu tố quan trọng đối với hiệu suất tìm kiếm Cải tiến trong biến thể này là không có sự chồng lấp Để đạt được điều đó, các đối tượng được chèn phải được chia thành hai hoặc nhiều hình chữ nhật tối thiểu MBR, điều đó có nghĩa là một đối tượng có thể được sao chép và lưu trữ dự phòng trong một số nút Nếu tồn tại một hình chữ nhật dữ liệu ở cấp thấp hơn chồng lấp với một hình chữ nhật khác, hai vùng không gian này sẽ được phân tách thành một tập hợp các hình chữ nhật con không chồng lấp Việc tìm kiếm được thực hiện dễ dàng vì ở đây tránh được việc tìm kiếm nhiều đường do chồng lấp Tuy nhiên, việc tính toán tốn nhiều chi phí do phải phân chia không gian và phân phối lại các phần tử trong quá trình chèn và xóa phần tử nếu chồng lấp không gian

R*-Tree [72] là một biến thể của R-Tree, kết quả thực nghiệm cho thấy R*-Tree vượt trội hơn trong việc xử lý và hiệu suất tìm kiếm Các thay đổi trong R*-Tree so với R-Tree bao gồm: (1) trong khi chọn cây con, nếu nút đang xét không phải nút lá và trỏ đến nút lá thì việc mở rộng chồng lấp tối thiểu được xem xét Nếu nút hiện hành là nút trong không kế nút lá thì nút cần mở rộng diện tích ít nhất sẽ được chọn Điều này làm tăng hiệu suất của các tìm kiếm cửa sổ nhỏ trên dữ liệu không đồng nhất; (2) Việc phân chia dựa trên giá trị bao gồm diện tích, đường biên và mức độ chồng lấp; (3) Vì tách nút là một quá trình tốn nhiều chi phí, nên để hạn chế việc tách nút phép toán chèn lại cần được thực hiện Điều này cải thiện việc sử dụng khả năng lưu trữ của các nút Tuy nhiên, việc tái cấu trúc cây là một hoạt động tốn nhiều chi phí Do đó, chỉ có một lần gọi lại phép toán chèn được phép cho mỗi cấp độ của cây Khi nút tràn không thể được xử lý bằng cách chèn lại, việc tách nút được thực hiện SS-Tree [74] là một cấu trúc lưu trữ được thiết kế để phân cụm các dữ liệu tương tự của dữ liệu điểm đa chiều Đây là sự cải tiến của R*-Tree và cải thiện hiệu suất của các tìm kiếm láng giềng gần nhất bằng cách thay đổi các yếu tố sau: (1) sử dụng các hình cầu giới hạn thay vì các hình chữ nhật giới hạn; (2) SS-Tree sửa đổi cơ chế chèn lại của R*-Tree Tâm của hình cầu là tâm trung bình của tất cả các phần tử Khi chèn một phần tử mới, một nhánh con có tâm gần nhất với phần tử mới sẽ được chọn Trong cấu trúc SS-Tree, việc chèn lại các phần tử sẽ dẫn đến sự tái cấu trúc cây Vì khối cầu được xác định bởi tâm và bán kính của nó, nên nó yêu cầu ít dung lượng hơn so với hình chữ nhật có giới hạn với đường viền dưới và đường viền trên

SR-Tree [75] là sự kết hợp R*-Tree và SS-Tree Vùng giới hạn của SR-Tree được xác định bằng giao điểm của hình cầu giới hạn và hình chữ nhật giới hạn Việc kết hợp các hình chữ nhật bao quanh cho phép các vùng lân cận được phân chia thành các vùng nhỏ hơn so với SS-Tree và giảm chồng lấp giữa các vùng Điều này nâng cao hiệu suất trên các tìm kiếm láng giềng gần nhất, đặc biệt là đối với dữ liệu đa chiều và không đồng nhất, có thể được ứng dụng trong việc phân cụm dữ liệu tương tự hình ảnh/video Khi chèn, SR-tree cần cập nhật cả hình cầu và hình chữ nhật có giới hạn, nên việc tạo và cập nhật tương đối phức tạp và tốn kém Bên cạnh đó, vì SR-tree chứa cả hình cầu và hình chữ nhật, nên tốn chi phí lưu trữ lớn Để đảm bảo không gian lưu trữ thì cần giảm số lượng phần tử tối đa của một nút Do đó, số lượng nút tăng dẫn đến tăng chiều cao của cây làm tốn chi chí trong quá trình tìm kiếm

Từ việc khảo sát cấu trúc R-Tree và các biến thể của chúng cho thấy rằng cấu trúc này được sử dụng để lưu trữ dữ liệu đa chiều và được áp dụng trong các bài toán tìm kiếm dữ liệu đa phương tiện và cụ thể là bài toán tìm kiếm dữ liệu ảnh nhằm nâng cao hiệu quả và tốc độ tìm kiếm Tuy nhiên, các biến thể này vẫn còn một số tồn tại sau cần cải tiến nhằm nâng cao hiệu quả tìm kiếm: (1) Việc tìm kiếm một điểm trong cấu trúc R có thể dẫn đến việc xét nhiều đường dẫn từ gốc đến lá; (2) Các vùng không gian lưu trữ lớn có thể làm tăng mức độ chồng lấp, dẫn đến suy giảm hiệu suất khi thực hiện tìm kiếm vùng, do không gian trống; (3) Thuật toán chèn lại trên các cấu trúc cấu trúc R*-Tree và SS-Tree sẽ dẫn đến tốn nhiều chi phí tái cấu trúc cây; (4) Việc sử dụng cả khối cầu và hình chữ nhật để lưu trữ trong cấu trúc SR-Tree dẫn đến tối nhiều chi phí tính toán cập nhật dữ liệu trong quá tình tạo cây Trên cơ sở đó, trong luận án này, các mô hình tìm kiếm ảnh dựa trên cấu trúc R S -Tree được đề xuất trong phần 1.5 R S -Tree là một cấu trúc được cải tiến từ cấu trúc R-Tree nguyên thủy và các biến thể của nó, được trình bày trong Chương 2 Để nâng cao hiệu quả tìm kiếm ảnh theo tiếp cận ngữ nghĩa, đồ thị tri thức được áp dụng để xây dựng mối quan hệ giữa các đối tượng trong hình ảnh; đồng thời, mô tả ngữ nghĩa của các đối tượng, các vùng trong hình ảnh và mô tả ngữ nghĩa cho ảnh Tổng quan về đồ thị tri thức được trình bày trong phần 1.4.

Đồ thị tri thức

Đồ thị tri thức KG (Knowledge Graph) là một cấu trúc biểu diễn tri thức và làm nền tảng cho một số ứng dụng khác nhau [76] Đồ thị tri thức ngày càng được quan tâm vì cấu trúc trừu tượng của nó đã tạo điều kiện thuận lợi cho việc quản lý dữ liệu và khái niệm một cách hiệu quả Hơn nữa, đồ thị tri thức mô tả một tập các thực thể trong thế giới thực được kết nối với nhau bằng các quan hệ ngữ nghĩa Dữ liệu được cung cấp ngữ nghĩa thông qua các chú thích, các phép toán dữ liệu Do đó, đồ thị tri thức có thể cung cấp những thông tin ngữ nghĩa cụ thể theo miền của ứng dụng Việc kết hợp đồ thị tri thức có thể mở rộng được các mô hình dữ liệu hiện có như ontology miền, đồng thời có thể phân tích dữ liệu mới để thu thập các tập hợp dữ liệu [77] Đồ thị tri thức thể hiện một tập hợp các khái niệm (các nút hay đỉnh) và các mối quan hệ (các cạnh) dưới dạng đồ thị để liên kết và tích hợp dữ liệu Đồ thị tri thức mã hóa ngữ nghĩa và dữ liệu dưới dạng đồ thị, bao gồm:

(1) Tri thức (ngữ nghĩa): các khái niệm và mối quan hệ giữa các khái niệm là yếu tố quan trọng, chúng mã hóa tri thức để mô tả các miền dữ liệu trong thế giới thực;

(2) Đồ thị (dữ liệu): một cấu trúc dữ liệu dựa trên các nút và cạnh cho phép tích hợp dữ liệu từ các nguồn dữ liệu không đồng nhất, từ không có cấu trúc đến có cấu trúc

Khái niệm về Web ngữ nghĩa được đề xuất bởi Berners Lee vào năm 2001 [78] Trong đó, các kỹ thuật tiêu chuẩn bao gồm định danh tài nguyên duy nhất URI (Uniform Resource Identifier); khung mô tả tài nguyên RDF (Resource Description

Framework); ngôn ngữ web bản thể học OWL (Web Ontology Language) được giới thiệu và phát triển Một số nghiên cứu đã sử dụng tiêu chuẩn RDF để biểu diễn tri thức dựa trên đồ thị Các nút trong đồ thị đại diện cho các thực thể và các cạnh biểu diễn các mối quan hệ Tập hợp các quan hệ được tổ chức trong một lược đồ hoặc bản thể luận để tạo ra mối tương quan giữa chúng Khái niệm dữ liệu được liên kết LD (Linked Data) [79] ra đời vào năm 2009 Năm 2014, khoảng 1.000 bộ dữ liệu được liên kết với nhau trong đám mây dữ liệu mở liên kết LOD (Linked Open Data) và hầu hết các liên kết giữa chúng kết nối các thực thể giống hệt nhau [80] Đồ thị tri thức được Google đề xuất vào năm 2012, sử dụng tri thức ngữ nghĩa để tìm kiếm thông tin trên web Đồ thị tri thức của Google được sử dụng để xác định và phân biệt các thực thể trong văn bản nhằm nâng cao hiệu quả tìm kiếm đáp ứng nhu cầu người dùng Những năm gần đây, việc xây dựng và ứng dụng đồ thị tri thức đã phát triển nhanh chóng Đồ thị tri thức đã được tạo và áp dụng cho các ứng dụng khác nhau như hệ thống tư vấn; phân tích ngữ nghĩa; trích xuất thông tin, trả lời câu hỏi, phân loại và tìm kiếm ảnh Một số đồ thị tri thức KG (Knowledge Graph) nổi tiếng được biết đến như Freebase, DBpedia, YAGO, và NELL Trên cơ sở đó, đồ thị tri thức được phát triển và ứng dụng trong nhiều lĩnh vực khác nhau bao gồm y tế, khoa học kỹ thuật, mạng xã hội, du lịch, giáo dục và chăm sóc sức khỏe [77, 81].

Đồ thị ngữ cảnh

Đồ thị ngữ cảnh, được đề xuất bởi Johnson vào năm 2015 [28], là một cấu trúc dữ liệu biểu diễn nội dung ngữ nghĩa của hình ảnh được minh họa trong Hình 1.8 Một đồ thị ngữ cảnh bao gồm các thể hiện nhãn lớp của đối tượng, thuộc tính của đối tượng và mối quan hệ giữa các cặp đối tượng Theo công trình này, gọi 𝐶 là tập các phân lớp của đối tượng trong ảnh, 𝐴 là tập các loại thuộc tính, 𝑅 là tập hợp các loại quan hệ Một đồ thị ngữ cảnh của một hình ảnh được mô tả như sau: Một đồ thị ngữ cảnh là một bộ 𝐺 = (𝑂, 𝐸), trong đó 𝑂 = {𝑜 1 , , 𝑜 𝑛 } là tập các đối tượng còn gọi là đỉnh của đồ thị, 𝐸 ⊆ 𝑂 × 𝑅 × 𝑂 là tập các mối quan hệ còn gọi là cạnh của đồ thị Mỗi đối tượng có dạng 𝑜 𝑖 = (𝑐 𝑖 , 𝐴 𝑖 ) trong đó, 𝑐 𝑖 là phân lớp của đối tượng và 𝐴 𝑖 là các thuộc tính của đối tượng

Hình 1.8 Ví dụ về đồ thị ngữ cảnh trong bộ dữ liệu VG [28] Đồ thị ngữ cảnh chứa tri thức có cấu trúc về ngữ cảnh trực quan, bao gồm các đối tượng, các thuộc tính của đối tượng và mối quan hệ giữa các đối tượng Là một tri thức hữu ích mô tả ngữ nghĩa chi tiết của hình ảnh và các chú thích, đồ thị ngữ cảnh đã được ứng dụng trong nhiều nhiệm vụ, bao gồm: chú thích hình ảnh [82], tìm kiếm ảnh [83], trả lời câu hỏi cho hình ảnh(VQA) [84] và tạo hình ảnh [85] Một số công trình gần đây đã ứng dụng đồ thị ngữ cảnh trong tìm kiếm ảnh, cụ thể như sau: Justin Jonhson và cộng sự đã đề xuất một khung tìm kiếm ảnh theo ngữ nghĩa dựa trên khái niệm đồ thị ngữ cảnh Nhóm tác giả đã sử dụng đồ thị ngữ cảnh để tìm kiếm các hình ảnh liên quan đến ngữ nghĩa [28] Wang, S và cộng sự đã giới thiệu một mô hình tìm kiếm ảnh sử dụng đồ thị ngữ cảnh bao gồm đồ thị ngữ cảnh trực quan và đồ thị ngữ cảnh văn bản [29] Yoon, S và cộng sự đã giới thiệu một cách tiếp cận mới để tìm kiếm ảnh dựa trên độ tương tự của đồ thị ngữ cảnh sử dụng mạng nơ-ron đồ thị [30] Qi, M và cộng sự đã đề xuất một khung mới để tìm kiếm ngữ cảnh trực tuyến đa phương thức dựa trên các biểu diễn nhị phân và đồ thị ngữ nghĩa [31] Quinn,

M H và cộng sự mô tả một kiến trúc tìm kiếm ảnh theo ngữ nghĩa dựa trên tình huống trực quan của hình ảnh [32].

Kiến trúc hệ thống tìm kiếm ảnh

Trên cơ sở khảo sát các công trình nghiên cứu liên quan đến bài toán tìm kiếm ảnh theo tiếp cận R-Tree Trong luận án này đề xuất một mô hình tìm kiếm ảnh theo nội dung dựa trên cấu trúc R S -Tree như trong Hình 1.9 Mô hình này gồm hai pha: pha tạo cấu trúc lưu trữ dữ liệu và pha tìm kiếm ảnh

Trong pha tạo cấu trúc lưu trữ và gom cụm dữ liệu, hệ thống thực hiện các công việc sau: (1) trích xuất đặc trưng các hình ảnh trong các tập cơ sở dữ liệu ảnh huấn luyện; (2) xây dựng cấu trúc dữ liệu lưu trữ và phân cụm dữ liệu ảnh tương tự

Trong pha tìm kiếm ảnh, từ một ảnh đầu vào hệ thống thực hiện trích xuất đặc trưng ảnh và thực hiện quá trình tìm kiếm ảnh tương tự trên cấu trúc R S -Tree Kết quả trả về tập các hình ảnh tương tự với ảnh truy vấn

Hình 1.9 Mô hình tìm kiếm ảnh theo nội dung dựa trên cấu trúc R S -Tree

Trong mô hình này, việc tìm kiếm ảnh dựa trên tính toán độ tương đồng giữa các đặc trưng cấp thấp của ảnh tìm kiếm và đặc trưng của các ảnh trong cơ sở dữ liệu

Do đó, vẫn tồn tại một độ sai lệch ngữ nghĩa giữa các đặc trưng cấp thấp và ngữ nghĩa cấp cao Để khắc phục hạn chế này, một mô hình tìm kiếm theo nội dung và ngữ nghĩa sử dụng cấu trúc R S -Tree và đồ thị tri thức được đề xuất nhằm nâng cao độ chính xác tìm kiếm và giảm “semantic gap” được minh họa như Hình 1.10

Hình 1.10 Mô hình tìm kiếm ảnh kết hợp R S -Tree và đồ thị tri thức Ở mô hình này, hệ thống thực hiện hai pha: pha tạo đồ thị tri thức và pha tìm kiếm ảnh Trong pha tạo đồ thị tri thức, thực hiện cải tiến cấu trúc R S -Tree bằng cách kết hợp đồ thị láng giềng để nâng cao độ chính xác tìm kiếm theo nội dung Đồng thời, một cấu trúc đồ thị tri thức dùng để lưu trữ và mô tả mối quan hệ ngữ nghĩa của các đối tượng trong hình ảnh được xây dựng từ tập dữ liệu Visual Genome và cấu trúc dữ liệu R S -Tree Trong pha tìm kiếm ảnh, hệ thống thực hiện tìm kiếm ảnh tương tự theo nội dung dựa trên cấu trúc R S -Tree để trả về tập ảnh tương tự Từ tập ảnh này, hệ thống thực hiện trích xuất đồ thị ngữ cảnh của hình ảnh và thực hiện tìm kiếm dựa trên đồ thị tri thức sử dụng câu lệnh truy vấn SPARQL Tập kết quả trả về là tập ảnh tương tự với ảnh đầu vào được thực hiện tìm kiếm trên đồ thị tri thức Đồng thời các mô tả ngữ nghĩa của hình ảnh tìm kiếm được trích xuất.

Môi trường thực nghiệm và độ đo đánh giá

Quá trình xây dựng thực nghiệm được tiến hành trên nền tảng dotNET Framework 4.8, ngôn ngữ lập trình C# Các đồ thị đánh giá kết quả thực nghiệm được xây dựng trên Matlab 2015b Pha tiền xử lý được thực hiện trên máy PC CPU 2.3GHz 8-core 9th-generation Intel Core i9, 16GB 2666MHz memory, 1TB flash storage Pha tìm kiếm được thực nghiệm trên máy PC CPU Intel Core i7-6500U CPU @ 2.50GHz, 8.0GB RAM, hệ điều hành Windows 10 Pro 64 bit Đồ thị và bảng biểu là hai loại được sử dụng trong luận án để mô tả kết quả thực nghiệm của mô hình và thuật toán đề xuất Trong đó, đồ thị mô tả hiệu suất tìm kiếm về độ chính xác, độ phủ và thời gian tìm kiếm ảnh; các bảng biểu mô tả các giá trị về độ chính xác, độ phủ, thời gian tìm kiếm trung bình trên các tập dữ liệu thực nghiệm và so sánh giữa các phương pháp

1.7.2 Bộ dữ liệu thực nghiệm

Thực nghiệm được tiến hành trên các tập dữ liệu ảnh thông dụng được mô tả trong Bảng 1.1 bao gồm: COREL [86], Oxford Flowers 17 (OF17) [87], Oxford

Flowers 102 (OF102) [87], CUB-2011-200 (CUB) [88], MS-COCO [89], Visual Genome [90]

Bảng 1.2 Các tập dữ liệu ảnh được thực nghiệm trong luận án

STT Tên tập ảnh Số lượng ảnh Số lượng lớp ảnh Kích thước

Các bộ ảnh đơn đối tượng bao gồm: COREL, Oxford Flowers 17, Oxford Flowers 102, CUB-2011-200 được sử dụng để thực nghiệm trên cấu trúc R S -Tree để minh chứng về độ chính xác và thời gian truy vấn là khả thi Bộ dữ liệu ảnh đa đối tượng Visual Genome được sử dụng để xây dựng khung đồ thị tri thức nhằm lưu trữ thông tin ngữ nghĩa và các mối quan hệ giữa các đối tượng trong hình ảnh Bộ dữ liệu ảnh MS-COCO được sử dụng để thực nghiệm tìm kiếm ảnh đa đối tượng trên cấu trúc R S -Tree và đồ thị tri thức

Tập ảnh COREL gồm 1.000 ảnh được chia thành 10 chủ đề khác nhau Mỗi chủ đề của tập ảnh COREL có 100 ảnh tương tự nhau để làm cơ sở cho việc đánh giá hiệu suất tìm kiếm ảnh tương tự Tập ảnh Oxford Flowers 17 gồm 1.360 hình ảnh được chia thành 17 chủ đề khác nhau Mỗi chủ đề chứa khoảng 60 hình ảnh về một loài hoa Tập ảnh Oxford Flowers 102 gồm 8.198 hình ảnh được chia thành 102 chủ đề khác nhau Tập ảnh CUB-2011-200 gồm 11.778 hình ảnh được chia thành 200 chủ đề khác nhau về các loại chim

Tập dữ liệu Visual Genome bao gồm 108.077 hình ảnh, trung bình 35 đối tượng,

50 vùng, 26 thuộc tính và 21 mối quan hệ giữa các cặp đối tượng trên mỗi hình ảnh Đây là tập ảnh có số lượng mô tả ngữ nghĩa của các hình ảnh thiên nhiên lớn nhất hiện nay Tập ảnh này được các công trình nghiên cứu gần đây sử dụng để thực nghiệm cho các bài toán tìm kiếm theo tiếp cận ngữ nghĩa

Tập dữ liệu MS-COCO gồm 118.287 hình ảnh, là tập dữ liệu ảnh được phát triển bởi Microsoft, ảnh được chụp từ các cảnh hoạt động hàng ngày và có thể được sử dụng cho nhiều bài toán như nhận dạng ảnh, phân đoạn ảnh, chú thích ảnh và tìm kiếm ảnh tương tự

1.7.3 Các tiêu chí đánh giá Để đánh giá hiệu quả của hệ thống tìm kiếm ảnh, một số phương pháp đánh giá hiệu suất được sử dụng Các phương pháp phổ biến được sử dụng trong CBIR là độ chính xác (Precision), độ phủ (Recall), độ dung hòa (F-measure) [91]

▪ Precision: độ chính xác là tỉ lệ các ảnh tìm kiếm liên quan trên tập ảnh kết quả của tìm kiếm Độ đo này được tính theo công thức sau:

| | relevant images retrieved images precision retrieved images

▪ Recall: độ phủ là tỉ lệ của các ảnh liên quan trên toàn bộ tập ảnh liên quan Độ đo này được tính theo công thức sau:

| | relevant images retrieved images recall relevant images

Trong đó, relevant images là tập ảnh tương tự với ảnh tìm kiếm và có trong tập dữ liệu ảnh, retrieved images là tập ảnh đã tìm kiếm được Các giá trị độ chính xác, độ phủ và F-measure được tính theo tỉ lệ % và quy đổi thành giá trị trên đoạn [0, 1].

▪ F-Measure - Độ đo dung hòa Độ chính xác và độ phủ của một hệ thống tìm kiếm ảnh sẽ thể hiện hiệu suất tìm kiếm Tuy nhiên, hai phép đo này không phải lúc nào cũng đủ để phản ảnh được độ chính xác của khả năng tìm kiếm ảnh Do đó, một độ đo dung hòa được tính toán dựa trên sự kết hợp từ hai độ đo này nhằm đánh giá chính xác hơn hiệu suất của các hệ thống tìm kiếm Độ đo dung hòa được tính theo công thức sau:

+ (1.8) Độ đo dung hòa F-measure càng cao, cho thấy hiệu năng của hệ thống tìm kiếm càng tốt Các giá trị precision, recall và F-measure được tính theo tỉ lệ % và quy đổi thành giá trị trên đoạn [0, 1] Ngoài ra, để đánh giá độ chính xác của phương pháp, độ chính xác trung bình MAP (Mean Average Precision) thường được sử dụng MAP được tính toán theo công thức (1.9):

Với 𝑃 𝑖 là độ chính xác của mỗi truy vấn, n là số lượng truy vấn thực hiện Bên cạnh đó, để đánh giá các giá trị thực nghiệm của hệ tìm kiếm ảnh, một đường cong đặc trưng thu nhận ROC (Receiver Operating Characteristic) [92] được sử dụng Diện tích phía dưới đường cong AUC (Area Under the Curve), giới hạn trong không gian ROC, là thước đo độ chính xác tập ảnh tương tự của quá trình tìm tìm kiếm, diện tích càng lớn thì độ chính xác càng cao Kết hợp độ chính xác và độ phủ tạo ra một độ đo khác là PR curve (Precision-Recall curve) [93] Đường cong PR ngày càng được sử dụng rộng rãi trong tìm kiếm ảnh, đặc biệt đối với các tập dữ liệu không cân bằng Diện tích dưới đường cong AUC của PR curve được sử dụng là thước đo đánh giá hiệu năng của hệ thống tìm kiếm.

Tổng kết chương

Chương này đã khảo sát các công trình liên quan và các đối tượng cơ sở cho tìm kiếm ảnh theo nội dung dựa trên cấu trúc R-Tree Cấu trúc R-Tree và các biến thể của nó được phát triển từ những năm 80, nhiều công trình đã kế thừa và phát triển cấu trúc này để áp dụng vào các bài toán trong thực tế và chứng minh tính hiệu quả về tốc độ tìm kiếm, hiệu suất tìm kiếm Từ đó cho thấy cấu trúc R-Tree là một giải pháp khả thi cho bài toán tìm kiếm ảnh tương tự Thêm vào đó, chương này trình bày tổng quan về đồ thị tri thức, đồ thị ngữ cảnh áp dụng cho bài tìm kiếm ảnh theo ngữ nghĩa Dựa trên khảo sát các công trình nghiên cứu, mô hình tìm kiếm ảnh dựa trên sự kết hợp R-Tree với đồ thị tri thức được đề xuất Ngoài ra, chương này cũng trình bày các phương pháp tổ chức thực nghiệm, bao gồm: môi trường thực nghiệm, tập dữ liệu thực nghiệm và các giá trị đánh giá Trong chương tiếp theo, trình bày một cấu trúc

R S -Tree được cải tiến dựa trên cấu trúc R-Tree áp dụng cho bài toán tìm kiếm ảnh để nâng cao hiệu quả tìm kiếm.

KIẾM ẢNH DỰA TRÊN R S -TREE

Giới thiệu

Như đã khảo sát trong Chương 1, cấu trúc cấu trúc R-Tree là một phương pháp quản lý các hệ cơ sở dữ liệu đa chiều được quan tâm nhiều trong thời gian gần đây áp dụng cho bài toán tìm kiếm ảnh [22, 23, 25] Cấu trúc này được Guttman đề xuất vào năm 1984 và sau đó một số biến thể của nó được phát triển để sử dụng trong tìm kiếm ảnh và xử lý các dữ liệu không gian đa chiều hiệu quả hơn

Có nhiều công trình đã áp dụng các cấu trúc lưu trữ dữ liệu R-Tree cho bài toán tìm kiếm ảnh tương tự nhằm nâng cao độ chính xác và giảm thời gian tìm kiếm ảnh Haldurai và cộng sự (2015) đã đề xuất một hệ tìm kiếm ảnh tương tự theo nội dung sử dụng cấu trúc cấu trúc R-Tree [23] Vanitha và cộng sự (2017) đã đề xuất một cấu trúc lưu trữ SR-Tree ứng dụng cho hệ thống tìm kiếm ảnh tương tự theo nội dung Hệ thống thực hiện trích xuất đặc trưng màu sắc, đặc trưng không gian và lưu trữ véc-tơ đặc trưng trên cây SR-Tree [25] Shama và cộng sự (2015) đã đề xuất một hệ thống tìm kiếm ảnh tương tự sử dụng cấu trúc R*-Tree cho tập ảnh thực vật Nhóm tác giả sử dụng phương pháp ma trận đồng xuất hiện màu MCCM (Modified Color Co- occurrence Matrix) và phép lọc Gabour để trích xuất đặc trưng ảnh [24] Alfarrarjeh và cộng sự (2020) đã đề xuất mô hình tìm kiếm ảnh dựa trên cấu trúc R*-Tree ứng dụng cho bài toán tìm kiếm ảnh tương tự với dữ liệu ảnh đường phố [22] Tuy nhiên, việc tìm kiếm một đối tượng dựa trên cấu trúc R-Tree có thể dẫn đến việc xét nhiều đường dẫn từ gốc đến lá Điều này có thể dẫn đến suy giảm hiệu suất, đặc biệt khi có sự chồng lấp của các vùng không gian Trong cấu trúc R*-Tree thuật toán chèn lại phần tử khi gặp một nút tràn sẽ tổ chức lại cây dẫn đến tăng chi phí tạo cây Trong cấu trúc cây SR-tree khi chèn phần tử cần cập nhật cả hình cầu và hình chữ nhật có giới hạn Do đó, việc tạo và cập nhật tương đối phức tạp và tốn kém Bên cạnh đó, mỗi nút trên cây SR-Tree chứa cả hình cầu và hình chữ nhật, nên kích thước sẽ lớn hơn nhiều làm ảnh hưởng đến hiệu suất tìm kiếm

Một trong những biến thể của R-Tree được sử dụng trong bài toán tìm kiếm ảnh là cấu trúc SS-Tree [20] SS-Tree là một cấu trúc lưu trữ cho dữ liệu đa chiều, được đề xuất bởi White và Jain Mỗi nút trên SS-Tree được biểu diễn dưới dạng một hình cầu bao gồm tâm và bán kính Tâm của hình cầu là tâm trung bình của các phần tử chứa trong đó Trong cấu trúc này, thuật toán chèn xác định cây con phù hợp nhất để chứa mục nhập mới bằng cách chọn một cây con có tâm gần phần tử được thêm vào mới nhất Đây là một cải tiến của cấu trúc SS-Tree từ cấu trúc R*-Tree để nâng cao hiệu suất của các tìm kiếm láng giềng gần nhất Tuy nhiên, thao tác chèn lại phần tử được thực hiện trên SS-Tree dẫn đến sự tái tổ chức một cách tự động của cấu trúc cây Mặt khác, SS-Tree chỉ được thực hiện các tìm kiếm láng giềng gần nhất, tức là nó không thực hiện các tìm kiếm của vùng không gian

Trong mô hình tìm kiếm ảnh theo nội dung, hai vấn đề quan trọng cần được thực hiện bao gồm (1) trích xuất và tạo cấu trúc lưu trữ các véc-tơ đặc trưng cấp thấp của hình ảnh; (2) thực hiện tìm kiếm ảnh tương tự Việc trích xuất đặc trưng và lựa chọn một cấu trúc lưu trữ cho tập dữ liệu đặc trưng ảnh hưởng đến hiệu quả của các hệ thống tìm kiếm ảnh Với sự phát triển và bùng nổ dữ liệu như hiện nay, một cấu trúc lưu trữ cần đáp ứng yêu cầu về khả năng lưu trữ dữ liệu lớn, giúp tìm kiếm nhanh và chính xác dữ liệu Do đó, trong chương này, cấu trúc R S -Tree, một cải tiến của R- Tree và các biến thể của nó, được xây dựng để nâng cao độ chính xác của việc tìm kiếm ảnh bằng cách kết hợp tìm kiếm láng giềng và vùng không gian gần nhất

Trên cơ sở các cấu trúc cấu trúc R-Tree và các biến thể được ứng dụng trong lĩnh vực tìm kiếm ảnh, một cấu trúc cây phân cụm dữ liệu R S -Tree được đề xuất nhằm lưu trữ các véc-tơ đặc trưng cấp thấp của hình ảnh R S -Tree là cây đa nhánh cân bằng, mỗi nút trên cây được phân cụm dựa vào độ đo tương tự theo phương pháp phân hoạch và phân cấp, đảm bảo khả năng lưu trữ lớn trên cây Việc gom nhóm dữ liệu được thực hiện trên từng nút của cấu trúc R S -Tree dựa vào độ đo tương tự giữa các véc-tơ đặc trưng ảnh và một ngưỡng θ cho trước nhằm tạo ra một cây đa nhánh cân bằng để giảm thời gian tìm kiếm Cấu trúc R S -Tree là cấu trúc phân hoạch dữ liệu không gian bao gồm: một nút gốc, một tập nút trong và một tập nút lá Mỗi nút trong trên cây là một khối cầu MBS (Minimun Bounding Sphere) bao phủ tất cả khối cầu các nút thuộc nhánh cây con Mỗi nút lá trên cây gồm một tập các thực thể, mỗi thực thể là một khối cầu chứa không gian đối tượng dữ liệu và định danh đối tượng R S - Tree sử dụng khối cầu để lưu trữ dữ liệu vì các lý do sau:

(1) Việc xác định một hình cầu chỉ phụ thuộc vào tâm và bán kính trong khi hình chữ nhật phụ thuộc vào trọng tâm, đường biên trên, đường biên dưới;

(2) Khi không gian giản nở thì hình cầu sẽ tính toán ít biến hơn hình chữ nhật;

(3) Khi cập nhật tại một nút, nếu dùng hình chữ nhật tối thiểu MBR thì cần phải tìm tất cả các hình chữ nhật để xác định biên phải và biên trái bao phủ của một nút, do đó, sẽ tốn chi phí tìm kiếm và sắp xếp Trong khi dùng hình cầu tối thiểu MBS thì không tốn kém các chi phí này;

(4) Áp dụng được nhiều loại tìm kiếm, bao gồm: tìm kiếm vùng, tìm kiếm KNN (K-Nearest Neighbors), tìm kiếm điểm, tìm kiếm không gian

Nội dung chính của chương này bao gồm: (1) Đưa ra nguyên tắc xây dựng cấu trúc R S -Tree dựa trên ngưỡng θ để phân cụm dữ liệu tương tự; (2) Cải tiến thuật toán tách nút dựa vào độ lệch sai biệt của các phần tử so với hai tâm cụm mới để nâng cao độ chính xác của hệ thống tìm kiếm; (3) Xây dựng mô hình phân cụm dữ liệu bằng cách đề xuất cấu trúc cây phân cụm không gian R S -Tree nhằm lưu trữ véc-tơ đặc trưng thị giác cấp thấp của hình ảnh; (4) Đề xuất mô hình tìm kiếm ảnh tương tự dựa trên cấu trúc R S -Tree; (5) Tổ chức thực nghiệm và đánh giá kết quả của phương pháp đề xuất dựa trên tập ảnh COREL, Oxford Flower-17, Oxford Flower-102, CUB-200-

Cấu trúc R S -Tree

R S -Tree được xây dựng dựa trên cấu trúc SS-Tree Cách tính tâm nút lá và nút trong của khối cầu trên R S -Tree tương tự với SS-Tree Các cải tiến trên R S -Tree bao gồm: (1) Tạo một khối cầu không gian để lưu trữ véc-tơ đặc trưng của hình ảnh; (2) cải tiến thuật toán tách nút dựa trên một độ lệch sai biệt giữa các phần tử; (3) đề xuất một ngưỡng 𝜃 để phân cụm các dữ liệu tương tự; (4) kết hợp tìm kiếm láng giềng gần nhất và tìm kiếm vùng không gian

R S -Tree là cây đa nhánh cân bằng ứng dụng cho bài toán tìm kiếm ảnh tương tự Việc gom nhóm dữ liệu được thực hiện trên từng nút của cấu trúc R S -Tree dựa vào độ đo tương tự giữa các véc-tơ đặc trưng ảnh ngưỡng θ cho trước nhằm tạo ra một cây đa nhánh cân bằng để đảm bảo độ chính xác và giảm thời gian tìm kiếm Cấu trúc

R S -Tree là cây phân cụm dữ liệu đa chiều bao gồm: một nút gốc, một tập nút trong và một tập nút lá Hình 2.1 và Hình 2.2 mô tả một cấu trúc R S -Tree dạng phẳng và dạng phân cấp

Hình 2.1 Cấu trúc R S -Tree dạng phẳng

Hình 2.2 Cấu trúc R S -Tree dạng phân cấp

Trong Hình 2.1 mình họa một ví dụ về cấu trúc R S -Tree ở dạng phẳng bao gồm: một nút gốc S là khối cầu lớn nhất chứa tất cả các nút bên trong; ba nút S 1, S 2 , S 3 chứa các nút lá gồm S 4 , S 5 , S 6 , S 7 , S 8 , S 9 , S 10 , S 11 , S 12 Mỗi nút lá chứa các phần tử là khối cầu dữ liệu mô tả hình ảnh Tương ứng với Hình 2.1, cấu trúc phân cấp của R S -Tree được minh họa như Hình 2.2 gồm nút gốc S liên kết kết đến ba nút S 1 , S 2 , S 3 Nút S 1 liên kết đến hai nút lá S 4 , S 5 ; nút S 2 liên kết đến bốn nút lá S 6 , S 7 , S 8 , S 9 ; nút S 3 liên kết đến ba nút lá S 10 , S 11 , S 12 Dữ liệu hình ảnh lưu trữ tại các nút lá của cấu trúc R S -Tree

Nút trong 𝑆 𝑁 là một bộ 〈𝑀𝐵𝑆, 𝑝〉, trong đó 𝑀𝐵𝑆 là một khối cầu có tâm 𝑐⃗ 𝑛 và bán kính 𝑟 𝑛 , p là con trỏ liên kết đến các nút con Khối cầu này bao phủ các khối cầu của các nút thuộc nhánh cây con Mỗi nút trong 𝑆 𝑁 có số phần tử tối thiểu là 2 và tối đa là 𝑁

Nút lá 𝑆 𝐿 là bộ 〈𝑀𝐵𝑆, 𝑒𝑛𝑡𝑖𝑡𝑦〉, trong đó 𝑀𝐵𝑆 là một khối cầu có tâm 𝑐⃗ 𝑙 và bán kính 𝑟 𝑙 chứa một tập thực thể (𝑒𝑛𝑡𝑖𝑡𝑦), mỗi thực thể 𝑠𝑝𝐸𝐷 là một bộ 〈𝑀𝐵𝑆, 𝑜𝑖𝑑〉 trong đó 𝑀𝐵𝑆 là khối cầu có tâm 𝑐⃗ 𝑠𝑝 và bán kính 𝑟 𝑠𝑝 chứa không gian đối tượng, 𝑜𝑖𝑑 là định danh đối tượng 𝑓⃗ = (𝑣 1 , 𝑣 2 , 𝑣 3 , … , 𝑣 𝑑 ) Mỗi nút lá 𝑆 𝐿 có số phần tử tối đa là

𝑀 và số phần tử tối thiểu là 𝑚 (1 < 𝑚 ≤ 𝑀 2⁄ )

Cho hình ảnh I có véc-tơ đặc trưng 𝑓⃗ 𝐼 = (𝑣 𝐼1 , 𝑣 𝐼2 , 𝑣 𝐼3 , … , 𝑣 𝐼𝑑 ) Trong đó, 𝑣 𝐼𝑖 là các đặc trưng cấp thấp của ảnh I với 𝑖 = 1 𝑑 và 𝑣 𝐼𝑖 ∈ [0,1] Hình 2.3 minh họa cách xác định tâm và bán kính của thực thể trong mặt phẳng hai chiều Trong không gian

𝑑-chiều, một khối cầu 𝑀𝐵𝑆 của thực thể 𝑠𝑝𝐸𝐷 là khối cầu chứa đối tượng 𝑓⃗ 𝐼 gồm véc-tơ tâm 𝑐⃗ 𝑠𝑝 và bán kính 𝑟 𝑠𝑝 được mô tả như sau:

1) Tâm khối cầu thực thể:

2) Bán kính khối cầu thực thể:

Hình 2.3 Mô tả một nút thực thể dạng phẳng trên cấu trúc R S -Tree

Hình 2.3a mô tả cách xác định tâm 𝑐⃗ và bán kính 𝑟 chứa véc-tơ đặc trưng

𝐴(𝑎, 𝑏) trong không gian hai chiều Trong đó, tâm 𝑐⃗ = (𝑎 − 𝑎

𝑘), bán kính 𝑟 𝑑 𝐸 (𝑐, 𝐴) với 𝑘 ≥ 2 Hình 2.3b mô tả một khối cầu tâm 𝑐⃗ 𝑠𝑝 , bán kính 𝑟 𝑠𝑝 của khối cầu chứa véc-tơ đặc trưng 𝑓 Gọi 𝑂 là gốc tọa độ, 𝐴 là điểm cuối của véc-tơ đặc trưng 𝑓 Với, 𝑘 = 2 thì tâm khối cầu được lấy là trung điểm của đoạn thẳng OA Nếu 𝑘 > 2 thì vị trí tâm tịnh tiến theo phương của véc-tơ 𝑂𝐴⃗⃗⃗⃗⃗⃗, tức là tịnh tiến về điểm A, do đó, bán kính khối cầu giảm dẫn đến không gian của cấu trúc R S -Tree giảm Vì vậy có thể phân hoạch được nhiều vùng dữ liệu

Một khối cầu MBS của nút lá 𝑆 𝑙 được minh họa tại Hình 2.4 là khối cầu tối thiểu bao phủ tất cả các phần tử khối cầu thực thể chứa bên trong

Hình 2.4 Mô tả một nút lá dạng phẳng trên cấu trúc R S -Tree

Tâm 𝑐⃗ 𝐿 và bán kính 𝑟 𝐿 của nút lá 𝑆 𝐿 được mô tả như sau:

1) Tâm khối cầu nút lá 𝑆 𝐿 :

Trong đó, 𝑠𝑝 1 , 𝑠𝑝 2 , … 𝑠𝑝 𝑘 là các phần tử khối cầu thực thể bên trong nút lá 𝑆 𝐿 và

𝑠𝑝 𝑖 𝑐⃗ 𝑖 là véc-tơ tâm của khối cầu sp 𝑖 , với 1 ≤ 𝑖 ≤ 𝑘

2) Bán kính khối cầu nút lá 𝑆 𝐿 :

Trong đó, 𝑑 𝐸𝑢 (𝑐⃗ 𝐿 , 𝑠𝑝 𝑖 𝑐⃗ 𝑖 ) là khoảng cách Euclid từ véc-tơ tâm của nút 𝑆 𝐿 đến véc-tơ tâm phần tử khối cầu thứ 𝑖 và 𝑠𝑝 𝑖 𝑟 𝑖 là bán kính phần tử khối cầu thứ 𝑖

Một khối cầu MBS của nút trong 𝑆 𝑁 được minh họa tại Hình 2.5 là khối cầu tối thiểu bao phủ tất cả các khối cầu của các nút trong nhánh cây con

Hình 2.5 Mô tả một nút trong dạng phẳng trên R S -Tree

Tâm 𝑐⃗ 𝑛 = (𝑐 1 , 𝑐 2 , … 𝑐 𝑑 ) và bán kính 𝑟 𝑛 của nút trong 𝑆 𝑁 được mô tả như sau:

1) Tâm khối cầu nút trong 𝑆 𝑁 :

Trong đó, 𝑗 là số nút con 𝑆 1 , 𝑆 2 , … , 𝑆 𝑘 của nút trong 𝑆 𝑁 , 𝑑 là số chiều của véc-tơ đặc trưng, 𝑆 𝑗 𝑐⃗ 𝑗 𝑥 𝑖 là đặc trưng thứ 𝑖 của tâm 𝑐⃗ 𝑖 của nút con 𝑆 𝑗 , 𝑆 𝑗 𝑤 là số phần tử chứa trong nút 𝑆 𝑗

2) Bán kính khối cầu nút trong 𝑆 𝑁 :

Sau đây là một số nhận xét rút ra từ cấu trúc R S -Tree được trình bày ở trên:

Mệnh đề 1 Khối cầu được tạo ra từ tâm 𝑐⃗ 𝑙 và bán kính 𝑟 𝑙 là khối cầu nhỏ nhất chứa các khối cầu của nút lá hiện hành

1) Khối cầu này chứa các khối cầu con của nút lá hiện hành

𝑠𝑝 𝑖 𝑟 𝑖 , ∀𝑖 = 1 𝑑 Do đó, khối cầu này chứa tất cả các khối cầu con của nút lá hiện hành

2) Khối cầu này là khối cầu nhỏ nhất

Giả sử tồn tại một khối cầu 𝑆′ 𝐿 có cùng tâm 𝑐⃗ 𝑙 với khối cầu 𝑆 𝐿 , và bán kính 𝑟′ 𝑙

Tiêu đề	Kết Hợp Cấu Trúc R-Tree Với Đồ Thị Tri Thức Cho Mô Hình Tìm Kiếm Ảnh
Tác giả	Lê Thị Vĩnh Thanh
Người hướng dẫn	PGS. TS. Lê Mạnh Thạnh, TS. Văn Thế Thành
Trường học	Trường Đại Học Khoa Học - Đại Học Huế
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận án tiến sĩ
Năm xuất bản	2023
Thành phố	Huế

Định dạng
Số trang	139
Dung lượng	9,91 MB