Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.Phát triển mô hình tìm kiếm ảnh theo tiếp cận cây RTree.
Trang 1ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: PGS TS Lê Mạnh Thạnh
TS Văn Thế Thành
HUẾ, NĂM 2023
Trang 2Có thể tìm hiểu luận án tại thư viện: Trung tâm thông tin thư viện, Trường Đại học Khoa học, Đại học Huế
Trang 3khóa TBIR (Text-based Image Retrieval) và tìm theo nội dung CBIR (Content-based Image Retrieval) Phương pháp TBIR thực hiện tìm kiếm
ảnh tương tự dựa trên việc lập chỉ mục, các mô tả, chú thích hình ảnh được cung cấp từ người dùng [5, 6] Phương pháp tìm kiếm ảnh dựa trên nội dung CBIR được phát triển Phương pháp này tập trung vào việc trích xuất và so sánh các đặc trưng cấp thấp (low-level features) của các hình ảnh như màu sắc, kết cấu, hình dạng, vị trí và một số đặc trưng khác [7-9] Các kết quả của nhiều công trình nghiên cứu trong thập kỷ qua đã thể hiện tính hiệu quả và độ chính xác của các kỹ thuật dựa trên CBIR và đã ứng dụng trong nhiều hệ thống tìm kiếm ảnh [10] Hệ thống CBIR hỗ trợ người dùng tìm kiếm tập các ảnh tương tự nhau về nội dung dựa trên các đặc trưng cấp thấp nhưng các hình ảnh kết quả có thể khác nhau về ngữ nghĩa [11] Đây chính là khoảng cách giữa ngữ nghĩa cấp cao và các đặc trưng thị giác cấp thấp của hình ảnh, việc thu hẹp khoảng cách này là một trong những thách thức lớn trong các hệ tìm kiếm ảnh dựa trên nội dung [12, 13] Do đó, bài toán phân tích và tìm kiếm ảnh theo tiếp cận ngữ nghĩa trong lĩnh vực thị giác máy tính đang rất được các nhà nghiên cứu quan tâm [14-16] Với sự tăng trưởng dữ liệu đa phương tiện (bao gồm: hình ảnh, âm thanh, video, văn bản), các hệ thống xử lý cần lưu trữ một khối lượng dữ liệu rất lớn [17] Vì vậy, việc tạo cấu trúc lưu trữ dữ liệu đa chiều cho các dạng dữ liệu đa phương tiện là cần thiết để giúp quá trình tìm kiếm nhanh chóng và hiệu quả Trên cơ sở đó, luận án đề xuất thực
hiện đề tài “Kết hợp cấu trúc R-Tree với đồ thị tri thức cho mô hình
tìm kiếm ảnh”
Trang 44
2 Tổng quan tình hình nghiên cứu
Trong những năm gần đây, các hệ thống tìm kiếm ảnh được thực hiện bởi nhiều phương pháp phân cụm dữ liệu khác nhau và mang lại những kết quả tốt Trong đó, R-Tree là cấu trúc dùng để phân cụm và lưu trữ dữ liệu đa chiều dựa trên vùng không gian để phân hoạch dữ liệu và được ứng dụng hiệu quả trong lĩnh vực tìm kiếm ảnh [16, 18]
Có nhiều công trình đã áp dụng các cấu trúc R-Tree cho bài toán tìm kiếm ảnh tương tự nhằm nâng cao độ chính xác và giảm thời gian tìm kiếm ảnh Haldurai và cộng sự (2015) đã đề xuất một hệ tìm kiếm ảnh tương tự theo nội dung sử dụng cấu trúc cây R-Tree [22] Vanitha và cộng sự (2017) đã đề xuất một cấu trúc lưu trữ SR-Tree ứng dụng cho hệ thống tìm kiếm ảnh tương tự theo nội dung [24] Shama và cộng sự (2015) đã đề xuất một hệ thống tìm kiếm ảnh tương tự sử dụng cấu trúc R*-Tree cho tập ảnh thực vật [23] Alfarrarjeh và cộng sự (2020) đã đề xuất mô hình tìm kiếm ảnh dựa trên cấu trúc R*-Tree ứng dụng cho bài toán tìm kiếm ảnh tương tự với dữ liệu ảnh đường phố [21]
Các hệ thống tìm kiếm theo nội dung dựa trên các đặc trưng cấp thấp
đã đạt được nhiều kết quả khả quan và được áp dụng vào thực tế Tuy nhiên, hạn chế của các hệ thống này là tồn tại một độ sai lệch giữa các
đặc trưng cấp thấp và ngữ nghĩa cấp cao của hình ảnh (semantic gap) [11] Giải quyết “semantic gap” là một bài toán đầy thách thức của các hệ
thống tìm kiếm ảnh dựa trên nội dung [12] Các công trình nghiên cứu gần đây đã áp dụng đồ thị tri thức và đồ thị ngữ cảnh cho các hệ thống
tìm kiếm theo tiếp cận ngữ nghĩa để giảm “semantic gap” giữa các đặc
trưng cấp thấp và ngữ nghĩa cấp cao của hình ảnh [44-46], cụ thể như sau: Justin Jonhson và cộng sự đã đề xuất một khung tìm kiếm ảnh theo ngữ nghĩa dựa trên khái niệm đồ thị ngữ cảnh [27] Wang, S và cộng sự đã giới thiệu một mô hình tìm kiếm ảnh sử dụng đồ thị ngữ cảnh bao gồm đồ thị ngữ cảnh trực quan và đồ thị ngữ cảnh văn bản [28] Yoon, S và cộng
sự đã giới thiệu một cách tiếp cận mới để tìm kiếm ảnh dựa trên độ tương
tự của đồ thị ngữ cảnh sử dụng mạng nơ-ron đồ thị [29] Qi, M và cộng
Trang 53 Mục tiêu của luận án
Mục tiêu của luận án là phát triển các mô hình tìm kiếm ảnh tương tự dựa trên cấu trúc R-Tree, đề xuất mô hình kết hợp cấu trúc này với biểu diễn quan hệ ngữ nghĩa giữa các đối tượng hình ảnh nhằm nâng cao độ chính xác tìm kiếm ảnh Các mục tiêu cụ thể của luận án bao gồm: (1) Nghiên cứu phương pháp lưu trữ dữ liệu đa chiều trên cấu trúc R-Tree, đồng thời kết hợp đồ thị láng giềng vào cấu trúc cải tiến RS-Tree nhằm nâng cao hiệu quả lưu trữ và tìm kiếm; (2) Đề xuất sử dụng đồ thị tri thức
để biểu diễn thông tin ngữ nghĩa và các mối quan hệ ngữ nghĩa giữa các đối tượng trong hình ảnh; (3) Nghiên cứu các mô hình tìm kiếm ảnh dựa trên cấu trúc RS-Tree; kết hợp đồ thị láng giềng và RS-Tree; kết hợp RS-Tree và đồ thị tri thức
4 Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu: (1) Các cấu trúc cây phân cụm dữ liệu, tạo
véc-tơ đặc trưng đa chiều phục vụ cho bài toán tìm kiếm ảnh; (2) Các thuật toán tạo cấu trúc lưu trữ dữ liệu và các thuật toán tìm kiếm ảnh; (3)
Đồ thị tri thức; (4) Các tập dữ liệu ảnh phổ biến
Phạm vi nghiên cứu: (1) Tạo và cải tiến cấu trúc lưu trữ dữ liệu đa
chiều dựa trên cấu trúc R-Tree; (2) Các thuật toán xây dựng và các thuật toán tìm kiếm trên cây; (3) Các phương pháp cải tiến cây phân cụm với
đồ thị cụm láng giềng; (4) Đồ thị tri thức, ngôn ngữ OWL, truy vấn SPARQL; (5) Các tập dữ liệu ảnh bao gồm: COREL, Oxford Flowers 17, Oxford Flowers 102, CUB-200-2011, Visual Genome, MS-COCO
Trang 66
5 Phương pháp nghiên cứu
Phương pháp lý thuyết: Tổng hợp, phân tích các công bố liên quan
đến tìm kiếm ảnh dựa trên cấu trúc R-Tree và tìm kiếm ảnh theo tiếp cận ngữ nghĩa; đánh giá ưu, khuyết điểm của các công trình nhằm đề xuất các cải tiến phù hợp
Phương pháp thực nghiệm: Xây dựng thực nghiệm trích xuất đặc
trưng, cải tiến cấu trúc dữ liệu, đề xuất mô hình và cài đặt thuật toán trên các tập dữ liệu ảnh phổ biến Các tập dữ liệu ảnh được sử dụng cho cài đặt thực nghiệm bao gồm: COREL, Oxford Flowers 17, Oxford
Flowers 102, CUB-2011-200, Visual Genome và MS-COCO
6 Bố cục của luận án
Luận án được trình bày trong 137 trang, mở đầu (09 trang), kết luận và hướng phát triển (02 trang), danh mục các công trình khoa học của tác giả liên quan đến luận án (01 trang), tài liệu tham khảo (09 trang), luận án
chia thành 3 chương Chương 1 (31 trang) trình bày các cơ sở lý thuyết
về tìm kiếm ảnh và cấu trúc R-Tree Chương 2 (39 trang) trình bày cấu
trúc phân cụm dữ liệu RS-Tree và mô hình tìm kiếm ảnh theo nội dựa trên cấu trúc RS-Tree Chương 3 (46 trang) đề xuất các cải tiến trên cấu trúc
RS-Tree kết hợp đồ thị láng giềng và đồ thị tri thức để nâng cao độ chính xác tìm kiếm ảnh
7 Đóng góp của luận án
(1) Đề xuất các cải tiến đối với cấu trúc R-Tree và thiết kế RS-Tree với các khối cầu dữ liệu kết hợp đồ thị láng giềng và xây dựng cấu GraphNB-RST để nâng cao độ chính xác tìm kiếm ảnh Đồng thời, đề xuất các thuật toán và các mô hình tìm kiếm ảnh theo nội dung dựa trên các cấu trúc đã xây dựng;
(2) Xây dựng đồ thị tri thức dựa trên tập dữ liệu ảnh Visual Genome
và RS-Tree để lưu trữ và mô tả các thông tin ngữ nghĩa của hình ảnh, các mối quan hệ ngữ nghĩa giữa các đối tượng trong ảnh Từ đó, xây dựng mô hình tìm kiếm ảnh theo tiếp cận ngữ nghĩa dựa trên sự kết hợp RS-Tree với đồ thị tri thức để nâng cao độ chính xác tìm kiếm ảnh
Trang 71.2 Tìm kiếm ảnh dựa theo nội dung
Tìm kiếm ảnh theo nội dung là phương pháp thực hiện tìm kiếm tập các hình ảnh tương tự dựa trên việc trích xuất tự động các đặc trưng cấp thấp của hình ảnh như màu sắc, kết cấu và hình dạng, vị trí, không gian
và một số đặc trưng khác Hệ thống sẽ lưu trữ các đặc trưng cấp thấp của
bộ dữ liệu hình ảnh dưới dạng các véc-tơ đặc trưng đa chiều và đối sánh các véc-tơ đặc trưng dựa trên một độ đo tương đồng [42]
Trong luận án này, các phương pháp trích xuất đặc trưng cấp thấp được kết hợp bao gồm: đặc trưng màu dựa trên hệ màu MPEG7 (25 đặc trưng); đặc trưng vị trí theo thuật toán ShiTomasi (25 đặc trưng), đặc trưng hình dạng dựa trên phép toán Maxpooling và bộ dò cạnh Sobel (48 đặc trưng); đặc trưng kết cấu dựa trên HOG và phép lọc Sobel (144 đặc trưng) Số đặc trưng của hình ảnh được trích xuất là 242 chiều
Bên cạnh đó, nhiều phương pháp tìm kiếm ảnh theo ngữ nghĩa được
đề xuất để giảm độ sai lệch ngữ nghĩa giữa nội dung cấp thấp của hình ảnh với ngữ nghĩa cấp cao của con người: (1) Các kỹ thuật học máy được sử dụng để liên kết các đặc trưng cấp thấp với ngữ nghĩa của hình ảnh (2) Tìm kiếm ảnh dựa trên đồ thị tri thức để mô tả ngữ nghĩa hình ảnh và các mối quan hệ ngữ nghĩa của các đối tượng trong hình ảnh
Trang 88
1.3 Cấu trúc R-Tree cho bài toán tìm kiếm ảnh
Từ việc khảo sát cấu trúc R-Tree và các biến thể của chúng cho thấy rằng cấu trúc này được sử dụng để lưu trữ dữ liệu đa chiều và được áp dụng trong bài toán tìm kiếm dữ liệu ảnh nhằm nâng cao hiệu quả và tốc
độ tìm kiếm Trên cơ sở đó, trong luận án này, các mô hình tìm kiếm ảnh dựa trên cấu trúc RS-Tree được đề xuất trong phần 1.5 RS-Tree là một cấu trúc được cải tiến từ cấu trúc R-Tree nguyên thủy và các biến thể của
nó, được trình bày trong chương 2
1.4 Tổng quan đồ thị tri thức
Đồ thị tri thức KG (Knowledge Graph) là một cấu trúc biểu diễn tri
thức và làm nền tảng cho một số ứng dụng khác nhau [76] Đồ thị tri thức ngày càng được quan tâm vì cấu trúc trừu tượng của nó đã tạo điều kiện thuận lợi cho việc quản lý dữ liệu và khái niệm một cách hiệu quả Đồ thị tri thức mã hóa ngữ nghĩa và dữ liệu dưới dạng đồ thị bao gồm: (1) Tri thức (ngữ nghĩa): các khái niệm và mối quan hệ giữa các khái niệm là yếu
tố quan trọng, chúng mã hóa tri thức để mô tả các miền dữ liệu trong thế giới thực; (2) Đồ thị (dữ liệu): một cấu trúc dữ liệu dựa trên các nút và cạnh cho phép tích hợp dữ liệu từ các nguồn dữ liệu không đồng nhất, từ không có cấu trúc đến có cấu trúc
1.5 Đồ thị ngữ cảnh
Đồ thị ngữ cảnh, được đề xuất bởi Johnson vào năm 2015 [28], là một cấu trúc dữ liệu biểu diễn nội dung ngữ nghĩa của hình ảnh Đồ thị ngữ cảnh chứa tri thức có cấu trúc về ngữ cảnh trực quan, bao gồm các đối tượng, các thuộc tính của đối tượng và mối quan hệ giữa các đối tượng
Là một tri thức hữu ích mô tả ngữ nghĩa chi tiết của hình ảnh và các chú thích, đồ thị ngữ cảnh đã được ứng dụng trong nhiều nhiệm vụ bao gồm: chú thích hình ảnh [82], tìm kiếm ảnh [83], trả lời câu hỏi cho hình ảnh(VQA) [84] và tạo hình ảnh [85]
1.6 Mô hình tìm kiếm ảnh
Trong luận án này đề xuất mô hình tìm kiếm ảnh theo nội dung và ngữ nghĩa dựa trên sự kết hợp cấu trúc RS-Tree và đồ thị tri thức như trong
Trang 9Trong pha tìm kiếm ảnh: quá trình tìm kiếm ảnh theo nội dung và ngữ nghĩa dựa trên sự kết hợp cấu trúc RS-Tree với đồ thị tri thức
Hình 1.5 Mô hình tìm kiếm ảnh kết hợp R S -Tree với đồ thị tri thức
1.7 Các phương pháp tổ chức thực nghiệm và đánh giá
Để xác định hiệu quả của các mô hình được đề xuất, các phương pháp
tổ chức thực nghiệm và đánh giá trong luận án bao gồm: môi trường thực nghiệm, các tập ảnh và các giá trị đánh giá hiệu suất
1.8 Tổng kết chương
Chương này trình bày tổng quan tìm kiếm ảnh theo nội dung và ngữ nghĩa dựa trên R-Tree và đồ thị tri thức Các mô hình tìm kiếm ảnh theo tiếp cận cây R-Tree được đề xuất Ngoài ra, các phương pháp tổ chức thực nghiệm được trình bày bao gồm: môi trường thực nghiệm, tập dữ liệu thực nghiệm và các giá trị đánh giá
Trang 10RS-Tree là cây đa nhánh cân bằng, mỗi nút trên cây được phân cụm dựa vào độ đo tương tự theo phương pháp phân hoạch và phân cấp, đảm bảo khả năng lưu trữ lớn trên cây
2.2 Cấu trúc cây R S -Tree
RS-Tree là cây đa nhánh cân bằng ứng dụng cho bài toán tìm kiếm ảnh tương tự Cây RS-Tree là cây phân hoạch dữ liệu không gian bao gồm: một nút gốc, một tập nút trong và một tập nút lá
Cho hình ảnh I có véc-tơ đặc trưng 𝑓⃗𝐼= (𝑣𝐼1, 𝑣𝐼2, 𝑣𝐼3, … , 𝑣𝐼𝑑) Trong đó, 𝑣𝐼𝑖 là các đặc trưng cấp thấp của ảnh I với 𝑖 = 1 𝑑 và 𝑣𝐼𝑖 ∈[0,1] Một khối cầu 𝑀𝐵𝑆 của thực thể 𝑠𝑝𝐸𝐷 là khối cầu chứa đối tượng 𝑓⃗𝐼 gồm tâm 𝑐⃗𝑠𝑝 và bán kính 𝑟𝑠𝑝 như sau:
1) Tâm khối cầu thực thể:
𝑟𝑠𝑝=1
𝑑√∑(𝑐𝐼𝑗− 𝑣𝐼𝑗)
2 𝑑
𝑗=1
(2.2)
Một khối cầu MBS của nút lá 𝑆𝑙 là khối cầu tối thiểu bao phủ tất cả các phần tử khối cầu thực thể chứa bên trong gồm tâm 𝑐⃗𝑙 và bán kính 𝑟𝑙được mô tả như sau:
Trang 1111
1) Tâm khối cầu nút lá 𝑆𝐿:
𝑐⃗𝑙 =1
𝑘∑ sp𝑖 𝑐⃗𝑖𝑘
𝑖=1
(2.3)
Trong đó, 𝑠𝑝1, 𝑠𝑝2, … 𝑠𝑝𝑘là các phần tử khối cầu thực thể bên trong
nút lá 𝑆𝐿 và sp𝑖 𝑐⃗⃗⃗ là tâm của khối cầu sp𝑖 𝑖, với 1 < 𝑖 < 𝑘
2) Bán kính khối cầu nút lá 𝑆𝐿:
𝑟 𝑙 = Max𝑖=1 𝑘 {𝑑𝐸 (𝑐⃗ 𝑙, 𝑠𝑝𝑖 𝑐⃗𝑖 ) + 𝑠𝑝 𝑖 𝑟 𝑖} (2.4)
Trong đó, 𝑑𝐸(𝑐⃗𝑙, 𝑠𝑝𝑖 𝑐⃗𝑖) là khoảng cách Euclid từ véc-tơ tâm của nút 𝑆𝑙 đến véc-tơ tâm phần tử khối cầu thứ 𝑖 và 𝑠𝑝𝑖 𝑟𝑖 là bán kính phần tử khối cầu thứ 𝑖
Một khối cầu MBS của nút trong 𝑆𝑁 là khối cầu tối thiểu bao phủ tất cả các khối cầu của các nút trong nhánh cây con gồm véc-tơ tâm 𝑐⃗𝑛=(𝑐1, 𝑐2, … 𝑐𝑑) và bán kính 𝑟𝑛 được mô tả như sau:
1) Tâm khối cầu nút trong 𝑆𝑁:
𝑐𝑖=∑ 𝑆𝑘1 𝑗 𝑐⃗𝑗.𝑥𝑖×𝑆𝑗.𝑤
∑ 𝑆𝑘1 𝑗.𝑤 , 𝑖 = 1 𝑑 (2.5)
Trong đó, 𝑗 là số nút con 𝑆1, 𝑆2, … , 𝑆𝑘 của nút trong 𝑆𝑁, 𝑑 là số chiều của véc-tơ đặc trưng, 𝑆𝑗 𝑐⃗𝑗 𝑥𝑖 là đặc trưng thứ 𝑖 của véc-tơ tâm 𝑐⃗𝑖nút con 𝑆𝑗, 𝑆𝑗 𝑤 là số phần tử chứa trong nút 𝑆𝑗
2) Bán kính khối cầu nút trong 𝑆𝑁:
𝑟𝑛= Max𝑗=1 𝑘{𝑑𝐸(𝑐⃗𝑛, 𝑆𝑗 𝑐⃗𝑗) + 𝑆𝑗 𝑟𝑗} (2.6)
2.3 Các nguyên tắc thực hiện thao tác trên cây R S -Tree
Để đảm bảo cho việc lưu trữ các đối tượng dữ liệu hình ảnh gia tăng theo thời gian, đồng thời nâng cao hiệu năng tìm kiếm ảnh Việc
thêm phần tử 𝑠𝑝𝐸𝐷 được thực hiện từ nút gốc theo các nguyên tắc sau:
Trang 12Tạo một nút lá mới 𝑆𝐿𝑛𝑒𝑤 để lưu 𝑠𝑝𝐸𝐷, tạo một nút 𝑟𝑜𝑜𝑡 mới là
nút trong gọi là 𝑆𝑁𝑟 liên kết đến 𝑆𝐿𝑟 và 𝑆𝐿𝑛𝑒𝑤
Nguyên tắc 3: Nếu 𝑟𝑜𝑜𝑡 ≠ 𝑁𝑢𝑙𝑙 và 𝑟𝑜𝑜𝑡 không phải là nút lá
Chọn hướng đi từ nút hiện hành đến các nút kế cận và chọn nhánh
phù hợp để đi cho đến khi gặp được nút lá hiện hành 𝑆𝐿𝑐𝑟𝑡
2.4 Mô hình hệ tìm kiếm ảnh dựa trên cây R S -Tree
Mô hình tìm kiếm ảnh theo nội dung với một ảnh tìm kiếm đầu vào dựa trên RS-Tree được minh họa như Hình 2.11
Hình 2.11 Mô hình tìm kiếm ảnh CBIR-RST dựa trên cây R S -Tree
Trang 1313
Quá trình tìm kiếm ảnh được thực hiện gồm hai pha, pha thứ nhất thực hiện phân cụm và lưu trữ dữ liệu ảnh trên cây RS-Tree, pha thứ hai thực hiện tìm kiếm các hình ảnh tương tự cho ảnh đầu vào
2.5 Thực nghiệm và đánh giá hệ tìm kiếm ảnh CBIR_RST
Bảng 2.7 So sánh độ chính xác giữa các phương pháp trên tập ảnh COREL
Trang 14Hình 2.20 Precision-Recall và ROC của
bộ dữ liệu OF 102 (1-51) Hình 2.21 Precision-Recall và ROC của bộ dữ liệu OF102 (52-102)
Hình 2.22 Precision-Recall và ROC của
bộ dữ liệu CUB-200-2011 (1-100)
Hình 2.23 Precision-Recall và ROC của
bộ dữ liệu CUB-200-2011 (101-200) 2.6 Tổng kết chương
Trong chương 2, cấu trúc RS-Tree được cải tiến để áp dụng cho bài toán tìm kiếm ảnh tương tự theo nội dung Kết quả thực nghiệm trong chương 2 được thực hiện trên các tập dữ liệu ảnh đã minh chứng tính hiệu quả của cấu trúc RS-Tree Tuy nhiên, quá trình tách nút trên cây xảy ra thường xuyên trong quá trình tạo cây dẫn đến một số phần tử tương tự nhau nằm trên các nút lá khác nhau Điều này ảnh hưởng đến hiệu suất tìm kiếm ảnh Do đó, các cải tiến trên cấu trúc RS-Tree được thực hiện trong chương 3 để nâng cao hiệu quả tìm kiếm ảnh về độ chính xác
Trang 1515
Chương 3 KẾT HỢP R S -TREE VÀ ĐỒ THỊ TRI THỨC
TRONG TÌM KIẾM ẢNH 3.1 Giới thiệu
Các phương pháp cải tiến cây RS-Tree được đề xuất trong chương này bao gồm: (1) kết hợp RS-Tree và đồ thị cụm láng giềng để nâng cao hiệu quả tìm kiếm ảnh theo nội dung; (2) kết hợp RS-Tree với đồ thị tri thức để nâng cao hiệu quả tìm kiếm ảnh theo tiếp cận ngữ nghĩa
3.2 R S -Tree kết hợp đồ thị láng giềng
Cấu trúc RS-Tree được được hình thành dựa trên tiến trình tách nút trong quá trình tạo cây Khi một nút lá đầy, hệ thống thực hiện tách nút, quá trình tách nút sẽ thực hiện từ lá đến gốc Nếu nút gốc đầy thực hiện tách nút gốc và chiều cao của cây sẽ tăng lên một bậc Quá trình tách nút thường xuyên sẽ ảnh hưởng đến hiệu quả phân cụm trên cây vì một số phần tử có thể bị tách ra và không được phân bố vào đúng cụm lá của nó
Do đó, để khắc phục khuyết điểm này, một cấu trúc đồ thị láng giềng được tạo ra trong quá trình tạo cấu trúc RS-Tree nhằm nâng cao hiệu quả tìm kiếm ảnh độ chính xác
Cho khối cầu nút lá 𝑆L1(𝑐⃗1, 𝑟1), 𝑆L2(𝑐⃗2, 𝑟2) có tâm lần lượt là 𝑐⃗1, 𝑐⃗2
và bán kính lần lượt là 𝑟1, 𝑟2 Hai khối cầu 𝑆L1, 𝑆L2 gọi là chồng lấp không gian, ký hiệu là 𝑂𝑣𝑒𝑟𝑙𝑎𝑝(𝑆𝐿1, 𝑆𝐿2), khi:
𝑑𝐸(𝑆L1 𝑐⃗1, 𝑆L2 𝑐⃗2) < 𝑆𝐿1 𝑟1+ 𝑆𝐿2 𝑟2 (3 1) với 𝑑𝐸 là hàm khoảng cách Euclid
Cho hai khối cầu nút lá 𝑆L1(𝑐⃗1, 𝑟1), 𝑆L2(𝑐⃗2, 𝑟2) có tâm lần lượt là 𝑐⃗1, 𝑐⃗2 và bán kính lần lượt là 𝑟1, 𝑟2 Giả sử 𝑆L1, 𝑆L2 không chồng lấp không gian Khoảng cách của hai vùng không gian 𝑆L1, 𝑆L2, ký hiệu 𝑑𝑖𝑠𝑡𝑒𝑝𝑠(𝑆𝐿1, 𝑆𝐿2), disteps= dE(SL1 c⃗1, SL2 c⃗2) − (SL1 r1+ SL2 r2) (3 2) Cho một nút lá bất kỳ 𝑆Lk, gọi Ο = {𝑠𝑝𝐸𝐷𝑖, 𝑖 = 1 𝑀} là các phần tử dữ liệu được lưu trữ trong nút lá 𝑆Lk Trong đó, M là số lượng phần tử của nút lá 𝑆Lk Giả sử, labelα là nhãn lớp bất kỳ thuộc tập phân
Trang 1616
lớp của bộ dữ liệu thực nghiệm Phân lớp của nút lá 𝑆Lk được xác định
như sau:
class(SLk ) =< label α| max{count( spEDi )} , spEDi label = labelα> (3 3)
Gọi 𝐶𝑆𝐿 là tập các nút lá trên cấu trúc RS-Tree, 𝑆𝐿𝑘là một nút lá bất
kỳ 𝑆𝐿𝑘∈ 𝐶𝑆𝐿 , một ngưỡng ε ∈ (0,1) cho trước, 𝑑𝐸𝑢 là hàm khoảng cách Euclid, class(𝑆𝐿𝑘) là hàm phân lớp của nút lá 𝑆𝐿𝑘
Định nghĩa 3.1 (Các loại láng giềng)
4 Láng giềng của một nút lá 𝑆𝐿𝑘, ký hiệu 𝑁𝑛(𝑆𝐿𝑘), là hội của tất cả
các phần tử láng giềng overlap, epsilon và classes, có nghĩa là:
Nn(SLk) = No(SLk) ∪ Ne(SLk) ∪ Nc(SLk) (3 7)
Trên cơ sở Định nghĩa 3.1, một đồ thị láng giềng của nút lá 𝑆𝐿𝑘
được mô tả và được định nghĩa như sau:
Định nghĩa 3.2 (Đồ thị láng giềng) Đồ thị láng giềng của nút lá 𝑆𝐿𝑘 là một đồ thị ký hiệu là 𝐺𝑁𝐵𝐿 =< 𝑉, 𝐸 > trong đó,
𝑉 = {𝑆𝐿𝑘} ∪ 𝑁𝑛(𝑆𝐿𝑘), 𝐸 = {(𝑣, 𝑣𝑖)}|𝑣 = 𝑆𝐿𝑘, 𝑣𝑖∈ 𝑉 ∖ {𝑆𝐿𝑘} (3 8)
3.3 Đồ thị tri thức từ bộ dữ liệu Visual Genome
Phần này trình bày tiến trình xây dựng KG để mô tả ngữ nghĩa cho hình ảnh Một đồ thị tri thức được tạo ra từ các thành phần này bằng cách
sử dụng ngôn ngữ OWL bao gồm một tập hợp các đỉnh là các thực thể và tập các cạnh là mối quan hệ giữa chúng Các đỉnh trên đồ thị tri thức bao gồm bốn loại (1) lớp; (2) cá thể lớp; (3) cá thể đối tượng; (4) cá thể ảnh
Trang 1717
Các quan hệ của các đối tượng trong ảnh bao gồm quan hệ không gian, quan hệ hành động, quan hệ động từ miêu tả và quan hệ so sánh
Hình 3.8 Tiến trình xây dựng đồ thị tri thức
Một đồ thị tri thức là đồ thị được ký hiệu 𝐺 =< 𝑉, 𝐴, 𝐸 >, trong đó
𝑉 = {𝑣1, 𝑣2, … , 𝑣𝑛} là tập các đỉnh của đồ thị, 𝑣i là các nhãn, hoặc các khái niệm, hoặc các thể hiện; 𝐴 = {𝑎1, 𝑎2, … , 𝑎𝑛} là tập các thuộc tính, 𝑎𝑖
là tập các thuộc tính hoặc thể hiện; 𝐸 = {𝑒1, 𝑒2, … , 𝑒𝑛} là tập các cạnh của đồ thị, 𝑒𝑖 là mối quan hệ giữa khái niệm và cá thể, hoặc mối quan hệ giữa khái niệm và thuộc tính, hoặc mối quan hệ giữa cá thể và thuộc tính hoặc là mối quan hệ giữa các cá thể
Hình 3.12 Mô hình của đồ thị tri thức
Các thành phần trong cấu trúc KG bao gồm: (1) Các loại nút: Phân
lớp (Classes), Cá thể (inClass, OBJ, IMG); (2) Các loại mối quan hệ: thuộc tính đối tượng (opOBJinv, opIMGinv, opIMGobj), mối quan hệ
Trang 18chú thích thuộc tính của mối quan hệ (anoRELSynsetID,
anoRELPredicate, anoRELRelationID, anoRELWordNet, anoRELDescription)
3.4 Hệ tìm kiếm ảnh dựa trên R S -Tree và đồ thị tri thức
Trong phần này, một mô hình tìm kiếm hình ảnh dựa trên ngữ nghĩa dựa trên cấu trúc RS-Tree kết hợp đồ thị láng giềng và đồ thị tri thức, đặt tên là SBIR_RSTKG, bao gồm hai pha: Pha thứ nhất: Quá trình xây dựng
RS-Tree kết hợp đồ thị láng giềng và đồ thị tri thức; Pha thứ hai: Quá trình tìm kiếm hình ảnh dựa trên ngữ nghĩa được thực hiện trên RS-Tree và các
mô tả dữ liệu hình ảnh và tập ảnh tương tự theo ngữ nghĩa được trích xuất trên đồ thị tri thức bằng ngôn ngữ truy vấn SPARQL
Hình 3.22 Mô hình tìm kiếm ảnh theo ngữ nghĩa sử dụng R S -Tree và KG
Trang 1919
3.5 Thực nghiệm và đánh giá
Hình 3.33 Precision-Recall và ROC
của bộ dữ liệu COREL
Hình 3.34 Precision-Recall và ROC của
bộ dữ liệu OF17
Hình 3.35 Precision-Recall và ROC
của bộ dữ liệu OF102
Hình 3.36 Precision-Recall và ROC của
Kết quả thực nghiệm trên cấu trúc Knowledge Graph được thể hiện như
trong Hình 3.40-3.42
Trang 20Bảng 3.11 So sánh độ chính xác của các phương pháp trên tập ảnh COREL
Trang 21là (1) xây dựng mô hình tìm kiếm ảnh theo nội dung và ngữ nghĩa; (2) xây dựng một đồ thị tri thức để lưu trữ và mô tả ngữ nghĩa cho các ảnh đa dối tượng sử dụng bộ dữ liệu Visual Genome Kết quả thực nghiệm đã cho thấy tính hiệu quả của phương pháp đề xuất
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Luận án đã tiếp cận mô hình tìm kiếm ảnh dựa trên cấu trúc RSTree Đóng góp chính của luận án là (1) cải tiến phương pháp xây dựng cây dựa trên cấu trúc R-Tree, đồng thời cải tiến trên cấu trúc RS-Tree kết hợp đồ thị láng giềng để nâng cao độ chính xác tìm kiếm ảnh; (2) đề xuất một mô hình đồ thị tri thức để mô tả ngữ nghĩa giữa các đối tượng trong hình ảnh áp dụng cho bài toán truy vấn theo ngữ nghĩa nhằm cải thiện độ chính xác tìm kiếm ảnh và giảm độ sai lệch ngữ nghĩa Kết quả thực nghiệm cho thấy các phương pháp đề xuất đã nâng cao độ chính xác tìm kiếm ảnh
Trang 22-22
Đầu tiên, chúng tôi thiết kế cấu trúc RS-Tree để lưu trữ và phân cụm dữ liệu ảnh áp dụng cho bài toán tìm kiếm ảnh tương tự Các cải tiến trên cấu trúc RS-Tree bao gồm: (1) RS-Tree được xây dựng dựa trên các véc-tơ đặc trưng được chuyển đổi thành dạng khối cầu giúp dễ lưu trữ và giảm thời gian tính toán; (2) Một ngưỡng θ được đề xuất làm bộ lọc để thực hiện gom cụm các ảnh tương tự nhằm nâng cao hiệu quả phân cụm
dữ liệu và giảm chồng lấp không gian; (3) Thuật toán tách nút được cải tiến dựa trên độ lệch sai biệt để nâng cao hiệu quả tách nút Trên cơ sở lý thuyết đề xuất, chúng tôi xây dựng một mô hình tìm kiếm ảnh theo nội dung dựa trên cấu trúc RS-Tree Kết quả thực nghiệm đã minh chứng hiệu quả của cấu trúc RS-Tree áp dụng cho bài toán tìm kiếm ảnh Thứ hai, chúng tôi đề xuất một mô hình dựa trên sự kết hợp RS-Tree và đồ thị cụm láng giềng để nâng cao độ chính xác tìm kiếm ảnh Trong mô hình này, một đồ thị cụm láng giềng được tạo ra tại tầng nút lá trong quá trình tạo cấu trúc RS-Tree Quá trình tìm kiếm ảnh được thực hiện như sau: từ ảnh đầu vào, hệ thống thực hiện tìm kiếm trên cấu trúc RS-Tree để tìm ra nút
lá phù hợp; sau đó quá trình tìm kiếm được tiếp tục thực hiện trên đồ thị láng giềng để tìm tập các nút lá thuộc cùng một cụm láng giềng Kết quả thực nghiệm của mô hình này đã nâng cao được độ chính xác tìm kiếm ảnh do thực hiện hai quy trình tìm kiếm Cuối cùng, chúng tôi đề xuất một mô hình tìm kiếm theo tiếp cận ngữ nghĩa kết hợp RS-Tree với đồ thị tri thức Trong mô hình này, quá trình tìm kiếm ảnh được thực hiện qua hai giai đoạn: hệ thống thực hiện tìm kiếm ảnh tương tự theo nội dung dựa trên cấu trúc RS-Tree kết hợp đồ thị láng giềng; từ tập ảnh tương tự theo nội dung, hệ thống tiếp tục thực hiện tìm kiếm ảnh theo ngữ nghĩa dựa trên đồ thị tri thức để cải thiện độ chính xác tìm kiếm ảnh
Luận án xây dựng thực nghiệm và đánh giá trên các tập dữ liệu ảnh đơn đối tượng và đa đối tượng, các tập dữ liệu ảnh đơn đối tượng bao
Trang 2323
gồm: COREL, Oxford Flowers 17, Oxford Flowers 102, và 200; các tập dữ liệu ảnh đa đối tượng bao gồm: Visual Genome và MS-COCO Kết quả thực nghiệm cho thấy, các đề xuất cải tiến cấu trúc RS-Tree đã nâng cao độ chính xác và giảm thời gian tìm kiếm ảnh Bên cạnh
CUB-2011-đó, thực nghiệm tìm kiếm ảnh dựa trên sự kết hợp RS-Tree và đồ thị tri thức cho kết quả tốt hơn; đồng thời ngữ nghĩa cho ảnh đầu vào được trích xuất nhằm nâng cao chất lượng tìm kiếm, đáp ứng nhu cầu người dùng Các kết quả thực nghiệm trên các mô hình tìm kiếm ảnh cũng được so sánh với các công trình gần đây trên từng tập dữ liệu ảnh Kết quả so sánh chứng tỏ các phương pháp đề xuất là đúng đắn và nâng cao hiệu quả về
độ chính xác tìm kiếm ảnh, đáp ứng mục tiêu đề ra của luận án
Trên cơ sở lý thuyết và thực nghiệm đã xây dựng, các định hướng nghiên cứu trong tương lai bao gồm:
(1) Nghiên cứu các phương pháp tạo đồ thị ngữ cảnh tự động cho ảnh đầu vào dựa trên mạng R-CNN, GCN và đồ thị tri thức;
(2) Làm giàu đồ thị tri thức dựa trên các phương pháp dự đoán nhãn đỉnh và dự đoán mối quan hệ giữa các đỉnh trong đồ thị tri thức sử dụng mạng tích chập đồ thị GCN và các phép suy luận trên đồ thị tri thức; (3) Thực hiện tạo chú thích hình ảnh dựa trên đồ thị tri thức có đánh trọng số và các thuật toán tìm đường đi tối ưu trên đồ thị tri thức; (4) Xây dựng chương trình cho các ứng dụng thực tế trong các lĩnh vực khác nhau
Trang 2424
DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ
LIÊN QUAN ĐẾN LUẬN ÁN
A1 Lê Thị Vĩnh Thanh, Phan Thị Ngọc Mai, Văn Thế Thành, Lê Mạnh
Thạnh, (2020), “Tìm kiếm ảnh theo ngữ nghĩa dựa trên phương pháp gom
cụm và ontology” Kỷ yếu Hội thảo Quốc gia về Nghiên cứu cơ bản và ứng dụng CNTT (FAIR), ĐH Nha Trang, Nhà xuất bản Khoa học Tự nhiên và Công nghệ, ISBN: 978-604-9985-77-5, tr 612-622
A2 Lê Thị Vĩnh Thanh, Văn Thế Thành, Lê Mạnh Thạnh, (2021), “Một
phương pháp tìm kiếm ảnh hiệu quả dựa trên cấu trúc R-Tree”, Kỷ yếu Hội thảo Quốc gia về Công nghệ thông tin và ứng dụng trong các lĩnh vực (CITA2021), Đại học Đà Nẵng, Nhà xuất bản Đà Nẵng, ISBN: 978-604-
84-5998-7, tr 259-271
A3 Lê, M T., Lê, T V T., Lương, T T X., Nguyen, T D., & Văn, T T.,
(2022), “Một mô hình tìm kiếm ảnh dựa trên cấu trúc R-Tree kết hợp
KD-Tree Random Forest” Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông, ISSN: 1859-3526, tr 29-41
A4 Le Thi Vinh Thanh, Van The Thanh, Le Manh Thanh, (2022), “An
improvement of R-Tree for content-based image retrieval”, Annales Univ
Sci Budapest Sect Comp., Vol 53, pp 29-55
A5 Thanh, L T V., & Thanh, L M, (2022), “Semantic-Based Image
Retrieval using R S -Tree and Neighbor Graph” In World Conference on Information Systems and Technologies Springer, Cham pp 165-176
A6 Thanh, L.T.V., Van, T.T., Le, T.M., (2022), “Semantic-Based Image
Retrieval Using R S -Tree and Knowledge Graph” In: Nguyen, N.T., Tran, T.K., Tukayev, U., Hong, TP., Trawiński, B., Szczerbicki, E (eds) Intelligent Information and Database Systems ACIIDS 2022 Lecture Notes in Computer Science(), vol 13757 Springer, Cham, pp 481-495
A7 Lê Thị Vĩnh Thanh, Văn Thế Thành, Lê Mạnh Thạnh, (2022), “Tìm kiếm
ảnh theo ngữ nghĩa dựa trên cấu trúc iR S -Tree và ontology”, Hue University Journal of Science: Techniques and Technology, T …, S …
A8 Lê Thị Vĩnh Thanh, Văn Thế Thành, Lê Mạnh Thạnh, (2022),“Một khảo
sát về cấu trúc R-tree cho bài toán tìm kiếm ảnh”, Tạp chí khoa học và công nghệ, Trường Đại học Khoa học, ĐH Huế, Tập …, Số …
A9 Lê Thị Vĩnh Thanh, Văn Thế Thành, (2022),“Tìm kiếm ảnh dựa trên đồ
thị láng giềng và đồ thị ngữ nghĩa”, Kỷ yếu Hội tảo Quốc gia về Nghiên cứu cơ bản và ứng dụng CNTT (FAIR), Học Viện Kỹ Thuật Mật Mã, Nhà xuất bản Khoa học Tự nhiên và Công nghệ, ISBN: 978-604-357-119-6, tr
400-412