1. Trang chủ
  2. » Công Nghệ Thông Tin

Tìm kiếm hình ảnh bằng phương pháp học sâu

8 3 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 690,46 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài viết này trình bày một phương pháp tìm kiếm hình ảnh bằng phương pháp học sâu CNN và độ đo tương đồng Cosine. Các kết quả thực nghiệm trên tập dữ liệu CIFAR-10 cho thấy phương pháp có tiềm năng ứng dụng trong thực tế.

Trang 1

TÌM KI ẾM HÌNH ẢNH BẰNG PHƯƠNG PHÁP HỌC SÂU

Bùi Thanh Hùng, Ph ạm Hoàng Phương

Lab Phân tích dữ liệu và Trí tuệ nhân tạo, Viện Kỹ thuật Công nghệ, Đại học Thủ Dầu Một

Số 6 Trần Văn Ơn, phường Phú Hòa, thành phố Thủ Dầu Một, Bình Dương

hungbt.cntt@tdmu.edu.vn, phuongspkt@gmail.com

TÓM TẮT: Tìm kiếm thông tin là một trong những nhu cầu cần thiết của con người Bài toán này có nhiều ứng dụng trong

thực tế Trước đây, hình thức tìm kiếm chủ đạo là tìm kiếm bằng từ khóa với ưu điểm là đơn giản và dễ dùng, tuy nhiên đôi khi lại không đủ khả năng để diễn tả toàn bộ ý muốn của con người Trong những năm gần đây, cùng với sự phát triển của khoa học công nghệ, việc tìm kiếm bằng hình ảnh đã bắt đầu được nghiên cứu và áp dụng Bài báo này trình bày một phương pháp tìm kiếm hình ảnh bằng phương pháp học sâu CNN và độ đo tương đồng Cosine Các kết quả thực nghiệm trên tập dữ liệu CIFAR-10 cho thấy phương pháp có tiềm năng ứng dụng trong thực tế

T ừ khóa: Tìm kiếm hình ảnh, nhận dạng hình ảnh, học sâu, mạng nơron tích chập, cosine similarity

I GI ỚI THIỆU

Cùng với sự phát triển vượt trội của các công nghệ kỹ thuật số và sự phổ biến rộng rãi các thiết bị quay phim,

chụp ảnh dẫn đến kho dữ liệu ảnh lưu trữ trên Web cũng tăng theo một cách nhanh chóng Mary Meeker, một chuyên gia về phân tích Internet và công nghệ thuộc Đại học Cornell (Mỹ) trong báo cáo thường niên về xu hướng Internet cho

biết: “Chúng ta đã tải lên mạng trung bình khoảng 1,8 tỷ ảnh số trong một ngày và 657 tỷ bức ảnh trong một năm Có nghĩa là cứ mỗi hai phút thì số lượng ảnh chúng ta chụp sẽ nhiều hơn tổng số ảnh đã có của 150 năm về trước”

(Meeker, 2014) Đây là một thách thức lớn cho việc tổ chức và tìm kiếm ảnh theo cách truyền thống Vì vậy, việc xây

dựng một hệ thống tìm kiếm ảnh là một điều cấp bách và cần thiết Các hệ thống tìm kiếm ảnh hiện tại thường sử dụng phương pháp là tìm kiếm ảnh theo các văn bản đi kèm với ảnh (metadata) giúp cho việc tìm kiếm đơn giản và hiệu quả Tuy nhiên, phương pháp tìm kiếm ảnh này vẫn còn một số hạn chế làm cho kết quả tìm kiếm chưa chính xác hoặc chưa làm hài lòng hoàn toàn người sử dụng Đối với phương pháp tìm kiếm ảnh dựa trên văn bản hoặc các mô tả (metadata) kèm theo ảnh sẽ không chính xác khi các mô tả này bị sai sót hoặc không tồn tại

Kế đến là phương pháp tìm kiếm ảnh theo nội dung “truyền thống” thường dựa vào các đặc trưng trực quan như màu sắc, kết cấu, hình dạng, đặc trưng cục bộ được rút trích từ ảnh Phương pháp này có hạn chế là làm cách nào để xác định và chọn ra được những đặc trưng đại diện có ảnh hưởng cao đến độ chính xác của kết quả tìm kiếm Quá trình

chọn lựa này sẽ gây mất nhiều thời gian trong quá trình xây dựng hệ thống; ngoài ra, còn phát sinh vấn đề do sự cách

biệt ngữ nghĩa (semantic gap) giữa đặc trưng ở mức thấp dưới dạng các pixel ảnh và mức khái niệm cao theo sự chấp

nhận của con người như chó, mèo,

Trong những năm gần đây, các phương pháp học sâu bao gồm mạng nơron tích chập đã đạt được thành công lớn trong giải quyết nhiều bài toán Phương pháp này đã được chứng minh là rất hiệu quả trong lĩnh vực thị giác máy tính

và xử lý hình ảnh như: phát hiện người đi bộ [1], phát hiện khuôn mặt [2], phân loại hình ảnh [3] và tô màu hình ảnh tự động [4] CNN đã được áp dụng để truy xuất hình ảnh [5-8] Kiapour và cộng sự [9] đã tiến hành nghiên cứu tìm kiếm

sản phẩm quần áo thời trang bằng hình ảnh tương tự trên trang web thương mại điện tử Nhóm tác giả đã thực hiện và

so sánh một số phương pháp, trong đó nổi bật nhất là phương pháp sử dụng mạng CNN hai lớp ẩn và thực nghiệm trên

bộ dữ liệu Exact Street2Shop Nhóm tác giả Mahmmod và cộng sự đề xuất sử dụng các khía cạnh tính toán của đa thức Krawtchouk cho các đơn hàng cao [10] Các công cụ tìm kiếm như Google, Bing hay mạng xã hội Pinterest cũng đã nghiên cứu và áp dụng mạng nơron học sâu vào việc truy xuất hình ảnh Nghiên cứu này của chúng tôi khác so với các nghiên cứu khác, chúng tôi áp dụng phương pháp xây dựng hệ thống tìm kiếm ảnh theo nội dung dựa trên mô hình học sâu- mạng nơron tích chập (Convolution Neural Networks - CNN) tự xây dựng để trích xuất đặc trưng và phân lớp đối tượng kết hợp với độ đo tương đồng Cosine (cosine similarity) để tính độ tương đồng của ảnh Chúng tôi cũng xây

dựng thử nghiệm hệ thống tìm kiếm bằng hình ảnh, trong đó người dùng có thể cung cấp một hình ảnh bất kỳ và hệ

thống sẽ trả về danh sách các hình ảnh với các mức độ tương đồng (tương tự) được sắp xếp từ cao xuống thấp

II MÔ HÌNH ĐỀ XUẤT

Mô hình đề xuất gồm mô hình huấn luyện (Train) và mô hình kiểm tra (Test) trong đó mô hình học sâu CNN là framework để trích xuất đặc trưng Dữ liệu ban đầu được chia thành hai phần để Tran và Test Ảnh trong tập dữ liệu đã được chọn lọc trước đó sẽ đi qua các bộ lọc để thực hiện phép tích chập Tiếp đến sử dụng phép giảm mẫu tối đa để giữ

lại những đặc trưng tiêu biểu của ảnh Thực hiện tích chập và giảm mẫu như vậy cho đến khi ảnh có kích thước đủ nhỏ thì thực hiện làm phẳng nó thành một véctơ Sau đó, véctơ này sẽ đi qua các lớp liên kết đầy đủ (fully-connected) sẽ thu được kết quả là đặc trưng đại diện cho ảnh Sơ đồ tổng quan của mô hình đề xuất được trình bày trong Hình 1

Trang 2

Hình 1 Mô hình đề xuất

A Mô hình h ọc sâu CNN cho Bài toán tìm kiếm bằng hình ảnh

Mạng nơron tích chập là một dạng của mạng nơron đa tầng, mỗi tầng thuộc một trong 3 dạng: tích chập (convolution), lấy mẫu con (subsampling), kết nối đầy đủ (full connection) [11-15] Hình 2 trình bày kiến trúc tổng quan

về mạng nơron tích chập

Hình 2 Kiến trúc tổng quan mạng nơron tích chập-CNN CNN xem ảnh đầu vào là tầng input, mỗi pixel là một nơron, ảnh đầu vào này còn gọi là feature map Feature map có thể coi như là một ảnh thông thường, trong đó mỗi pixel được gọi là một nơron

Tầng tích chập (C - convolution): Hoạt động như bộ trích chọn đặc trưng, nghĩa là một hay nhiều kết xuất của

tầng trước được tích chập với một hay nhiều kernel để sinh ra một hay nhiều kết xuất (feature map)

Tầng lấy mẫu con (S - subsampling): Lấy mẫu con của mạng neural tích chập giúp mạng chịu được những biến

dạng của dữ liệu như tịnh tiến, quay, nghiêng

Tầng kết nối đầy đủ (F - Full connection): Thực hiện công việc phân lớp như trong mạng nơron đa lớp thông thường,… Các tầng sau, mỗi tầng có một số feature map, mỗi feature map có một số kernel duy nhất, số lượng kernel

bằng số lượng feature map ở tầng trước Các kernel trong cùng một feature map có kích thước bằng nhau, kích thước kernel là một tham số của bài toán thiết kế mạng Các giá trị điểm ảnh trong một feature map được tính toán bằng tổng các tích chập của các kernel tương ứng với các feature map trong tầng trước Số lượng feature map trong tầng cuối cùng (tầng output) bằng số lượng kết xuất đầu ra của bài toán

Mô hình CNN áp d ụng cho Bài toán tìm kiếm bằng hình ảnh

Mô hình CNN áp dụng cho bài toán tìm kiếm bằng hình ảnh trong mô hình của chúng tôi gồm 4 khối lớp tích

chập (conv_block) và 4 khối lớp liên kết đầy đủ (dense_block) Mỗi khối conv_block bao gồm các lớp CONV, Max Pooling và lớp chuẩn hoá theo lô cùng với hàm kích hoạt ReLU Cụ thể khối lớp tích chập thứ nhất thực hiện lọc ảnh đầu vào có kích thước [32 × 32 × 3] bởi 64 bộ lọc có kích thước [3 × 3] với bước dịch chuyển (strides) = 1 pixel và bước đệm zero-padding kết quả thu được đầu ra có kích thước [16 × 16 × 64] Khối lớp tích chập thứ hai thực hiện lọc đầu vào có kích thước [16 × 16 × 64] bởi 128 bộ lọc có kích thước [3 × 3] với bước dịch chuyển (strides) = 1 pixel và bước đệm zero-padding và thu được đầu ra có kích thước [8 × 8 × 128] Tương tự khối lớp tích chập thứ ba thực hiện

lọc đầu vào có kích thước [8 × 8 × 128] bởi 256 bộ lọc có kích thước [5 × 5] với bước dịch chuyển (strides) = 1 pixel

và bước đệm zero-padding Cuối cùng khối lớp tích chập thứ tư thực hiện lọc đầu vào có kích thước [4 × 4 × 256] bởi

512 bộ lọc có kích thước [5 × 5] với bước dịch chuyển (strides) = 1 pixel và bước đệm zero-padding Các lớp Pooling

Độ đo Cosine

Mô hình CNN tự xây dựng

Trích xuất đặc trưng

Ảnh truy vấn Ảnh huấn luyện

Sắp xếp theo

độ tương đồng

Top k ảnh

Mô hình CNN tự xây dựng

Trích xuất đặc trưng

Trang 3

sử dụng toán tử Max Pooling với cửa sổ có kích thước [2 × 2] và bước dịch chuyển (strides) = 2 pixel Hình 3 trình bày

tổng quan về mô hình CNN tự xây dựng

Hình 3 Mô hình các khối lớp được thiết kế

B Tìm ki ếm bằng hình ảnh

1 So sánh độ tương đồng

Các mô hình tìm kiếm hình ảnh thường tìm kiếm sự tương đồng theo nhãn (category) Hai bức ảnh được đánh giá

là tương đồng nhau nếu như chúng có cùng nhãn, ví dụ như bức ảnh về hoa, bức ảnh về con người, Tuy nhiên, mức độ

tương đồng này vẫn chưa đủ đối với các ứng dụng cấp cao hơn Các bài toán sau này cần tìm kiếm sự tương đồng ở mức

độ lớn, chi tiết hơn, kể cả khi hai bức ảnh có cùng nhãn, nhằm nhận diện sự khác nhau dù nhỏ nhất

Trước khi có sự bùng nổ của Deep Learning hiện nay, các phương pháp xây dựng sự giống nhau về hình ảnh truyền thống như: HOG, SIFT, được sử dụng khá nhiều Tuy nhiên, với sự phát triển của Deep Learning trong vài năm

trở lại đây, mạng nơron của Deep Learning cũng được coi như một phương pháp Feature Extraction, điển hình là mạng nơron tích chập CNN (Convolution Neural Network), thường được sử dụng phổ biến cho việc nhận dạng và phân loại hình ảnh đã đem lại một cách tiếp cận mới cho việc tính toán độ tương đồng hình ảnh và cho độ chính xác tốt hơn nhiều các phương pháp truyền thống

Để so sánh độ tương đồng hình ảnh từ các véctơ đặc trưng thu được, trong nghiên cứu này chúng tôi sử dụng phép đo khoảng cách (độ tương đồng) Cosine (cosine similarity) Khoảng cách Cosine càng lớn thì mức độ giống nhau

của hai ảnh càng cao Dựa vào khoảng cách này có thể xác định được top k hình ảnh giống với ảnh truy vấn nhất Hình 4 trình bày về độ đo Cosine

Hình 4 Cosine distance/Similarity Công thức tính khoảng cách tương đồng Cosine của 2 ảnh với A và B là vector đặc trưng của mỗi ảnh được trình bày dưới đây:

similarity = cos(𝜃) = ‖𝐴‖ ‖𝐵‖ = A B

∑𝑛𝑖=1𝐴𝑖𝐵𝑖

�∑𝑛 𝐴𝑖2

𝑖=1

2 Tìm ki ếm

Sau khi mạng được huấn luyện, lớp đầu ra sẽ có 10 nơron (tương ứng với số nhãn) với hàm kích hoạt softmax sẽ được sử dụng như véctơ đặc trưng của ảnh và được sử dụng cho bài toán tìm kiếm ảnh Với ảnh truy vấn Iq và tập cơ sở

dữ liệu ảnh P, gọi Vq và ViPtương ứng là các véctơ đặc trưng của ảnh truy vấn Iq và của ảnh Ii trong tập P Chúng tôi xác định mức độ tương tự giữa Iq và Ii là khoảng cách Cosine giữa hai véctơ đặc trưng tương ứng của chúng (đã được

đề cập ở mục trên)

Trang 4

Hình 5 Cấu trúc trích xuất đặc trưng

Cuối cùng, mô hình sẽ sử dụng hàm chi phí là hàm cross-entropy

𝐿(𝑦, 𝑦�) = − � �(𝑦𝑖𝑗∗ log (𝑦�))𝚤𝚥

𝑁 𝑖=0

𝑀 𝑗=0

Hàm cross-entropy sẽ so sánh phân bố của đầu ra, với xác suất của nhãn đúng là 1 và xác suất của các nhãn khác là 0 Nói một cách khác, nhãn kết quả sẽ được dịch thành 1 véctơ với 1 là nhãn đúng, 0 là nhãn sai, sau đó véctơ này sẽ được so sánh với đầu ra của nơron Độ sai lệch giữa 2 véctơ càng nhỏ, giá trị hàm chi phí cũng nhỏ theo Hình 5 trình bày về cấu trúc trích xuất đặc trưng

Phương pháp tìm kiếm theo hình ảnh áp dụng trong nghiên cứu này bao gồm hai giai đoạn: trích chọn đặt trưng

và so sánh độ tương đồng với các hình ảnh trong cùng nhãn để tìm ra các ảnh có độ tương đồng cao nhất Tất cả các hình ảnh trong tập dữ liệu ảnh sẽ được cho qua mạng CNN tự xây dựng để tạo ra các véctơ đại diện Xi (chuyển đổi hình ảnh về một đối tượng đại diện có kích thước và số chiều nhỏ hơn) Sau đó, véctơ đại diện X’ của ảnh đầu vào sẽ được so sánh với từng véctơ Xithu được ở trên bằng một phép đo độ tương đồng Cosine và các ảnh giống ảnh đầu vào

nhất sẽ được trả về làm kết quả tìm kiếm theo phương pháp sắp xếp độ tượng đồng theo thứ tự giảm dần Hình 6 trình bày về quy trình tìm kiếm bằng hình ảnh

Hình 6 Quy trình thực hiện tìm kiếm bằng hình ảnh

III TH ỰC NGHIỆM

A D ữ liệu

Trong bài báo này, chúng tôi sử dụng tập dữ liệu CIFAR-10 [16] chứa 60.000 hình ảnh ở 10 nhãn khác nhau là airplane, automobile, bird, cat, deer, dog, frog, horse, ship, truck (máy bay, ô tô, chim, mèo, hươu, nai, chó, ếch, ngựa, tàu và xe tải) Có 6.000 hình ảnh cho mỗi nhãn Định dạng ảnh trong cả hai bộ dữ liệu là PNG có chiều cao và chiều

rộng là 32 pixel với ba kênh màu RGB (32 x 32 x 3) Hình 7 mô tả về tập dữ liệu CIFAR-10

Trang 5

Hình 7 Tập dữ liệu hình ảnh CIFAR-10

B Kết quả

Dữ liệu được chia làm hai phần cho Training và Testing Chúng tôi chọn 50.000 hình ảnh cho Training và sử

dụng 10.000 hình ảnh cho Testing Các thực nghiệm được thực hiện trên 2 hệ thống, dành cho 2 loại tác vụ khác nhau Môi trường thực hiện quá trình Training là Google Colab sử dụng thư viện học sâu của Keras [17] và các thư viện xử lý hình ảnh của OpenCV [18] Bảng 1, Bảng 2 trình bày cấu hình của các môi trường thực nghiệm trên Google Colab và máy tính cá nhân Các tham số thực nghiệm được trình bày trong Bảng 3 Chúng tôi đánh giá bằng độ đo Accuracy (Độ chính xác), kết quả thực nghiệm được trình bày trong Bảng 4 Để đánh giá mô hình đề xuất chúng tôi so sánh kết quả

của bài toán phân lớp với phương pháp SVM sử dụng đặc trưng HOG (Histogram of Oriented Gradients), kết quả được trình bày trong Bảng 5

Bảng 1 Môi trường thực nghiệm Google Colab

Bảng 2 Môi trường thực nghiệm máy tính cá nhân

Intel® Core™ i5-3317U CPU @1.7 Ghz 4 GB DDR3L SSD 128 GB

Bảng 3 Các tham số thực nghiệm

Tốc độ học Giá trị

drop-out

Hàm

tối ưu Hàm chi phí kích hoHàm ạt Số vòng lặp

Bảng 4 Kết quả thực nghiệm

Thời gian

huấn luyện accuracy Training

Training loss

Test accuracy 55,330 giây

(> 15 giờ) 0,9864 0,0441 0,8256

Bảng 5 Kết quả so sánh giữa mô hình đề xuất với SVM (+HOG)

Mô hình huấn luyện Kết quả

Ở Bảng 4 cho biết kết quả của mô hình huấn luyện CNN tự xây dựng cho bài toán phân lớp là 82,56% Khi so sánh kết quả của mô hình đề xuất với phương pháp SVM và đặc trưng HOG, mô hình đề xuất cho kết quả tốt hơn rất nhiều, điều đó chứng tỏ tính ưu việt của mô hình đề xuất sử dụng mạng nơron tích chập CNN

Trên cơ sở kết quả đó, chúng tôi thực nghiệm mô hình đề xuất vào bài toán tìm kiếm ảnh theo nội dung Chúng tôi xây dựng ứng dụng truy xuất bằng hình ảnh sử dụng mạng nơron tích chập CNN để trích xuất đặc trưng và Cosine để tính độ tương đồng giữa các ảnh trong cùng lớp, sau khi có kết quả chúng tôi sắp xếp kết quả theo thứ tự giảm dần về độ tương đồng và xuất ra Top 48 ảnh tương đồng Kết quả tìm kiếm khả quan với thời gian truy vấn chấp nhận được

Trang 6

(khoảng hơn 5 giây) cho mỗi lần truy xuất Hình 8, Hình 9, Hình 10 mô tả Top 48 ảnh kết quả tìm kiếm ảnh trên bộ dữ

liệu CIFAR-10 với các ảnh đầu vào khác nhau

Hình 8 Top 48 ảnh kết quả tìm kiếm ảnh trên bộ dữ liệu CIFAR-10 với ảnh đầu vào là ngựa

Hình 9 Top 48 ảnh kết quả tìm kiếm ảnh trên bộ dữ liệu CIFAR-10 với ảnh đầu vào là chó

Trang 7

Hình 10 Top 48 ảnh kết quả tìm kiếm ảnh trên bộ dữ liệu CIFAR-10 với ảnh đầu vào là chim

IV KẾT LUẬN

Trong nghiên cứu này, chúng tôi đã trình bày phương pháp sử dụng mạng nơron tích chập để trích xuất đặc trưng

và so sánh độ tương đồng trên tập dữ liệu CIFAR-10 gồm 10 nhãn cho bài toán tìm kiếm hình ảnh truy vấn Khi sử dụng

mạng nơron tích chập trên tập dữ liệu CIFAR-10 cho kết quả tìm kiếm với độ chính xác phân lớp tương đối 82,56% với

thời gian truy vấn chấp nhận được (khoảng hơn 5 giây) Phương pháp có ưu điểm là tận dụng được khả năng xử lý của

mạng nơron tích chập cho cả thao tác phân loại và tính toán véctơ đại diện cho các ảnh trong tập ảnh tìm kiếm Nghiên

cứu này đã cho thấy việc áp dụng mạng nơron tích chập có kết quả tốt để góp phần nâng cao hiệu quả cho các hệ thống tìm kiếm ảnh

Hướng phát triển tiếp theo sử dụng các mạng nơron tích chập đã huấn luyện từ trước (pre-trained model) và tối

ưu lại các tham số trên tập dữ liệu CIFAR-10 theo phương pháp học chuyển giao (transfer learning) như VGG, ResNet, DenseNet,… để giảm thời lượng huấn luyện, cải thiện chất lượng phân loại ảnh để trích xuất được đặc trưng của ảnh làm đại diện tốt nhất, đồng thời áp dụng phương pháp “láng giềng gần nhất” (k-nearest neighbors) nhằm cải thiện tốc

độ trả về kết quả tìm kiếm

TÀI LI ỆU KHAM KHẢO

[1] Wenhan Luo, Junliang Xing, Anton Milan, Xiaoqin Zhang, Wei Liu, Xiaowei Zhao, Tae-Kyun Kim, Multiple object tracking: a literature review, 2014, arXiv: 1409.7618

[2] C Szegedy, W Liu, Y Jia, P Sermanet, S Reed, D Anguelov, D Erhan, V Vanhoucke, and A Rabinovich, “Going deeper with convolutions”, in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015

[3] Alex Krizhevsky, Ilya Sutskever, and Geo rey E Hinton, ImageNet classification with deep convolutional neural networks, Proc NIPS, 2017

[4] Zezhou Cheng, Qingxiong Yang, Bin Sheng Deep Colorization ICCV, 2015

[5] W Zhou, H Li, and Q Tian, “Recent advance in contentbased image retrieval: a literature survey”, 2017, https://arxiv.org/abs/1706.06064

[6] B Zafar, R Ashraf, N Ali et al., “A novel discriminating and relative global spatial image representation with applications in CBIR”, Applied Sciences, vol 8, no 11, p 2242, 2018

[7] Benyi Hu, Ren-Jie Song, Xiu-Shen Wei, Yazhou Yao, Xian-Sheng Hua, Yuehu Liu PyRetri: A pytorch-based library for unsupervised image retrieval by deep convolutional neural networks, 2020

[8] Björn Barz, Kai Schröter, Moritz Münch, Bin Yang, Andrea Unger, Doris Dransch, Joachim Denzler Enhancing flood impact analysis using interactive retrieval of social media images, 2019

[9] M Hadi Kiapour, Xufeng Han, Svetlana Lazebnik, Alexander C Berg, and Tamara L Berg, Where to buy it: Matching street clothing photos in online shops, Proc ICCV, 2015

[10] Mahmmod, B M., Abdul-Hadi, A M., Abdulhussain, S H., & Hussien, A., On computational aspects of Krawtchouk polynomials for high orders Journal of Imaging, 6(8), 81, August 2020

[11] K Simonyan and A Zisserman, “Very deep convolutional networks for large-scale image recognition”, arXiv preprint arXiv:1409.1556, 2014

[12] C Szegedy, W Liu, Y Jia, P Sermanet, S Reed, D Anguelov, D Erhan, V Vanhoucke, and A Rabinovich, “Going deeper with convolutions”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015

Trang 8

[13] Bui Thanh Hung, Face Recognition Using Hybrid HOG-CNN Approach Research in intelligent and computing in engineering springer series in advances in intelligent systems and computing, 2021

[14] Bui Thanh Hung, Le Minh Tien, Facial expression recognition with CNN-LSTM" Research in Intelligent and Computing in Engineering Springer Series in Advances in Intelligent Systems and Computing, 2021

[15] Bui Thanh Hung, Vijay Bhaskar Semwal, Neha Gaud, Vishwanth Bijalwan, Violent video detection by pre-trained model and CNN-LSTM approach Proceedings of Integrated Intelligence Enable Networks and Computing Springer Series in Algorithms for Intelligent Systems, 2021

[16] Learning multiple layers of features from tiny images, Alex Krizhevsky, 2009

[17] Keras https://keras.io/

[18] Open source computer vision library, OpenCV: https://www.opencv.org, 2015

IMAGE SEARCH USING DEEP LEARNING METHOD

Bui Thanh Hung, Pham Hoang Phuong

ABSTRACT: Content-based image retrieval (CBIR) has been concerned recently This problem has many practical

applications In the past, the main form of search was keyword search with the advantage of simplicity and ease of use, but sometimes it was not enough to express the human’s requirements In recent years, along with the development of science and technology, image search has been researched and applied In this paper, a content-based image search system is developed based

on the convolutional neural network deep learning model and Cosine similarity technique The results on CIFAR-10 dataset show that the method has potential for practical application

Ngày đăng: 26/05/2022, 09:19

HÌNH ẢNH LIÊN QUAN

Hình 1. Mô hình đề xuất - Tìm kiếm hình ảnh bằng phương pháp học sâu
Hình 1. Mô hình đề xuất (Trang 2)
A. Mô hình học sâu CNN cho Bài toán tìm kiếm bằng hình ảnh - Tìm kiếm hình ảnh bằng phương pháp học sâu
h ình học sâu CNN cho Bài toán tìm kiếm bằng hình ảnh (Trang 2)
Hình 5. Cấu trúc trích xuất đặc trưng Cu ối cùng, mô hình sẽ sử dụng hàm chi phí là hàm cross-entropy - Tìm kiếm hình ảnh bằng phương pháp học sâu
Hình 5. Cấu trúc trích xuất đặc trưng Cu ối cùng, mô hình sẽ sử dụng hàm chi phí là hàm cross-entropy (Trang 4)
Phương pháp tìm kiếm theo hình ảnh áp dụng trong nghiên cứu này bao gồm hai giai đoạn: trích chọn đặt trưng và so sánh độ tương đồng với các hình ảnh trong cùng nhãn để tìm ra các ảnh có độ tương đồng cao nhất - Tìm kiếm hình ảnh bằng phương pháp học sâu
h ương pháp tìm kiếm theo hình ảnh áp dụng trong nghiên cứu này bao gồm hai giai đoạn: trích chọn đặt trưng và so sánh độ tương đồng với các hình ảnh trong cùng nhãn để tìm ra các ảnh có độ tương đồng cao nhất (Trang 4)
Hình 8. Top 48 ảnh kết quả tìm kiếm ảnh trên bộ dữ liệu CIFAR-10 với ảnh đầu vào là ngựa - Tìm kiếm hình ảnh bằng phương pháp học sâu
Hình 8. Top 48 ảnh kết quả tìm kiếm ảnh trên bộ dữ liệu CIFAR-10 với ảnh đầu vào là ngựa (Trang 6)
(khoảng hơn 5 giây) cho mỗi lần truy xuất. Hình 8, Hình 9, Hình 10 mô tả Top 48 ảnh kết quả tìm kiếm ảnh trên bộ dữ li ệu CIFAR-10 với các ảnh đầu vào khác nhau - Tìm kiếm hình ảnh bằng phương pháp học sâu
kho ảng hơn 5 giây) cho mỗi lần truy xuất. Hình 8, Hình 9, Hình 10 mô tả Top 48 ảnh kết quả tìm kiếm ảnh trên bộ dữ li ệu CIFAR-10 với các ảnh đầu vào khác nhau (Trang 6)
Hình 10. Top 48 ảnh kết quả tìm kiếm ảnh trên bộ dữ liệu CIFAR-10 với ảnh đầu vào là chim - Tìm kiếm hình ảnh bằng phương pháp học sâu
Hình 10. Top 48 ảnh kết quả tìm kiếm ảnh trên bộ dữ liệu CIFAR-10 với ảnh đầu vào là chim (Trang 7)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm