1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ)

73 131 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 1,16 MB
File đính kèm Luận văn Full.rar (1 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ)GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ)GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ)GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ)GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ)GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ)GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ)GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ)GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ)GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP NHIỀU NGUỒN THÔNG TIN (Luận văn thạc sĩ)

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ DƯƠNG

GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP

NHIỀU NGUỒN THÔNG TIN

LUẬN VĂN THẠC SĨ ĐIỆN TỬ - VIỄN THÔNG

HÀ NỘI - 2017

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ DƯƠNG

GÁN NHÃN ẢNH TỰ ĐỘNG SỬ DỤNG KẾT HỢP

NHIỀU NGUỒN THÔNG TIN

Ngành: Điện tử truyền thông Chuyên ngành:Kỹ thuật điện tử

Mã số: 60530203

LUẬN VĂN THẠC SĨ ĐIỆN TỬ- VIỄN THÔNG

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ VŨ HÀ

HÀ NỘI - 2017

Trang 3

LỜI CẢM ƠN

Đầu tiên tôi xin chân thành cảm ơn đến Ban Giám Hiệu và tập thể thầy

cô trong khoa Điện Tử - Viễn Thông, Trường Đại Học Công Nghệ , Đại Học Quốc Gia Hà Nội đã tổ chức giảng dạy và tạo môi trường thuận lợi cho tôi được học tập và nghiên cứu chuyên sâu về lĩnh vực Điện tử viễn thông

Xin chân thành cảm ơn các anh chị đồng nghiệp trong cơ quan công tác

đã tạo điều kiện thuận lợi, đóng góp những ý kiến quý báu Xin cảm ơn bạn

bè đã chỉ bảo tôi trong suốt quá trình học tập và hoàn thành luận văn này

Đặc biệt xin gửi lời cảm ơn sâu sắc đến Thầy hướng dẫn khoa học TS

Lê Vũ Hà và TS Nguyễn Hồng Thịnh đã tận tình hướng dẫn, chỉ bảo tôi

trong suốt quá trình nghiên cứu và thực hiện luận văn này

Cuối cùng, tôi xin biết ơn gia đình đã tạo điều kiện thuận lợi cho tôi yên tâm trong suốt thời gian học tập cũng như thời gian nghiên cứu và hoàn thành luận văn cao học

Nghiên cứu này được tài trợ bởi trung tâm nghiên cứu Châu Á, Đại học Quốc Gia Hà Nội trong đề tài mã số CA.15.10A

Hà Nội, ngày 05 tháng 9 năm 2017

Tác giả luận văn

Nguyễn Thị Dương

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan những nội dung trong luận văn này là do tôi thực

hiện dưới sự hướng dẫn của TS Lê Vũ Hà

Các số liệu, kết quả trình bày trong luận văn là trung thực Những tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá tôi xin chịu hoàn toàn trách nhiệm

Tác giả luận văn

Nguyễn Thị Dương

Trang 5

MỤC LỤC

PHẦN MỞ ĐẦU 1

1 Tính cấp thiết của luận văn 1

2 Mục tiêu của luận văn 2

3 Các đóng góp của luận văn 2

4 Bố cục của luận văn 3

Chương 1 TỔNG QUAN VỀ PHƯƠNG PHÁP GÁN NHÃN TỰ ĐỘNG CHO ẢNH 4

1.1 Tổng quan 4

1.2 Các nghiên cứu trong lĩnh vực gần đây 7

1.3 Bài toán phân loại và gán nhãn ảnh tự động 8

1.4 Biểu diễn ảnh dưới dạng các vector đặc trưng (Low level features) 10

1.4.1 Tại sao phải biểu diễn ảnh 10

1.4.2 Đặc trưng của ảnh 11

1.4.2.1 Đặc trưng toàn cục 12

1.4.2.2 Đặc trưng cục bộ 12

1.4.3 Các vector đặc trưng 12

1.4.3.1 Lược đồ màu CH 12

1.4.3.2 Đặc trưng tương quan màu CORR 13

1.4.3.3 Lược đồ hệ số góc EDH 14

1.4.3.4 Cấu trúc sóng con WT 15

1.4.3.5 Mô-men màu CM55 16

1.4.3.6 Phương pháp túi từ điển BOW 16

1.5 Các nguồn thông tin phụ trợ 18

1.6 Phương pháp huấn luyện dùng để phân loại và gán nhãn 20

1.6.1 Phương pháp K - láng giềng gần nhất (K-Nearest Neighbors) 20

Trang 6

1.6.2 Phương pháp SVM - Support Vector Machine 21

1.6.3 Đánh giá 23

Chương 2 THUẬT TOÁN GÁN NHÃN ẢNH CHỈ SỬ DỤNG CÁC VECTOR ĐẶC TRƯNG 25

2.1 Ảnh và chú giải (Tags) 25

2.2 Giới thiệu cách tạo ra 81 nhãn trong tập dữ liệu NUS-WIDE 26

2.3 Biểu diễn ảnh dưới dạng vector đặc trưng 27

2.4 Thuật toán K-NN 29

2.4.1 Phân tích dữ liệu thực nghiệm với K-NN 29

2.4.2 Kết quả recall của K-NN 31

2.5 Thuật toán SVM 32

2.5.1 Phân tích dữ liệu thực nghiệm với SVM 32

2.5.2 Kết quả recall của SVM 33

Chương 3: THUẬT TOÁN SỬ DỤNG KẾT HỢP THÔNG TIN PHỤ TRỢ 35 3.1 Sử dụng thông tin chú giải 35

3.1.1 Phân tích mối quan hệ giữa chú giải và nhãn 35

3.1.2 Thực nghiệm sử dụng thông tin chú giải của người dùng trên tập kiểm thử 37

3.2 Sử dụng vector đặc trưng và chú giải 38

3.2.1 Dựa trên thông tin chú giải của ảnh kiểm thử 38

3.2.2 Dựa trên thông tin chú giải của ảnh huấn luyện 39

KẾT LUẬN 42

TÀI LIỆU THAM KHẢO 44 PHỤ LỤC :

Trang 7

DANH MỤC HÌNH ẢNH

Hình 1 1 Một hệ thống CBIR điển hình [Manal and Nordin 2009] 4

Hình 1 2 Sơ đồ khối của một khung công việc gán nhãn ảnh tự động 5

Hình 1 3 Phương pháp tổng quát cách thức thực hiện bài toán gán nhãn ảnh sử dụng các nguồn thông tin khác nhau [Li et al 2016] 7

Hình 1 4 Ví dụ tìm kiếm ảnh với từ khóa “mountain” trên Flickr.com 9

Hình 1 5 Ví dụ minh họa không thể dùng lược đồ màu để phân biệt con bò và con ngựa trên thảo nguyên 11

Hình 1 6 Minh họa hai ảnh giống nhau nhưng góc nhìn khác nhau 11

Hình 1 7 Minh họa hai ảnh có đặc trưng tương quan màu giống nhau 14

Hình 1 8 Minh họa phương pháp túi từ điển [Fei et al 2005] 17

Hình 1 9 Túi từ - miêu tả đối tượng với biểu đồ của các từ xuất hiện[Fei et al 2005] 18

Hình 1 10 Ví dụ về ảnh và các tag người dùng gán cho ảnh 18

Hình 1 11 Thông tin về các thông số của máy ảnh và EXIF của ảnh 19

Hình 1 12 Ví dụ phân lớp cho X bằng thuật toán K-NN 21

Hình 1 13 Ví dụ phân lớp giữa hai tập hợp bóng Xanh - Đỏ sử dụng SVM 23 Hình 2 1 81 nhãn trong tập dữ liệu của NUS-WIDE 28

Hình 2 2 Số hình ảnh có liên quan đến 81 nhãn của NUS-WIDE 29

Hình 2 3 Sơ đồ tóm tắt các bước thực hiện quá trình phân loại và gán nhãn cho ảnh kiểm thử sử dụng K-NN 30

Hình 2 4 Biểu đồ so sánh kết quả recall của 6 đặc trưng và kết hợp các đặc trưng với K = 50 và số nhãn gán cho ảnh (N) tăng dần từ 1 đến 10 31

Hình 2 5 Sơ đồ tóm tắt các bước thực hiện quá trình phân loại và gán nhãn cho ảnh kiểm thử sử dụng SVM 33

Hình 2 6 Biểu đồ so sánh kết quả recall của 6 đặc trưng sử dụng thuật toán SVM 34

Trang 8

Hình 3 1 Biểu đồ Recall khi sử dụng thông tin chú giải của người dùng trên tập kiểm thử 37Hình 3 2 Sơ đồ khối quá trình kết hợp đặc trưng ảnh và chú giải của ảnh kiểm thử 38Hình 3 3 Biểu đồ so sánh kết quả recall của đặc trưng ảnh và đặc trưng kết hợp với chú giải của ảnh kiểm thử 39Hình 3 4 Sơ đồ khối dựa trên thông tin chú giải của ảnh huấn luyện theo cách

a 40Hình 3 5 Biểu đồ so sánh kết quả recall của đặc trưng ảnh và đặc trưng ảnh kết hợp với chú giải của ảnh huấn luyện theo cách a 40Hình 3 6 Sơ đồ khối dựa trên thông tin chú giải của ảnh huấn luyện theo cách

b 41Hình 3 7 Biểu đồ so sánh kết quả recall của đặc trưng ảnh và đặc trưng ảnh kết hợp với chú giải của ảnh huyến luyện theo cách b 41

Trang 9

DANH MỤC BẢNG

Bảng 1 1 So sánh các kỹ thuật gán nhãn 6

Bảng 1 2 So sánh ƣu điểm và nhƣợc điểm của các kỹ thuật gán nhãn 6

Bảng 2 1 Chú giải phổ biến nhất trong tập NUS-WIDE 26

Bảng 2 2 Kết quả recall của các đặc trƣng khi sử dụng thuật toán K-NN 31

Bảng 2 3 Kết quả recall của các đặc trƣng khi sử dụng thuật toán SVM 34

Bảng 3 1 Ví dụ một số kết quả khảo sát mối liên hệ giữa chú giải (tag) và nhãn (concept) 36

Trang 10

PHẦN MỞ ĐẦU

1 Tính cấp thiết của luận văn

Những năm gần đây, sự phát triển của khoa học và công nghệ đặc biệt là các thiết bị chụp ảnh và video cũng như của mạng Internet dẫn đến sự bùng nổ thông tin đa phương tiện Lượng lớn thông tin hình ảnh, video với sự đa dạng chủ đề được lưu trữ chia sẻ và truy cập trên mạng Điều này cũng đồng nghĩa với yêu cầu bức thiết trong vấn đề lưu trữ, quản lí và truy cập dữ liệu Gán nhãn ảnh tự động đã và đang trở thành chủ đề nóng và thách thức lớn trong xử lý thông tin và khoa học máy tính Mục tiêu chính của kỹ thuật này là thiết lập quá trình

mà hệ thống máy tính tự động gán cho mỗi đối tượng trong ảnh một vài nhãn thông tin, căn cứ vào đó ta có thể dễ dàng tìm kiếm, phân loại và truy xuất ảnh

Hiện nay, các kỹ thuật được sử dụng để phân loại và truy xuất ảnh thường

sử dụng thông tin văn bản (text) từ nguồn thông tin phụ trợ (metadata) của dữ liệu ví dụ như nhãn, chú giải (tag), bình luận (comment) của người dùng (ví dụ như Google tìm kiếm văn bản) Tuy nhiên không phải lúc nào các thông tin này cũng có sẵn, cũng chính xác, đặc biệt lại phụ thuộc lớn vào quan điểm của người dùng cũng như ngôn ngữ mà người dùng sử dụng Hơn nữa việc mô tả bức ảnh bằng một vài từ khóa không phải công việc dễ dàng Việc gán nhãn ảnh bằng tay còn thực sự khó khăn tốn kém và trở lên bất khả thi khi số lượng ảnh tăng lên rất nhanh chóng như hiện nay

Xu hướng hiện tại là gán nhãn ảnh một cách tự động sử dụng trực tiếp nội dung ảnh (image content), gán các nhãn cho ảnh đó, qua đó giúp dễ dàng quản lí ảnh cũng như tìm kiếm ảnh Vấn đề này vẫn luôn nhận được sự quan tâm của các nhà nghiên cứu với hi vọng có thể cải thiện hơn độ chính xác, tốc độ xử lý,

sự đa dạng và độ khó của các tập ảnh Xu hướng chung của các nghiên cứu này

là tìm ra các đặc trưng tốt hơn trong việc đặc tả ảnh, qua đó cải thiện được độ chính xác trong quá trình nhận dạng và gán nhãn ảnh Một xu hướng nữa cũng được quan tâm là sử dụng khai thác triệt để tất cả các thông tin có thể có từ ảnh

Trang 11

Luận văn đầy đủ ở file: Luận văn full

Ngày đăng: 19/01/2018, 11:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w