Nghiên cứu phương pháp tra cứu ảnh từ trong tài liệu

Một số công cụ tìm kiếm ảnh theo văn bản mô tả đi kèm như Google Image Search, Yahoo, MSN,…Một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl, Bing,… Các phương pháp

Trang 1

TRẦN NGỌC ĐỒNG

NGHIÊN CỨU PHƯƠNG PHÁP

TRA CỨU ẢNH TỪ TRONG ẢNH TÀI LIỆU

LUẬN VĂN THẠC SĨ MÁY TÍNH

HÀ NỘI, 2015

Trang 2

LỜI CẢM ƠN

Trước hết, em xin bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn PGS.Tiến Sĩ Ngô Quốc Tạo, người đã tận tình chỉ bảo, giúp đỡ em trong quá trình hình thành đề tài của luận văn Thầy đã hướng dẫn phương hướng triển khai đề tài, cách sử dụng tài liệu và tổng kết các kết quả nghiên cứu một cách

có hệ thống

Em xin trân thành cảm ơn tới tất cả các thầy cô giáo tại Trương đại học

Sư Phạm Hà Nội 2 đã đem tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho chúng em và luôn luôn tạo mọi điều kiện tốt nhất cho chúng em trong suốt quá trình theo học tại trường Em xin chân thành cảm ơn quý Thầy, Cô giáo và Ban lãnh đạo trường!

Cảm ơn đề tài: “Hệ thống đeo tay hỗ trợ đọc sách tiếng Việt dành cho

người khiếm thị ” Mã số VAST01.07/15-16 hỗ trợ trong thực hiện luận văn Luận văn hoàn thành, ngoài sự cố gắng của bản thân còn có sự động viên, giúp đỡ và kích lệ về tinh thần của bạn bè đồng nghiệp và gia đình giúp cho em vượt qua những khó khăn trong thời gian thực hiện luận văn Em xin trân thành cảm ơn tới tất cả mọi người

Hà nội, ngày 20 tháng 05 năm 2015

Học viên

Trần Ngọc Đồng

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, với sự hỗ trợ từ người hướng dẫn khoa học PGS.TS NGÔ QUỐC TẠO

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được

ai công bố trong bất kỳ công trình nào khác Việc sử dụng những dữ liệu có trong luận văn được thu thập từ các nguồn thông tin khác nhau có ghi trong phần tài liệu tham khảo

Nếu phát hiện bất kỳ sự gian lận nào, tôi xin chịu trách nhiệm trước Hội đồng, cũng như kết quả luận văn của mình

Tác giả

Trần Ngọc Đồng

Trang 4

MỤC LỤC

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục đích nghiên cứu 2

3 Nhiệm vụ nghiên cứu 2

4 Đối tượng và phạm vi nghiên cứu 2

5 Phương pháp nghiên cứu 2

6 Bố cục luận văn 3

NỘI DUNG 4

CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH 4

1.1 Một số vấn đề cơ bản trong hệ thống xử lý ảnh 4

1.1.1 Xử lý ảnh 4

1.1.2 Ảnh và điểm ảnh 5

1.1.3 Khái niệm ảnh đen trắng và ảnh màu 8

1.1.4 Không gian màu 9

1.2 Giới thiệu kiến trúc chung về hệ thống tra cứu ảnh 10

1.2.1 Tra cứu thông tin 10

1.2.2 Tra cứu ảnh dựa vào nội dung 11

1.3 Hệ thống đề xuất 15

CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH TỪ TRONG ẢNH TÀI LIỆU 17

2.1 Chuyển từ ảnh màu sang ảnh nhị phân 17

2.1.1 Chuyển từ ảnh màu sang ảnh xám 17

2.1.2 Chuyển từ ảnh xám sang ảnh nhị phân 17

2.1.3 Thao tác với ảnh nhị phân 24

2.2 Trích chọn đặc trưng và đối sánh từ 33

2.2.1 Đặc trưng về vùng của đối tượng 33

Trang 5

2.2.2 Những đặc trưng của hệ thống đối sánh 41

2.3 Thuật toán dùng để đối sánh từ 47

CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 49

3.1 Môi trường phát triển và CSDL 49

3.2 Giao diện chương trình 49

3.3 Đánh giá hệ thống 53

KẾT LUẬN 55

DANH MỤC TÀI LIỆU THAM KHẢO 56

Trang 6

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

RGB: Red, Green, Blue

CMY: Cyan-Magenta-Yellow

CBIR: Content Baased Image Retrieval

CSDL: Cơ Sở Dữ Liệu

Trang 7

DANH MỤC CÁC BẢNG

Bảng 1.1: Định nghĩa histogram 8

Bảng 2.1: Định nghĩa ảnh nhị phân đƣợc tạo từ ảnh xám 18

Bảng 2.2: Định nghĩa thành phần liên thông 25

Bảng 3.1: Thống kê kết quả tra cứu …53

Trang 8

DANH MỤC HÌNH VẼ

Hình 1.1 Quá trình xử lý ảnh 4

Hình 1.2 Các bước cơ bản trong một hệ thống xử lý ảnh 4

Hình 1.3 Hai dạng lược đồ mức sáng 7

Hình 1.4: Lược đồ mô tả các bước liên quan trong hệ thống tra cứu ảnh dựa vào nội dung 13

Hình 1.5: Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu 15

Hình 2.1: Ảnh màu được chuyển sang ảnh xám tính theo công thức trên 17

Hình 2.2 Ví dụ về histogram và ma trận ánh sáng [3] 20

Hình 2.3: Biểu đồ histogram cho những giá trị màu nhỏ hơn 20

Hình 2.4: Biểu đồ histogram cho những giá trị màu lớn hơn ngưỡng t=3 [3] 21

Hình 2.5: Tính toán giá trị phương sai bên trong một lớp ứng với tứng giá trị mức xám [3] 22

Hình 2.6: Kết quả sau khi sử dụng phương pháp Otsu [3] 22

Hình 2.7:Ảnh sau khi được tách ngưỡng bằngOtsu 23

Hình 2.8: Hai định nghĩa về các điểm láng riềng phổ biến 24

Hình 2.9: Ví dụ về ảnh nhị phân 26

Hình 2.10: Ảnh nhị phân và nhãn của các thành phần 26

Hình 2.11:Cấu trúc Union - Find với hai tập nhãn [7] 27

Hình 2.12: Giả mã cho thủ tục Find 28

Hình 2.13: Giả mã cho thủ tục Union 28

Hình 2.14: Giả mã thuật toán tìm và gán nhãn cho các thành liên thông 30

Hình 2.15 giải thích ứng dụng thuật toán tìm nhãn các thành phần liên thông với cấu trúc Union-Find cho ảnh nhị phân ở hình 31

Hình 2.16: Bức ảnh tài liệu có nhiều nhiễu 32

Hình 2.17: Tìm các thành phần liên thông trong ảnh 32

Hình 2.18: Loại bỏ nhiễu 32

Trang 9

Hình 2.19: Mở rộng kích thước hình chữ nhật biên theo hai hướng trái và phải 32

Hình 2.20: Xác định từ 33

Hình 2.21: Các vùng đã được gán nhãn trong tài liệu 36

Hình 2.22: Các đặc trưng của 3 vùng ở hình 2.21 36

Hình 2.23 Tám điểm cực trị của một vùng nằm trên hình chữ nhật biên Cắt đường chéo đứt đoạn là trục các điểm cực trị 37

Hình 2.24: Moment của một trục được tính bằng bình phương khoảng cách từ mỗi điểm đến trục đó [7] 39

Hình 2.25: Xác định tỉ lệ chiều rộng và cao dựa vào hình chữ nhật biên của vùng trong từ 41

Hình 2.26: Ảnh tính toán phép chiếu dọc 43

Hình 2.27: Ảnh biểu diễn thao tác với đặc trưng ghép chiều trên và dưới của từ 45

Hình 2.28: Ảnh biểu diễn thao tác với đặc trung thông tin về phần bên trên và bên trên và phần bên dưới của từ 46

Hình 2.29: Vector đặc trưng dùng để đối sánh từ 47

Hình 3.1: Giao diện chương trình 49

Hình 3.2: Giao diện chức năng “Thêm ảnh vào CSDL” 50

Hình 3.3: Cập nhật ảnh vào CSDL thành công 51

Hình 3.4: Kết quả tìm kiếm 52

Hình 3.5: Chi tiết các từ có trong ảnh tài liệu được bôi đậm 52

Hình 3.6: Tỉ lệ precision trung bình là 79,6% 54

Hình 3.7: Tỉ lệ recall trung bình là 96,1% 54

Trang 10

MỞ ĐẦU

1 Lý do chọn đề tài

Hiện nay, các thành tựu của tin học được áp dụng ở hầu hết các lĩnh vực hoạt động của xã hội và đem lại nhiều hiệu quả to lớn Mối quan hệ tương tác giữa các nhu cầu của xã hội ngày càng đa dạng, cùng với sự phát triển của các thiết bị đa phương tiện (multimedia) như máy ảnh, máy scan, máy quay phim, điện thoại, ipad… với khối lượng hình ảnh và phim lưu trữ ngày càng lớn, cùng với sự phát triển của các thiết bị điện tử, tin học và viễn thông đã thu hút ngày càng nhiều những chuyên gia đi vào nghiên cứu những công cụ cung cấp cho việc lấy thông tin dữ liệu ảnh từ nội dung của chúng Trong thực tế, bài toán tra cứu ảnh có rất nhiều ứng dụng quan trọng Các ứng dụng phức tạp như so sánh mẫu vân tay, tìm kiếm ảnh tội phạm… được áp dụng trong ngành khoa học hình sự, cơ sở dữ liệu ảnh về địa lý, y học… làm cho lĩnh vực nghiên cứu này phát triển nhanh trong công nghệ thông tin

Với số lượng ảnh được lưu trữ trên các thiết bị nhớ trở nên lớn, thì vấn

đề là phải có những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt

Tùy vào mục đích tìm kiếm khác nhau mà có các hình thức tra cứu ảnh khác nhau Hệ thống tra cứu ảnh từ trong ảnh tài liệu chỉ là một dạng của hệ thống tra cứu ảnh nói chung Mục đích của hệ thống tìm kiếm từ trong ảnh tài liệu là đưa ra những ảnh tài liệu liên quan với từ mà người dùng cung cấp Trong luận văn này sẽ trình bày một hệ thống tra cứu ảnh từ trong ảnh tài liệu giúp người dùng có thể tìm kiếm thông tin từ ảnh tài liệu từ câu truy vấn Hệ thống đưa ra việc tìm kiếm trên ngôn ngữ là Tiếng anh

Xuất phát trong hoàn cảnh đó “Nghiên cứu phương pháp tra cứu ảnh từ trong ảnh tài liệu” được em chọn làm đề tài

Trang 11

3 Nhiệm vụ nghiên cứu

- Tìm hiểu những khái niệm chung, cơ bản về xử lý ảnh và phương

pháp dùng để tra cứu ảnh tài liệu

- Nghiên cứu kiến trúc, những khó khăn, thách thức, và lĩnh vực ứng

dụng của hệ thống truy tìm từ trong ảnh tài liệu

- Trình bày các thao tác dùng để nhận dạng các từ trong văn bản của

hình ảnh tài liệu và các đặc trưng chung hay dùng để đối sánh đối tượng

- Trình bày phần cài đặt hệ thống Đánh giá một số từ truy vấn đối với

hệ thống

4 Đối tượng và phạm vi nghiên cứu

Đối tượng, phạm vi nghiên cứu: Tổng quan về ảnh và tra cứu ảnh, phương pháp tra cứu ảnh và chọn ra phương pháp, kỹ thuật tra cứu ảnh cụ thể

Sử dụng các phương pháp trên để nghiên cứu và tìm hiểu: “Nghiên cứu

phương pháp tra cứu ảnh từ trong ảnh tài liệu”

Trang 12

6 Bố cục luận văn

Luận văn được chia thành ba phần

MỞ ĐẦU

NỘI DUNG

Chương 1: TỔNG QUAN VỀ TRA CỨU ẢNH

Chương này sẽ đưa ra những khái niệm cơ bản về xử lý ảnh và kiến trúc của hệ thống tra cứu ảnh dựa vào nội dung Dựa vào kiến trúc chung đó xây dựng hệ thống đề xuất tìm kiếm ảnh từ trong ảnh tài liệu

Chương 2: PHƯƠNG PHÁP TRA CỨU ẢNH TỪ TRONG ẢNH TÀI LIỆU

Chương này sẽ đi sâu vào từng phần có trong hệ thống đề xuất được nêu

ra ở Chương 1 Đưa ra các thuật toán để chuyển đổi sang ảnh nhị phân, thao tác với ảnh nhị phân để nhận dạng được các từ có trong ảnh tài liệu, đồng thời trích chọn các đặc trưng để đem ra đối sánh

Chương 3: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM

Chương này sẽ trình bày các chức năng của chương trình thử nghiệm ứng với mục đích nghiên cứu của luận văn Đánh giá một số từ truy vấn đối với hệ thống

Trang 13

NỘI DUNG CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH

1.1 Một số vấn đề cơ bản trong hệ thống xử lý ảnh

1.1.1 Xử lý ảnh

Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy

Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh

có thể là một ảnh “tốt hơn” hoặc một kết luận

Hình 1.1 Quá trình xử lý ảnh

Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như

là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P(c1, c2, , cn) Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều

Sơ đồ tổng quát của một hệ thống xử lý ảnh:

Hình 1.2 Các bước cơ bản trong một hệ thống xử lý ảnh

Ảnh “Tốt hơn”

Kết luận

Trang 14

Xử lý ảnh là một môn học liên quan đến nhiều lĩnh vực và cần nhiều kiến thức cơ sở khác nhau Có thể kể đến đầu tiên là xử lý tín hiệu số, môn học hết sức cơ bản cho xử lý tín hiệu chung Các khái niệm về tính chập, các biến đổi Fouricer, Laplace, các bộ lọc hữu hạn… Tiếp đến là các công cụ tính toán như Đại số tuyến tính, xác suất thống kê Các kiến thức cần thiết như trí tuệ nhân tạo, mạng nơ ron nhân tạo cũng được đề cập trong quá trình phân tích và nhận dạng ảnh

Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính là nâng cao chất lượng ảnh và phân tích ảnh Ứng dụng đầu tiên được biết đến là nâng cao chất lượng ảnh báo được truyền qua cáp từ London đến NewYork từ những năm 1920 Vấn đề nâng cao chất lượng ảnh có liên quan tới phân bố mức sáng

và độ phân giải ảnh Vấn đề này đã được giải quyết vào những năm 1995 Năm 1964 máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹ bao gồm : làm nối đường biên, lưu ảnh Từ năm 1964 đến nay, các phương tiện xử lý nâng cao chất lượng, nhận dạng ảnh không ngừng phát triển và hoàn thiện hơn

1.1.2 Ảnh và điểm ảnh

Ảnh trong thực thế là một ảnh liên tục về không gian và giá trị độ sáng

Để có thể xử lý bằng máy tính cần thiết phải đưa về dạng ảnh số Trong quá trình số hóa, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hóa không gian) và lượng tử hóa thành phần giá trị (rời rạc hóa biên độ giá trị) mà về nguyên tắc mắt thường không phân biệt được hai điểm kề nhau Trong quá trình này người ta sử dụng khái niệm là Picture Element mà ta quen gọi là pixel Ảnh thường có kích thước vuông và

được mô tả là N N m-bit điểm ảnh, trong đó N là số điểm và m là số các giá trị mức sáng Việc sử dụng m bit đưa ra khoảng 2m giá trị mức sáng từ 0 đến 2m – 1 Trong khuôn khổ ảnh hai chiều, mỗi Pixel ứng với cặp tọa độ(x,y)

Trang 15

Định nghĩa : Điểm ảnh (pixel) là một phần tử của ảnh số tại tọa độ (x,y)

với tọa độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi là một phần tử ảnh

* Mức xám của ảnh

Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x,y) của điểm ảnh

và độ xám của nó

Định nghĩa : Mức xám của ảnh là cường độ sáng của nó được gán bằng

giá trị tại điểm đó

Các thang giá trị mức xám thông thường : 16,32,64,128,256 (Mức 256 là mức phổ dụng)

Ảnh đen trắng : là ảnh có hai màu đen và trắng (không chứa màu sắc

khác) với mức xám ở các điểm ảnh có thể khác nhau

Ảnh nhị phân : ảnh chỉ có 2 mức đen trắng phân biệt, tức là dùng 1 bit

mô tả 21 mức khác nhau Tức là mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1

Trang 16

Ảnh màu: Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo

nên thế giới màu, người ta thường dung 3 byte để mô tả mức màu, khi đó các giá trị màu: 28*3 = 224 = 16,7 triệu màu

* Histogram

Histogram là một lược đồ biểu diễn độ sáng của một bức ảnh Lược đồ này bao gồm trục hoảnh biểu diễn mức sáng và trục tung biểu diễn số lượng điểm sáng tương ứng Đối với ảnh xám thông thường, giá trị của trục hoành nằm trong khoảng từ 0-255

Trang 17

Định nghĩa :

Cho ảnh mức xám I có giá trị màu nằm trong khoảng MIN và MAX

Histogram của ảnh mức xám I là số điểm ảnh trong ảnh I có giá trị m

Trong đó :

m là tất cả giá trị mức xám của ảnh và m

r , c là chỉ số hàng và cột của điểm ảnh trong ảnh

Bảng 1.1: Định nghĩa histogram

1.1.3 Khái niệm ảnh đen trắng và ảnh màu

Ảnh có thể biểu diễn dưới dạng tương tự hoặc tín hiệu số Trong biểu diễn số của các ảnh đa mức xám thì một ảnh được biểu diễn dưới dạng một ma trận hai chiều Mỗi phần tử của ma trận biểu diễn cho mức xám hay cường độ của ảnh tại vị trí đó Một lưới chia ô vuông được đặt lên ảnh Độ lớn mỗi ô vuông của lưới xác định kích thước của một điểm ảnh Mức xám của một điểm được tính bằng cường độ xám trung bình tại mỗi ô vuông này Mắt lưới càng nhỏ thì chất lượng ảnh càng cao

Trong kỹ thuật tương tự, một bức ảnh thường được biểu diễn dưới dạng các dòng nằm ngang kế tiếp nhau Mỗi dòng là một tín hiệu tương tự mang theo các thông tin về cường độ sáng dọc theo một đường nằm ngang trong ảnh gốc

* Ảnh đen trắng

Ảnh đen trắng chỉ bao gồm hai màu : màu đen và màu trắng Người ta phân mức đen trắng đó thành L mức nếu sử dụng số bit B = 8 bit để mã hóa mức đen trắng (hay mức xám) thì L được xác định :

L=2B

Trang 18

Nếu L=2, B=1, nghĩa là chỉ có 2 mức: mức 0 và mức 1, còn gọi là ảnh nhị phân Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối Nếu L lớn hơn 2 ta có ảnh đa cấp xám

Với ảnh nhị phân mỗi điểm ảnh được mã hóa trên 1bit, còn với ảnh 256 mức, mỗi điểm ảnh được mã hóa trên 8 bit Như vậy, với ảnh đen trắng: nếu dùng 8 bit (1 byte) để biểu diễn mức xám thì số mức xám có thể biểu diễn sẽ

là 256 Mỗi mức xám được biểu diễn dưới dạng số nguyên nằm trong khoảng

từ 0-255, với mức 0 biểu diễn cho mức cường độ đen nhất và mức 255 biểu diễn cho mức cường độ sáng nhất

Ảnh nhị phân khá đơn giản, các phần tử ảnh có thể coi là các phần tử logic Ứng dụng chính của nó được dùng để phân biệt đối tượng ảnh với nền hay để phân biệt điểm biên với các điểm khác

* Ảnh màu

Theo lý thuyết của Thomas thì ảnh màu là ảnh tổ hợp từ 3 màu cơ bản là Red, Green, Blue và thu nhận trên các dải bang tần khác nhau Với ảnh màu thì cách biểu diễn cũng tương tự như ảnh đen trắng, chỉ khác là các số tại mỗi phần tử của ma trận biểu diễn cho ba màu riêng rẽ Để biểu diễn cho một điểm ảnh màu cần 24 bit 24 bit này được chia thành ba khoảng 8 bit Mỗi màu cũng phân thành L cấp màu khác nhau (thường L = 256) Mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính Do đó, để lưu trữ ảnh màu người ta có thể lưu trữ từng màu riêng biệt, mỗi màu lưu trữ một ảnh đa cấp xám Chính vì vậy không gian nhớ dành cho một ảnh màu lớn gấp

3 lần một ảnh đa cấp xám cùng kích cỡ

1.1.4 Không gian màu

* Không gian màu RGB

RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh Không gian RGB bao gồm 3 thành phần màu là Đỏ(Red), Xanh lá cây(Green)

Trang 19

và Xanh lam (Blue) Các thành phần này gọi là màu cộng bởi vì các màu sắc trong không gian RGB đều có thể thu được bằng cách cộng 3 thành phần màu này lại với nhau

* Không gian màu CMY

CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam ,màu đỏ tươi, màu vàng),đó là ba màu chính tương ứng với ba màu mựcin

* Không gian màu HSx

Các không gian màu HSI, HSV, HSB và HSL (quy ước gọi là HSx) là gần với nhận thức của người hơn không gian màu RGB, nhưng vẫn không là đồng nhất nhận thức

Các trục từ các không gian màu HSx biểu diễn các đặc trưng màu (hue),

độ bão hòa (saturation), và độ sáng (lightness)(cũng được gọi là value, brightness và intensity) Sự khác biệt giữa các không gian màu trong HSx là cách chúng biến đổi từ không gian màu RGB Chúng thường được biểu diễn bởi các hình thức khác nhau (ví dụ như hình nón, hình trụ)

1.2 Giới thiệu kiến trúc chung về hệ thống tra cứu ảnh

1.2.1 Tra cứu thông tin

Tra cứu thông tin về ảnh là quá trình tìm kiếm trong một cơ sở dữ liệu ảnh những ảnh thỏa mãn một yêu cầu nào đó Tra cứu thông tin về ảnh thường dựa vào hai đặc trưng chính là văn bản mô tả đi kèm ảnh hoặc nội dung ảnh Một số công cụ tìm kiếm ảnh theo văn bản mô tả đi kèm như Google Image Search, Yahoo, MSN,…Một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl, Bing,…

Các phương pháp tra cứu ảnh được sử dụng đầu tiên không dựa trên các đặc điểm trực quan của ảnh mà dựa trên các chú thích bằng lời của các bức ảnh, đầu tiên người ta gán cho mỗi ảnh một câu chú thích bằng lời (text) dựa

Trang 20

trên một đặc điểm nào đó của ảnh, sau đó sử dụng các kỹ thuật tìm kiếm văn bản thông thường để tìm kiếm ảnh

Phương pháp tra cứu ảnh dựa trên văn bản như trên sử dụng các kỹ thuật

cơ sở dữ liệu truyền thống để quản lý ảnh Dựa vào các lời chú thích, người ta

có thể tổ chức cơ sở dữ liệu ảnh bằng các phân lớp theo chủ đề hay theo ngữ nghĩa và việc duyệt cơ sở dữ liệu ảnh chỉ dựa trên các truy vấn kiểu Bool thông thường Phương pháp tra cứu ảnh dựa trên chú thích như trên còn được gọi là phương pháp tra cứu ảnh theo từ khóa Do vậy việc xây dựng các thuật toán có khả năng tự động sinh ra các chú thích cho một cơ sở dữ liệu ảnh có nhiều chủ đề là hết sức khó khăn nên các hệ thống tra cứu ảnh kiều này vẫn yêu cầu phải chú thích ảnh một cách thủ công, tốn rất nhiều công sức và quan trọng hơn là nó mang tính chủ quan, bị ảnh hưởng bởi hoàn cảnh và không đầy đủ

Phương pháp tra cứu ảnh dựa theo nội dung ra đời đã khắc phục được nhược điểm của phương pháp tra cứu ảnh dựa vào văn bản đi kèm Phương

pháp "Tra cứu ảnh dựa theo nội dung" (Content Based Image Retrieval) cho phép trích chọn các đặc trưng dựa vào nội dung trực quan của ảnh như màu

sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc

tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh Một số hệ thống tra cứu ảnh nổi tiếng như QBIC (IBM), Virage (Virage Inc.) Photobook (MIT) Visual SEEK (Columbia University) đã áp dụng thành công kỹ thuật này Tra cứu ảnh dựa theo nội dung đã nhận được nhiều sự quan tâm của các nhà khoa học

1.2.2 Tra cứu ảnh dựa vào nội dung

Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề tra cứu thông tin dựa trên dạng thông tin trực quan đó là các phương pháp dựa trên đặc trưng và các phương pháp dựa trên văn bản mô tả ảnh Nhận thức chủ

Trang 21

quan và chú thích thiếu chính xác là nguyên nhân tra cứu không chính xác trong các quá trình tra cứu của phương pháp dựa trên văn bản mô tả đi ảnh Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung Với giải pháp này, thay vì được chú thích một cách thủ công bởi các từ khóa dựa vào văn bản, các ảnh có thể được trích rút một số đặc trưng trực quan như màu sắc, hình dạng, kết cấu và được đánh chỉ số dựa trên các đặc trưng trực quan này Cách tiếp cận này dựa chủ yếu vào các kết quả từ thị giác máy Tuy nhiên, không có đặc trưng riêng lẻ tốt nhất mà cho các kết quả chính xác Thông thường một sự kết hợp các đặc trưng một cách tùy biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứng dụng tra cứu ảnh dựa vào nội dung

Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR-Content Baased Image REtrieval) tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khuôn dạng khác nhau (văn bản, hình ảnh , video) mà còn giải quyết nhu cầu của người sử dụng Về cơ bản hệ thống phân tích cả các nội dung của nguồn thông tin cũng như các truy vấn sử dụng và sau đó so sánh các nội dung này để tra cứu các mục tin liên quan Các chức năng chính của hệ thống dựa vào nội dung như sau :

 Phân tích các nội dung của nguồn thông tin, và biểu diễn các nội dung của các nguồn được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng

 Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thích hợp cho so sánh với cơ sở dữ liệu nguồn Bước này tương

tự bước trước nhưng chỉ áp dụng với ảnh truy vấn

 Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thông tin trong cơ sở dữ liệu được lưu trữ Tra cứu thông tin liên quan một cách hiệu quả Bước này được thực hiện trực tuyến và

Trang 22

được yêu cầu rất nhanh Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng để tăng tốc quá trình đối sánh

 Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sử dụng hoặc các ảnh được tra cứu

Hình 1.4: Lược đồ mô tả các bước liên quan trong hệ thống

tra cứu ảnh dựa vào nội dung

Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa vào nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau

và trên mặt kia có các truy vấn người sử dụng Hai mặt này được liên kết thông qua một chuỗi các tác vụ như được minh họa trong hình trên Sau đây chúng ta sẽ đưa ra cái nhìn khái quát về một số tác vụ chính

Trang 23

1.2.2.1 Truy vấn người sử dụng

Có nhiều cách gửi một truy vấn trực quan Một phương pháp truy vấn tốt

là một phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thông tin từ người sử dụng để trích rút các kết quả có ý nghĩa Các phương pháp truy vấn dưới đây được sử dụng phổ biến trong nghiên cứu tra cứu ảnh dựa vào nội dung

Truy vấn ảnh mẫu (QBE): Trong loai truy vấn này, người sử dụng hệ thống chỉ rõ một ảnh truy vấn đích, dựa trên ảnh đó hệ thống sẽ tìm kiếm trong cơ sở dữ liệu ảnh các ảnh tương tự nhất

Truy vấn bởi đặc trưng (QBF): Trong hệ thống QBF tiêu biểu, những người sử dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm

Các truy vấn dựa vào thuộc tính: Các truy vấn dựa vào thuộc tính sử dụng các chú thích văn bản, trích rút trước bởi nỗ lực con người, như một khóa tra cứu chính Phương pháp này nhanh và dễ thực hiện, nhưng có một

độ chủ quan và nhập nhằng cao xuất hiện như đã đề cập

1.2.2.2 Trích chọn đặc trưng

Trích chọn đặc trưng liên quan đến việc trích chọn những thông tin hữu ích từ ảnh Vì vậy nó giảm yêu cầu về bộ nhớ cấn thiết và do đó làm hệ thống trở nên nhanh hơn và truy tìm ản hiệu quả hơn Mỗi khi một hoặc nhiều đặc trưng được trích chọn, chúng là được lưu trong cơ sở dữ liệu để sử dụng cho công việc sau này Số lượng thông tin hữu ích mà một máy tính lấy ra từ ảnh

là yếu tố rất quan trọng quyết định tính thông minh, cũng như hiệu quả của hệ thống truy tìm ảnh.Một ưu điểm lớn nhất của việc trích chọn đặc trưng đó là

nó bỏ đi những thông tin không cần thiết và chỉ giữ lại những thông tin cần thiết để có thể biểu diễnnội dung cho ảnh Thường có nhiều phương pháp để trích chọn đặc trưng như là Gradient, Structural và Concavity (GSC) (đặc

Trang 24

trưng này để đo những đặc trưng ảnh ở mức độ cục bộ đến những mức độ lớn hơn ), những đặc trưng dựa trên sự phân bố mật độ và những đặc trưng khối quan trọng trong ảnh, Conditional Random Field, Dynamic Time Wraping

1.2.2.3 Đánh chỉ số nhiều chiều

Để thực hiện việc tra cứu dựa vào nội dung đối với các cơ sở dữ liệu ảnh lớn, các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng Có ba cộng đồng nghiên cứu chính đóng góp vào lĩnh vực này: hình học tính toán, quản trị cơ

sở dữ liệu và nhận dạng mẫu

1.3 Hệ thống đề xuất

Xuất phát từ kiến trúc chung về hệ thống tra cứu ảnh Trong tài liệu này

đề xuất hệ thống tìm kiếm từ trong ảnh tài liệu và đánh dấu hoặc làm nổi bật

từ cần tìm Những kỹ thuật đưa ra bắt gặp trong vấn đề truy tìm ảnh tài liệu là

sử dụng thủ tục đối sánh một từ Thủ tục này thực hiện đối sánh từ trực tiếp trong ảnh tài liệu mà không dùng phương pháp nhận dạng ký tự quang học (optical character recognition) và sử dụng ảnh của một từ như làm câu truy vấn Toàn bộ hệ thống bao gồm hai thủ tục chính như hìnhbên dưới

Trong cơ sở dữ liệu ảnh tất cả ảnh tài liệu được phân tích để tìm số lượng từ tối đa bên trong chúng Sau đó tập các đặc trưng có thể được lấy ra ứng với hình dạng của từ và bỏ qua những sự khác nhau chi tiết do nhiễu hoặc font Những đặc trưng này sau đó được lưu vào cơ sở dữ liệu đặc trưng

Hình 1.5: Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu

Trang 25

Trong thủ tục của người sử dụng nhập một từ truy vấn và sau đó hệ thống sẽ tạo ra một bức ảnh ứng với từ đó Tiếp theo ảnh này cũng được xử lý

để lấy ra tập các đặc trưng có thể Sau đó, những đặc trưng này được dùng để tìm những từ tương tự thông qua thủ tục đối sánh từ Cuối cùng, những ảnh tài liệu chứa những từ tương tự được hiện thị đến người dùng Kết quả thí nghiệm chỉ ra rằng hệ thống đề xuất đưa ra kết quả tìm kiếm có độ chính xác

cao thông qua độ đo về tỉ lệ precision và recall

Trong các chương còn lại của tài liệu sẽ đi chi tiết vào từng bước trong

hệ thống và các kỹ thuật sử dụng trong từng bước

Trang 26

CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH TỪ

TRONG ẢNH TÀI LIỆU

Trong chương này sẽ đưa ra các thuật toán cũng như các kĩ thuật được áp dụng vào trong hệ thống đề xuất như là: nhận dạng các từ có trong ảnh tài liệu, thuật toán đối sánh và trích chọn các đặc trưng của một vùng liên thông chứa trong ảnh

Đầu vào của ảnh tài liệu đa phần là ảnh màu, vì vậy để giảm bớt các đặc trưng có thể tác động lên kết quả tìm kiếm thì ảnh đầu vào cần phải được chuyển đổi sang ảnh nhị phân, quá trình chuyển đổi ảnh đầu vào sang ảnh nhị phân cần phải chuyển gián tiếp sang ảnh xám

2.1 Chuyển từ ảnh màu sang ảnh nhị phân

2.1.1 Chuyển từ ảnh màu sang ảnh xám

Dựa vào lược đồ màu RGB ta có công thức để chuyển ảnh màu về ảnh xám được tính như sau:

Hình 2.1: Ảnh màu được chuyển sang ảnh xám tính theo công thức trên

2.1.2 Chuyển từ ảnh xám sang ảnh nhị phân

Ảnh nhị phân có thể được chuyển đồi bằng phương pháp lấy ngưỡng tự động trên ảnh xám Thao tác chọn ngưỡng là chọn một số điểm ảnh như là những điểm ảnh nổi (Foreground Pixel) mà tạo thành đối tượng và những điểm ảnh còn lại là điểm ảnh nền (Background Pixel) Với một dải màu xám

Trang 27

trong bức ảnh xám, chúng ta phải tìm ra một giá trị ngưỡng để phân tách những điểm ảnh trong một bức ảnh xám thành hai nhóm foreground và

background như trên Nói một cách đơn giản, với một giá trị ngưỡng t được chọn Tất cả những điểm ảnh có giá trị màu lớn hơn hoặc bằng t thì đặt trong nhóm foreground và những điểm ảnh nào có giá trị ngưỡng nhỏ hơn t thì đặt

Trong phương pháp này chỉ rõ hàm histogram như là một hàm xác suất P

trong đó P(0),… ,P(I) biểu diễn các xác suất histogram của các giá trị xám quan sát được từ 0,…, I P(i) = |{ (r,c)| Image(r,c) = I }| / |R C|, trong đó R

C là vùng không gian của ảnh Nếu như histogram là chia thành hai lớp thì vấn đề tìm ngưỡng của histogram là xác định một ngưỡng T tốt nhất mà phân

rõ ràng hai lớp của histogram Ngưỡng T xác định một phương sai cho các giá

Trang 28

trị trong nhóm nhỏ hơn ngưỡng T và một phương sai cho các giá trị trong nhóm lớn hơn ngưỡng T Định nghĩa về ngưỡng tốt nhất được đề xuất bởi Otsu đó là một ngưỡng mà tổng trọng số của các phương sai bên trong một nhóm là nhỏ nhất

Chúng ta có thể hiểu rõ hơn chỉ tiêu này bằng cách chú ý một ví dụ mà thỉnh thoảng xảy ra trong một lớp trượt tuyết sau.Có một bài kiểm tra cơ bản được đưa ra như là biểu đồ đo kết quả để chia sinh viên trong lớp thành hai nhóm Đó là nhóm gồm những người trượt tuyết khá và nhóm gồm những người vừa mới biết trượt Những bài học nhằm đến những người trượt tuyết khá lại quá nhanh so với những người mới biết trượt, và những bài học nhằm đến những người mới biết trượt lại gây nhàm chán đối với người trượt tuyết khá Để thay đổi trường hợp này giáo viên quyết định chia lớp thành hai nhóm riêng biệt và đồng nhất dựa trên điểm kiểm tra Câu hỏi ở đây là xác định điểm kiểm tra như thế nào để sử dụng làm chỉ tiêu chia lớp

Độ đo tính đồng nhất của một nhóm là giá trị phương sai Một nhóm có

độ đồng nhất cao sẽ có phương sai thấp Còn nhóm có độ đồng nhất thấp sẽ

có phương sai cao Một cách có thể để chọn ngưỡng là chọn một chỉ số chia sao cho tổng trọng số của phương sai trong một nhóm là nhỏ nhất Chỉ tiêu này nhấn mạnh tính đồng nhất bên trong một lớp

Cho là tổng trọng số của các phương sai bên trong nhóm Cho

là phương sai cho nhóm có giá trị nhỏ hơn hoặc bằng ngưỡng t và là

phương sai cho nhóm có giá trị lớn hơn t Gọi là xác suất của nhóm với

giá trị nhỏ hơn hoặc bằng ngưỡng t và là xác suất cho nhóm có giá trị

lớn hơn ngưỡng t Khi đó độ biến thiên bên trong một lớp sẽ được tính như

sau:

w w tb( ). b w tf ( ). f

Trang 29

Ví dụ như ta muốn tìm ngưỡng của ảnh xám sau bằng phương pháp Otsu Ảnh này có 6 giá trị mức xám từ 0 đến 5

Hình 2.2: Ví dụ về histogram và ma trận ảnh xám [3]

Việc tính toán để tìm ra phương sai cho hai nhóm foreground và background cho một giá trị ngưỡng nào đó là được đưa ra ở bên dưới, trong

trường hợp này giá trị ngưỡng tốt nhất là t=3 và được tính như sau:

Hình 2.3: Biểu đồ histogram cho những giá trị màu nhỏ hơn

hoặc ngưỡng t=3 [3]

Weight

Mean

Trang 30

Việc tính toán như trên cần thực hiện cho tất cả các mức xám của ảnh, ở

ví dụ này là từ 0 đến 5 Hình 2.5 bên dưới liệt kê kết quả của các phép tính này ứng với từng giá trị mức xám cụ thể trong ảnh

Như chúng ta thấy trong ví dụ trên ngưỡng đuợc chọn là 3 Vì vậy ảnh nhị phân có thể có được từ ảnh xám Những điểm ảnh nào có giá trị nhỏ hơn

Trang 31

hoặc bằng 3 sẽ chuyển thành nhóm background và những điểm ảnh nào có giá trị lớn hơn 3 sẽ được cho vào nhóm foreground (Hình 2.6)

Hình 2.5: Tính toán giá trị phương sai bên trong một lớp ứng với

tứng giá trị mức xám [3]

Hình 2.6: Kết quả sau khi sử dụng phương pháp Otsu [3]

Trong bài toán của nhận dạng từ sau khi có được ảnh xám của từ từ ảnh màu, ảnh thường chứa những nhiễu nhỏ Bằng phương pháp chọn ngưỡng tự động sử dụng phương pháp Otsu, các nhiễu này đa phần được loại bỏ để phục

vụ cho các bước sau được xử lý dễ dàng hơn

Trang 32

Hình 2.7: Ảnh sau khi đƣợc tách ngƣỡng bằngOtsu

Trong đó hình 2.7(a) minh họa một văn bản thực, hình 2.7(b) biểu đồ biểu diễn mức xám với ngƣỡng xám tốt nhất k*, hình 2.7(c) là ảnh thu đƣợc sau quá trình nhị phân hóa với ngƣỡng xám k* tìm đƣợc

Sau khi có đƣợc ảnh nhị phân, chúng ta cần phải tách đƣợc các thành phần có trong bức ảnh và đếm đƣợc có bao nhiêu từ có trong ảnh tài liệu Công việc này phải thực hiện thao tác trên ảnh nhị phân sử dụng khái niệm thành phần liên thôngvà các thuật toán để tìm thành phần liên thông

Trang 33

2.1.3 Thao tác với ảnh nhị phân

2.1.3.1.Điểm ảnh và các điểm láng riềng

Điểm ảnh trong ảnh nhị phân là có giá trị 0 hoặc 1 Giá trị 1 thường được dùng để ký hiệu cho những điểm ảnh nổi (foreground pixel) và giá trị 0 là biểu diễn cho những điểm ảnh nền (background pixel) B[r,c] là ký hiệu cho

giá trị điểm ảnh ở vị trí hàng r và cột c của ảnh Một bức ảnh kích thước M x

N có M dòng bắt đầu từ 0 đến M –1 và có N cột bắt đầu từ 0 đến N – 1 Do đó B[0,0] sẽ là điểm ảnh ở bên trên cùng phía bên tay trái của ảnh và B[M – 1, N – 1] là điểm ảnh ở tận cùng phía bên tay phải của ảnh

Trong nhiều thuật toán, không chỉ sử dụng các giá trị điểm ảnh làm đầu vào cho thuật toán mà còn sử dụng các điểm láng riềng của nó khi xử lý liên quan đến điểm ảnh Có hai định nghĩa phổ biến về các điểm láng riềng là những điểm 4 láng riềng và những điểm 8 láng riềng

Những điểm 4 láng riềng, ký hiệu N 4 (r,c) của điểm ảnh(r,c), là những

điểm ảnh (r – 1,c), (r+1,c), (r,c– 1), (r,c+1).Thông thường chúng ta cũng sử dụng hướng để chỉ ra tên tương ứng với những điểm ảnh này như hướngbắc,

nam, tây, đông

Những điểm 8 láng riềng, ký hiệu N 8 (r,c) của điểm ảnh(r,c), bao gồm

những điểm ảnh trong các điểm 4 láng riềng cộng thêm những điểm sau (r –

1,c – 1), (r – 1,c + 1), (r + 1,c – 1), (r + 1,c +1)và hướng tương ứng với

những điểm ảnh này là hướng tâybắc, đông bắc, nam tây, đông nam

Hình 2.8: Hai định nghĩa về các điểm láng riềng phổ biến

Định dạng
Số trang	66
Dung lượng	1,49 MB