1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

NGHIÊN cứu PHƯƠNG PHÁP TRA cứu ẢNH tài LIỆU dựa vào tìm KIẾM văn bản TRONG HÌNH ẢNH tài LIỆU

62 651 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 1,81 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thôngthường trong hệ thống tìm kiếm ảnh, những nội dung có thể nhìn thấy như màu sắc,hình dạng, kết cấu, bố cục không gian thường được chọn lọc, đánh chỉ số và biểudiễn dưới dạng vector

Trang 2

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, với sự hỗ trợ từ người hướng dẫn khoa học PGS.TS NGÔ QUỐC TẠO

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác Việc sử dụng những dữ liệu có trong

luận văn được thu thập từ các nguồn thông tin khác nhau có ghi trong phần tài liệutham khảo

Nếu phát hiện bất kỳ sự gian lận nào, tôi xin chịu trách nhiệm trước Hộiđồng, cũng như kết quả luận văn của mình

Tác giả

NGUYỄN VĂN TÙNG

Trang 3

LỜI CẢM ƠN

Trên thực tế không có thành công nào mà không gắn liền với những sự hỗtrợ, giúp đỡ của những người xung quanh chúng ta Trong suốt thời gian từ khi bắtđầu học tập tại trường đến nay, em đã nhận được rất nhiều sự quan tâm, giúp đỡ củaquý Thầy, Cô giáo tại Học viện Công nghệ Bưu chính Viễn thông đã đem tri thức

và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho chúng em và luônluôn tạo mọi điều kiện tốt nhất cho chúng em trong suốt quá trình theo học tại họcviện Em xin chân thành cảm ơn quý Thầy, Cô giáo và Ban lãnh đạo học viện!Đặc biệt em xin gửi lời biết ơn sâu sắc đến thầy hướng dẫn - PGS.Tiến Sĩ NgôQuốc Tạo, người đã trực tiếp hướng dẫn em hoàn thành luận văn này

Và trên hết, con xin kính gửi lòng biết ơn đến ba mẹ và tất cả những ngườithân đã luôn đồng hành và động viên để con có thể hoàn thành tốt luận văn này.Tuy đã cố gắng hết sức mình và hoàn thành đồ án nhưng chắc chắn đồ án vẫncòn nhiều thiếu sót Em rất mong nhận được sự góp ý, chỉ bảo của các thầy cô vàcác bạn để có thể phát triển đồ án với những ứng dụng thiết thực nhất trong tươnglai

Hà nội, ngày 21 tháng 04 năm 2014

Học viên

Nguyễn Văn Tùng

Trang 4

MỤC LỤC

Trang 5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

RGB Red, Green, Blue

CMY Cyan-Magenta-Yellow

CBIR Content Baased Image Retrieval

CSDL Cơ Sở Dữ Liệu

Trang 6

DANH MỤC CÁC BẢNG

DANH MỤC HÌNH VẼ

Trang 8

LỜI MỞ ĐẦU

Cùng với sự mở rộng của multimedia, với khối lượng hình ảnh và phim lưutrữ ngày càng lớn, cùng với sự phát triển của các thiết bị điện tử, tin học và viễnthông đã thu hút ngày càng nhiều những chuyên gia đi vào nghiên cứu những công

cụ cung cấp cho việc lấy thông tin dữ liệu ảnh từ nội dung của chúng Trong thực tế,bài toán tra cứu ảnh có rất nhiều ứng dụng quan trọng Các ứng dụng phức tạp như

so sánh mẫu vân tay, tìm kiếm ảnh tội phạm… được áp dụng trong ngành khoa họchình sự, cơ sở dữ liệu ảnh về địa lý, y học… làm cho lĩnh vực nghiên cứu này pháttriển nhanh trong công nghệ thông tin

Tuy nhiên khi số lượng ảnh được lưu trữ trở nên rất lớn thì vấn đề là phải cónhững phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìmkiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt Việc tìm kiếmđược một bức ảnh mong muốn trong hàng triệu bức ảnh thuộc đủ loại chủ đề khácnhau là rất khó khăn

Tìm kiếm theo cách thông thường dựa trên văn bản giờ đây được bổ sung bởitruy vấn dựa theo nội dung, tìm vào khía cạnh nhận thức thông tin ảnh Thôngthường trong hệ thống tìm kiếm ảnh, những nội dung có thể nhìn thấy như màu sắc,hình dạng, kết cấu, bố cục không gian thường được chọn lọc, đánh chỉ số và biểudiễn dưới dạng vector đặc trưng nhiều chiều Những đặc trưng này sẽ được sử dụng

để đối sánh và tìm những bức ảnh khác có liên quan

Tùy vào mục đích tìm kiếm khác nhau mà có các hình thức tra cứu ảnh khácnhau Hệ thống tìm từ trong ảnh tài liệu chỉ là một dạng của hệ thống tra cứu ảnhnói chung Mục đích của hệ thống tìm kiếm từ trong ảnh tài liệu là đưa ra nhữngảnh tài liệu liên quan với từ mà người dùng cung cấp Trong luận văn này sẽ trìnhbày một hệ thống tra cứu ảnh tài liệu giúp người dùng có thể tìm kiếm thông tin từảnh tài liệu từ câu truy vấn Hệ thống đưa ra việc tìm kiếm trên ngôn ngữ là Tiếnganh

Tài liệu gồm có 4 chương và phần kết luận:

Trang 9

Chương 1: TỔNG QUAN VỀ TRA CỨU ẢNH

Chương này sẽ đưa ra những khái niệm chung, cơ bản về xử lý ảnh và phươngpháp dùng để tra cứu ảnh Mục đích là đưa cho người đọc những hiểu biết chung vềlĩnh vực mà xử lý ảnh nghiên cứu

Chương 2: KIẾN TRÚC CHUNG VỀ HỆ THỐNG TRA CỨU ẢNH TÀI LIỆU

Chương này sẽ đưa ra một bức tranh chung về kiến trúc của hệ thống tra cứuảnh dựa vào nội dung Dựa vào kiến trúc chung đó phần nào mô hình hóa từng bướccần thực hiện trong hệ thống tra cứu ảnh tài liệu, qua đó xây dựng được hệ thống đềxuất tìm kiếm từ trong ảnh tài liệu

Chương 3: THỰC THI HỆ THỐNG ĐỀ XUẤT

Chương này chủ yếu trình bày các thao tác dùng để nhận dạng các từ trongvăn bản của hình ảnh tài liệu và tìm hiểu hiểu được các đặc trưng dùng để đối sánhVéc tơ đặc trưng và CSDL đặc trưng

Chương 4: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM

Chương này sẽ trình bày phần cài đặt hệ thống Đánh giá một số từ truy vấnđối với hệ thống

Kết luận

Nhìn chung, đồ án đã đưa ra những khái niệm cơ bản về hệ thống tra cứu ảnhtài liệu với một hệ thống tìm kiếm từ trong ảnh tài liệu cụ thể đã được đề xuất Cácbước trong hệ thống được trình bày lần lượt ở các chương

Tuy nhiên, do thời gian thực hiện còn hạn hẹp, kiến thức còn hạn chế nên luậnvăn không tránh khỏi thiếu sót Rất mong nhận được sự giúp đỡ của các thầy cô vàcác bạn quan tâm đến vấn đề này để em có thể hoàn thiện hơn kiến thức của mình

Trang 10

CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH

1.1.Tổng quan về xử lý ảnh

Xử lý ảnh từ lâu đã là một lĩnh vực mang tính khoa học và công nghệ Nó làmột nghành khoa học mới mẻ so với nhiêu nghành khoa học khác nhưng tốc độphát triển của nó rất nhanh, điều này kích thích các trung tâm nghiêm cứu, các ứngdụng và đặc biệt là máy tính chuyên dụng riêng cho nó

Xử lý ảnh là một môn học liên quan đến nhiều lĩnh vực và cần nhiều kiến thức

cơ sở khác nhau Có thể kể đến đầu tiên là xử lý tín hiệu số, môn học hết sức cơ bảncho xử lý tín hiệu chung Các khái niệm về tính chập, các biến đổi Fouricer,Laplace, các bộ lọc hữu hạn… Tiếp đến là các công cụ tính toán như Đại số tuyếntính, xác suất thống kê Các kiến thức cần thiết như trí tuệ nhân tạo, mạng nơ ronnhân tạo cũng được đề cập trong quá trình phân tích và nhận dạng ảnh

Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính là nâng cao chấtlượng ảnh và phân tích ảnh Ứng dụng đầu tiên được biết đến là nâng cao chấtlượng ảnh báo được truyền qua cáp từ London đến NewYork từ những năm 1920.Vấn đề nâng cao chất lượng ảnh có liên quan tới phân bố mức sáng và độ phân giảiảnh Vấn đề này đã được giải quyết vào những năm 1995 Năm 1964 máy tính đã cókhả năng xử lý và nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹbao gồm : làm nối đường biên, lưu ảnh Từ năm 1964 đến nay, các phương tiện xử

lý nâng cao chất lượng, nhận dạng ảnh không ngừng phát triển và hoàn thiện hơn

1.1.1.Một số vấn đề cơ bản trong hệ thống xử lý ảnh

* Ảnh và điểm ảnh:

Ảnh trong thực thế là một ảnh liên tục về không gian và giá trị độ sáng Để cóthể xử lý bằng máy tính cần thiết phải đưa về dạng ảnh số Trong quá trình số hóa,người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu(rời rạc hóa không gian) và lượng tử hóa thành phần giá trị (rời rạc hóa biên độ giátrị) mà về nguyên tắc mắt thường không phân biệt được hai điểm kề nhau Trongquá trình này người ta sử dụng khái niệm là Picture Element mà ta quen gọi là pixel

Ảnh thường có kích thước vuông và được mô tả là N N m-bit điểm ảnh, trong đó N

Trang 11

là số điểm và m là số các giá trị mức sáng Việc sử dụng m bit đưa ra khoảng 2m giátrị mức sáng từ 0 đến 2m – 1 Trong khuôn khổ ảnh hai chiều, mỗi Pixel ứng với cặptọa độ(x,y).

Định nghĩa : Điểm ảnh (pixel) là một phần tử của ảnh số tại tọa độ (x,y) với

tọa độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đóđược chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mứcxám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi làmột phần tử ảnh

* Độ phân giải ảnh

Định nghĩa: Độ phân giải(Resolution) của ảnh là mật độ điểm ảnh được ấn

định trên một ảnh số được hiển thị

Trong quá trình xử lý ảnh việc chọn giá trị phù hợp về kích thước N của ảnhcũng khá phức tạp và quan trọng Chúng ta chọn N đủ lớn sẽ giải quyết những mức

độ yêu cầu về độ chi tiết của bức ảnh Nhưng N quá nhỏ , ảnh có chất lượng xấu:những đường nét sẽ xuất hiện như những khối và nhiều chi tiết bị mất Những giátrị lớn hơn của N đưa ra nhiều chi tiết hơn, nhưng cần nhiều không gian bộ nhớ hơn

để lưu trữ ảnh, và ảnh sẽ được xử lý lâu hơn do có nhiều điểm ảnh

Hình 1.1: Hình chiếc xe đạp với các kích thước ảnh khác nhau

Trang 12

Ví dụ như với hai bức ảnh về chiếc xe đạp trong Hình 1 với các độ phân giảikhác nhau Hình bên tay trái với độ phân giải 64 x 64 đưa ra cấu trúc rộng Chúng takhó có thể quan sát bất kỳ chi tiết nào trong phần khung của xe đạp hoặc bất kỳ thứkhác Với hình chiêc xe đạp bên tay phải có độ phân giải 256 x 256 chúng ta vừa cóthể quan sát chi tiết vật thể và cũng có thể nhận dạng vật thể là ai Hầu hết các bứcảnh lựa chọn là có độ phân giải 256 x 256 hoặc 512 x 512 Hình ảnh có độ phân giảicàng cao thì càng sắc nét và màu sắc càng chính xác Và khi đó, dung lượng filecũng sẽ tăng theo, đòi hỏi nhiều bộ nhớ và đĩa cứng hơn.

Ảnh nhị phân : ảnh chỉ có 2 mức đen trắng phân biệt, tức là dùng 1 bit mô tả

21 mức khác nhau Tức là mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1

Ảnh màu: Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế

giới màu, người ta thường dung 3 byte để mô tả mức màu, khi đó các giá trị màu:

28*3 = 224 = 16,7 triệu màu

* Histogram

Histogram là một lược đồ biểu diễn độ sáng của một bức ảnh Lược đồ nàybao gồm trục hoảnh biểu diễn mức sáng và trục tung biểu diễn số lượng điểm sángtương ứng Đối với ảnh xám thông thường, giá trị của trục hoành nằm trong khoảng

từ 0-255

Trang 13

Hình 1.2: Hai dạng lược đồ mức xám

Nhìn vào biểu đồ ta có thể biết được phân bố cường độ sáng của một ảnh, vớinhững ảnh mà phân bố histogram lệch về bên phải thì ảnh đó là một ảnh có độ sángtốt Ngược lại ảnh đó là một ảnh tối Dựa vào các yếu tố trên ta có định nghĩahistogram của ảnh xám

Bảng 1.1: Định nghĩa histogram

Định nghĩa :

Cho ảnh mức xám I có giá trị màu nằm trong khoảng MIN và MAX

Histogram của ảnh mức xám I là số điểm ảnh trong ảnh I có giá trị m

Trong đó :

m là tất cả giá trị mức xám của ảnh và m

r , c là chỉ số hàng và cột của điểm ảnh trong ảnh

1.1.2.Khái niệm ảnh đen trắng và ảnh màu

Ảnh có thể biểu diễn dưới dạng tương tự hoặc tín hiệu số Trong biểu diễn sốcủa các ảnh đa mức xám thì một ảnh được biểu diễn dưới dạng một ma trận haichiều Mỗi phần tử của ma trận biểu diễn cho mức xám hay cường độ của ảnh tại vịtrí đó Một lưới chia ô vuông được đặt lên ảnh Độ lớn mỗi ô vuông của lưới xácđịnh kích thước của một điểm ảnh Mức xám của một điểm được tính bằng cường độxám trung bình tại mỗi ô vuông này Mắt lưới càng nhỏ thì chất lượng ảnh càng cao Trong kỹ thuật tương tự, một bức ảnh thường được biểu diễn dưới dạng cácdòng nằm ngang kế tiếp nhau Mỗi dòng là một tín hiệu tương tự mang theo cácthông tin về cường độ sáng dọc theo một đường nằm ngang trong ảnh gốc

Trang 14

* Ảnh đen trắng

Ảnh đen trắng chỉ bao gồm hai màu : màu đen và màu trắng Người ta phânmức đen trắng đó thành L mức nếu sử dụng số bit B = 8 bit để mã hóa mức đentrắng (hay mức xám) thì L được xác định :

L=2B

Nếu L=2, B=1, nghĩa là chỉ có 2 mức : mức 0 và mức 1, còn gọi là ảnh nhịphân Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối Nếu L lớn hơn 2 ta cóảnh đa cấp xám

Với ảnh nhị phân mỗi điểm ảnh được mã hóa trên 1bit, còn với ảnh 256 mức,mỗi điểm ảnh được mã hóa trên 8 bit Như vậy, với ảnh đen trắng : nếu dùng 8 bit(1byte) để biểu diễn mức xám thì số mức xám có thể biểu diễn sẽ là 256 Mỗi mứcxám được biểu diễn dưới dạng số nguyên nằm trong khoảng từ 0-255, với mức 0biểu diễn cho mức cường độ đen nhất và mức 255 biểu diễn cho mức cường độsáng nhất

Ảnh nhị phân khá đơn giản, các phần tử ảnh có thể coi là các phần tử logic.Ứng dụng chính của nó được dùng để phân biệt đối tượng ảnh với nền hay để phânbiệt điểm biên với các điểm khác

* Ảnh màu

Theo lý thuyết của Thomas thì ảnh màu là ảnh tổ hợp từ 3 màu cơ bản là Red,Green, Blue và thu nhận trên các dải bang tần khác nhau Với ảnh màu thì cách biểudiễn cũng tương tự như ảnh đen trắng, chỉ khác là các số tại mỗi phần tử của matrận biểu diễn cho ba màu riêng rẽ Để biểu diễn cho một điểm ảnh màu cần 24 bit

24 bit này được chia thành ba khoảng 8 bit Mỗi màu cũng phân thành L cấp màukhác nhau (thường L = 256) Mỗi khoảng này biểu diễn cho cường độ sáng của mộttrong các màu chính Do đó, để lưu trữ ảnh màu người ta có thể lưu trữ từng màuriêng biệt, mỗi màu lưu trữ một ảnh đa cấp xám Chính vì vậy không gian nhớ dànhcho một ảnh màu lớn gấp 3 lần một ảnh đa cấp xám cùng kích cỡ

1.1.3.Không gian màu

Không gian màu phổ biến : RGB, CMY, HSx,…

Trang 15

* Không gian màu RGB

RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh.Không gian RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) vàXanh lam (Blue) Các thành phần này gọi là màu cộng bởi vì các màu sắc trongkhông gian RGB đều có thể thu được bằng cách cộng 3 thành phần màu này lạivới nhau

Hình 1.3: Không gian màu RGB

* Không gian màu CMY

CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam, màu đỏ tươi, màuvàng), đó là ba màu chính tương ứng với ba màu mực in

* Không gian màu HSx

Các không gian màu HSI, HSV, HSB và HSL (quy ước gọi là HSx) là gần vớinhận thức của người hơn không gian màu RGB, nhưng vẫn không là đồng nhấtnhận thức

Các trục từ các không gian màu HSx biểu diễn các đặc trưng màu (hue), độbão hòa (saturation), và độ sáng (lightness)(cũng được gọi là value, brightness vàintensity) Sự khác biệt giữa các không gian màu trong HSx là cách chúng biến đổi

từ không gian màu RGB Chúng thường được biểu diễn bởi các hình thức khácnhau (ví dụ như hình nón, hình trụ) Trong hình 3 không gian màu HSV được trựcquan hóa như một hình nón

Trang 16

Hình 1.4: Không gian màu HSV được trực quan hóa như một hình nón

1.2.Tra cứu thông tin

Tra cứu thông tin về ảnh là quá trình tìm kiếm trong một cơ sở dữ liệu ảnhnhững ảnh thỏa mãn một yêu cầu nào đó Tra cứu thông tin về ảnh thường dựa vàohai đặc trưng chính là văn bản mô tả đi kèm ảnh hoặc nội dung ảnh Một số công

cụ tìm kiếm ảnh theo văn bản mô tả đi kèm như Google Image Search, Yahoo,MSN,…Một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google ImageSwirl, Bing,…

Các phương pháp tra cứu ảnh được sử dụng đầu tiên không dựa trên các đặcđiểm trực quan của ảnh mà dựa trên các chú thích bằng lời của các bức ảnh, đầu tiênngười ta gán cho mỗi ảnh một câu chú thích bằng lời (text) dựa trên một đặc điểmnào đó của ảnh, sau đó sử dụng các kỹ thuật tìm kiếm văn bản thông thường để tìmkiếm ảnh

Phương pháp tra cứu ảnh dựa trên văn bản như trên sử dụng các kỹ thuật cơ sở

dữ liệu truyền thống để quản lý ảnh Dựa vào các lời chú thích, người ta có thể tổchức cơ sở dữ liệu ảnh bằng các phân lớp theo chủ đề hay theo ngữ nghĩa và việcduyệt cơ sở dữ liệu ảnh chỉ dựa trên các truy vấn kiểu Bool thông thường Phươngpháp tra cứu ảnh dựa trên chú thích như trên còn được gọi là phương pháp tra cứuảnh theo từ khóa Do vậy việc xây dựng các thuật toán có khả năng tự động sinh ra

Trang 17

các chú thích cho một cơ sở dữ liệu ảnh có nhiều chủ đề là hết sức khó khăn nên các

hệ thống tra cứu ảnh kiều này vẫn yêu cầu phải chú thích ảnh một cách thủ công,tốn rất nhiều công sức và quan trọng hơn là nó mang tính chủ quan, bị ảnh hưởngbởi hoàn cảnh và không đầy đủ

Phương pháp tra cứu ảnh dựa theo nội dung ra đời đã khắc phục được nhược

điểm của phương pháp tra cứu ảnh dựa vào văn bản đi kèm Phương pháp "Tra cứu ảnh dựa theo nội dung" (Content Based Image Retrieval) cho phép trích chọn các đặc trưng dựa vào nội dung trực quan của ảnh như màu sắc, kết cấu, hình dạng và

bố cục không gian của ảnh để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ

liệu ảnh Một số hệ thống tra cứu ảnh nổi tiếng như QBIC (IBM), Virage (VirageInc.) Photobook (MIT) Visual SEEK (Columbia University) đã áp dụng thành công

kỹ thuật này Tra cứu ảnh dựa theo nội dung đã nhận được nhiều sự quan tâm củacác nhà khoa học

1.3.Tra cứu ảnh dựa vào nội dung

Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề tra cứu thông tindựa trên dạng thông tin trực quan đó là các phương pháp dựa trên đặc trưng và cácphương pháp dựa trên văn bản mô tả ảnh Nhận thức chủ quan và chú thích thiếuchính xác là nguyên nhân tra cứu không chính xác trong các quá trình tra cứu củaphương pháp dựa trên văn bản mô tả đi ảnh

Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩynhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung Với giải phápnày, thay vì được chú thích một cách thủ công bởi các từ khóa dựa vào văn bản, cácảnh có thể được trích rút một số đặc trưng trực quan như màu sắc, hình dạng, kếtcấu và được đánh chỉ số dựa trên các đặc trưng trực quan này Cách tiếp cận nàydựa chủ yếu vào các kết quả từ thị giác máy Tuy nhiên, không có đặc trưng riêng lẻtốt nhất mà cho các kết quả chính xác Thông thường một sự kết hợp các đặc trưngmột cách tùy biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứngdụng tra cứu ảnh dựa vào nội dung

Trang 18

Một hệ thống tra cứu ảnh dựa vào nội dung(CBIR-Content Baased ImageREtrieval) tiêu biểu không chỉ xử lý các nguồn thông tin khác nhau ở các khuôndạng khác nhau (văn bản, hình ảnh , video) mà còn giải quyết nhu cầu của người sửdụng Về cơ bản hệ thống phân tích cả các nội dung của nguồn thông tin cũng nhưcác truy vấn sử dụng và sau đó so sánh các nội dung này để tra cứu các mục tin liênquan Các chức năng chính của hệ thống dựa vào nội dung như sau :

• Phân tích các nội dung của nguồn thông tin, và biểu diễn các nội dungcủa các nguồn được phân tích theo cách thích hợp cho so sánh cáctruy vấn sử dụng

• Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thíchhợp cho so sánh với cơ sở dữ liệu nguồn Bước này tương tự bướctrước nhưng chỉ áp dụng với ảnh truy vấn

• Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thôngtin trong cơ sở dữ liệu được lưu trữ Tra cứu thông tin liên quan mộtcách hiệu quả Bước này được thực hiện trực tuyến và được yêu cầurất nhanh Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổchức lại không gian đặc trưng để tăng tốc quá trình đối sánh

• Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng điềuchỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sửdụng hoặc các ảnh được tra cứu

Trang 19

CHƯƠNG 2: KIẾN TRÚC CHUNG VỀ HỆ THỐNG TRA

CỨU ẢNH TÀI LIỆU

Những năm gần đây với sự phát triển mạnh mẽ của các thiết bị số như máyảnh, máy quay phim… có thể giúp chúng ta dễ dàng lưu trữ thông tin dưới dạngảnh Những dữ liệu dạng này tăng nhanh do việc tạo ra chúng dễ dàng nhờ sử dụngmáy quét (scanner) và máy ảnh kỹ thuật số (digital camera) Do đó, các văn bản cóthể được chụp hoặc quét và được lưu dưới dạng ảnh tài liệu (document image).Nhưng những thông tin này không được đánh chỉ số cho nên việc truy tìm thông tintrở nên khó khăn

Việc truy tìm thông tin trong ảnh tài liệu là một lĩnh vực nghiên cứu hấp dẫnvới sự phát triển ngày càng tăng nhanh Những tài liệu dạng này đóng một vai tròquan trọng trong cuộc sống hằng ngày của chúng ta Những tài liệu phức tạp hơnđưa ra những thử thách lớn hơn cho lĩnh vực nhận dạng và truy tìm ảnh tài liệu Sựhiện diện của các loại nhiễu, chữ viết tay, chữ ký, logo, chữ in trong cùng một tàiliệu với các loại font khác nhau cũng như việc quy định viết chữ theo dòng đã gâynhiều hạn chế đến các thuật toán mà đơn thuần làm việc trên những bức ảnh tài liệuđơn giản

Công việc chính của quá trình xử lý ảnh tài liệu phức tạp là tách biệt nhữngnội dung khác nhau có trong ảnh tài liệu Một khi những nội dung đã được phântách, thì chúng có thể được đánh chỉ số để sẵn dùng bởi hệ thống truy tìm ảnh Sựhiểu biết nội dung của ảnh tài liệu như là tài liệu về kiểm tra tài khoản ngân hàng,thư trong doanh nghiệp, các mẫu điền thông tin, và các bài báo kĩ thuật đã dần trởthành những lĩnh vực nghiên cứu hấp dẫn

Các phần tiếp theo trong chương này sẽ đưa ra kiến trúc chung nhất về hệthống tra cứu ảnh Các thách thức đặt ra với hệ thống tra cứu ảnh nói chung Và

cuối chương sẽ là “hệ thống tìm kiếm từ trong ảnh tài liệu” được đề xuất trong bài

viết

Trang 20

2.1.Giới thiệu kiến trúc chung về hệ thống tra cứu ảnh

Hình 2.1: Lược đồ mô tả các bước liên quan trong hệ thống tra cứu ảnh dựa

vào nội dung

Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa vàonội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và trên mặtkia có các truy vấn người sử dụng Hai mặt này được lien kết thông qua một chuỗicác tác vụ như được minh họa trong hình trên Sau đây chúng ta sẽ đưa ra cái nhìnkhái quát về một số tác vụ chính

2.1.1.Truy vấn người sử dụng

Có nhiều cách gửi một truy vấn trực quan Một phương pháp truy vấn tốt làmột phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thông tin từngười sử dụng để trích rút các kết quả có ý nghĩa Các phương pháp truy vấn dướiđây được sử dụng phổ biến trong nghiên cứu tra cứu ảnh dựa vào nội dung

Trang 21

Truy vấn ảnh mẫu (QBE): Trong loai truy vấn này, người sử dụng hệ thốngchỉ rõ một ảnh truy vấn đích , dựa trên ảnh đó hệ thống sẽ tìm kiếm trong cơ sở dữliệu ảnh các ảnh tương tự nhất.

Truy vấn bởi đặc trưng (QBF): Trong hệ thống QBF tiêu biểu, những người sửdụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm.Các truy vấn dựa vào thuộc tính: Các truy vấn dựa vào thuộc tính sử dụng cácchú thích văn bản, trích rút trước bởi nỗ lực con người, như một khóa tra cứu chính.Phương pháp này nhanh và dễ thực hiện, nhưng có một độ chủ quan và nhập nhằngcao xuất hiện như đã đề cập

2.1.2.Trích chọn đặc trưng

Trích chọn đặc trưng liên quan đến việc trích chọn những thông tin hữu ích từảnh Vì vậy nó giảm yêu cầu về bộ nhớ cấn thiết và do đó làm hệ thống trở nênnhanh hơn và truy tìm ản hiệu quả hơn Mỗi khi một hoặc nhiều đặc trưng đượctrích chọn, chúng là được lưu trong cơ sở dữ liệu để sử dụng cho công việc sau này

Số lượng thông tin hữu ích mà một máy tính lấy ra từ ảnh là yếu tố rất quan trọngquyết định tính thông minh, cũng như hiệu quả của hệ thống truy tìm ảnh Một ưuđiểm lớn nhất của việc trích chọn đặc trưng đó là nó bỏ đi những thông tin khôngcần thiết và chỉ giữ lại những thông tin cần thiết để có thể biểu diễn nội dung choảnh Thường có nhiều phương pháp để trích chọn đặc trưng như là Gradient,Structural và Concavity (GSC) (đặc trưng này để đo những đặc trưng ảnh ở mức độcục bộ đến những mức độ lớn hơn ), những đặc trưng dựa trên sự phân bố mật độ vànhững đặc trưng khối quan trọng trong ảnh, Conditional Random Field, DynamicTime Wraping

2.1.3.Đánh chỉ số nhiều chiều

Để thực hiện việc tra cứu dựa vào nội dung đối với các cơ sở dữ liệu ảnh lớn,các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng Có ba cộng đồng nghiêncứu chính đóng góp vào lĩnh vực này: hình học tính toán, quản trị cơ sở dữ liệu vànhận dạng mẫu

Trang 22

2.2.Những thách thức trong thiết kế và thực thi hệ thống tra cứu ảnh tài liệu

Những tài liệu phức tạp đưa ra nhiều thách thách lớn trong lĩnh vực nhận dạngtài liệu và truy tìm ảnh Việc nghiên cứu và tìm từ tập dữ liệu lớn là một vấn đềquan trọng Để thiết kế và thực thi thành công một cơ chế tìm kiếm trong lĩnh vực

về ảnh, chúng ta cần đề cập những vấn đề sau đây

2.2.1.Thời gian tính toán

Thực hiện công việc tìm kiếm từ tập dữ liệu ảnh lớn thông qua nhiều bước như

xử lý ảnh sơ bộ, trích chọn đặc trưng, đối sánh và lấy tài liệu Mỗi bước có thể mấtnhiều thời gian tính toán Do đó cần phải sử dụng những thao tác tối ưu trong suốtquá trình truy vấn

2.2.2.Tài liệu không đạt tiêu chuẩn

Nguyên nhân dẫn đến chất lượng của tài liệu bị giảm thường là:

• Quá nhiều nhiễu trên ảnh logo, các biểu đồ, chữ in hoặc chữ viết tay

• Những vết mực lớn dính lên các chữ cái hoặc các thành phần khác

• Chất lượng giấy hoặc chất lượng mực kém

• Chữ chồng lên chữ ký

Thiết kế một lược đồ biểu diễn phù hợp và thuật toán đối sánh để điều chỉnhhiệu quả đối với những tài liệu có chất lượng kém là vấn đề cần thiết

2.2.3.Ngôn ngữ trong tài liệu

Các ngôn ngữ khác nhau có cách thức biểu diễn và quy luật viết riêng Ngoài

ra lại có nhiều font chữ, phong cách viết khác nhau Cho nên cần phải tìm ra nhữngđặc trưng nào là bất biến để đối sánh giữa các từ hoặc ký tự Thông thường việcthiết kế thuật toán tìm kiếm cho các ngôn ngữ châu á thường khó hơn so với cácngôn ngữ châu âu do những đặc trưng nêu trên

2.3.Hệ thống đề xuất

Xuất phát từ kiến trúc chung về hệ thống tra cứu ảnh Trong tài liệu này đềxuất hệ thống tìm kiếm từ trong ảnh tài liệu và đánh dấu hoặc làm nổi bật từ cầntìm Những kỹ thuật đưa ra bắt gặp trong vấn đề truy tìm ảnh tài liệu là sử dụng thủtục đối sánh một từ Thủ tục này thực hiện đối sánh từ trực tiếp trong ảnh tài liệu mà

Trang 23

không dùng phương pháp nhận dạng ký tự quang học (optical character recognition)

và sử dụng ảnh của một từ như làm câu truy vấn Toàn bộ hệ thống bao gồm hai thủtục chính như hình bên dưới

Trong cơ sở dữ liệu ảnh tất cả ảnh tài liệu được phân tích để tìm số lượng từtối đa bên trong chúng Sau đó tập các đặc trưng có thể được lấy ra ứng với hìnhdạng của từ và bỏ qua những sự khác nhau chi tiết do nhiễu hoặc font Những đặctrưng này sau đó được lưu vào cơ sở dữ liệu đặc trưng

Hình 2.2: Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu

Trong thủ tục của người sử dụng nhập một từ truy vấn và sau đó hệ thống sẽtạo ra một bức ảnh ứng với từ đó Tiếp theo ảnh này cũng được xử lý để lấy ra tậpcác đặc trưng có thể Sau đó, những đặc trưng này được dùng để tìm những từtương tự thông qua thủ tục đối sánh từ Cuối cùng, những ảnh tài liệu chứa những từtương tự được hiện thị đến người dùng Kết quả thí nghiệm chỉ ra rằng hệ thống đề

xuất đưa ra kết quả tìm kiếm có độ chính xác cao thông qua độ đo về tỉ lệ precision

và recall.

Trong các chương còn lại của tài liệu sẽ đi chi tiết vào từng bước trong hệthống và các kỹ thuật sử dụng trong từng bước

Trang 24

CHƯƠNG 3: THỰC THI HỆ THỐNG ĐỀ XUẤT

Trong chương này sẽ đưa ra các thuật toán cũng như các kĩ thuật được ápdụng vào trong hệ thống đề xuất như là : nhận dạng các từ có trong ảnh tài liệu,thuật toán đối sánh và trích chọn các đặc trưng của một vùng liên thông chứa trongảnh

Đầu vào của ảnh tài liệu đa phần là ảnh màu, vì vậy để giảm bớt các đặc trưng

có thể tác động lên kết quả tìm kiếm thì ảnh đầu vào cần phải được chuyển đổi sangảnh nhị phân, quá trình chuyển đổi ảnh đầu vào sang ảnh nhị phân cần phải chuyểngián tiếp sang ảnh xám

3.1 Chuyển từ ảnh màu sang ảnh nhị phân

3.1.1 Chuyển từ ảnh màu sang ảnh xám

Dựa vào lược đồ màu RGB ta có công thức để chuyển ảnh màu về ảnh xámđược tính như sau:

13EquationSection 3 (3.1.1)

Trang 25

Hình 3.1: Ảnh màu được chuyển sang ảnh xám tính theo công thức trên

3.1.2 Chuyển từ ảnh xám sang ảnh nhị phân

Ảnh nhị phân có thể được chuyển đồi bằng phương pháp lấy ngưỡng tự độngtrên ảnh xám Thao tác chọn ngưỡng là chọn một số điểm ảnh như là những điểmảnh nổi (Foreground Pixel) mà tạo thành đối tượng và những điểm ảnh còn lại làđiểm ảnh nền (Background Pixel) Với một dải màu xám trong bức ảnh xám, chúng

ta phải tìm ra một giá trị ngưỡng để phân tách những điểm ảnh trong một bức ảnhxám thành hai nhóm foreground và background như trên Nói một cách đơn giản,

với một giá trị ngưỡng t được chọn Tất cả những điểm ảnh có giá trị màu lớn hơn hoặc bằng t thì đặt trong nhóm foreground và những điểm ảnh nào có giá trị ngưỡng nhỏ hơn t thì đặt trong nhóm background.

Bảng 2.1: Định nghĩa ảnh nhị phân được tạo từ ảnh xám

Định nghĩa:

Cho ảnh xám G có giải màu từ MIN đến MAX và một ngưỡng t.

Ảnh nhị phân B được tạo ra từ G :

Trang 26

=

Bước cơ bản cho việc chọn một ngưỡng là dùng biểu đồ mức xám( histogram ) của ảnh xám Có nhiều phương pháp khác nhau để tìm ngưỡng tựđộng nhưng một phương pháp hiệu quả và được dùng phổ biến đó là tách ngưỡng tựđộng sử dụng phương pháp Otsu [3] Phương pháp này chọn ngưỡng sao cho đạtđược giá trị nhỏ nhất về sự biến thiên giá trị bên trong một lớp của hai nhóm điểmảnh mà sẽ được phân ra bởi ngưỡng này

Trong phương pháp này chỉ rõ hàm histogram như là một hàm xác suất P

trong đó P(0),… ,P(I) biểu diễn các xác suất histogram của các giá trị xám quan sát được từ 0,…, I P(i) = |{ (r,c)| Image(r,c) = I }| / |R C|, trong đó R C là vùng

không gian của ảnh Nếu như histogram là chia thành hai lớp thì vấn đề tìm ngưỡngcủa histogram là xác định một ngưỡng T tốt nhất mà phân rõ ràng hai lớp củahistogram Ngưỡng T xác định một phương sai cho các giá trị trong nhóm nhỏ hơnngưỡng T và một phương sai cho các giá trị trong nhóm lớn hơn ngưỡng T Địnhnghĩa về ngưỡng tốt nhất được đề xuất bởi Otsu đó là một ngưỡng mà tổng trọng sốcủa các phương sai bên trong một nhóm là nhỏ nhất

Chúng ta có thể hiểu rõ hơn chỉ tiêu này bằng cách chú ý một ví dụ mà thỉnhthoảng xảy ra trong một lớp trượt tuyết sau Có một bài kiểm tra cơ bản được đưa ranhư là biểu đồ đo kết quả để chia sinh viên trong lớp thành hai nhóm Đó là nhómgồm những người trượt tuyết khá và nhóm gồm những người vừa mới biết trượt.Những bài học nhằm đến những người trượt tuyết khá lại quá nhanh so với nhữngngười mới biết trượt, và những bài học nhằm đến những người mới biết trượt lạigây nhàm chán đối với người trượt tuyết khá Để thay đổi trường hợp này giáo viênquyết định chia lớp thành hai nhóm riêng biệt và đồng nhất dựa trên điểm kiểm tra.Câu hỏi ở đây là xác định điểm kiểm tra như thế nào để sử dụng làm chỉ tiêu chialớp

Trang 27

Độ đo tính đồng nhất của một nhóm là giá trị phương sai Một nhóm có độđồng nhất cao sẽ có phương sai thấp Còn nhóm có độ đồng nhất thấp sẽ có phươngsai cao Một cách có thể để chọn ngưỡng là chọn một chỉ số chia sao cho tổng trọng

số của phương sai trong một nhóm là nhỏ nhất Chỉ tiêu này nhấn mạnh tính đồngnhất bên trong một lớp

Cho là tổng trọng số của các phương sai bên trong nhóm Cho là phương sai

cho nhóm có giá trị nhỏ hơn hoặc bằng ngưỡng t và là phương sai cho nhóm có giá trị lớn hơn t Gọi là xác suất của nhóm với giá trị nhỏ hơn hoặc bằng ngưỡng t và là xác suất cho nhóm có giá trị lớn hơn ngưỡng t Khi đó độ biến thiên bên trong một

lớp sẽ được tính như sau:

Trang 28

Hình 3.3: Biểu đồ histogram cho những giá trị màu nhỏ hơn hoặc ngưỡng t=3

Trang 29

Như chúng ta thấy trong ví dụ trên ngưỡng đuợc chọn là 3 Vì vậy ảnh nhịphân có thể có được từ ảnh xám Những điểm ảnh nào có giá trị nhỏ hơn hoặc bằng

3 sẽ chuyển thành nhóm background và những điểm ảnh nào có giá trị lớn hơn 3 sẽđược cho vào nhóm foreground (Hình 3.6)

Hình 3.5: Tính toán giá trị phương sai bên trong một lớp ứng với tứng giá trị

mức xám

Hình 3.6: Kết quả sau khi sử dụng phương pháp Otsu

Trong bài toán của nhận dạng từ sau khi có được ảnh xám của từ từ ảnh màu,ảnh thường chứa những nhiễu nhỏ Bằng phương pháp chọn ngưỡng tự động sửdụng phương pháp Otsu, các nhiễu này đa phần được loại bỏ để phục vụ cho cácbước sau được xử lý dễ dàng hơn

Trang 30

Hình 3.7: (a) Minh họa một văn bản thực

(b) Biểu đồ biểu diễn mức xám với ngưỡng xám tốt nhất k *

(c) Ảnh thu được sau quá trình nhị phân hóa với ngưỡng xám k * tìm được

Sau khi có được ảnh nhị phân, chúng ta cần phải tách được các thành phần cótrong bức ảnh và đếm được có bao nhiêu từ có trong ảnh tài liệu Công việc này

Trang 31

phải thực hiện thao tác trên ảnh nhị phân sử dụng khái niệm thành phần liên thông

và các thuật toán để tìm thành phần liên thông

3.1.3 Thao tác với ảnh nhị phân

3.1.3.1.Điểm ảnh và các điểm láng riềng

Điểm ảnh trong ảnh nhị phân là có giá trị 0 hoặc 1 Giá trị 1 thường được dùng

để ký hiệu cho những điểm ảnh nổi (foreground pixel) và giá trị 0 là biểu diễn chonhững điểm ảnh nền (background pixel) B[r,c] là ký hiệu cho giá trị điểm ảnh ở vị

trí hàng r và cột c của ảnh Một bức ảnh kích thước M x N có M dòng bắt đầu từ 0

đến M – 1 và có N cột bắt đầu từ 0 đến N – 1 Do đó B[0,0] sẽ là điểm ảnh ở bêntrên cùng phía bên tay trái của ảnh và B[M – 1, N – 1] là điểm ảnh ở tận cùng phíabên tay phải của ảnh

Trong nhiều thuật toán, không chỉ sử dụng các giá trị điểm ảnh làm đầu vàocho thuật toán mà còn sử dụng các điểm láng riềng của nó khi xử lý liên quan đếnđiểm ảnh Có hai định nghĩa phổ biến về các điểm láng riềng là những điểm 4 lángriềng và những điểm 8 láng riềng

Những điểm 4 láng riềng, ký hiệu N 4 (r,c) của điểm ảnh (r,c), là những điểm ảnh (r – 1,c), (r +1,c), (r,c – 1), (r,c +1).Thông thường chúng ta cũng sử dụng hướng để chỉ ra tên tương ứng với những điểm ảnh này như hướng bắc, nam, tây, đông

Những điểm 8 láng riềng, ký hiệu N 8 (r,c) của điểm ảnh (r,c), bao gồm những điểm ảnh trong các điểm 4 láng riềng cộng thêm những điểm sau (r – 1,c – 1), (r – 1,c + 1), (r + 1,c – 1), (r + 1,c +1) và hướng tương ứng với những điểm ảnh này là hướng tây bắc, đông bắc, nam tây, đông nam.

Ngày đăng: 02/04/2017, 21:08

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. PGS.TS.Đỗ Năng Toàn,TS.Phạm Việt Bình, “Giáo trình xử lý ảnh”, Khoa Công Nghệ Thông Tin, Đại Học Thái Nguyên Sách, tạp chí
Tiêu đề: Giáo trình xử lý ảnh”
[2]. PGS.TS. Nguyễn Quang Hoan, “Giáo Trình Xử lý ảnh”, Học viện Công Nghệ Bưu Chính Viễn Thông.Tiếng anh Sách, tạp chí
Tiêu đề: “Giáo Trình Xử lý ảnh”
[3]. Nobuyuki Otsu, “A threshold selection method from gray-level histograms” Sách, tạp chí
Tiêu đề: “A threshold selection method from gray-level histograms
[4]. Manesh B. Kokare, M.S.Shirdhonkar, “Document Image Retrieval: An Overview” Sách, tạp chí
Tiêu đề: “Document Image Retrieval: AnOverview
[5]. Kavallieratou, E. Fakotakis, N. Kokkinakis, “An unconstrained handwriting recognition system” Sách, tạp chí
Tiêu đề: “An unconstrained handwritingrecognition system
[6]. Konstantinos Zagoris, Kavallieratou Ergrina, Nikos Papamarkos, “A Document Image Retrieval System” Sách, tạp chí
Tiêu đề: “ADocument Image Retrieval System
[8]. Chew Lim Tan, Weihua Huang, Zhaohui Yu, Yi Xu, “Imaged Document Text Retrieval without OCR” Sách, tạp chí
Tiêu đề: Imaged Document TextRetrieval without OCR
[9]. Kobus Barnard , Nikhil V. Shirahatti, “A method for comparing content based image retrieval method” Sách, tạp chí
Tiêu đề: A method for comparing content basedimage retrieval method
[10]. Anand Kumar, C.V. Jawahar, R. Manmatha, "Efficient Search in Document Image Collections” Sách, tạp chí
Tiêu đề: Efficient Search in DocumentImage Collections
[11]. Mark S. Nixon, Alberto S. Aguado, “Feature Extraction and Image Processing” Sách, tạp chí
Tiêu đề: Feature Extraction and ImageProcessing
[12]. Million Meshesha, C. V. Jawahar, “Matching word images for content-based retrieval from printed document images” Sách, tạp chí
Tiêu đề: Matching word images for content-basedretrieval from printed document images
[13]. K. Zagoris, N. Papamarkos , C. Chamzas, “Web Document Image Retrieval System Based on Word Spotting” Sách, tạp chí
Tiêu đề: Web Document Image RetrievalSystem Based on Word Spotting
[14]. Toni M. Rath, R. Manmatha, “Word Image Matching Using Dynamic Time Warping” Sách, tạp chí
Tiêu đề: Word Image Matching Using DynamicTime Warping
[15]. Yue Lu, Chew Lim Tan, “Information Retrieval in Document Image Databases”Danh mục các Website tham khảo Sách, tạp chí
Tiêu đề: “Information Retrieval in Document ImageDatabases”

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w