1. Trang chủ
  2. » Thể loại khác

Nghiên cứu phương pháp tìm kiếm văn bản trong hình Ảnh tài liệu (tt)

25 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Phương Pháp Tìm Kiếm Văn Bản Trong Hình Ảnh Tài Liệu
Người hướng dẫn PGS. TS. Ned Quắc Tạa
Trường học Học Viện Công Nghệ Bưu Chính Viễn Thông
Chuyên ngành Khoa Học Máy Tính
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2013
Thành phố Hà Nội
Định dạng
Số trang 25
Dung lượng 237,23 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mặc đủ công nghệ xử lý hinh ảnh tải Hện DỊP có thể được sử dụng để tự đông chuyển đổi hình ảnh kỹ thuật số của các tài liệu này về định dạng văn bản mà máy có thể đọc được, bằng cách sử

Trang 1

HỌC VIÊN CÔNG NGHỆ BƯU CHÍNH VIEN THONG

K

LAI QUOC ANH

NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIỀM

VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01

TÓM TÁT LUẬN VĂN THẠC SĨ

HÀ NÓI - 2013

Trang 2

Luận văn được hoàn Lhành lại

HOC VIEN CONG NGHE BUU CHINH VIEN THONG

Người hướng dấn khoa học:

PGS TS Ned Quắc Tạa

Phan bién 1

Phan bign 2

Luận văn sẽ được bảo vệ rước Hội đồng châm luận văn Lhạc

sĩ lại Học viện Công nghệ Bwu chỉnh Viễn thông

Vào lúc: Biở ngày thang năm

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Hiện nay công nghệ hiện đại đã giúp giảm tai quả trình xữ lý,

lưu trữ, truyền tải hình ảnh tài liệu hiệu quả Các công ty thường phát

triển hưởng đến văn phòng không cần giấy tờ, một số lượng lớn các

tải liên in được số hoá và lun trữ như hình ảnh trong cơ sỡ đữ liện

Sư phổ biến, tằm quan trọng của hình ảnh tải liệu như nguồn thông tin gốc Hàng triệu tải liệu kỹ thuật số được truyền tải liên tục từ

điểm này đến điểm khác trên Internet Định dạng phế biển của các tài

liên kỹ tật số lả văn bin, trong đỏ các ký rự được mã hoá và máy

có thể hiểu được Mặt khác, để thực hiện che hàng tỷ tài liêu truyền

thống và dì sàn sẵn cỏ dé dàng tiếp cận trên Inlerel, chứng được qmét và chuyển đổi sang kỳ thuật số hoá hình ảnh bằng, cách sử đụng

thiết bị số hóa Mặc đủ công nghệ xử lý hinh ảnh tải Hện DỊP có thể được sử dụng để tự đông chuyển đổi hình ảnh kỹ thuật số của các tài liệu này về định dạng văn bản mà máy có thể đọc được, bằng cách sử đụng công nghệ Nhận đạng ký tự quang học OCR, thường không

phải là một cách hiệu quả và thiết thực để xử lý một số lượng lớn các

tài liệu giấy

"Một lý do là các kỹ thuật phân tích câu Irúc trang trong xử lý văn bản với các bé tri phức tạp chưa được hoàn (hiện đầy đủ

‘Mét lý ảo khác là khả năng nhận dạng của công nghệ OCR vẫn kém, đặc biệt là với hinih anh tai liệu có chất lượng kém (giấy ùn

kém chất lượng, trang im sau bị hàn lên (rang trước, tài liệu photo

kém, miye in kém, chft mắt nét, in chit bj dinh, ) Nhận đạng, xong và

sữa chữa kết quả OCR thường lã không thể trảnh khỏi trene hảu hết

các hệ thống DỊP

Kết quả, lưu trữ tài liệu ở định đạng hinh: ảnh truyền thống

và di sản sẵn có lrở lhành giải pháp thay thế Irong nhiều trường hợp

Ngày nay, chúng ta có thế tìm thấy trên Tnternet và rất nhiều các tài

Trang 4

-4-

liệu kỹ (hudl s6 trong dinh dang anh, bao gam ca gidy to tap chí, hội

nghị, hiện án sinh viên, số tay, 1Tơn nila, nhiền thư viện kỹ thnật zế

và các cổng web như MEDLTNE, ACM, IEEE, lưu giữ hình ảnh tài liệu quê mà không có định dang van bản Lương đương

'Yên câu đặt ra cho người sử đụng là làm sao có thể tim kiếm thông tin hưn trữ trên theo nậi đúng một cảch hiện quả ? Trên cơ sở

đó em chọn để tài "Nghiên cứu tim kiểm ván bản trong hình ảnh tải liệu",

Cấu trúc để tzä luận văn

Chương 1: Tổng quan về tìm kiếm văn bản trong hình ảnh tài liệu

- Trình bây giới thiệu, thách thực đổi với hệ thông hệ truy vẫn thông tin từ hình ảnh tãi liện, khái quát về xửt lý ảnh

Chương 2: Các phương pháp trích chọn đặc trưng Lừ hình ảnh tài liệu

~ Trình bảy các ihmơng pháp rrích chọn đặc trưng từ hình ảnh tài liêu Chương 3: Các phương pháp sơ sảnh hình ảnh Lừ

- Trình bảy các phương pháp so sảnh hình ánh Lử đựa trên hình ảnh tải liện

Chương 4: Chương trình thử nghiệm tìm kiếm văn bản trong hình

ảnh tài liêu trên cơ sở lý thuyết đã ›

y đựng,

Trang 5

Trích chọn các thành phần bế nỗi

Tình 1 ơ đô khôi hệ thông đuyệt từ khoá cho hình ảnh tải liệu

1.2 So sánh và truy vấn từ các tài liệu thu thập

Nhiễu thư viện kỹ thuật số hiện nay, hinh ảnh tải liêu được

đừng phổ biển như là một nguồn thông tin Do đồ khi truy cập vào

Trang 6

-6-

các nội đung của cơ sở đữ hệu hình ảnh tải liệu là quan trọng và là thách thức trong bài toán xử lý hình ảnh tài liêu Hai hướng chính là tray vẫn không nhận dang va tray vẫn đựa trên nhận đạng Trny vẫn

đựa trên OCR sẽ tắt kém nén nhĩ đữ liệu hinh ảnh ký tự quét vào lãi

lớn hơn 5% Nhưng với phần lớn các tài liệu cũ, photocopy nhiều lân, bản Fax kém chất lượng thì hẳu như không OCR được Quá trình

xử lý sẽ hưởng đến tmy vẫn không OCR Như vậy tỷ thea mức độ

hình ảnh lài liệu khác nhan, chữ viết tay, bản in ấn, bảo chỉ, thủ lựa chọn hướng truy vân phủ hợp

Phương pháp N-Gram xây đựng lược đổ lập chỉ mục hình

ảnh làn hiệu dựa trên lược đỗ hàm băm nội dung chính yếu Đặc trưng

ảnh cụ thể lá, mật độ chiều đọc (VTD), mật đô chiên ngang (HTD),

được trích chọn Một vector n-gram được xây đựng cha mi tải liệu

dựa trên các đặc trưng này Văn bản tương tự giữa các tài liệu sau đó

được đo bằng cách tỉnh toán điểm của các vector tài liệu

Phương pháp đổi sánh đặc trưng không chính xắc, ao ánh các chuối để lập chỉ mục liên quan đến rấi nhiều bài toán về ký tự và

là nhân tổ chính trong truy vẫn hình ảnh tải liệu Hình ảnh từ được

biển điễn bởi một chuỗimẫu kỹ thuật so sánh một phần hình ảnh tử

để đánh gá một hình ảnh từ liên quan đến hình ànhtừ khác như thễ nào và quyết định liệu một từ có là một phân của tử khác

Phương phap xoắn thời gian động DTW sử đụng cho đổi

sảnh và lruy vân đổi với hình ảnh tai liệu chữ viết tay Thuật toán tìm

từ đựa trên DTW cho lập chỉ mục và truy vẫn các tài liệu trực tuyến

Tiếi sảnh hình ảnh tử chữ viết tay sử dụng các đặc trưng mã hoá nhị

Trang 7

phan gradienl Rút trích các đặc trưng nhị phản, độ đo lương Lự dựa

trên sự tương quan được sử dụng cho các hình ảnh đổi sành từ

Những khó khăn của việc đối sánh các ảnh tử cña tài liên ín

Ấn nhĩ san:

- Mgồn ngữ: Mỗi ngôn ngữ có các quy ước riêng, phụ thuộc vào các tiến đổi hình thái của tử được tạo ra

~ Chất lượng íu ấn: Tài liệu ín Ấn thường có chất lượng kém Mẫn in

thực tê, từ thường bị mắt mét, hay nét dây th từ dính nhau, hay có các nhiễu đính xung quanh tử

1.3 Những thách thức cho truy vấn thông tin từ hinh Anh

Tải liệu chữ in

‘Han hit các sách in, tài Hệu, tờ bảo, Iuu trữ tại các thư viện

số hoá đêu eó chất lượng, kém, nhiền đạng in Ân, mẫu tử khảe nhan

Lập chỉ mục và truy vấn hình ảnh tải liệu có những thách thức lớn trong các tỉnh huồng này

1.3.1 Mô hình chất lượng trong tôi liệu chữ in

Môi số lỗi thường xuất hiện lrong lài liệu am ẫn như: mực in tạo thành các đốm nhiễu tại các kỷ tự, mắt nét chữ, đính chữ chit in

bị đâm hẳn lên trang trước, nguyên nhân đa chất lượng kém của giấy và mực im Mô hình chải lượng lải liệu đễ dàng cho chúng Ia kiểm tra sự thực hiện của lược đỏ đổi sảnh

Trang 8

-Ñ-

tiếng Anh được đánh giá cao bởi sử dụng liên tố, hâu tô cho mẫu từ

và diễn đạt mỗi quan hệ ngữ pháp,

1.4 Một số khái niệm cơ sử xử lý ảnh

1.4.1 Ảnh số

Trong thực tế ánh liền lục về không gian và độ sảng Để xử

lý được bằng máy tính thỉ ảnh phải được số hóa Sổ hỏa anh la sự biến đổi gần đúng một ảnh liên tục thành tập điểm phù hợp với Anh

thật về vị trí và độ sáng,

1.42 Ảnh biên diễn theo mâ hình Raster

Đây là mô hình biểu điến ảnh thông dựng nhất hiện nay Ảnh

được biểu diễn đưới dạng ma trận các điểm ảnh

1-43 Ảnh biên diễn theo mé hink Vector

Trong mổ hình Vector người ra sử đụng hướng giữa các Vector của điểm ảnh lân cận để mã hoá và tái tạo hình ảnh ban đần 14.4, Dé phan gi

Độ phân giải là số lượng điểm ảnh (pixel) đằng để tập hợp thành hình ảnh Số lượng điểm ảnh càng nhuều và cảng nhỏ thì độ nél

và chỉ tiết ảnh sẽ cảng cao

1.4.5 Mức xám của anit

của Anh

( quá của sự mã hơä tuơng ứng mội cường độ sáng của

mỗi điểm ảnh với một giả trị sỏ - kết quả của quả trình hượng, hoá

1.5 Một số kỹ thuật nâng cao chất lượng inh

1.%1, Lọc nhiễu

Trang 9

Nhiễn ảa thiết bị thu nhận ảnh là loại nhiễn gây ra đo giới

hạn nhiễu xạ và quang sai của thấu kính, nhiễu đo bộ phân câm quang, ảnh mở nhàe do ông kinh, nhiễn đo rung động thiết bị trong quả trình thu nhận

Nhiễn ngẫu nhiên độc lập 14 các loại nhiễu gây ra do ảnh hưởng của môi trường xưng quanh, do ánh Inrớng của khí quyến

"Nhiễu đo vật qnan sát Dây là nhiễn gây ra do hẻ mặt của bản

thân vậi có độ nhóm gé ghé Chính nhiễu này gây hiện Lượng tán xa của các tỉa đơn sắc và sinh ra hiện tượng nhiễu lễm đốt

1.5.1.2 Lọc nhiều lếm đốm:

Mô hình quan sắt cỏ nhiễu lỗm đốm như san:

wa[mn] z{mm]#nu[mm] (1)

Trang công thức 1.5 thì +Jy[m,n] là nhiễu trắng đừng Với

N>2 thì nN[m,n] có thể mỏ tả gắn với nhiễu ngẫu nhiên Gauusian với mật độ phổ được định nghĩa như sau

Trang 10

-10-

1.5.2.1 Phuong pháp dựa trên biến đổi Hough

Biển đổi Hongh là phép biển đổi điểm ảnh từ hệ tọa độ x-y sang hệ tọa độ -0 do dé rat him ich cho việc đĩ tìm đường thẳng trong ảnh vì thể rật thích hợp cho việc xác định gĩc nghiêng của ảnh

cĩ chứa các thành phẫn là các dịng vấn bán

1.5.2.2 Phương pháp láng giêng gân nhật

Phương tháp này đựa trên một nhận xét rằng trong, một Irang

văn bản, khoảng cách giữa các kỉ Lự trong một từ và giữa các kỉ tự của từ trên cùng một đảng là nhồ hơn khoảng cách gia hai dịng văn

bản, vì thế đối với mỗi kí tụ, lãng giểng, gân nhất của nĩ sẽ là các kí

tự liền ké trên củng một địng văn bản

1.5.2.3 Phương pháp sử dụng chiếu nghiêng

Dựa vào hình chiễn ngang/doc ciia anh để lim mĩc nghiêng

1.6 Kết luận

Chương này đưa ra các khái niệm tổng quan về hệ thơng truy van tir dia trên hình ảnh tài Hện Giới thiện sơ qua một số các phương pháp trích chọn đặc trưng hình ảnh, đối sánh hình ảnh từ (N- Gram, đổi sánh đặc trưng chuỗi khơng chính xác, DTW).Các khái

niệm cơ sử xử lý ãnh Các khải niệm về nâng cao chất lượng Anh nh

xộ nhiễu, hiệu chỉnh độ nghiêng của ãnh.

Trang 11

-11-

CHƯƠNG 2 - CÁC PHƯƠNG PHÁP TRÍCH

CHỌN ĐẶC TRƯNG TỪ HÌNH ẢNH TÀI LIỆU

Trích chọn đặc trưng, là bai toản thu thập thông tin th đủ liệu

lây ra tử hình ảnh là yến tổ rất quan trọng quyết định tỉnh thống

aninh, cũng như hiệu quả của hệ thông truy tìm hình ảnh Nhiễu đặc trưng khác nhan đã được sử đựng trong xử lý ảnh và nhận đạng mẫu (đại diện hình ảnh lải liệu) Thử nghiệm với các đặc trưng: cấu hình

từ, mô tã moment bắt biển thông kê, biểu điển miễn biến đối, sử

đụng phép chiếu ngang, hiển điển đặc trưng của hinh ảnh từ

2.1 Câu hình từ:

Cung cắp biểu điễn thô của hình ành từ đối sành Phép chiến, chuyến vị, trên và thấp hơn của cấu hình là các đặc trưng được xem Xét hiển diễn cho các hinh ảnh từ

2.3 Mê tã moment bat bién thắng kê

Các đặc trmẹ dựa vào moment được tính toán để phân tích hình dang của hình ảnh từ, mỗi yêu cần của moment có các thông tin Khác nhau cho cùng một hình ảnh

Trang 12

-13-

3.3 Biễu điền miễn biển đỗi

Si dung Fourier rai rac để mô tả biểu điễn các hình đạng tứ

M Fomier mê tả: G), i=0,1,2, N-1 độ dải theo chiều đọc của hình ảnh từ, N là độ rộng, của từ

2.4 Sử dụng phép chiếu ngang

Chia hình ảnh tải liệu thánh nhiên vũng hình chữ nhật, mỗi

vimg biéu dién cho một đảng vần bản Các thành phần kết nái tại các

vùng khác nhau phụ thuộc vào các đối tượng ký tự khác nhau

Tuỷ thuộc vào các đặc trưng, các đổi tượng ký tự được phân lớp dựa trên một độ đo khoảng cách Đối voi hai đổi tượng ký tự 1 và + khoảng cách Dụ được định nghĩa duới đây,

Dy = điẾï(1TD,, HTD,) ~ diff(VTD,, VID), (2.1) aifCVi, Vj) 14 ham tinh toàn khoảng, cách nifta hai vector Vi và Vị

TU ha nu gen vả: THIT1 — (Thegpmng menioidh

Tipe eee were back og, Mit log Bie noflfw canou-

duty yesterday in thar cast Hage jackets were back on Dal daghbourhood: taking lay Ra chc gaất

XưN Hiện tá vckm: DI ngghHmbdiooil: nhảng me @) of che feared pro-Tndomesian ng cliamtioes agalngt » cxhacn

DME Thoymmgmenwnn “DA gy

ating terial

or fate wee bak oe DDL TEE yoo 1g mM

ĐÁ Hee Oe ees Oh oy aE aioe AS aT Y's

Be tend fe corde

Hình 3.1 (a) Ảnh gốc, (b) các đổi tượng ký tụ được nhận biết va

đánh đâu tron, các hình hộn, (e) gắn các số lớn cho các đối tượng ký

tự, (đ) tập hợp tắt cả các lớp đổi tượng được tìm thấy trong ảnh gốc

Trang 13

-13-

2.5 Mô tä chuỗi đặc trưng cho hình ảnh từ

Các đặc trưng được sử đụng biểu điễn cho hình ảnh từ LEPS, chuải được mã hoá trình tự tử (ân cùng bên trải đến ngoài

cùng bên phải của một từ Đặc trưng đóng, mật độ ký nự được sử

đụng để trích chọn tử hình ảnh ban đẫu Một từ ín trong các tải liệu

có các kích cỡ, phông chữ, khoảng cách khác nhau sẽ được xen

xét khi trích chạn các đặc trưng

3.5.1 Biểu điễn đặc trưng LWPS

Từ được phân tách mốt cách rõ rằng, từ tận củng bên trái đến ngoài củng bên phải, thành các phần rời rạc Mỗi phần ban đầu được tiểu diễn bằng các thuộc tính xác định Mội p ban đầu được mô là bằng cách sử đụng một bộ (ø,(ð) Z là các đặc trưng LTÀ ban đân, øà

là đặc trưng phân đầu phần thấp của ký tự ADA Kết quả, hình ảnh

từ được biểu diễn bởi dãy P tuần tự như sau

T=<piPo P:>=<(Ø, (01) (0z.92) (0e(0u32, (32)

Hình 2 2 Chuỗi trích chọn ban đầu, hình ảnh từ được Ixích chọn Lừ

hình ảnh tài liện chứa các thông tin của baseline, x-line, đường, biên

Ngày đăng: 01/06/2025, 04:49

HÌNH ẢNH LIÊN QUAN

Hình  ảnh  Tai  hee,  Văn  bin,  Fax, - Nghiên cứu phương pháp tìm kiếm văn bản trong hình Ảnh tài liệu (tt)
nh ảnh Tai hee, Văn bin, Fax, (Trang 5)
Hình  3.1.  (a)  Ảnh  gốc,  (b)  các  đổi  tượng  ký  tụ  được nhận biết  va - Nghiên cứu phương pháp tìm kiếm văn bản trong hình Ảnh tài liệu (tt)
nh 3.1. (a) Ảnh gốc, (b) các đổi tượng ký tụ được nhận biết va (Trang 12)
Hình  2.  2.  Chuỗi  trích  chọn  ban  đầu,  hình  ảnh  từ  được  Ixích  chọn  Lừ - Nghiên cứu phương pháp tìm kiếm văn bản trong hình Ảnh tài liệu (tt)
nh 2. 2. Chuỗi trích chọn ban đầu, hình ảnh từ được Ixích chọn Lừ (Trang 13)
Hình  3.1.  Các  từ  đổi  sảnh  sử  đụng  DTW.  a)  Sắp  xếp  theo  cấu hình  từ - Nghiên cứu phương pháp tìm kiếm văn bản trong hình Ảnh tài liệu (tt)
nh 3.1. Các từ đổi sảnh sử đụng DTW. a) Sắp xếp theo cấu hình từ (Trang 17)
Hình  4. 1.Giao diện  chương  trình với phần  cửa số nhập từ cân - Nghiên cứu phương pháp tìm kiếm văn bản trong hình Ảnh tài liệu (tt)
nh 4. 1.Giao diện chương trình với phần cửa số nhập từ cân (Trang 22)
Hình 4. 2.Hiển thị kết quả các hình ảnh chửa từ  cằm tìm  kiểm. - Nghiên cứu phương pháp tìm kiếm văn bản trong hình Ảnh tài liệu (tt)
Hình 4. 2.Hiển thị kết quả các hình ảnh chửa từ cằm tìm kiểm (Trang 22)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w