Mặc đủ công nghệ xử lý hinh ảnh tải Hện DỊP có thể được sử dụng để tự đông chuyển đổi hình ảnh kỹ thuật số của các tài liệu này về định dạng văn bản mà máy có thể đọc được, bằng cách sử
Trang 1
HỌC VIÊN CÔNG NGHỆ BƯU CHÍNH VIEN THONG
K
LAI QUOC ANH
NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIỀM
VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
TÓM TÁT LUẬN VĂN THẠC SĨ
HÀ NÓI - 2013
Trang 2
Luận văn được hoàn Lhành lại
HOC VIEN CONG NGHE BUU CHINH VIEN THONG
Người hướng dấn khoa học:
PGS TS Ned Quắc Tạa
Phan bién 1
Phan bign 2
Luận văn sẽ được bảo vệ rước Hội đồng châm luận văn Lhạc
sĩ lại Học viện Công nghệ Bwu chỉnh Viễn thông
Vào lúc: Biở ngày thang năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3
MỞ ĐẦU
Hiện nay công nghệ hiện đại đã giúp giảm tai quả trình xữ lý,
lưu trữ, truyền tải hình ảnh tài liệu hiệu quả Các công ty thường phát
triển hưởng đến văn phòng không cần giấy tờ, một số lượng lớn các
tải liên in được số hoá và lun trữ như hình ảnh trong cơ sỡ đữ liện
Sư phổ biến, tằm quan trọng của hình ảnh tải liệu như nguồn thông tin gốc Hàng triệu tải liệu kỹ thuật số được truyền tải liên tục từ
điểm này đến điểm khác trên Internet Định dạng phế biển của các tài
liên kỹ tật số lả văn bin, trong đỏ các ký rự được mã hoá và máy
có thể hiểu được Mặt khác, để thực hiện che hàng tỷ tài liêu truyền
thống và dì sàn sẵn cỏ dé dàng tiếp cận trên Inlerel, chứng được qmét và chuyển đổi sang kỳ thuật số hoá hình ảnh bằng, cách sử đụng
thiết bị số hóa Mặc đủ công nghệ xử lý hinh ảnh tải Hện DỊP có thể được sử dụng để tự đông chuyển đổi hình ảnh kỹ thuật số của các tài liệu này về định dạng văn bản mà máy có thể đọc được, bằng cách sử đụng công nghệ Nhận đạng ký tự quang học OCR, thường không
phải là một cách hiệu quả và thiết thực để xử lý một số lượng lớn các
tài liệu giấy
"Một lý do là các kỹ thuật phân tích câu Irúc trang trong xử lý văn bản với các bé tri phức tạp chưa được hoàn (hiện đầy đủ
‘Mét lý ảo khác là khả năng nhận dạng của công nghệ OCR vẫn kém, đặc biệt là với hinih anh tai liệu có chất lượng kém (giấy ùn
kém chất lượng, trang im sau bị hàn lên (rang trước, tài liệu photo
kém, miye in kém, chft mắt nét, in chit bj dinh, ) Nhận đạng, xong và
sữa chữa kết quả OCR thường lã không thể trảnh khỏi trene hảu hết
các hệ thống DỊP
Kết quả, lưu trữ tài liệu ở định đạng hinh: ảnh truyền thống
và di sản sẵn có lrở lhành giải pháp thay thế Irong nhiều trường hợp
Ngày nay, chúng ta có thế tìm thấy trên Tnternet và rất nhiều các tài
Trang 4-4-
liệu kỹ (hudl s6 trong dinh dang anh, bao gam ca gidy to tap chí, hội
nghị, hiện án sinh viên, số tay, 1Tơn nila, nhiền thư viện kỹ thnật zế
và các cổng web như MEDLTNE, ACM, IEEE, lưu giữ hình ảnh tài liệu quê mà không có định dang van bản Lương đương
'Yên câu đặt ra cho người sử đụng là làm sao có thể tim kiếm thông tin hưn trữ trên theo nậi đúng một cảch hiện quả ? Trên cơ sở
đó em chọn để tài "Nghiên cứu tim kiểm ván bản trong hình ảnh tải liệu",
Cấu trúc để tzä luận văn
Chương 1: Tổng quan về tìm kiếm văn bản trong hình ảnh tài liệu
- Trình bây giới thiệu, thách thực đổi với hệ thông hệ truy vẫn thông tin từ hình ảnh tãi liện, khái quát về xửt lý ảnh
Chương 2: Các phương pháp trích chọn đặc trưng Lừ hình ảnh tài liệu
~ Trình bảy các ihmơng pháp rrích chọn đặc trưng từ hình ảnh tài liêu Chương 3: Các phương pháp sơ sảnh hình ảnh Lừ
- Trình bảy các phương pháp so sảnh hình ánh Lử đựa trên hình ảnh tải liện
Chương 4: Chương trình thử nghiệm tìm kiếm văn bản trong hình
ảnh tài liêu trên cơ sở lý thuyết đã ›
y đựng,
Trang 5
Trích chọn các thành phần bế nỗi
Tình 1 ơ đô khôi hệ thông đuyệt từ khoá cho hình ảnh tải liệu
1.2 So sánh và truy vấn từ các tài liệu thu thập
Nhiễu thư viện kỹ thuật số hiện nay, hinh ảnh tải liêu được
đừng phổ biển như là một nguồn thông tin Do đồ khi truy cập vào
Trang 6-6-
các nội đung của cơ sở đữ hệu hình ảnh tải liệu là quan trọng và là thách thức trong bài toán xử lý hình ảnh tài liêu Hai hướng chính là tray vẫn không nhận dang va tray vẫn đựa trên nhận đạng Trny vẫn
đựa trên OCR sẽ tắt kém nén nhĩ đữ liệu hinh ảnh ký tự quét vào lãi
lớn hơn 5% Nhưng với phần lớn các tài liệu cũ, photocopy nhiều lân, bản Fax kém chất lượng thì hẳu như không OCR được Quá trình
xử lý sẽ hưởng đến tmy vẫn không OCR Như vậy tỷ thea mức độ
hình ảnh lài liệu khác nhan, chữ viết tay, bản in ấn, bảo chỉ, thủ lựa chọn hướng truy vân phủ hợp
Phương pháp N-Gram xây đựng lược đổ lập chỉ mục hình
ảnh làn hiệu dựa trên lược đỗ hàm băm nội dung chính yếu Đặc trưng
ảnh cụ thể lá, mật độ chiều đọc (VTD), mật đô chiên ngang (HTD),
được trích chọn Một vector n-gram được xây đựng cha mi tải liệu
dựa trên các đặc trưng này Văn bản tương tự giữa các tài liệu sau đó
được đo bằng cách tỉnh toán điểm của các vector tài liệu
Phương pháp đổi sánh đặc trưng không chính xắc, ao ánh các chuối để lập chỉ mục liên quan đến rấi nhiều bài toán về ký tự và
là nhân tổ chính trong truy vẫn hình ảnh tải liệu Hình ảnh từ được
biển điễn bởi một chuỗimẫu kỹ thuật so sánh một phần hình ảnh tử
để đánh gá một hình ảnh từ liên quan đến hình ànhtừ khác như thễ nào và quyết định liệu một từ có là một phân của tử khác
Phương phap xoắn thời gian động DTW sử đụng cho đổi
sảnh và lruy vân đổi với hình ảnh tai liệu chữ viết tay Thuật toán tìm
từ đựa trên DTW cho lập chỉ mục và truy vẫn các tài liệu trực tuyến
Tiếi sảnh hình ảnh tử chữ viết tay sử dụng các đặc trưng mã hoá nhị
Trang 7phan gradienl Rút trích các đặc trưng nhị phản, độ đo lương Lự dựa
trên sự tương quan được sử dụng cho các hình ảnh đổi sành từ
Những khó khăn của việc đối sánh các ảnh tử cña tài liên ín
Ấn nhĩ san:
- Mgồn ngữ: Mỗi ngôn ngữ có các quy ước riêng, phụ thuộc vào các tiến đổi hình thái của tử được tạo ra
~ Chất lượng íu ấn: Tài liệu ín Ấn thường có chất lượng kém Mẫn in
thực tê, từ thường bị mắt mét, hay nét dây th từ dính nhau, hay có các nhiễu đính xung quanh tử
1.3 Những thách thức cho truy vấn thông tin từ hinh Anh
Tải liệu chữ in
‘Han hit các sách in, tài Hệu, tờ bảo, Iuu trữ tại các thư viện
số hoá đêu eó chất lượng, kém, nhiền đạng in Ân, mẫu tử khảe nhan
Lập chỉ mục và truy vấn hình ảnh tải liệu có những thách thức lớn trong các tỉnh huồng này
1.3.1 Mô hình chất lượng trong tôi liệu chữ in
Môi số lỗi thường xuất hiện lrong lài liệu am ẫn như: mực in tạo thành các đốm nhiễu tại các kỷ tự, mắt nét chữ, đính chữ chit in
bị đâm hẳn lên trang trước, nguyên nhân đa chất lượng kém của giấy và mực im Mô hình chải lượng lải liệu đễ dàng cho chúng Ia kiểm tra sự thực hiện của lược đỏ đổi sảnh
Trang 8-Ñ-
tiếng Anh được đánh giá cao bởi sử dụng liên tố, hâu tô cho mẫu từ
và diễn đạt mỗi quan hệ ngữ pháp,
1.4 Một số khái niệm cơ sử xử lý ảnh
1.4.1 Ảnh số
Trong thực tế ánh liền lục về không gian và độ sảng Để xử
lý được bằng máy tính thỉ ảnh phải được số hóa Sổ hỏa anh la sự biến đổi gần đúng một ảnh liên tục thành tập điểm phù hợp với Anh
thật về vị trí và độ sáng,
1.42 Ảnh biên diễn theo mâ hình Raster
Đây là mô hình biểu điến ảnh thông dựng nhất hiện nay Ảnh
được biểu diễn đưới dạng ma trận các điểm ảnh
1-43 Ảnh biên diễn theo mé hink Vector
Trong mổ hình Vector người ra sử đụng hướng giữa các Vector của điểm ảnh lân cận để mã hoá và tái tạo hình ảnh ban đần 14.4, Dé phan gi
Độ phân giải là số lượng điểm ảnh (pixel) đằng để tập hợp thành hình ảnh Số lượng điểm ảnh càng nhuều và cảng nhỏ thì độ nél
và chỉ tiết ảnh sẽ cảng cao
1.4.5 Mức xám của anit
của Anh
( quá của sự mã hơä tuơng ứng mội cường độ sáng của
mỗi điểm ảnh với một giả trị sỏ - kết quả của quả trình hượng, hoá
1.5 Một số kỹ thuật nâng cao chất lượng inh
1.%1, Lọc nhiễu
Trang 9Nhiễn ảa thiết bị thu nhận ảnh là loại nhiễn gây ra đo giới
hạn nhiễu xạ và quang sai của thấu kính, nhiễu đo bộ phân câm quang, ảnh mở nhàe do ông kinh, nhiễn đo rung động thiết bị trong quả trình thu nhận
Nhiễn ngẫu nhiên độc lập 14 các loại nhiễu gây ra do ảnh hưởng của môi trường xưng quanh, do ánh Inrớng của khí quyến
"Nhiễu đo vật qnan sát Dây là nhiễn gây ra do hẻ mặt của bản
thân vậi có độ nhóm gé ghé Chính nhiễu này gây hiện Lượng tán xa của các tỉa đơn sắc và sinh ra hiện tượng nhiễu lễm đốt
1.5.1.2 Lọc nhiều lếm đốm:
Mô hình quan sắt cỏ nhiễu lỗm đốm như san:
wa[mn] z{mm]#nu[mm] (1)
Trang công thức 1.5 thì +Jy[m,n] là nhiễu trắng đừng Với
N>2 thì nN[m,n] có thể mỏ tả gắn với nhiễu ngẫu nhiên Gauusian với mật độ phổ được định nghĩa như sau
Trang 10-10-
1.5.2.1 Phuong pháp dựa trên biến đổi Hough
Biển đổi Hongh là phép biển đổi điểm ảnh từ hệ tọa độ x-y sang hệ tọa độ -0 do dé rat him ich cho việc đĩ tìm đường thẳng trong ảnh vì thể rật thích hợp cho việc xác định gĩc nghiêng của ảnh
cĩ chứa các thành phẫn là các dịng vấn bán
1.5.2.2 Phương pháp láng giêng gân nhật
Phương tháp này đựa trên một nhận xét rằng trong, một Irang
văn bản, khoảng cách giữa các kỉ Lự trong một từ và giữa các kỉ tự của từ trên cùng một đảng là nhồ hơn khoảng cách gia hai dịng văn
bản, vì thế đối với mỗi kí tụ, lãng giểng, gân nhất của nĩ sẽ là các kí
tự liền ké trên củng một địng văn bản
1.5.2.3 Phương pháp sử dụng chiếu nghiêng
Dựa vào hình chiễn ngang/doc ciia anh để lim mĩc nghiêng
1.6 Kết luận
Chương này đưa ra các khái niệm tổng quan về hệ thơng truy van tir dia trên hình ảnh tài Hện Giới thiện sơ qua một số các phương pháp trích chọn đặc trưng hình ảnh, đối sánh hình ảnh từ (N- Gram, đổi sánh đặc trưng chuỗi khơng chính xác, DTW).Các khái
niệm cơ sử xử lý ãnh Các khải niệm về nâng cao chất lượng Anh nh
xộ nhiễu, hiệu chỉnh độ nghiêng của ãnh.
Trang 11-11-
CHƯƠNG 2 - CÁC PHƯƠNG PHÁP TRÍCH
CHỌN ĐẶC TRƯNG TỪ HÌNH ẢNH TÀI LIỆU
Trích chọn đặc trưng, là bai toản thu thập thông tin th đủ liệu
lây ra tử hình ảnh là yến tổ rất quan trọng quyết định tỉnh thống
aninh, cũng như hiệu quả của hệ thông truy tìm hình ảnh Nhiễu đặc trưng khác nhan đã được sử đựng trong xử lý ảnh và nhận đạng mẫu (đại diện hình ảnh lải liệu) Thử nghiệm với các đặc trưng: cấu hình
từ, mô tã moment bắt biển thông kê, biểu điển miễn biến đối, sử
đụng phép chiếu ngang, hiển điển đặc trưng của hinh ảnh từ
2.1 Câu hình từ:
Cung cắp biểu điễn thô của hình ành từ đối sành Phép chiến, chuyến vị, trên và thấp hơn của cấu hình là các đặc trưng được xem Xét hiển diễn cho các hinh ảnh từ
2.3 Mê tã moment bat bién thắng kê
Các đặc trmẹ dựa vào moment được tính toán để phân tích hình dang của hình ảnh từ, mỗi yêu cần của moment có các thông tin Khác nhau cho cùng một hình ảnh
Trang 12-13-
3.3 Biễu điền miễn biển đỗi
Si dung Fourier rai rac để mô tả biểu điễn các hình đạng tứ
M Fomier mê tả: G), i=0,1,2, N-1 độ dải theo chiều đọc của hình ảnh từ, N là độ rộng, của từ
2.4 Sử dụng phép chiếu ngang
Chia hình ảnh tải liệu thánh nhiên vũng hình chữ nhật, mỗi
vimg biéu dién cho một đảng vần bản Các thành phần kết nái tại các
vùng khác nhau phụ thuộc vào các đối tượng ký tự khác nhau
Tuỷ thuộc vào các đặc trưng, các đổi tượng ký tự được phân lớp dựa trên một độ đo khoảng cách Đối voi hai đổi tượng ký tự 1 và + khoảng cách Dụ được định nghĩa duới đây,
Dy = điẾï(1TD,, HTD,) ~ diff(VTD,, VID), (2.1) aifCVi, Vj) 14 ham tinh toàn khoảng, cách nifta hai vector Vi và Vị
TU ha nu gen vả: THIT1 — (Thegpmng menioidh
Tipe eee were back og, Mit log Bie noflfw canou-
duty yesterday in thar cast Hage jackets were back on Dal daghbourhood: taking lay Ra chc gaất
XưN Hiện tá vckm: DI ngghHmbdiooil: nhảng me @) of che feared pro-Tndomesian ng cliamtioes agalngt » cxhacn
DME Thoymmgmenwnn “DA gy
ating terial
or fate wee bak oe DDL TEE yoo 1g mM
ĐÁ Hee Oe ees Oh oy aE aioe AS aT Y's
Be tend fe corde
tì
Hình 3.1 (a) Ảnh gốc, (b) các đổi tượng ký tụ được nhận biết va
đánh đâu tron, các hình hộn, (e) gắn các số lớn cho các đối tượng ký
tự, (đ) tập hợp tắt cả các lớp đổi tượng được tìm thấy trong ảnh gốc
Trang 13-13-
2.5 Mô tä chuỗi đặc trưng cho hình ảnh từ
Các đặc trưng được sử đụng biểu điễn cho hình ảnh từ LEPS, chuải được mã hoá trình tự tử (ân cùng bên trải đến ngoài
cùng bên phải của một từ Đặc trưng đóng, mật độ ký nự được sử
đụng để trích chọn tử hình ảnh ban đẫu Một từ ín trong các tải liệu
có các kích cỡ, phông chữ, khoảng cách khác nhau sẽ được xen
xét khi trích chạn các đặc trưng
3.5.1 Biểu điễn đặc trưng LWPS
Từ được phân tách mốt cách rõ rằng, từ tận củng bên trái đến ngoài củng bên phải, thành các phần rời rạc Mỗi phần ban đầu được tiểu diễn bằng các thuộc tính xác định Mội p ban đầu được mô là bằng cách sử đụng một bộ (ø,(ð) Z là các đặc trưng LTÀ ban đân, øà
là đặc trưng phân đầu phần thấp của ký tự ADA Kết quả, hình ảnh
từ được biểu diễn bởi dãy P tuần tự như sau
T=<piPo P:>=<(Ø, (01) (0z.92) (0e(0u32, (32)
Hình 2 2 Chuỗi trích chọn ban đầu, hình ảnh từ được Ixích chọn Lừ
hình ảnh tài liện chứa các thông tin của baseline, x-line, đường, biên