1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án tốt nghiệp tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh

79 589 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh
Tác giả Nguyễn Thị Hiếu
Người hướng dẫn PGS.TS Ngô Quốc Tạo
Trường học Đại Học Thái Nguyên
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn thạc sỹ
Năm xuất bản 2009
Thành phố Thái Nguyên
Định dạng
Số trang 79
Dung lượng 852,45 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

http://www.lrc-tnu.edu.vn Sốhóabởi TrungtâmHọc liệu–ĐạihọcTháiNguyên MỤCLỤC Trangphụbìa Lờicảmơn MỤCLỤC---i THUẬTNGỮTIẾNGANH---iii DANHMỤCCÁCHÌNHVẼ---iv CHƯƠNGI:MỞĐẦU---1 1.1.. tnu.e

Trang 1

Sốhóabởi TrungtâmHọc liệu–ĐạihọcTháiNguyên tnu.edu.vn

ĐẠIHỌCTHÁIN G U Y Ê N KHOACÔNGNGHỆTHÔNGTIN

Trang 2

Sốhóabởi TrungtâmHọc liệu–ĐạihọcTháiNguyên http://www.lrc-tnu.edu.vn

ĐẠIHỌCTHÁIN G U Y Ê N K HOACÔNGNGHỆTHÔNGTIN

NgườihướngdẫnKhoahọc:

PGS.TSNgô QuốcTạo

TháiNguyên,tháng11năm2009

Trang 3

http://www.lrc-tnu.edu.vn Sốhóabởi TrungtâmHọc liệu–ĐạihọcTháiNguyên

MỤCLỤC

Trangphụbìa

Lờicảmơn

MỤCLỤC -i

THUẬTNGỮTIẾNGANH -iii

DANHMỤCCÁCHÌNHVẼ -iv

CHƯƠNGI:MỞĐẦU -1

1.1 Cơ sở nghiêncứuvàmụcđíchcủaluậnvăn -3

1.2 Tổchứccủaluậnvăn -4

CHƯƠNGII:TỔNGQUANVỀHỆPHÂNTÍCHTÀILIỆUẢNH -5

2.1 Tài liệuảnh -5

2.2 Hệphântíchtrangtàiliệu -5

2.3 Thuthậpdữliệuảnh -6

2.4 Tiềnxửlýđiểmảnh -9

2.4.1 Xửlýnhịphân -10

2.4.2 Giảmnhiễu -11

2.4.3 Phânđoạnảnh -12

2.4.4 Làmmảnhvàxácđịnhvùng -12

2.4.5 MãhóaCCvàvéctơhóa -13

2.5 Phântíchđặctrưngcủatàiliệuảnh -15

2.6 Phântíchđốitượngvănbảntrongtàiliệu -15

2.6.1 Xácđịnhgócnghiêngcủavănbản -16

2.6.2 Phântíchbốcụccủatrangtàiliệuảnh -18

2.7 Nhậndạngkýtựquanghọc(OCR) -19

2.7.1 ThuậttoánOCR -20

2.7.1.1 Tríchchọnđặctrưng -20

2.7.1.2 Phânloại -21

2.7.2 Nhậndạngkýtựdựatrên ngữcảnh -21

2.8 Phântíchcácđối tượngảnhtrongtàiliệu -22

Trang 4

tnu.edu.vn Sốhóabởi TrungtâmHọc liệu–ĐạihọcTháiNguyên

CHƯƠNG3:THUẬTTOÁNTÁCHVĂNBẢN-ẢNHTỪTRANGTÀILIỆUẢNH

-24

3.1 Tổngquanvềphântáchvănbản– ảnh -24

3.2 Nhữngđặctrưngchungcủamộttệptàiliệuảnh -27

3.3 Thuậttoánphântáchvănbản-ảnh -30

3.3.1 Xoábỏcácđốitượngtuyếntính -31

3.3.2 Phântíchcácthànhphầnliênthôngcủanétbút -32

3.3.3 Kếthợpcácnétkýtựtạothànhcácchuỗivănbản -34

3.3.4 Thựchiệncácphéptoánhìnhthái -35

3.3.5 Phântíchcácthànhphầnliênthôngmới -35

3.3.6 Biểudiễncấutrúcthôngtincủacácchuỗivănbản -36

CHƯƠNGIV:PHƯƠNGPHÁPPHÂNTÍCHBẢNGT-RECSTRONGTRANGTÀILIỆUẢNH -39

4.1 Giớithiệu -39

4.2 Thuậttoánphânđoạnkhởitạo -41

4.2.1 Trườnghợpthuậttoánnhậndạngsaicột -42

4.2.2 CảitiếncácbướccủathuậttoánphânđoạnkhởitạoT-Recs++44 4.2.3 Nhữngưuđiểmcủathuậttoán -46

4.2.4 Nhữngmặthạnchếcủathuậttoánkhởitạo -47

4.3 Cácbướcxửlýkhốisaukhiphânđoạn -48

4.3.1 Trộncáckhốiphânđoạnsai -48

4.3.2 Phântáchcáccộtbịtrộnvàomộtkhối -49

4.3.3 Nhómcáctừbịphântách -52

4.4 Phântíchkhối -53

4.5 Xácđịnhcấutrúccáccột,hàng -54

CHƯƠNG5CHƯƠNGTRÌNHTHỬNGHIỆMVÀMINHHỌATHUẬTTOÁN T-RECS++ -56

5.1 Môtảchươngtrình -56

5.2 Mộtsốkếtquả -58

KẾTLUẬNVÀĐỀXUẤT -61

Trang 6

Hình2.1 Sơđồquátrìnhxửlýt à iliệu

Hình2.2 Sơđồquátrìnhphântíchtrangtà iliệu

Phươngphápnhịphânảnh.(a)Histogramcủaảnhđacấpxámnguyên Hình2.3 bản,(b)chọnngưỡngthấp,(c)chọnngưỡnghợplý,

(d)chọnngưỡngq u á cao.

Hình2.4 Ảnhnguyênbản(Vântay)bêntráivàảnhsaukhilàmmảnhbênphải.

Tàiliệuảnhtrướcvàsaucácbướctiềnxửlý.Ảnh(a)gốc,ảnh(b)ảnh Hình2.5 saukhichuyểnvềảnhnhịphân,ảnh(c)ảnhsaukhichỉnhnghiêng, ảnh

Hình3.5 Hình3.5Nhậ ndạ ngđườngkẻn g h i êngvớiphéptoá nkéodã nHình4.1 Vídụminhhọatưtưởngcủathuậttoánkhởitạo

Hình4.2 thuậtkhởitạ ođố ivớimộ tđoạ nvănbả

nHình4.3 Trườnghợpthuậttoánnhậndạngsaicột

Hình4.4

TrườnghợpgiữacácdòngcủamộtcộttrongbảngcóôtrắngHình4.5

MôphỏngviệcthựchiệncácbướcđãcảitiếncủathuậttoánHình4.7 Quátrìnhphânđoạncáccộtcủabảng

Hình4.8

TrườnghợpmộtôcủabảngchiếmnhiềudòngHình4.9

Nhữngmặthạnchếcủathuậttoán Hinh4.10

TrộnhaikhốibịphântáchHình4.11

Táchcáccộtbịtrộn Hình4.12 Trộ nlạ icá ckhố iconbịt ách

Hình4.14 Táchcáckhốiloại1thànhcácôcủabảngHình4.15

Trang 7

GiaodiệnchươngtrìnhT-Recs Hình5.2 Nhậ ndạ ngkhố ivănbả nvớiT-Recc++

Hình5.3 Nhậ ndạ ngtà iliệuả nhlàbả ngquychếvớiT-Recs++

Trang 8

nkhótránhkhỏinhữngthiếusótt rongquát rìnhlàmluậnvăn.

Đểhoànthànhđượcluậnvănnày.Emxinbàyt ỏ lòngbiếtơnsâusắctớiPGS.TSNgôQuốcTạo- ngườithầyđãt ậntìnhgiúp

đỡemtrongsuốtquátrìnhtìmhiểu,xâydựngvàp hát triểnluậnvănnày

Thôngtin–ViệnkhoahọcViệt

Namđãgiảngdạyvàhướngdẫnemtrongsuốt2nămhọcqua.Emcũngxincảmơnbanlãnhđạo khoavàt o ànthểt hầycôgiáo trongkhoaCôngNghệt hôngtin –

ĐạiHọcTháiNguyênđãt ạo

điềukiệntốtnhất giúpemhọctậpvàhoànthànhluậnvănnày Vàcuốicùngtôicũngxincảmơngiađình,cácbạntrongnhómluậnvănvàt o ànthểcáchọcviênlớp CaohọcK6 đãđ ộngviên,quantâmvàgiúp đỡtôitrongthờigianqua

Cuốicùngtôirấtmongnhậnđượcsựchỉd ẫn ,gópý củacácthầycôvàcácbạnđểluậnvăncủatôiđượchoànthiệnhơn

Trang 9

CHƯƠNG1:MỞĐẦU

Nhậndạngvàxửlýảnhlàmộtlĩnhvựcmangtínhkhoahọcvàcôngnghệ.ỞViệtNamNhậndạngvàxửlýảnhlàmộtngànhkhoahọcmớimẻsovớinhiềungànhkhoahọckhácnhưngtốcđộpháttriểncủanórấtnhanh.Sựrađời củanóđãtạoracáckỹthuậtquantrọngảnhhưởngtrựctiếpđếncáclĩnhvựcnhư:Tivi,truyềnthông,kỹxảođồhoạ…

Cùngvớisựphátt riểnđócónhữngnhucầu

thựctếđ ặtrat háchthứccácnhàkhoahọcmáytínhcàngnhiều Nhữngcôngviệc, nhữngbàitoánđượcxửlýt heolốicổt ruyềnkhôngtheo

kịptốcđộp háttriểncủacôngnghệngàynay.Một trongnhữngbàitoánđóchínhlà

cáctàiliệuđ ượclưutrữtrêncácchấtliệucổ truyềnnhư

giấy,gỗ,vảivớikhốilượngkhổnglồ, chứađựngrấtnhiềutrithứccủanhânloạinhưnglạikhôngcóđ ộb ềnvĩnhcửu,khóxửlývàlưutrữ.Một

,xửlýd ễdàng,thuậntiênvànhanhgọn.MộtlĩnhvựccủakhoahọcnhândạnglàPhântíchtàiliệuảnhđãrađờinhằmbiểudiễnthôngtintrongcáctàiliệuảnhdướidạngcócấutrúc

Hệphântíchvànhậndạngtàiliệuảnhcómụcđích làchuyểnđổitựđ ộ n g nhữngth ôn g tinlưutrữtrongtàiliệugiấyt hà nh biểudiễndướidạngn h ữngcấutrúcmàcóthểtruyxuất,thayđổiđượcbằngmáytính.Quytrìnhx ửlýcủamộthệphântíchtàiliệubắtđầubằngviệclấydữliệu,

Trang 10

2cáctàiliệutừgi ấyinsẽđượcquétquamáyquétđểlưutrữtrongmáytínhdướidạngcáctệ

pd ữliệuảnh

Trang 11

Mộttàiliệuảnhlà mộtcáchbiểudiễntrực quancủacáctrang tàiliệuđượcinnhưmộtbàitạpchí,mộtláthư,mộttrangbáo,mộtmẩuthưhaymộtb ả n vẽkỹthuật,.v.v Mộttài liệuảnhcó thểbaogồmcác chuỗikýtự, các h ì n h vẽ,các bứcả n h, v.v Bêncạnhviệcchuyển toànbộnộidungcủa tàiliệusangtàiliệuđiệntửcũngcầnphảibảotoàncấutrúcvàđịnhdạngcủatàiliệu.M ụ c tiêuc ơ b ả n c ủ a mộthệphântíchtàiliệuảnhhoànc h ỉ n h đól à c h u y ể n mộttàiliệulưutrữbằnggiấysangdạngbiểudiễncóthứtựcấutrúcvànộidungcủa nó.T à i liệuđược c h u y ể n sangphải cókhản ă n g thayđổi,s o ạ n thảovàlưutrữbởivì nộidungcủatài liệucóthểtruycậpbởicấutrúccủanóthayvìphảitruycậpdướidạngnhữngmẫuảnh.Cómộtsốlượng lớnứ n g dụngcủahệphântíchtàiliệuảnhđượcứngdụngtrongcáclĩnhvựcnhư:dịchvụbưuchính,Chínhphủ,chămsócytế,thưviện, v.v.

Mụcđíchcủaluậnvănlànghiêncứukỹt huậtnhậndạngbảngvàt ríchchọnrađ

-R e c s ”lànghiêncứuchính

Vớitưtưởngc h í n h c ủ a “Phươngphápphântíchb ả n g ” đ ó làkhôngx e mxétđếnbấtcứmộtloạiđườngphâncáchnàođểxácđịnhcấutrúcbảng.Thayvàođó phươngphápsẽtậptrungvàoviệcnhận biếtcác từtrongcùngmộtkhốilogic(chẳnghạncáctừtrongcùngmộtcộtdữliệusẽđượcchovàot r o n g cùngmộtkhối).Phươngphápsẽkhôngđitìm

nhữngđặctrưngđểphânbiệthaivùngdữ liệu(haicột)khácnhaumàtìmnhững đặctrưngđể tìmrac á c t ừ t r o n g cùngmộtk h ố i logicvàtừđ ó x â y dựngcấutrúcr

i ê n g theop h ư ơ n g pháptiếpcậnbottom-up.

Trang 12

1.1 Cơsởnghiêncứuvàmụcđíchcủaluậnvăn

Ảnhlàmộtđốitượngkháphứct ạ p vềđườngnét,dunglượngđiểmảnh,đ ộ s

á n g t ối,môit r ườngđ ể thunhậnảnhp h o n g phúk é o theon h i ễu.Trongnhiềukhâuphântíchảnhngoàiviệcđ ơngiảnhoác á c p hươngphápt o á n họcđảmbảotiệnlợichoxửlý,ngườitamongmuốnbắtchướcquytrìnhtiếpnhậnvàxửảnhtheocáchcủaconngười.Trongcácbướcxửlýđónhiềuk h â u hiệnnayđãxửlýtheocácphươngpháptrítuệcủaconngười.N h ữ n g hệt h ố n g nhậndạngcấutrúckhôngchỉđơngiảnlàchuyểnmộttàiliệuinthànhmộttàiliệuđiệntửmàhơnthếnữacònlàxâydựngnhữngquátrìnhxử

lýkếthợpchẳnghạnnhư:tựđộngchépnộidụng,đánhchỉmụcvàphânloại.Dođóviệcquant r ọ n g làkèmtheonộidungcủat à i liệucũngp h ả i t r í c h c h ọ n ran h ữ n g cấutrúcđikèmvớitừngnộidungđó.

Nhậndạngbảnglàbàitoánnhậndạngracấutrúcbảngcótrongtrangtài liệuảnh,baogồmviệcnhậndạngcáccột,cácdòngvàcácôcóchứadữliệutrongbảng.N

táchcácđốitượngảnhtrongnhữngtrangtàiliệuảnhcóchứahỗnhợpcácđốitượnglàchuỗikýtựvàcácđốitượngảnhnhư:cácsơđồ,hìnhvẽ,bứcảnh…v.v

Mặcdùđãcónhiềukỹthuậttronghệthốngnhận dạngcấutrúc.Tuynhiênnhữngnghiêncứutrênnhữngvấnđềđóvẫncòntiếptụcpháttriểnbởiv ì chấtlượng,độchínhxác,tínhhiệuquảcủanhữngphươngphápđượccôngb ố trước đâyvẫn cònchưahoànchỉnhvàcần phảicảitiếnchúng Luậnvănnày trìnhbàykỹthuậtnhậndạngcấutrúcbảng bêntrongtàiliệuảnhT-

RecsvàđềxuấtmộtsốphươngphápkhắcphụchạnchếthuậttoánT-Recsđểhoànthiệnhiệnhơnphươngphápphântíchbảng

Trang 13

1.2 Tổchứccủaluậnvăn

Luậnvănđượctrìnhbàythành5chươngvà1phụlục

Chương1Trìnhbàytómtắtcơsởnghiêncứuvàmụcđíchcũngnhưc á c h tổchứccủaluậnvăn

Chương2Tổngquanvềhệp hântíchtàiliệuảnhvàcácthànhphầnchínht ronghệp hântíchtàiliệuảnh :Lấydữliệu,xửlýảnh,tríchchọnđặctrưng,nhậndạngđốitượngảnhvànhậndạngvănbản

Chương3trìnhbàybài

toánphântáchvănbảnvàảnhmộtcáchriêngrẽ.Trongchươngnàymộtthuậttoánphântáchvănbảnvàảnhcũngsẽđượct r ì n h bàydựavàoviệcphântíchcácthànhphầnliênthông(CCs)

Chương4trìnhbàyphươngphápphântích

bảng(T-Recs)dựa trênn h ữ n g hình chữ nhậtbaoquanhmộttừvàđầuralàcấutrúclogiccu

̉akhốiv ă n bản,cụthểvớinhữngbảngnhậndạngđượcsẽlàcấutrúccáccộtvàcácôcủabảngdữliệu.Phântích những mặthạnchếcủathuậttoán-

trường hợp n h ậ n dạngchưachính xáccáccột dữ liệutrongbảngluậnvănđưarathuậtt o á n khắcphụcnhữngmặthạnchếđó

Chương5Chươngtrìnhthửnghiệmvàminhhọaphântíchbảngtrongt r a n g tàiliệuảnh

Trang 14

CHƯƠNG2:TỔNGQUANVỀHỆPHÂNTÍCHTÀI LIỆU ẢNH

2.1 Tàiliệuảnh

Hìnhảnhc ủ a mộtđốit ư ợ n g làs ự s a o c h ụ p lạic h í n h bảnt h â n đốit ư ơ

̣ n g đó.Ảnhđượchìnhthànhquamộthệthốngảnh

Tàiliệuảnhlàcácfileảnhđãđượcsốhóathuđượcbằngcách:quétcáctrangtàiliệu,chụpảnh,máyfax,hoặctừvệtinh,cácfileảnhnàyđượclưutrữtrongmáytính.Ảnhtàiliệuc ó nhiềuloại:đentrắng,ảnhmàu,ảnhđacấpxám,…v.v

2.2 Hệphântíchtrangtàiliệu

Hệp h â n tíchtrangtàiliệu: Làmộthệthốngbaogồmnhữngthuậttoánvàcác

kỹthuậtcóthểápdụngchocáctàiliệuảnhđể lấyrađượccáct h ô n g tinmàmáytínhcóthểđọcđượcvàhiểuđượctừcácđiểmdữliệuảnh.M ộtlĩnhvựcthuđượcnhiềuthànhcôngnhấttrong

phântíchtàiliệuảnhđólàNhậndạngKýtựQuanghọc(OCR),phầnmềmcókhảnăngnhận,chuyểnđổicáckýtựtừcácloạitàiliệudướidạngảnhsangtàiliệudướidạngtext.OCRgiúpngườidùngcókhản ăngsoạnthảovàtìmkiếmnộidungcủatàil i ệu

Thànhphầnchínhcótrong mộthệphântíchtàiliệu:Mụcđ ích củamột

hệphântíchtàiliệulàcókhảnăngnhậndạngracácđốitượngvănbản,đốitượngảnhtrongtàiliệuảnhvàcókhảnăngtríchchọnrađượccácthôngtinmàngườidùngmongmuốn.Chúngtacóthểchiamộthệphântíchtàiliệuthànhhaiphần.Phầnthứnhấtlàxửlývănbản,liênquanđếnviệcxửlýcácđốitượngv ănbản:kýtự,chuỗikýtự,cáctừ.X ửlý

v ănbảnbaogồmcáccôngviệcsau:xácđịnhđộnghiêngcủatàiliệu(độnghiênghayđộxiêncủat à i liệuảnhdotàiliệuđượcđặtkhôngđúng khithựchiệnquétvàotừmáyquét),tìmcáccột,cácđoạnvănbản,cácdòngvănbản,cáctừvàcuốicùnglà

Trang 15

nhậndạngv ănbản(cóthểthêmc á c t h u ộct í n h n h ưloạiphôngc h ữ,kíchthướccủaphôngchữ)bởiphươngphápnhậndạngkýtựquanghọc(OCR).Phầnthứhailàxửlýcácđốitượngảnhlàcácđốitượngtạoratừcácđườngk ẻtrongsơđồ,cácđườngkẻphântáchgiữacácđoạnvănbản,cáchìnhvẽ,c á c lôgôcủacôngty…

Saukhiápdụngc ác kỹthuậtphântíchảnhvàv ănbản,cácđốitượngcầnnhậndạngtrongtàiliệuảnhđượctríchravàđượcbiểud i ễndướidạngmộttàiliệuđịnhdạngkhác,chẳnghạnnhưword,html…

Tacót hểt ó m tắtq uátrìnhxửlýcủahệphântíchtàiliệutheosơ

Xửlýđườngkẻ

Xửlývùngvàkýtựđặcbiêt

Vănbản

Xácđ ị n h đ ộ n g h i ê n g ,

dòngvănbản,cáckhốivănbản,cácđoạnvăn

Đườngthẳng,đường cong,góc

Trang 16

- Lượngtrithứcvôgiácủanhânloạivớisốlượnglớnđượclưutrữtrongcácthưviệncổđ iểndướicácchấtliệunhưgiấy, vải,gỗvẫncòntồntạirấtnhiều,việccáctàiliệubịmấtcácthôngtin, thiếuthôngtin,sốlượngbản

Trang 17

saohạnchếhaythậmchícáctàiliệubịthoáihoátheothờigianlànhữngvấnđ ề phổbiến.Vìvậychúngcầnphảiđượckhôiphụcvàchỉnhsửabằmg

nhữngk ỹ thuậtphântíchtàiliệu

- Ngàynaycácvănphònghiệnđạicáccôngviệcđềuđượcgiảiquyếtd ựavàomáytính Các tàiliệuvănbảnvớinhiềuđốitượng

(chữ,hìnhảnh,cácsơ

đồ)đượctạoratrênnhiềumá y tínhkhácnhau,phầnmềmkhácnhaudo

đócót hểlàcácđịnhdạngcủacáctàiliệuđólàk hôngtươngthíchvới

nhau,kíchthướccũngkhácnhau.Nhưvậycầnmộthệp hântíchtàiliệug i ú p nhậndạngcácloạitàiliệu,tríchchọnrađượccác phầnchứcnăngvàcó thểchuyểntừmộtđịnhdạngmáytínhnàysangmộtđịnhdạngkhác

- Mộtbàitoánk hácđ ượcđềcậplàcác máyphânloạithưtựđộngdùngđểphânloại,sắpxếpthưvànhận dạngđịachỉthư.Nhữngmáynàyđãc ó từnhữngthậpkỷtrước,nhưngngàynayyêucầucaohơnđólàxửlýnhiềuthưhơn,nhanhhơnvàyêucầuchínhđộxáccaohơn

Trang 18

TrangtàiliệuThunhậndữliệuXửlýđ iểmảnhPhântíchđặctrưng

Phântíchvànhậnd

ạngđốitượngvăn ngđốitượngảnhPhântíchvànhậndạ

Mô tàiliệu

Hình2.2Sơđồquátrìnhphântíchtrangtà iliệu

Cáchệphânt í c h tàiliệusẽn g à y càngpháttriểnvàh i ểnnhiênl à c h ú n g sẽ

c ó t r o n g cá c hệx ửl ý tàiliệu.C h ẳngh ạnnhư,hệt h ốngOC R sẽđượcsửdụngrộngrãiđểlưutrữ,tìmkiếmvàtríchdẫntừcáctàiliệulưutrữt r ê n giấy.Cáckỹthuậtphântíchcáchbốtrítrongmộttrangtàiliệugiúpnhậnd ạngnhữngbiểumẫu(form)riêngbiệt,hayđịnhdạngcủamộttrangtàiliệuvàchophépsaolưutàiliệuđó.Cácsơđồcóthểđượcđưavàotừcácbứcảnhh a y vẽbằngtayvàcóthểthayđổi,soạnthảolạichúng.Sửdụngmáytínhcóthểchuyểncáctàiliệuviếtbằngtaythànhcáctàiliệuđiệntửđượcl ưutrữt r o n g máytính.Cáctàiliệuđượclư utrữ trongcác thưviện,cáctàiliệukỹt

h u ậttrongcáccôngtysẽđượ cchuyểnđổisangthànhtàiliệuđiệntửnhằmn â n g caohiệuquả,thuậntiệntrongviệclưutrữvàdễdàngmangđếncơquanh a y mangvềnhà.Mặcdùtàiliệusẽngày càng đượcxửlývàlưutrữ nhiềut r o n g máytínhnhưngtrênthựctếcórấtnhiềucáchệthốngkhácnhaumàtài

Trang 19

liệugiấylàphươngtiệnlàmviệchiệuquảvàchắcchắnrằng tàiliệugiấyvẫnsẽlàphươngtiệnlàmviệcvớichúngtatrongmộtvàithậpkỷnữa.Vấnđềởđâylàlàmsaochúngtatíchhợpnhữngtàiliệugiấyvàotrongmáytínhxửlý.

Sauđâytasẽtìmhiểun g ắngọncácbướcxửlýcủamộthệphântíchtàiliệuảnh

2.3 Thunhậndƣ̃liệuảnh

Cácdữliệutrêncáctrangtàiliệugiấythườngđượcquétquamáyquétvàđưavàomáytínhdướidạngfileảnh,chúngbaogồmcácđiểmảnh(pixels)vàđượclưutrữ Vớiảnhnhịp hângiátrịđiểmảnhcóthểlà0hoặc1,vớiảnhđacấpxámvàảnhmàugiát rịđ iểmảnhnằmtrongkhoảng0 đến 255với3giátrịR, G, B từ0đến255.Ởđộphângiảithôngthườngthìcó120điểmảnhtr ê n 1centimetvàvới1trangcókíchthước20x30cmthìtạoramộtảnhvới24 00x3600điểm ảnh.Dođó cóthểthấyrằngmộttàiliệuảnhchỉbaobồmc á c dữ liệuthô(giátrịcácđ i ể m ảnh)vàc h ú n g sẽđượcsử dụngnh ững kỹthuậtphântíchthíchhợpđểlấyrađượccácthôngtincầnthiết

2.4 Tiềnxửlýđiểmảnh

Bướctiếptheotrongmộthệphântíchtàiliệulàthựchiệnmộtsốthaot á c xửlýtrêntàiliệuảnhthuđượcđểchuẩnbịchonhữngbướcphântíchtiếptheo.Chẳnghạnnhưcác thaotác:chọn ngưỡngđể chuyển ảnhđacấpxám,ả n h màuvềdạngảnhnhịphân,giảmnhiễuđể loạibỏ những dữliệukhôngliênquan,phânđoạnđể phântác

hc ác t h à n h phần khácn h a u trong ảnhvàcuốicùnglàlàmmảnhh ay dòbiênđê

̉dễd àng xácđịnhcác vùng,các đặctrưngthíchhợpvàcácđốitượngcầnquantâm.Saunhữngbướcxửlýởtrên,d ữ liệuthườngđượcbiểudiễndướidạngnénlạinhưdùngmãhoáCCvàbiểudiễndướidạngvéctơ.

Trang 20

2.4.1 Xƣ̉ lýnhịphân

Vớinhữngảnhđacấpxámcácthôngtinđãsẵnởdạngnhịphânchẳnghạnnhưcácchuỗivănbảnhaycácđốitượngảnh,thìphươngphápnhịphânt h ô n g thườngsẽđượcthựchiệntrước.Mụcđíchcủaphươngphápnàylàsẽtựđ ộ n g chọnmộtngưỡngcầnthiếtđểtáchảnhralàmhaiphần:thôngtinảnhvàth ôn gtinnền.Việclựachọnmộtngưỡngtốt(n gưỡngmàcó thểp h â n táchả n h thànhhaiphần:phầnảnh,phầnnềnmộtcáchchínhxác)luônlàmộtquát r ì n h khóvàdễgâyralỗi(0)

Hình2.3Phươngphápnhịphânảnh.(a)Histogramcủaảnhđacấpxámnguyênbản,

(b)chọnngưỡngthấp,(c)chọnngưỡnghợplý,(d)chọnngưỡngquácao.

Trang 21

Quátrìnhxửlýnàysẽgặpk hókhănt rongcáct rườnghợpk h i : độtươngphảngiữagiátrịcácđiểmảnhvănbảnvànềnlàthấp(chẳnghạnnhưv ănbảnđượcsoạnthảotrênmộtnềnxámthuầnnhất),nétcủavănbảnmỏnghoặcdữliệukhôngđượcchiếusángtốtkhithựchiệnquéttàiliệugiấy.Rấtnhiềuphươngp h á p đ ã đ ư ợ c pháttriểnđ

ểk h ắcphụcn h ữnghạnc h ếtrên,c h ẳnghạnnhưphươngpháptáchngưỡngtựđộngtìmragiátrịθthíchhợpđểchiaảnhthànhhaiphần

2.4.2 Giảmnhiễu

Nhiễutrongtàiliệuảnhlàdonhiềunguyênnhânbaogồm:sựthoáihoátheothờigian,quátrìnhsaochép,quátrìnhquéttàiliệu.Mộtsốkỹthuậtx ửlýảnh sẽđượcápdụngđể loạibỏnhiễu.Saukhiđượcnhịphânhoá,tàiliệuảnhsẽđượclọcđểgiảmnhiễu.Trênthựctếtồntạinhiềuloạinhiễu,tuyn h i ê n ngườitathườngxemxét3loạinhiễuchính:nhiễucộng,nhiễunhânvàn h i ễuxung.Chúngxuấthiệnnhưnhữngđiểmảnhkhácbiệtsovớivùngxungquanh,chẳnghạncácđiểmảnhnhiễuON(điểmmangthôngtinảnh)trongv ù n gnềnOFF(điểmmangthôngtinnền)hayngượclạicácđiểmảnhOFFt r o n g vùngnềnONvàcáccạnhgồghềcủakýtựhaycácđốitượngảnh

Bảnchấtcủanhiễulàthườngtươngứng vớitầnsốcaovàcơsởlýt h u y ếtcủacácbộlọclàchỉchonhữngtínhiệucótầnsốnàođóthôngqua,dođ ó đểlọcnhiễungườitathườngsửdụngbộlọcthôngthấphaylọctrungbình.V ớ i n h i ễ u cộngvànhiễun h

â n t a d ù n g c á c b ộ lọcthôngthấp,trungbình;vớinhiễuxungtadùnglọc

trungvị,giả trungvị

Tronglọc

trungbình,thườngngườitaưutiênchocáchướngđểbảovệbiêncủaảnhkhỏibịmờkhilàmtrơnảnh.Cáckiểumặtnạđượcsửdụngtùytheocáctrườnghợpkhácnhau.Cácbộlọctrênlàbộlọctuyếntínhtheonghĩalàđiểmảnhởtâmcửasốsẽđượcthaybởitổhợpcácđiểmlâncậnchậpvớimặtnạ.Lọcthôngthấpthườngđượcsửdụngđểlàmtrơnnhiễu

Trang 22

Cácbộlọcphituyếncũngđượcdùngtrongkỹthuậttăngcườngảnh.Trongkỹthuậtnàyngườitadùngbộlọctrungvị,bộlọcgiảtrungvị.Vớibộlọctrungvịcácđiểmảnhsẽđượcthaythếbởitrungvịcácđiểmảnh,bộlọcgiảtrungvịthìcácđiểmảnhđượcthaythếbởitrungbìnhcộngcủahaigiátrị“ t r u n g vị”.

2.4.3 Phânđoạnảnh

Quátrìnhphânđoạnảnhđượcthựchiệnlàmhaigiaiđoạn Giaiđoạnthứnhất,táchcáclớpvănbảnvàảnhriêngbiệtnếunhưtrongtàiliệucóchứac ả vănbảnv

à ảnh.Giaiđoạnthứhailà

thựchiệnphântá chtrênhailớpđốitượngvừatáchởtrên,vớivănbảnxácđịnhcáccột,cácđoạnvănbản,cáctừvàcác kýtự;với lớpđốitượngảnhthựchiệnphântáchcácbi

ểu tượng, các h ì n h vẽ,cácđường kẻvàcác h ình ảnh Chẳnghạn như mộttàiliệuảnhcó chứacácđoạnvănbảnvàcáchìnhminhhoạgiốngnhưmộttrangtạpchí,đầutiênvănbảnvàảnhsẽđượctáchriêng.Sauđóvănbảnsẽđượctáchrathànhc á c chuỗikýtự.Ảnhthìđượctáchracácthànhphầnnhưhìnhchữnhật,hìnhtròn,cácđườngkẻ,biểutượng.v.v Saubướctrêntàiliệuảnhsẽphântáchrathànhnhững đốitượngnhỏhơnnhưcáckýtựvàcácthànhphầncơbảncủaảnh

2.4.4 Làmmảnhvàxácđịnhvùng

Làmmảnhảnhlàmộtthaotácxửlýảnhtrongđóđốitượngảnhđượcbiểudiễnnhưlànhữngđườngtrụcđượcgọi làđườngtâmhaycòngọilàlấyx ư ơ n g c ủ a ảnh

M ộ t đốitượngả n h khiđ ó c h ỉ đ ư ợ c biểud i ễ n bởiđườngx ư ơ n g của nóbằngviệcgi ảm bớt số lượngđiểm ảnhcó giátrịONcủa đốit ư ợ n g vàvẫn đảmbảotínhchấtliênthôngcủađốitượng.Mụcđíchcủaviệclàmmảnhảnhlàgiảm bớtcácthành phần màchỉlưutrữ cácthôngtinthiết y ế u phụcvụchoviệcphântíchvànhận dạngsaunày thuậntiệnhơn.Chẳngh ạ n nhưmộtđường kẻthẳngcó thểvẽbằngtayvớiđộ đậmcủa nétbútlà

Trang 23

Nóichungv ớ i các đốitượngcó k í c h thướclớn,d ò b i ê n làphươngpháplựachọnthíchhợpđểbiểudiễnđốitượng,cònđốivớinhữngđối

tượngđượctạothành bởinhữngnétkếtnốidàithìlàmmảnhlàphươngphápthíchhợphơn.Làmmảnhthườngđượcsửdụngnhưlàmộtquátrìnhtiềnxửlýđốiv ớ i nhữngứngdụngphântíchtàiliệunhưxửlýsơđồhaybảnđồ.Vớinhữngđốitượng ảnhlớn màvù n g ảnhđược tôđầy chẳnghạn nhưnhững lôgôthìphươngphápdò biênđốitượng thích hợphơn.Nhưngvới nhữngvùng nhỏ, c h ẳ n g hạntừngkýtựriêngbiệtthìcũngkhôngphảiphươngpháplàmmảnh c ù n g khôngphảiphươngphápdòbiênđượcthựchiệnmàkhiđóvùngảnhsẽđượcbiểudiễndướidạngmảngcácgiátrịcủađiểmảnh

Trang 24

2.4.5 MãhóaCCvàvéctơhóa

Khimộtđốitượngản h đượcbiểudiễndướidạngxươngcủaảnh haybằngđường viền,chúng có thểbiểu diễnmộtcáchhiệuquảhơ nlàlư ucác đ i ể m ảnhmộtcáchđơngiảncácgiátrịONvàOFF.Mộttrongnhữngphươngphápl ư u ảnhhiệuquả

đ ó l à l ư u d ư ớ i d ạ n g mãxíchC C ( C h a i n Code–

F r e e m a n 1974),trongđócácđiểmcógiátrịONđượcbiểudiễnthôngquatậpc á c điểmlánggiềng đitheomộthướng quyđịnh.Thayvì phảilưu trữvịtrícủađiểmảnh

c ó giátrịO N c h ú n g t a s ẽ l ư u t r ữ h ư ớ n g c ủ a c á c đ i ể m l á n g giềng.Cácđiểmlánggiềngcủamộtđiểmxlàtấtcảcácđiểmnằmliềnkềvớix thuộcmatrận3x3vớiđiểmxlàtâm.Cóhaiưuđiểmkhibiểudiễngiátrịđ i ể m ảnhtheohướngthayvìphảilưuvịtrícủađiểmảnh.Thứnhấtđólàviệcl ư u trữhiệuquảhơn.Thôngthườngvớinhữngảnhcókíchthướclớnhơn256x 256,toạ độgiátrịđiểmảnhONthường đượcbiểudiễnbởi16bít; tráilạiv ớ i cáchlưutrữCCmộtđiểmlánggiềngthuộc1trongtámhướng,dođómỗimộtđiểmảnhONchỉcầnbiểudiễnbằng1bytehaythậmchíchỉcần3bítđểlưu.MộtưuđiểmkháccóthểthấytrongCCđólàvìCClưutheocấutrúccácđ i ể m ảnhcóliênquanvớinhauvàdođódựavàocáchthứclưutrữ

nàycóthểthựchiệncáccôngviệcxửlýnhưlàmtrơncácđườngcongvàtínhxấpxỉcácđ

ư ờ n g thẳngtrơn

Saubướcxửlýđiểmảnh,dữliệuthôcủaảnhđãđượcbiểudiễnởcấpđ ộ trừutượngcaohơn:đãkhoanhđượcvùng baocủachuỗikýtự,biểudiễnC C vàvéctơcủacácđườngcongvàđườngthẳng,hayđãxácđịnhđượcvùngbiêncủacácđốitượng

Tàiliệuảnhquacácquá trìnhtiềnxửlýsẽlàtàiliệucơsởcho

quátrìnhphântíchcấutrúccủatàiliệuđó.Hình2.5minhhọamộttàiliệutrướcvàsaukhithựchiệnquátrìnhtiềnxửlý

Trang 25

ọ c t r ê n đườngcong.C á c đ ư ờ n g congt h ư ờ n g đượctínhxấpxỉbởihìnhđagiác.Cácđiểmquantrọngchẳnghạncácđiểm gócvàđiểm bịuốncongđềuđượcxác địnhđểgiúp íchchoviệcphântíchnhậndạngcáchìnhvẽ.Đốivớicácvùnggiớihạntươngứngcủatừngkýt ự riêngrẽhaycácbiểutượng ảnh,cácđặctrưngnộitạinhưtỉlệhình dáng,đ ộ chặtcủahìnhbao(tỉlệgiữadiệntíchvàchuvi),tínhkhôngđốixứng,độđậmđặccủacácđiểmđen,tínhtrơncủađườngviền,sốlượngđườngviền,sốl ư ợ n

g cácđường thẳnggiaonhauvàcác đường đầumút đềuđượctính toánđ ể làmdữliệuđầuvàophụcvụchoviệcnhậndạngtừngđốitượng

2.6 Phântíchđốitượngvănbảntrongtàiliệu

Cóhailoạiphântíchđượcápdụngtrongviệcphântíchvănbảntrongt à i liệuảnh.Loạithứnhấtlànhậndạngkýtựquanghọc(OCR)

đểnhậndạngt ừ n g kýtự,cácchuỗikýtựtừảnhbitmap(bmp),loạithứhailàphântíchsơđ ồ trìnhbàycủatrangtàiliệunhằmnhậnbiếtđượcđịnhdạngcủavănbản,và

Trang 26

từđóhiểuđượcc ấ u trúc,v ị t r í , c h ứ c n ă n g c ủ a c á c khốiv ă n bản( t i ê u đ ề chính,tiêuđềphụ,đoạnvănbản,

chúthích.v.v ).Phụthuộcvàocáchsắpxếpcủacáckhốivănbản,mộttrangvănbảncóthểlàmộttrangtiêuđề,mộtbảngmụclụccủatạpchí,mộtbiểumẫukinhdoanh,haylàmộtphongbìthư.Nhậnd ạ n g kýtựquanghọcvàphântíchsơđồtrìnhbàycóthểđượcthựchiệnmộtc á c h riêngrẽ,haycóthểlấykếtquảcủaphầnnày đểsửdụngchophầnkia.N hận dạngkýtựq u a n g h ọ c t h ư ờ n g đượcn h ậ n biết n h ư làứ n g dụngnhậndạ n g kýtựviếttayhaycác ký tựtrongtàiliệuin.Kỹthuậtphântích sơđồt r ì n hbàyđượcápdụngđểphântíchđịnhdạngcủatrang,mộtloạiứngdụngp h â n tích sơđồtrình báyđó lànhậndạngbiểu mẫu,giúp phântích vànhậnd ạ n g cấut r ú c b i ể

u mẫuv à c á c v ă n bảnc ó t r o n g b i ể u mẫu.Trongmộts ố t r ư ờ n g hợpngười tacầnphảixácđịnhđộnghiêngcủatàiliệubởivì tàiliệuđượcquétcóthểbịnghiêngsovớibềngangcủatranggiấytrongtrườnghợpt à i liệuđ ó khôngđượcđ ặ t đ ú n gkhiquétvàot ừ máyq u é t Ư ớ c lượngđ ộ n g h i ê n g vàphântíchsơ đồ trì n h bàycủa v ă n bảnsẽđượcmôt ảng ắn gọnt r o n g phầndướiđây.Phươngphápnhậndạngkýtựquanghọcsẽđượcđềcậpđ ế n ởphầnsau

2.6.1 Xácđịnhgócnghiêngcủavănbản

Mộtdòngvănbảnbaogồmmộtnhómcáckýtự,biểutượngvàcáctừn ằ m liềnkề nhau,khágần nhauvàđềunằmtrêncùngmộtđườngthẳng(cóthểtheochiềuthẳngđứnghay

chiềudọc).Thôngthườnghướngcủacácdòngv ă n bảnsẽxácđịnhđộnghiêngcủatàiliệu.Bìnhthườngmộttrangtàiliệusẽc ó độnghiênglà0khimàcácdòng vănbảntheochiềunganghaychiềudọcs ẽ songsongvớicáccạnhtươngứngcủatrangtàiliệu,tuynhiêntrongmộtsốt r ư ờ n g hợpkhimộttrangtàiliệuđ ư ợ c quéth a y s a o c h ụ pbằngt a y , đ ộ nghiêngcủatàiliệukhiđósẽkhác0

Trang 27

Hình2.6Vănbả nbịnghiêngsaukhiđượcquétquamá yquét.Hình2.6chovíd ụvềmộtvănbảnnghiêngsaukhiquétảnhgốcquamộtmáyscan.

Vìcác b ư ớ c phântích n hư OCRh a y phântích sơđ ồ trìnhbàyphụthuộcvàot r a n g tàil i ệ u đầuvàov ớ i đ ộ nghiênglà0 d o đ ó xácđịnhđộn g h i ê n

g vàđiềuchỉnhđộnghiêngcủatàiliệulàmộtviệclàmcầnthiếttrướck h i thựchiệnnhữngbướctrên.Mộtphươngphápxácđịnhđộnghiêngcủatàiliệuphổbiếnđó làphépchiếunghiêng.Phépchiếu nghiênglàphươngpháptínhsốlượngđiểmảnhON(điểmảnhcógiátrị1trongảnhnhịphân)khiquétả n h theocácdònghaycáccột vàlưugiátrịnàyvàomộtmảng,trongđóchỉsố củamảngchínhlàdònghaycộtđượcquét.DođógiátrịcácđiểmảnhONk h i quétquatrangảnhsẽđượcbiểudiễnbởimộtđồthịtầnsuất.Mỗimộtlầnthựchiệnphépchiếu nghiêngtasẽchiếuả n h theocác góckhácnh a

u (từ0đ ế n 180đ ộ ) , tứclàs ẽ thựchiệnquayảnhmộtgóct ư ơ n g ứng.Phépchiếun

g h i ê n g thườngđượcthựchiệntheochiềunganghoặcdọcvàđượcgọilàcácphépchiếunghiêngtheochiềungang,dọctươngứng.Vớimộttàiliệuảnhmàgócnghiêngbằng0thìcác đỉnhcủa phépchiếubiểu diễncácdòngcóchứa k ý tự, c ò n các v ù n gtrũngbiểudiễn chokhoảng không giantrắnggiữacá c dòng.Để tìmđượcgócnghiêngcủavănbảnthì sẽtìmgócquaysaochođồt h ì tầnsuấtcónhiềunhữngđỉnhcaonhấtvànhữngvùng trũngnhất.Nếuđồt h ịtầnsuấtcó10đỉnhvà10vùngtrũngthìcóthểsuyrarằngtàiliệuảnhcó

Trang 28

10dòngvănbản.Dođó với mỗiphépchiếu nghiêngtasẽtínhsốđođộcaocủacácđỉnhvàsố đođộcaocác vùng trũng,góc chiếu nàomàcó sựkhác n h a u giữahaisốđonàylàlớnnhấtthìchínhlàgócnghiêngcủavănbản.

2.6.2 Phântíchbốcụccủatrangtài l i ệuảnh

Saukhixácđịnhđượcgócnghiêngcủatrangtàiliệu,ả n h sẽđ ượcquaymộtgócđểđộngh iêngcủatrangbằng0,sauđóquátrìnhphântíchbốcụccủa trangtài liệ

uđ ượcthựchiện.Phântíchbốcụctrangđ ượcthựchiệnđểlấyrađược cấutrúcc ác khối vănbản(cácđoạnvănbản)trongtàiliệu.T u ỳ thuộcvàođịnhdạngcủa t ừ n g loạitàiliệu,quátr ì n h phânđoạncó thểthựchiệnphântáchcáctừ,cácdòngvănbảnhaycấutrúccáckhối(nhómcácd ò n g vănbản, chẳnghạn các đoạnvănbảnhaycác bảngdanhmục).Thôngthường ngườitadựavàoquytắcsắpxếpthôngtintrongtrangtàiliệuđểnhậnd ạ n g từngkhốivàg á n n h ã n choc hú n g M ộ t thí dụđưarak ế t quảs a u khip hâ n tíchtrangđầutiêncủamộttàiliệukỹthuậtbaogồm:têntàiliệu,tácgiả,

t ó m tắt,từkhoá,cácđoạntrongthânvănbản v.v.Hình2.7đưaramộtthíd ụ vớikết quảsaukhiđãthực hiệnphântíchcấutrúcvàgán nhãnchocác khốitrênmộttrangtàiliệuảnh.Phântíchcấu trúccủa trangcóthểsửdụngp h ư ơ n g phápt i ế pcậntrên- x u ố n g [11]h a y tiếpcậnd ư ớ i –

l ê n [ 1 0 ] Vớip h ư ơ n g

pháptiếpcậntừtrên-xuống,mộttrangtàiliệuđượcphântáchtừcácthànhphầnlớnxuốngcácthànhphầnnhỏhơn,chẳnghạntrangtàiliệucóthểp h â n táchthành các cột,sauđó các cộtđượcphântáchthành các đoạnvănbản,từcácđoạnvănbảnlạitáchrathànhcácdòngvănbản,sauđótáchcáctừ.v.v Với phươngpháptiếpcậntừdưới –

lên,các thành phần liênthôngđượctrộnvớicáckýtựđểnhậndạngtừ,cáctừlạiđượctrộnvớinhauđểtạothànhcác dòng vănbản, từcác dòng vănbản xâydựngtha

̀nhcác đoạnvănb ả n v v Mộtcách lầnlượt,haiphươngpháptrêncóthểkết hợpcùngnhauđ ể phântíchcấutrúccủatàiliệu

Trang 29

Hình2.7Vídụminhhọakếtquảphântíchbốcụccủ atrangtà iliệuả nh

2.7.Nhậndạngkýtựquanghọc(OCR)

Nhưchúngtađãb iếttrênthếgiớicónhiềukiểuchữkhácnhau, mặtkháccáck y

́ tựt rongmộtb ả n g chữc a ́ithườngc ó rấtn h i ê ̀ukiểuv i ế t khácnhau.Trênthựctếcáckýtựthườngđượcviếtbằngnhiềukiểukhácnhautuỳt h u ộ c vàokíchcỡ,loạiphôngchữvànétbútviếttaycủatừngngười.Mặcdùc á c kýtựcóthểviếttheonhiềucáchnhưngchúngvẫn cónhữngquytắcxácđ ị n h để n h ậ n biếttừngkýtự.Pháttriển

n hữ n g thuậttoántr ên máytính để n h ậ n biếtcáckýtựtrongbảngchữcáilàmộtnhiệm vụtrọngtâmcủaOCR.N h ư n g tháchthứcđốivớivấnđềnàyđólà–

trongkhiconngườicóthểnhậnd ạng gầnnhư

chínhxác100%cáckýtựviếttaythìOCRvẫnchưathểđạttớiđượcđiềunày

KhókhănđốivớiOCRthểhiệnquamộtsốđặcđiểm.Sựgiatăngsốl ư ợ n g vàkíchcỡcủaphôngchữtrongbảngchữcái,khôngràngbuộccáckiểuc h ữ viếttay,cáckýtựnốiliềnnhau,cácnétbịđứt,cácđiểmnhiễuv.v Tấtc ả chúnglàmchoquátrìnhnhậndạnggặpkhókhăn.Hình2.8chỉramộtthíd ụ giữasố„0‟vàsố„6‟rấtdễnhầmlẫnkhichúngđượcviếtbằngtay.Mộttừ

Trang 30

cũngcó thểho àn toànlàcác consố, chẳnghạn cácsốđiện thoại,hayhoànt oà nlàcáckýtựtrongbảngchữcáihoặccóthểtrộnlẫngiữachữcáivàsố.

Hình2.8Chữviếttaycóthểg â y nhầ mlẫ n

2.7.1 ThuậttoánOCR

ThuậttoánOCRth ườ n g có h a i phần chính: trích chọn đặctrưngv

à p h â n loại.Mộtcách cơbản, quátrình OCRgán mộtảnhkýtựvàomộtlớpb ằ n

g cáchsửdụngthuậttoánphânloạidựatrênnhữngđặctrưng đượctríchchọnvàmốiliênhệgiữacác đặctrưngđó.Độđotươngtựlàcơsởđể xácđ ị n h mộtđốitượngcó thuộcmộtlớp kýtựhaykhông.Thôngthường sẽcó mộtt h à n h p hầ n thứb a đ

ó làq u á t r ì n h x ử l ý d ự a trênn g ữ c ả n h đ ể sửalạin h ữ n g lỗicủaOCR.Dướiđâ

ysẽtrìnhbàyngắngọnbathànhphầncủaOCR

2.7.1.1 Tríchchọnđặctrƣng

Tríchchọnđặctrưngliênquanđếnviệctríchranhữngthuộctínhcủađốitượngdướidạngcácđộđo

Đểbiểudiễnmộtlớpkýtựphảixâydựngmộtmôhình nguyênmẫuchungchocáclớpkýtự.Vàdođóquátrìnhtríchchọnđ ặ c trưngsẽcốgắngtìmracácthuộctínhdựatrênnguyênmẫuđãxâydựngchocáclớp.Cácđặctrưngchungnhư,sốlượngcáclỗhổngtrongkýtự,mặtlõmcủađườngviềnbênngoài,sựnhôracủađiểmcaonhấtvàcácđặctrưngnộitại,cácđiểmcắtngang,cácđiểmkếtthúc,cácgóc.v.v sẽđượcsửdụng.M ỗ iảnhkýtựsẽtríchracácđặctrưngtrênvàphânloạichúngvàolớptươngứng

Trang 31

2.7.1.2 Phânloại

Trongphươngphápphânloạidựatrênthốngkê,nhữngmẫuảnhkýtựđượcbiểudiễnbằngcácđiểmtrongkhônggianđặctrưngđachiều.Mỗimộtthànhphầntrongkhônggianđachiềubiểudiễnchomộtđộđođặctrưng.Quát r ì n h phânloạisẽchiakhônggianđachiềuthànhcácvùngtươngứngvớicáclớpkýtựvàchúngđượcgánnhãntươngứng

2.7.2.Nhậndạngkýtựdựatrênngữcảnh

Nhậndạngkýt ựdựatrênngữcảnhsửdụngthôngtintừcáckýtự

khácnhauđược n h ậ n dạngtrongmộttừvàdựav à o ý nghĩac ủ a từkhilắpghépkýt

ự vàotừ.Thôngthường mộttừcó nghĩahaykhôngsẽdựa vàotừđiểnhaytừvựngc

ủangônngữđó.Giảsửgiữahaitừuvàvrấtkhóphânbiệtk h i nhậndạng,chẳnghạnmột tronghaitừnàyxuấthiệntạivịtríthứhai(tínhtừtráisangphải)củatừqXeen.Kỹthuậtx ửlýdựatrênngữcảnhsẽxácđịnhk ý tựulàthíchhợptrongtrườnghợpnàyvìtrongt ừđiểntừqveenkhôngcót ro ng từđiểnTiếngAnh.Chúngtacũngcóthểápdụngquy tắckýtựđitheos a u kýtựqchỉcóu.

Đãc ó nhữngn g h i ê n cứ u mộtc á c h hệt h ố n g kế t quản h ậ n dạngthuđượctừOCRtrênTiếngAnh.MộtbáocáođầyđủkếtquảtừnhữngsảnphẩmO C R trêntàiliệuđượcinbằngmáyđượccôngbốbởitrườngđạihọcNevada[9].Vớinhữngtàiliệuđạt

tiêuchuẩn,kếtquảnhậndạngchínhxáctừ99.13%t ớ i 99.77% Vớin h ữ n g tàiliệucó c h ấ t l ư ợ n g kém,đ ộ c h í n h xácc ủ a nhậnd ạ n g cũngđ ạ t từ89.34%tới9 7

0 1 % K ế t quản h ậ n dạngg i ả m điđốivớinhững tàiliệuchấtlượngkémchủyếulàdocácnétkýtựbịđứtvàcáckýtựliềnkềnốiliềnnét

Đãc ó rấtnhiềutàil i ệ u n g h i ê n c ứ u môtảp h ư ơ n g phápnhậndạngO C

R OCRđượccoilànghiêncứuquantrọngnhấttronglĩnhvựcnhậndạng.Trongkhica

́cnghiêncứu phươngphápOCRtrênkýtự Lamãđãgiảm dần

Trang 32

thìnghiêncứuOCRtrêncácloạikýtựkhôngphải Lamãtiếptụclàvấnđề đượcquantâmnhiềuđến.

2.8 Phântíchcácđốitƣợngảnhtrongtàiliệu

Trongphântíchtrangtàiliệuảnhthìn hậndạngđốitượngảnhlàmộttronghaichủđềquanvìcácthànhphầncủaảnhluônđikèmvớivănbản,

cácsơ đồbiểudiễn,lôgôcủa côngtyxuấthiệntrongđầuthư,vàcácđườngkẻ p h â ncáchcác ôtrongbảng Các đốitượngảnhđược n hậ n dạnglàcác ảnhxuấthiệndọctheocácđoạn vănbảnvàảnh trongtàiliệu.Chúng tacũngcóthểx â y dựngn h ữ

n g miềnứ n g dụngr i ê n g biệtđ ể n h ậ n dạngt ừ n g loạiđốit ư ợ n g ảnhtrongtàiliệu;chúngcóthểbaogồmcácbiểutượngtrongsơđồkỹthuật,biểuđồnghiệpvụ,bảnđồ,vântay.v.v…

Mụcđíchcủaviệcnhậndạngả n h làlấyrađượccác thôngtinmangý nghĩaxuấthiệnbêntrongnộidungcủaảnh

Phântíchtàiliệuảnhcàngtrởnênquantrọnghơnkhimàtàiliệuhầun hưđượctạo ravàxửlýb ằ n g máytínhthì việcNhữngngườilàmviệctrênmáytính liênquanđếnviệc truyềntảivàch uy ển đổitệp dữliệunhận thấymộtđiềurằngcáctệpdữliệuthườngítkhitươngthíchvớinhau.Bởivìcósựkhácnhauvềngônngữ,đặcđiểmcủahệthống,vàsựthayđổicủacácphiênb ả n CADvàcác góiđịnhdạngvănbản,dođócáctệpdữ liệucủanhữnghệ thống khácnhauthườngkhôngtươngthíchvớinhau.Mộthệthống xửlý tàiliệucóthểchuyểnđổimộtđịnhdạngtàiliệuảnhkỹthuậtnàysangđịnhdạngkhác,nhưngmụcđích củahệthống cũngphải cókhảnăngchuyểnđổiđượcn h ữ n g tàiliệuảnhvẽbằngtay.Điềunàycũnggiốngnhưviệcnhậndạngchữviếttayvàv ă n bảntrongO CR K h i máytínhcó khản ă n g phântí c h đượcn h

ữ n g hình vẽtayphứctạp mộtcách nhanh chóngvàchính xácthì vấnđề n h ậ

n dạngảnhsẽđượcgiảiquyết,tuynhiênđểđếnkhiđạtđượcđiềuđó thìv ẫ n cònnhiềucơhộivàtháchthứcđốivớilĩnhvựcnghiêncứunày

Trang 33

Trongcácbướcxửlýđ ố i tượngảnhcónhữngbướcxứlýchungcũnggiống

n h ư đốiv ớ i nhậndạngv ă n b ả n Cácp h ư ơ n g phápt i ề n xửlý,phânđoạn,vàtríchchọnđặctrưngđược môtả trướcđâysẽđược thựchiệntrước tiên.Thuậttoánphânđoạnkhởitạothườngđểápdụngchotàiliệucólẫnđốit ư ợ n g vănbảnvàảnhnhằmtáchriêngthànhhaiphầnvănbảnvàảnh

Hầuhếtcáchệt hốngO CRt hươngmạic ó k hảnăngn hậnd ạ n g c ác đườngbiêndàivàđườngkẻtrongbảngkhácsovớicáchnhậndạngkýtự,dođ ó việccố gắngnhận dạngcác đốitượngđó nhưlàkýtựkhôngxảy ra.Hệph ântíchảnhchocácbảnvẽkỹthuậtphảiphânbiệtđượcđâulàvănbảnvàđ â u làảnh.Thôngthườngcáchệthốngđềucókhảnăngnhậndạngtốt

cácđốitượ ng ảnhngoạitrừmộtsốtrường hợpđặcbiệtchẳnghạnkhikýtựnốiliền

v ớ i cáchìnhvẽgâyranhầmlẫnđâylàmộtđốitượngảnh;haycónhữngbiểutượn gquanhỏvàđượccoinhưlàmộtkýtự.Táchđoạnvàphântíchảnhmàuvới nhiềulớpc ủ

a bảnđồ,n h ậ n dạngđốit ư ợ n g ảnhba chiềutrongảnhkỹthuật,vàn hữ n g bảnvẽkiến trúc 3–

Dlàn h ữ n g thí dụchothấycònnhiều tháchthứcđốivớinhữngngườilàmnghiêncứutronglĩnhvựcnhậndạng.Rõràngrằngrấtnhiềumiềnứngdụngphụthuộctrithứccũngđượcápdụngvàot r o n g tấtcảnhữnghệthốngnhậndạng,phântíchảnh

Hệp hântíchtàiliệuảnhvàcácthànhphầnchungđãđ ượcmô

tảt ổngquantrongchươngnày.Trongđóđã

trìnhbàycácbướcchínhtrongquát rìnhxửlýảnhtừkhithunhậnảnhđếnkhitríchrađượcnhữn

gthôngtinngườidùngmongmuốn Trongchương3sẽ môtảchitiếtnhữngthuậttoánnhậndạngđốitượngảnhdựavàothànhphầnliênthôngtrongtàiliệucólẫnảnhvàvănbản

Trang 34

CHƯƠNG3 THUẬTTOÁNTÁCHVĂNBẢN- ẢNHTỪTRANGTÀILIỆUẢNH

3.1 Tổngquanvềphântáchvănbản– ả nh

Nhưchúngta đãb iếtmộttrangtàiliệuảnhthườngchứađựngcác

thôngtinhỗnhợpnhưcácđoạnvănbảnvàảnh,chẳnghạnnhưcáctrangbáođượcquét,bảnđồh ay các t à i liệuđượcquéttừmáyquét.D o đ óđể lấyrađượcphầnchứađựngthôngtinvàphầnchứaảnhriêngrẽvàchínhxáccầncóc á c kỹthuậtxửlýphứctạp.Cácthuậttoántáchvănbản-

ảnhsẽphânt á ch tàiliệuthànhhailớp:lớpchứa vănbảnvàlớpchứacác đốitượnga

ảnhgiúpchúngtalấyrađượccácthôngtinnhưvậy.Mộtthuậttoántáchvănbản-̉nh.C h ư ơ n g

nàysẽtrìnhkháiquátvềcácphươngpháptáchvănbản-ảnhvàtrìnhb à y

mộtthuậttoánphântáchvănbản-ảnh hiệuquả.Tưtưởngcơbảncủa thuậttoánlàtrướctiênđixácđịnhcácvùngkhôngphảilàvănbảnvàlưugiữt h ô n g tincủavùngnàyvàolớpcácđốitượngảnh.Cácvùngcònlạisẽthuộclớpvănbản.Cáchlàmnhưvậysẽhiệuquảhơnlàtrướctiênđixácđịnhtrựctiếpcácvùngvănbản

Trongmộthệthốngnhậndạngtàiliệu,mộttàiliệuthườngchứanhiềuloạibiểutượng(cáckiểukýtự,

ảnh)thôngtinkhácnhau.Chínhvìcósựkhácn h a u lớngiữacácđặctrưngcủatừngloạibiểutượngmàchúngsẽđượcxửlýtheotừngkỹthuậtkhácnhau.Hơnthếnữa,nhữngyêucầucaođốivớicáckỹthuậtxửlýảnhnhưcácphépvéctơhóađốitượngảnh,nhậndạngcácloạikýt ự TiếngAnh,kýtựsố,kýtựTrungHoađòihỏiphảiđược nghiêncứudựatheon h ữ n g cácht h ứ c khácnhau.Chínhv ì n h ữ n g l ý d o đ ó táchc á c t h à

n h p hần vănbảnvàảnhtừnhữngtệptàiliệuảnhlàmộtyêucầucầnthiếtđốivớimáytính

Trang 35

Córấtnhiềuphươngpháptá c h vănbảnvà ả n h từtrangtàiliệuảnhđượccôngbốtrướcđây.Phươngphápđượcđưaratrongtàiliệu[3]dựatrênk h á i niệm,đốitượngvănbảnbaogiờcũngcókíchthướcnhỏhơnđốitượngảnh,quátrình táchvănbảnvàảnhđượcthực hiệnsaukhiđãlàmmảnhcác đốitượng Phươngpháptrênkháđơngiảnnhưngnósẽkhônghiệuquảkhimộtkýtựtiếpxúcvới mộtkýtựkháchaymộtđốitượngảnhkhác.Yamada[6]giới thiệumộtphươngpháptáchcácđối tượngtừbảnđồđịahình,trongđó phươngphápcóthểtáchracácđốitượnglàđườngđivàcáctoànhà,phầncò n lạicủabảnđồlàcác đốitượngvănbản.Mộttrongnhững phươngpháp đượcbiếtđếnnhiềunhấtlàcủaWong,CaseyvàWahl[7],đượcđiềuchỉnhvàc

ả i tiếntrong[2]Tuynhiên,mộtsố chứngminhchothấyphươngpháptrênc h ỉ hoạtđộng

hiệuquảtrêncáctệptàiliệuchứanhiềuvănbản,ngượclạitrênc á c tà i liệuảnhchứanhiềucác đốitượng ảnh thì phươngphápkhông h i ệ u quả.Mộtvàiphươngphápdựatrêncáckhoảngtrắng[15].Phươngphápđượcbiếtđếnlàhoạtđộnghiệuquảnhấttrongkỹthuậttáchvănbản-

ảnh được đưaratrong[4].Phươngphápnàydựatrênviệcphântíchcácthànhphầnliên

t h ô n g vàdựa vàophépbiến đổiHoughđể n h ó m cácthành phần trongcùngmộtchuỗikýtựvàtáchchúngrakhỏicácđốitượngảnh.Phươngpháphoạtđ ộ n g hiệuquảtrêncảnhững thayđổikiểuphôngchữ,kíchcỡphôngchữvàh ư ớ n g vănbản

Tấtcảcác phươngphápđượcgiớithiệuởtrênhoạtđộngdựatrêncáctrangtàiliệuảnhthỏamãncácyêucầusau:

- Tàiliệuảnhphảikhôngcócácthànhphầnnhiễuvàchúngp h ả i được

xửlýđểchuẩnhoámộtsốđiềukiệntrướckhithựchiệnthuậttoán

- Cácchuỗikýtựtrongtàiliệuảnhphảikhôngtiếpxúcvớiđốitượngảnh.Hướngcủacácchuỗikýtựthườngđượcnhậndạngtheochiềunganghay

Trang 36

chiềudọc Trongtrường hợpchuỗikýtựcó hướng khácviệcnhận dạngsẽkhóhơn.

- VănbảnphảikhôngchứacáckiểukýtựTrungHoa[16]

Tuynhiênnhữngđiềukiện,yêucầuđốivớitàiliệuđượcnhậndạngởt r ê n đãlàmhạnchếviệcnhậndạngmộtsốlượnglớntàiliệucủamộtsốứngdụng.Chẳnghạntrongứngdụng

CAD/CAM,nósẽchuyểnmộtsốlượnglớntài liệuảnhtrêngiấysangđịnhdạngcủaCAD/

CAM.Tuynhiênnhữngloạit à i liệuảnhvẽnàylạicómộtsốlượnglớnthànhphầnnhiễu,cócáckýtựtiếpxúcvớikýtựvàkýtựtiếpxúcvớicácđốitượngảnh.Mặcdùcómộtsốthaot á c xửlý những vấnđềnày nhưngchúngvẫn gặpphải mộtsố hạn chếđó l

à v ấ n đềthờigian

Trongcácphươngphápphântáchvănbảnvàảnhtrongtàiliệuảnh,cóthểchiathànhbaloạiphươngphápcơbảnsau:

1 Sửdụngcácphépbiếnđổihìnhtháiđểlọcracácđốitượngtuyếntính,chẳnghạncác hình vẽvàsauđó táchnhữngđốitượngnày rakhỏitàiliệu,những thànhphầncònlạisẽđượccoilàvănbản.Phươngphápnày đặcbiệtcóhiệuquảđốivớicáctàiliệulàcácbảnđồđơngiản[5]

[14],tuynhiênnósẽgặpphảikhókhănkhimàtrongtàiliệucócáchìnhvẽphứctạphơn

2 Tươngtựnhưvậy,mộtsốkháclạiđitìmcácđườngkẻđểphânloạic á c đốitượng,dựavàophépbiếnđổivéctơhoá[12]củatàiliệuảnh

3 Phươngpháp thứ 3đượcsử dụngn h i ề u nhất,dựatrên việcphântíchcácthànhphầnliênthông,vàcácthànhphầnliênthôngnàysẽđượclọc raxemchúngthuộclớpđốitượngnào(vănbảnhayảnh)dựavàomộtsốquyt ắ c xácđịnh.Mộttrongnhữngthuậttoánnổitiếngnhấtdựatrênphươngphápn à y được đưarabởiFletchervàKasturi[4].Thuậttoánnày đãchứng minhrằngnócókhảnăngphântáchtốthailớpđốitượng,ngaycảkhitàiliệuchứa

Trang 37

Mộtthuậttoánphântáchvănbản-ảnhtrênnhững tàiliệuảnhvẽkỹthuậtdựatrênquytắc sẽđượctrìnhbàytrongchươngnày.Thuật toánphânt á chnàydựatrêntưtưởngphươngphápphântáchthứ3,tứclàđiphântíchcácthànhphầnliênthôngvàdựavàophântíchcácđặctrưngkhácnhaucủac á c đốitượngvănbảnvàảnh.Chiếnlượccủathuậttoánnàyđólàcốgắngđit ì

m càngn h i ề u càngt ố t c á c v ù n g đốitượngảnhvàl ư u t r ữ thôngtinc ủ a chúng,cáchlàmnàyhiệuquảhơnlàđitìmtrựctiếpcácvùng đốitượngvănb ả n trước.Thuậttoánnàycókhảnăngphân

táchđượccácđốitượngvănbảnbaogồmcáckýtựTrungHoa,kýtựPhươngTây,kýhiệuđặcbiệttừloạitàiliệuảnhcóchứahỗnhợpvănbảnvàảnhmộtcáchkháhiệuquả.Thuậttoánc ũ n g cómộtsốhạnchếtrongviệcnhận dạngmộtsốloạitàiliệuảnhvàmộts ố mứcđộnhiễuvà tuynhiênnócó khảnăngphântáchđốitượngvănbảntiếpxúcvớiđốitượngảnhvàkhôngphụthuộcvàokíchcỡkiểukýtự.Hướngcủachuỗikýtựcũngsẽđượcđánhgiá.Quátrình làmmảnhảnhcó thểdẫnđ ế n mấtthôngtin,thuậttoánsẽxửlýởmứcđiểmảnhtrướckhiquátrìnhlàmmảnhvàvéctơhoáđượcthựchiện,chínhvìvậymàhailớpđốitượngảnhsẽđượcl ư u lại:mộtlớpchứac á c đốitượngv ănbảnvàlớpkiachứa c á c đốit ư ợ n g ảnh.Cácloạiđốitượngnày sẽđượcnhận dạngsauđóbằngnhữnghệt hốngnhậndạngthíchhợp

Tiếptheoluậnvănsẽt rìnhbàychitiếtcác bướcthựchiệncủathuậttoán:Nhữngđặctrưngchungcủamộttàiliệuảnh,môtảcácbướcđểxácđịnhc á c đốitượngảnhvàtáchchúngrakhỏiđốitượngvănbản.

Trang 38

Dựatrênnhững địnhnghĩacơbảncủahailoạiđốitượngvănbảnvà ảnh ởtrên,chúng tacó thểnhận biếtđượcnhững đặctrưngkhácnhaugiữah ì n h baocủavùngvănbảnvàảnhđượcliệtkêdướiđây:

- Kíchcỡcủakýtựvănbảnbaogiờcũngnhỏhơnnhiềukíchcỡcủacá c đốitượngảnh.Tỉlệkíchcỡhìnhbaocủavănbảnthườngnhỏ.Chẳnghạnvới kiểuchữTahoma–20cótỉlệtrungbìnhcủachiềurộng/chiềucaolàvàok hoảng2:3

- Cáckýtựvănbảnthườngnằmtrongmộtchuỗikýtự.Khoảngcáchgiữacáckýtự trongmộttừhaykhoảng cáchgiữacác từthường lành ỏ vàthường theonhững quytắcnhấtđịnh.Hướngcủachuỗikýtựthườnglàtheochiềungang,chiềudọchoặclànghiêngmộtgóc45độ

- Độđậmcủanétchữtrongvùngchuỗivănbảnbaogiờcũnglớnhơnsovớiđộđậmcủavùngảnh

- Độdàicủacácthànhphầntuyếntínhtrongnétbútcủachuỗikýtựt h ư ờ n gngắnhơnsovớicácđốitượngảnh,chẳnghạnnhưmộtđườngkẻdàihiếm khixuấthiệntrongnétbútcủachuỗikýtự

Trang 39

Trênthựctếmỗiđặctrưngđượcđưaraởtrêncũngcómộtsốngoạilệxảy ra.Tuynhiênởtrênlàbốnđặctrưngchungnhấtcủacácđốitượngvănb ả n vàảnh.

Hình3.1Vídụvềcácđốitượngvănbảnvàđốitượngảnh

Hình3.1baogồmhailoạikiểukýtự:kýtựTrungHoavàkýtựTiếngA n h vàhìnhảnhlàmộtphầncủabảngvẽkỹthuật.Hình3.2biểudiễntầnsốxuấthiệncủacácđiểmảnhgiaonhaumàuđenvàmàutrắngkhi

đườngthẳngc ắ t ngangquacác đốitượng.NhìntrênHình3.2s ự thayđổitầnsốcủacác nétbúttrongvănbảnthườngcaohơnsovớiđốitượngảnh

abcd

Ngày đăng: 19/08/2014, 17:22

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w