http://www.lrc-tnu.edu.vn Sốhóabởi TrungtâmHọc liệu–ĐạihọcTháiNguyên MỤCLỤC Trangphụbìa Lờicảmơn MỤCLỤC---i THUẬTNGỮTIẾNGANH---iii DANHMỤCCÁCHÌNHVẼ---iv CHƯƠNGI:MỞĐẦU---1 1.1.. tnu.e
Trang 1Sốhóabởi TrungtâmHọc liệu–ĐạihọcTháiNguyên tnu.edu.vn
ĐẠIHỌCTHÁIN G U Y Ê N KHOACÔNGNGHỆTHÔNGTIN
Trang 2Sốhóabởi TrungtâmHọc liệu–ĐạihọcTháiNguyên http://www.lrc-tnu.edu.vn
ĐẠIHỌCTHÁIN G U Y Ê N K HOACÔNGNGHỆTHÔNGTIN
NgườihướngdẫnKhoahọc:
PGS.TSNgô QuốcTạo
TháiNguyên,tháng11năm2009
Trang 3http://www.lrc-tnu.edu.vn Sốhóabởi TrungtâmHọc liệu–ĐạihọcTháiNguyên
MỤCLỤC
Trangphụbìa
Lờicảmơn
MỤCLỤC -i
THUẬTNGỮTIẾNGANH -iii
DANHMỤCCÁCHÌNHVẼ -iv
CHƯƠNGI:MỞĐẦU -1
1.1 Cơ sở nghiêncứuvàmụcđíchcủaluậnvăn -3
1.2 Tổchứccủaluậnvăn -4
CHƯƠNGII:TỔNGQUANVỀHỆPHÂNTÍCHTÀILIỆUẢNH -5
2.1 Tài liệuảnh -5
2.2 Hệphântíchtrangtàiliệu -5
2.3 Thuthậpdữliệuảnh -6
2.4 Tiềnxửlýđiểmảnh -9
2.4.1 Xửlýnhịphân -10
2.4.2 Giảmnhiễu -11
2.4.3 Phânđoạnảnh -12
2.4.4 Làmmảnhvàxácđịnhvùng -12
2.4.5 MãhóaCCvàvéctơhóa -13
2.5 Phântíchđặctrưngcủatàiliệuảnh -15
2.6 Phântíchđốitượngvănbảntrongtàiliệu -15
2.6.1 Xácđịnhgócnghiêngcủavănbản -16
2.6.2 Phântíchbốcụccủatrangtàiliệuảnh -18
2.7 Nhậndạngkýtựquanghọc(OCR) -19
2.7.1 ThuậttoánOCR -20
2.7.1.1 Tríchchọnđặctrưng -20
2.7.1.2 Phânloại -21
2.7.2 Nhậndạngkýtựdựatrên ngữcảnh -21
2.8 Phântíchcácđối tượngảnhtrongtàiliệu -22
Trang 4tnu.edu.vn Sốhóabởi TrungtâmHọc liệu–ĐạihọcTháiNguyên
CHƯƠNG3:THUẬTTOÁNTÁCHVĂNBẢN-ẢNHTỪTRANGTÀILIỆUẢNH
-24
3.1 Tổngquanvềphântáchvănbản– ảnh -24
3.2 Nhữngđặctrưngchungcủamộttệptàiliệuảnh -27
3.3 Thuậttoánphântáchvănbản-ảnh -30
3.3.1 Xoábỏcácđốitượngtuyếntính -31
3.3.2 Phântíchcácthànhphầnliênthôngcủanétbút -32
3.3.3 Kếthợpcácnétkýtựtạothànhcácchuỗivănbản -34
3.3.4 Thựchiệncácphéptoánhìnhthái -35
3.3.5 Phântíchcácthànhphầnliênthôngmới -35
3.3.6 Biểudiễncấutrúcthôngtincủacácchuỗivănbản -36
CHƯƠNGIV:PHƯƠNGPHÁPPHÂNTÍCHBẢNGT-RECSTRONGTRANGTÀILIỆUẢNH -39
4.1 Giớithiệu -39
4.2 Thuậttoánphânđoạnkhởitạo -41
4.2.1 Trườnghợpthuậttoánnhậndạngsaicột -42
4.2.2 CảitiếncácbướccủathuậttoánphânđoạnkhởitạoT-Recs++44 4.2.3 Nhữngưuđiểmcủathuậttoán -46
4.2.4 Nhữngmặthạnchếcủathuậttoánkhởitạo -47
4.3 Cácbướcxửlýkhốisaukhiphânđoạn -48
4.3.1 Trộncáckhốiphânđoạnsai -48
4.3.2 Phântáchcáccộtbịtrộnvàomộtkhối -49
4.3.3 Nhómcáctừbịphântách -52
4.4 Phântíchkhối -53
4.5 Xácđịnhcấutrúccáccột,hàng -54
CHƯƠNG5CHƯƠNGTRÌNHTHỬNGHIỆMVÀMINHHỌATHUẬTTOÁN T-RECS++ -56
5.1 Môtảchươngtrình -56
5.2 Mộtsốkếtquả -58
KẾTLUẬNVÀĐỀXUẤT -61
Trang 6Hình2.1 Sơđồquátrìnhxửlýt à iliệu
Hình2.2 Sơđồquátrìnhphântíchtrangtà iliệu
Phươngphápnhịphânảnh.(a)Histogramcủaảnhđacấpxámnguyên Hình2.3 bản,(b)chọnngưỡngthấp,(c)chọnngưỡnghợplý,
(d)chọnngưỡngq u á cao.
Hình2.4 Ảnhnguyênbản(Vântay)bêntráivàảnhsaukhilàmmảnhbênphải.
Tàiliệuảnhtrướcvàsaucácbướctiềnxửlý.Ảnh(a)gốc,ảnh(b)ảnh Hình2.5 saukhichuyểnvềảnhnhịphân,ảnh(c)ảnhsaukhichỉnhnghiêng, ảnh
Hình3.5 Hình3.5Nhậ ndạ ngđườngkẻn g h i êngvớiphéptoá nkéodã nHình4.1 Vídụminhhọatưtưởngcủathuậttoánkhởitạo
Hình4.2 thuậtkhởitạ ođố ivớimộ tđoạ nvănbả
nHình4.3 Trườnghợpthuậttoánnhậndạngsaicột
Hình4.4
TrườnghợpgiữacácdòngcủamộtcộttrongbảngcóôtrắngHình4.5
MôphỏngviệcthựchiệncácbướcđãcảitiếncủathuậttoánHình4.7 Quátrìnhphânđoạncáccộtcủabảng
Hình4.8
TrườnghợpmộtôcủabảngchiếmnhiềudòngHình4.9
Nhữngmặthạnchếcủathuậttoán Hinh4.10
TrộnhaikhốibịphântáchHình4.11
Táchcáccộtbịtrộn Hình4.12 Trộ nlạ icá ckhố iconbịt ách
Hình4.14 Táchcáckhốiloại1thànhcácôcủabảngHình4.15
Trang 7GiaodiệnchươngtrìnhT-Recs Hình5.2 Nhậ ndạ ngkhố ivănbả nvớiT-Recc++
Hình5.3 Nhậ ndạ ngtà iliệuả nhlàbả ngquychếvớiT-Recs++
Trang 8nkhótránhkhỏinhữngthiếusótt rongquát rìnhlàmluậnvăn.
Đểhoànthànhđượcluậnvănnày.Emxinbàyt ỏ lòngbiếtơnsâusắctớiPGS.TSNgôQuốcTạo- ngườithầyđãt ậntìnhgiúp
đỡemtrongsuốtquátrìnhtìmhiểu,xâydựngvàp hát triểnluậnvănnày
Thôngtin–ViệnkhoahọcViệt
Namđãgiảngdạyvàhướngdẫnemtrongsuốt2nămhọcqua.Emcũngxincảmơnbanlãnhđạo khoavàt o ànthểt hầycôgiáo trongkhoaCôngNghệt hôngtin –
ĐạiHọcTháiNguyênđãt ạo
điềukiệntốtnhất giúpemhọctậpvàhoànthànhluậnvănnày Vàcuốicùngtôicũngxincảmơngiađình,cácbạntrongnhómluậnvănvàt o ànthểcáchọcviênlớp CaohọcK6 đãđ ộngviên,quantâmvàgiúp đỡtôitrongthờigianqua
Cuốicùngtôirấtmongnhậnđượcsựchỉd ẫn ,gópý củacácthầycôvàcácbạnđểluậnvăncủatôiđượchoànthiệnhơn
Trang 9CHƯƠNG1:MỞĐẦU
Nhậndạngvàxửlýảnhlàmộtlĩnhvựcmangtínhkhoahọcvàcôngnghệ.ỞViệtNamNhậndạngvàxửlýảnhlàmộtngànhkhoahọcmớimẻsovớinhiềungànhkhoahọckhácnhưngtốcđộpháttriểncủanórấtnhanh.Sựrađời củanóđãtạoracáckỹthuậtquantrọngảnhhưởngtrựctiếpđếncáclĩnhvựcnhư:Tivi,truyềnthông,kỹxảođồhoạ…
Cùngvớisựphátt riểnđócónhữngnhucầu
thựctếđ ặtrat háchthứccácnhàkhoahọcmáytínhcàngnhiều Nhữngcôngviệc, nhữngbàitoánđượcxửlýt heolốicổt ruyềnkhôngtheo
kịptốcđộp háttriểncủacôngnghệngàynay.Một trongnhữngbàitoánđóchínhlà
cáctàiliệuđ ượclưutrữtrêncácchấtliệucổ truyềnnhư
giấy,gỗ,vảivớikhốilượngkhổnglồ, chứađựngrấtnhiềutrithứccủanhânloạinhưnglạikhôngcóđ ộb ềnvĩnhcửu,khóxửlývàlưutrữ.Một
,xửlýd ễdàng,thuậntiênvànhanhgọn.MộtlĩnhvựccủakhoahọcnhândạnglàPhântíchtàiliệuảnhđãrađờinhằmbiểudiễnthôngtintrongcáctàiliệuảnhdướidạngcócấutrúc
Hệphântíchvànhậndạngtàiliệuảnhcómụcđích làchuyểnđổitựđ ộ n g nhữngth ôn g tinlưutrữtrongtàiliệugiấyt hà nh biểudiễndướidạngn h ữngcấutrúcmàcóthểtruyxuất,thayđổiđượcbằngmáytính.Quytrìnhx ửlýcủamộthệphântíchtàiliệubắtđầubằngviệclấydữliệu,
Trang 102cáctàiliệutừgi ấyinsẽđượcquétquamáyquétđểlưutrữtrongmáytínhdướidạngcáctệ
pd ữliệuảnh
Trang 11Mộttàiliệuảnhlà mộtcáchbiểudiễntrực quancủacáctrang tàiliệuđượcinnhưmộtbàitạpchí,mộtláthư,mộttrangbáo,mộtmẩuthưhaymộtb ả n vẽkỹthuật,.v.v Mộttài liệuảnhcó thểbaogồmcác chuỗikýtự, các h ì n h vẽ,các bứcả n h, v.v Bêncạnhviệcchuyển toànbộnộidungcủa tàiliệusangtàiliệuđiệntửcũngcầnphảibảotoàncấutrúcvàđịnhdạngcủatàiliệu.M ụ c tiêuc ơ b ả n c ủ a mộthệphântíchtàiliệuảnhhoànc h ỉ n h đól à c h u y ể n mộttàiliệulưutrữbằnggiấysangdạngbiểudiễncóthứtựcấutrúcvànộidungcủa nó.T à i liệuđược c h u y ể n sangphải cókhản ă n g thayđổi,s o ạ n thảovàlưutrữbởivì nộidungcủatài liệucóthểtruycậpbởicấutrúccủanóthayvìphảitruycậpdướidạngnhữngmẫuảnh.Cómộtsốlượng lớnứ n g dụngcủahệphântíchtàiliệuảnhđượcứngdụngtrongcáclĩnhvựcnhư:dịchvụbưuchính,Chínhphủ,chămsócytế,thưviện, v.v.
Mụcđíchcủaluậnvănlànghiêncứukỹt huậtnhậndạngbảngvàt ríchchọnrađ
-R e c s ”lànghiêncứuchính
Vớitưtưởngc h í n h c ủ a “Phươngphápphântíchb ả n g ” đ ó làkhôngx e mxétđếnbấtcứmộtloạiđườngphâncáchnàođểxácđịnhcấutrúcbảng.Thayvàođó phươngphápsẽtậptrungvàoviệcnhận biếtcác từtrongcùngmộtkhốilogic(chẳnghạncáctừtrongcùngmộtcộtdữliệusẽđượcchovàot r o n g cùngmộtkhối).Phươngphápsẽkhôngđitìm
nhữngđặctrưngđểphânbiệthaivùngdữ liệu(haicột)khácnhaumàtìmnhững đặctrưngđể tìmrac á c t ừ t r o n g cùngmộtk h ố i logicvàtừđ ó x â y dựngcấutrúcr
i ê n g theop h ư ơ n g pháptiếpcậnbottom-up.
Trang 121.1 Cơsởnghiêncứuvàmụcđíchcủaluậnvăn
Ảnhlàmộtđốitượngkháphứct ạ p vềđườngnét,dunglượngđiểmảnh,đ ộ s
á n g t ối,môit r ườngđ ể thunhậnảnhp h o n g phúk é o theon h i ễu.Trongnhiềukhâuphântíchảnhngoàiviệcđ ơngiảnhoác á c p hươngphápt o á n họcđảmbảotiệnlợichoxửlý,ngườitamongmuốnbắtchướcquytrìnhtiếpnhậnvàxửảnhtheocáchcủaconngười.Trongcácbướcxửlýđónhiềuk h â u hiệnnayđãxửlýtheocácphươngpháptrítuệcủaconngười.N h ữ n g hệt h ố n g nhậndạngcấutrúckhôngchỉđơngiảnlàchuyểnmộttàiliệuinthànhmộttàiliệuđiệntửmàhơnthếnữacònlàxâydựngnhữngquátrìnhxử
lýkếthợpchẳnghạnnhư:tựđộngchépnộidụng,đánhchỉmụcvàphânloại.Dođóviệcquant r ọ n g làkèmtheonộidungcủat à i liệucũngp h ả i t r í c h c h ọ n ran h ữ n g cấutrúcđikèmvớitừngnộidungđó.
Nhậndạngbảnglàbàitoánnhậndạngracấutrúcbảngcótrongtrangtài liệuảnh,baogồmviệcnhậndạngcáccột,cácdòngvàcácôcóchứadữliệutrongbảng.N
táchcácđốitượngảnhtrongnhữngtrangtàiliệuảnhcóchứahỗnhợpcácđốitượnglàchuỗikýtựvàcácđốitượngảnhnhư:cácsơđồ,hìnhvẽ,bứcảnh…v.v
Mặcdùđãcónhiềukỹthuậttronghệthốngnhận dạngcấutrúc.Tuynhiênnhữngnghiêncứutrênnhữngvấnđềđóvẫncòntiếptụcpháttriểnbởiv ì chấtlượng,độchínhxác,tínhhiệuquảcủanhữngphươngphápđượccôngb ố trước đâyvẫn cònchưahoànchỉnhvàcần phảicảitiếnchúng Luậnvănnày trìnhbàykỹthuậtnhậndạngcấutrúcbảng bêntrongtàiliệuảnhT-
RecsvàđềxuấtmộtsốphươngphápkhắcphụchạnchếthuậttoánT-Recsđểhoànthiệnhiệnhơnphươngphápphântíchbảng
Trang 131.2 Tổchứccủaluậnvăn
Luậnvănđượctrìnhbàythành5chươngvà1phụlục
Chương1Trìnhbàytómtắtcơsởnghiêncứuvàmụcđíchcũngnhưc á c h tổchứccủaluậnvăn
Chương2Tổngquanvềhệp hântíchtàiliệuảnhvàcácthànhphầnchínht ronghệp hântíchtàiliệuảnh :Lấydữliệu,xửlýảnh,tríchchọnđặctrưng,nhậndạngđốitượngảnhvànhậndạngvănbản
Chương3trìnhbàybài
toánphântáchvănbảnvàảnhmộtcáchriêngrẽ.Trongchươngnàymộtthuậttoánphântáchvănbảnvàảnhcũngsẽđượct r ì n h bàydựavàoviệcphântíchcácthànhphầnliênthông(CCs)
Chương4trìnhbàyphươngphápphântích
bảng(T-Recs)dựa trênn h ữ n g hình chữ nhậtbaoquanhmộttừvàđầuralàcấutrúclogiccu
̉akhốiv ă n bản,cụthểvớinhữngbảngnhậndạngđượcsẽlàcấutrúccáccộtvàcácôcủabảngdữliệu.Phântích những mặthạnchếcủathuậttoán-
trường hợp n h ậ n dạngchưachính xáccáccột dữ liệutrongbảngluậnvănđưarathuậtt o á n khắcphụcnhữngmặthạnchếđó
Chương5Chươngtrìnhthửnghiệmvàminhhọaphântíchbảngtrongt r a n g tàiliệuảnh
Trang 14CHƯƠNG2:TỔNGQUANVỀHỆPHÂNTÍCHTÀI LIỆU ẢNH
2.1 Tàiliệuảnh
Hìnhảnhc ủ a mộtđốit ư ợ n g làs ự s a o c h ụ p lạic h í n h bảnt h â n đốit ư ơ
̣ n g đó.Ảnhđượchìnhthànhquamộthệthốngảnh
Tàiliệuảnhlàcácfileảnhđãđượcsốhóathuđượcbằngcách:quétcáctrangtàiliệu,chụpảnh,máyfax,hoặctừvệtinh,cácfileảnhnàyđượclưutrữtrongmáytính.Ảnhtàiliệuc ó nhiềuloại:đentrắng,ảnhmàu,ảnhđacấpxám,…v.v
2.2 Hệphântíchtrangtàiliệu
Hệp h â n tíchtrangtàiliệu: Làmộthệthốngbaogồmnhữngthuậttoánvàcác
kỹthuậtcóthểápdụngchocáctàiliệuảnhđể lấyrađượccáct h ô n g tinmàmáytínhcóthểđọcđượcvàhiểuđượctừcácđiểmdữliệuảnh.M ộtlĩnhvựcthuđượcnhiềuthànhcôngnhấttrong
phântíchtàiliệuảnhđólàNhậndạngKýtựQuanghọc(OCR),phầnmềmcókhảnăngnhận,chuyểnđổicáckýtựtừcácloạitàiliệudướidạngảnhsangtàiliệudướidạngtext.OCRgiúpngườidùngcókhản ăngsoạnthảovàtìmkiếmnộidungcủatàil i ệu
Thànhphầnchínhcótrong mộthệphântíchtàiliệu:Mụcđ ích củamột
hệphântíchtàiliệulàcókhảnăngnhậndạngracácđốitượngvănbản,đốitượngảnhtrongtàiliệuảnhvàcókhảnăngtríchchọnrađượccácthôngtinmàngườidùngmongmuốn.Chúngtacóthểchiamộthệphântíchtàiliệuthànhhaiphần.Phầnthứnhấtlàxửlývănbản,liênquanđếnviệcxửlýcácđốitượngv ănbản:kýtự,chuỗikýtự,cáctừ.X ửlý
v ănbảnbaogồmcáccôngviệcsau:xácđịnhđộnghiêngcủatàiliệu(độnghiênghayđộxiêncủat à i liệuảnhdotàiliệuđượcđặtkhôngđúng khithựchiệnquétvàotừmáyquét),tìmcáccột,cácđoạnvănbản,cácdòngvănbản,cáctừvàcuốicùnglà
Trang 15nhậndạngv ănbản(cóthểthêmc á c t h u ộct í n h n h ưloạiphôngc h ữ,kíchthướccủaphôngchữ)bởiphươngphápnhậndạngkýtựquanghọc(OCR).Phầnthứhailàxửlýcácđốitượngảnhlàcácđốitượngtạoratừcácđườngk ẻtrongsơđồ,cácđườngkẻphântáchgiữacácđoạnvănbản,cáchìnhvẽ,c á c lôgôcủacôngty…
Saukhiápdụngc ác kỹthuậtphântíchảnhvàv ănbản,cácđốitượngcầnnhậndạngtrongtàiliệuảnhđượctríchravàđượcbiểud i ễndướidạngmộttàiliệuđịnhdạngkhác,chẳnghạnnhưword,html…
Tacót hểt ó m tắtq uátrìnhxửlýcủahệphântíchtàiliệutheosơ
Xửlýđườngkẻ
Xửlývùngvàkýtựđặcbiêt
Vănbản
Xácđ ị n h đ ộ n g h i ê n g ,
dòngvănbản,cáckhốivănbản,cácđoạnvăn
Đườngthẳng,đường cong,góc
Trang 16- Lượngtrithứcvôgiácủanhânloạivớisốlượnglớnđượclưutrữtrongcácthưviệncổđ iểndướicácchấtliệunhưgiấy, vải,gỗvẫncòntồntạirấtnhiều,việccáctàiliệubịmấtcácthôngtin, thiếuthôngtin,sốlượngbản
Trang 17saohạnchếhaythậmchícáctàiliệubịthoáihoátheothờigianlànhữngvấnđ ề phổbiến.Vìvậychúngcầnphảiđượckhôiphụcvàchỉnhsửabằmg
nhữngk ỹ thuậtphântíchtàiliệu
- Ngàynaycácvănphònghiệnđạicáccôngviệcđềuđượcgiảiquyếtd ựavàomáytính Các tàiliệuvănbảnvớinhiềuđốitượng
(chữ,hìnhảnh,cácsơ
đồ)đượctạoratrênnhiềumá y tínhkhácnhau,phầnmềmkhácnhaudo
đócót hểlàcácđịnhdạngcủacáctàiliệuđólàk hôngtươngthíchvới
nhau,kíchthướccũngkhácnhau.Nhưvậycầnmộthệp hântíchtàiliệug i ú p nhậndạngcácloạitàiliệu,tríchchọnrađượccác phầnchứcnăngvàcó thểchuyểntừmộtđịnhdạngmáytínhnàysangmộtđịnhdạngkhác
- Mộtbàitoánk hácđ ượcđềcậplàcác máyphânloạithưtựđộngdùngđểphânloại,sắpxếpthưvànhận dạngđịachỉthư.Nhữngmáynàyđãc ó từnhữngthậpkỷtrước,nhưngngàynayyêucầucaohơnđólàxửlýnhiềuthưhơn,nhanhhơnvàyêucầuchínhđộxáccaohơn
Trang 18TrangtàiliệuThunhậndữliệuXửlýđ iểmảnhPhântíchđặctrưng
Phântíchvànhậnd
ạngđốitượngvăn ngđốitượngảnhPhântíchvànhậndạ
Mô tàiliệu
Hình2.2Sơđồquátrìnhphântíchtrangtà iliệu
Cáchệphânt í c h tàiliệusẽn g à y càngpháttriểnvàh i ểnnhiênl à c h ú n g sẽ
c ó t r o n g cá c hệx ửl ý tàiliệu.C h ẳngh ạnnhư,hệt h ốngOC R sẽđượcsửdụngrộngrãiđểlưutrữ,tìmkiếmvàtríchdẫntừcáctàiliệulưutrữt r ê n giấy.Cáckỹthuậtphântíchcáchbốtrítrongmộttrangtàiliệugiúpnhậnd ạngnhữngbiểumẫu(form)riêngbiệt,hayđịnhdạngcủamộttrangtàiliệuvàchophépsaolưutàiliệuđó.Cácsơđồcóthểđượcđưavàotừcácbứcảnhh a y vẽbằngtayvàcóthểthayđổi,soạnthảolạichúng.Sửdụngmáytínhcóthểchuyểncáctàiliệuviếtbằngtaythànhcáctàiliệuđiệntửđượcl ưutrữt r o n g máytính.Cáctàiliệuđượclư utrữ trongcác thưviện,cáctàiliệukỹt
h u ậttrongcáccôngtysẽđượ cchuyểnđổisangthànhtàiliệuđiệntửnhằmn â n g caohiệuquả,thuậntiệntrongviệclưutrữvàdễdàngmangđếncơquanh a y mangvềnhà.Mặcdùtàiliệusẽngày càng đượcxửlývàlưutrữ nhiềut r o n g máytínhnhưngtrênthựctếcórấtnhiềucáchệthốngkhácnhaumàtài
Trang 19liệugiấylàphươngtiệnlàmviệchiệuquảvàchắcchắnrằng tàiliệugiấyvẫnsẽlàphươngtiệnlàmviệcvớichúngtatrongmộtvàithậpkỷnữa.Vấnđềởđâylàlàmsaochúngtatíchhợpnhữngtàiliệugiấyvàotrongmáytínhxửlý.
Sauđâytasẽtìmhiểun g ắngọncácbướcxửlýcủamộthệphântíchtàiliệuảnh
2.3 Thunhậndƣ̃liệuảnh
Cácdữliệutrêncáctrangtàiliệugiấythườngđượcquétquamáyquétvàđưavàomáytínhdướidạngfileảnh,chúngbaogồmcácđiểmảnh(pixels)vàđượclưutrữ Vớiảnhnhịp hângiátrịđiểmảnhcóthểlà0hoặc1,vớiảnhđacấpxámvàảnhmàugiát rịđ iểmảnhnằmtrongkhoảng0 đến 255với3giátrịR, G, B từ0đến255.Ởđộphângiảithôngthườngthìcó120điểmảnhtr ê n 1centimetvàvới1trangcókíchthước20x30cmthìtạoramộtảnhvới24 00x3600điểm ảnh.Dođó cóthểthấyrằngmộttàiliệuảnhchỉbaobồmc á c dữ liệuthô(giátrịcácđ i ể m ảnh)vàc h ú n g sẽđượcsử dụngnh ững kỹthuậtphântíchthíchhợpđểlấyrađượccácthôngtincầnthiết
2.4 Tiềnxửlýđiểmảnh
Bướctiếptheotrongmộthệphântíchtàiliệulàthựchiệnmộtsốthaot á c xửlýtrêntàiliệuảnhthuđượcđểchuẩnbịchonhữngbướcphântíchtiếptheo.Chẳnghạnnhưcác thaotác:chọn ngưỡngđể chuyển ảnhđacấpxám,ả n h màuvềdạngảnhnhịphân,giảmnhiễuđể loạibỏ những dữliệukhôngliênquan,phânđoạnđể phântác
hc ác t h à n h phần khácn h a u trong ảnhvàcuốicùnglàlàmmảnhh ay dòbiênđê
̉dễd àng xácđịnhcác vùng,các đặctrưngthíchhợpvàcácđốitượngcầnquantâm.Saunhữngbướcxửlýởtrên,d ữ liệuthườngđượcbiểudiễndướidạngnénlạinhưdùngmãhoáCCvàbiểudiễndướidạngvéctơ.
Trang 202.4.1 Xƣ̉ lýnhịphân
Vớinhữngảnhđacấpxámcácthôngtinđãsẵnởdạngnhịphânchẳnghạnnhưcácchuỗivănbảnhaycácđốitượngảnh,thìphươngphápnhịphânt h ô n g thườngsẽđượcthựchiệntrước.Mụcđíchcủaphươngphápnàylàsẽtựđ ộ n g chọnmộtngưỡngcầnthiếtđểtáchảnhralàmhaiphần:thôngtinảnhvàth ôn gtinnền.Việclựachọnmộtngưỡngtốt(n gưỡngmàcó thểp h â n táchả n h thànhhaiphần:phầnảnh,phầnnềnmộtcáchchínhxác)luônlàmộtquát r ì n h khóvàdễgâyralỗi(0)
Hình2.3Phươngphápnhịphânảnh.(a)Histogramcủaảnhđacấpxámnguyênbản,
(b)chọnngưỡngthấp,(c)chọnngưỡnghợplý,(d)chọnngưỡngquácao.
Trang 21Quátrìnhxửlýnàysẽgặpk hókhănt rongcáct rườnghợpk h i : độtươngphảngiữagiátrịcácđiểmảnhvănbảnvànềnlàthấp(chẳnghạnnhưv ănbảnđượcsoạnthảotrênmộtnềnxámthuầnnhất),nétcủavănbảnmỏnghoặcdữliệukhôngđượcchiếusángtốtkhithựchiệnquéttàiliệugiấy.Rấtnhiềuphươngp h á p đ ã đ ư ợ c pháttriểnđ
ểk h ắcphụcn h ữnghạnc h ếtrên,c h ẳnghạnnhưphươngpháptáchngưỡngtựđộngtìmragiátrịθthíchhợpđểchiaảnhthànhhaiphần
2.4.2 Giảmnhiễu
Nhiễutrongtàiliệuảnhlàdonhiềunguyênnhânbaogồm:sựthoáihoátheothờigian,quátrìnhsaochép,quátrìnhquéttàiliệu.Mộtsốkỹthuậtx ửlýảnh sẽđượcápdụngđể loạibỏnhiễu.Saukhiđượcnhịphânhoá,tàiliệuảnhsẽđượclọcđểgiảmnhiễu.Trênthựctếtồntạinhiềuloạinhiễu,tuyn h i ê n ngườitathườngxemxét3loạinhiễuchính:nhiễucộng,nhiễunhânvàn h i ễuxung.Chúngxuấthiệnnhưnhữngđiểmảnhkhácbiệtsovớivùngxungquanh,chẳnghạncácđiểmảnhnhiễuON(điểmmangthôngtinảnh)trongv ù n gnềnOFF(điểmmangthôngtinnền)hayngượclạicácđiểmảnhOFFt r o n g vùngnềnONvàcáccạnhgồghềcủakýtựhaycácđốitượngảnh
Bảnchấtcủanhiễulàthườngtươngứng vớitầnsốcaovàcơsởlýt h u y ếtcủacácbộlọclàchỉchonhữngtínhiệucótầnsốnàođóthôngqua,dođ ó đểlọcnhiễungườitathườngsửdụngbộlọcthôngthấphaylọctrungbình.V ớ i n h i ễ u cộngvànhiễun h
â n t a d ù n g c á c b ộ lọcthôngthấp,trungbình;vớinhiễuxungtadùnglọc
trungvị,giả trungvị
Tronglọc
trungbình,thườngngườitaưutiênchocáchướngđểbảovệbiêncủaảnhkhỏibịmờkhilàmtrơnảnh.Cáckiểumặtnạđượcsửdụngtùytheocáctrườnghợpkhácnhau.Cácbộlọctrênlàbộlọctuyếntínhtheonghĩalàđiểmảnhởtâmcửasốsẽđượcthaybởitổhợpcácđiểmlâncậnchậpvớimặtnạ.Lọcthôngthấpthườngđượcsửdụngđểlàmtrơnnhiễu
Trang 22Cácbộlọcphituyếncũngđượcdùngtrongkỹthuậttăngcườngảnh.Trongkỹthuậtnàyngườitadùngbộlọctrungvị,bộlọcgiảtrungvị.Vớibộlọctrungvịcácđiểmảnhsẽđượcthaythếbởitrungvịcácđiểmảnh,bộlọcgiảtrungvịthìcácđiểmảnhđượcthaythếbởitrungbìnhcộngcủahaigiátrị“ t r u n g vị”.
2.4.3 Phânđoạnảnh
Quátrìnhphânđoạnảnhđượcthựchiệnlàmhaigiaiđoạn Giaiđoạnthứnhất,táchcáclớpvănbảnvàảnhriêngbiệtnếunhưtrongtàiliệucóchứac ả vănbảnv
à ảnh.Giaiđoạnthứhailà
thựchiệnphântá chtrênhailớpđốitượngvừatáchởtrên,vớivănbảnxácđịnhcáccột,cácđoạnvănbản,cáctừvàcác kýtự;với lớpđốitượngảnhthựchiệnphântáchcácbi
ểu tượng, các h ì n h vẽ,cácđường kẻvàcác h ình ảnh Chẳnghạn như mộttàiliệuảnhcó chứacácđoạnvănbảnvàcáchìnhminhhoạgiốngnhưmộttrangtạpchí,đầutiênvănbảnvàảnhsẽđượctáchriêng.Sauđóvănbảnsẽđượctáchrathànhc á c chuỗikýtự.Ảnhthìđượctáchracácthànhphầnnhưhìnhchữnhật,hìnhtròn,cácđườngkẻ,biểutượng.v.v Saubướctrêntàiliệuảnhsẽphântáchrathànhnhững đốitượngnhỏhơnnhưcáckýtựvàcácthànhphầncơbảncủaảnh
2.4.4 Làmmảnhvàxácđịnhvùng
Làmmảnhảnhlàmộtthaotácxửlýảnhtrongđóđốitượngảnhđượcbiểudiễnnhưlànhữngđườngtrụcđượcgọi làđườngtâmhaycòngọilàlấyx ư ơ n g c ủ a ảnh
M ộ t đốitượngả n h khiđ ó c h ỉ đ ư ợ c biểud i ễ n bởiđườngx ư ơ n g của nóbằngviệcgi ảm bớt số lượngđiểm ảnhcó giátrịONcủa đốit ư ợ n g vàvẫn đảmbảotínhchấtliênthôngcủađốitượng.Mụcđíchcủaviệclàmmảnhảnhlàgiảm bớtcácthành phần màchỉlưutrữ cácthôngtinthiết y ế u phụcvụchoviệcphântíchvànhận dạngsaunày thuậntiệnhơn.Chẳngh ạ n nhưmộtđường kẻthẳngcó thểvẽbằngtayvớiđộ đậmcủa nétbútlà
Trang 23Nóichungv ớ i các đốitượngcó k í c h thướclớn,d ò b i ê n làphươngpháplựachọnthíchhợpđểbiểudiễnđốitượng,cònđốivớinhữngđối
tượngđượctạothành bởinhữngnétkếtnốidàithìlàmmảnhlàphươngphápthíchhợphơn.Làmmảnhthườngđượcsửdụngnhưlàmộtquátrìnhtiềnxửlýđốiv ớ i nhữngứngdụngphântíchtàiliệunhưxửlýsơđồhaybảnđồ.Vớinhữngđốitượng ảnhlớn màvù n g ảnhđược tôđầy chẳnghạn nhưnhững lôgôthìphươngphápdò biênđốitượng thích hợphơn.Nhưngvới nhữngvùng nhỏ, c h ẳ n g hạntừngkýtựriêngbiệtthìcũngkhôngphảiphươngpháplàmmảnh c ù n g khôngphảiphươngphápdòbiênđượcthựchiệnmàkhiđóvùngảnhsẽđượcbiểudiễndướidạngmảngcácgiátrịcủađiểmảnh
Trang 242.4.5 MãhóaCCvàvéctơhóa
Khimộtđốitượngản h đượcbiểudiễndướidạngxươngcủaảnh haybằngđường viền,chúng có thểbiểu diễnmộtcáchhiệuquảhơ nlàlư ucác đ i ể m ảnhmộtcáchđơngiảncácgiátrịONvàOFF.Mộttrongnhữngphươngphápl ư u ảnhhiệuquả
đ ó l à l ư u d ư ớ i d ạ n g mãxíchC C ( C h a i n Code–
F r e e m a n 1974),trongđócácđiểmcógiátrịONđượcbiểudiễnthôngquatậpc á c điểmlánggiềng đitheomộthướng quyđịnh.Thayvì phảilưu trữvịtrícủađiểmảnh
c ó giátrịO N c h ú n g t a s ẽ l ư u t r ữ h ư ớ n g c ủ a c á c đ i ể m l á n g giềng.Cácđiểmlánggiềngcủamộtđiểmxlàtấtcảcácđiểmnằmliềnkềvớix thuộcmatrận3x3vớiđiểmxlàtâm.Cóhaiưuđiểmkhibiểudiễngiátrịđ i ể m ảnhtheohướngthayvìphảilưuvịtrícủađiểmảnh.Thứnhấtđólàviệcl ư u trữhiệuquảhơn.Thôngthườngvớinhữngảnhcókíchthướclớnhơn256x 256,toạ độgiátrịđiểmảnhONthường đượcbiểudiễnbởi16bít; tráilạiv ớ i cáchlưutrữCCmộtđiểmlánggiềngthuộc1trongtámhướng,dođómỗimộtđiểmảnhONchỉcầnbiểudiễnbằng1bytehaythậmchíchỉcần3bítđểlưu.MộtưuđiểmkháccóthểthấytrongCCđólàvìCClưutheocấutrúccácđ i ể m ảnhcóliênquanvớinhauvàdođódựavàocáchthứclưutrữ
nàycóthểthựchiệncáccôngviệcxửlýnhưlàmtrơncácđườngcongvàtínhxấpxỉcácđ
ư ờ n g thẳngtrơn
Saubướcxửlýđiểmảnh,dữliệuthôcủaảnhđãđượcbiểudiễnởcấpđ ộ trừutượngcaohơn:đãkhoanhđượcvùng baocủachuỗikýtự,biểudiễnC C vàvéctơcủacácđườngcongvàđườngthẳng,hayđãxácđịnhđượcvùngbiêncủacácđốitượng
Tàiliệuảnhquacácquá trìnhtiềnxửlýsẽlàtàiliệucơsởcho
quátrìnhphântíchcấutrúccủatàiliệuđó.Hình2.5minhhọamộttàiliệutrướcvàsaukhithựchiệnquátrìnhtiềnxửlý
Trang 25ọ c t r ê n đườngcong.C á c đ ư ờ n g congt h ư ờ n g đượctínhxấpxỉbởihìnhđagiác.Cácđiểmquantrọngchẳnghạncácđiểm gócvàđiểm bịuốncongđềuđượcxác địnhđểgiúp íchchoviệcphântíchnhậndạngcáchìnhvẽ.Đốivớicácvùnggiớihạntươngứngcủatừngkýt ự riêngrẽhaycácbiểutượng ảnh,cácđặctrưngnộitạinhưtỉlệhình dáng,đ ộ chặtcủahìnhbao(tỉlệgiữadiệntíchvàchuvi),tínhkhôngđốixứng,độđậmđặccủacácđiểmđen,tínhtrơncủađườngviền,sốlượngđườngviền,sốl ư ợ n
g cácđường thẳnggiaonhauvàcác đường đầumút đềuđượctính toánđ ể làmdữliệuđầuvàophụcvụchoviệcnhậndạngtừngđốitượng
2.6 Phântíchđốitượngvănbảntrongtàiliệu
Cóhailoạiphântíchđượcápdụngtrongviệcphântíchvănbảntrongt à i liệuảnh.Loạithứnhấtlànhậndạngkýtựquanghọc(OCR)
đểnhậndạngt ừ n g kýtự,cácchuỗikýtựtừảnhbitmap(bmp),loạithứhailàphântíchsơđ ồ trìnhbàycủatrangtàiliệunhằmnhậnbiếtđượcđịnhdạngcủavănbản,và
Trang 26từđóhiểuđượcc ấ u trúc,v ị t r í , c h ứ c n ă n g c ủ a c á c khốiv ă n bản( t i ê u đ ề chính,tiêuđềphụ,đoạnvănbản,
chúthích.v.v ).Phụthuộcvàocáchsắpxếpcủacáckhốivănbản,mộttrangvănbảncóthểlàmộttrangtiêuđề,mộtbảngmụclụccủatạpchí,mộtbiểumẫukinhdoanh,haylàmộtphongbìthư.Nhậnd ạ n g kýtựquanghọcvàphântíchsơđồtrìnhbàycóthểđượcthựchiệnmộtc á c h riêngrẽ,haycóthểlấykếtquảcủaphầnnày đểsửdụngchophầnkia.N hận dạngkýtựq u a n g h ọ c t h ư ờ n g đượcn h ậ n biết n h ư làứ n g dụngnhậndạ n g kýtựviếttayhaycác ký tựtrongtàiliệuin.Kỹthuậtphântích sơđồt r ì n hbàyđượcápdụngđểphântíchđịnhdạngcủatrang,mộtloạiứngdụngp h â n tích sơđồtrình báyđó lànhậndạngbiểu mẫu,giúp phântích vànhậnd ạ n g cấut r ú c b i ể
u mẫuv à c á c v ă n bảnc ó t r o n g b i ể u mẫu.Trongmộts ố t r ư ờ n g hợpngười tacầnphảixácđịnhđộnghiêngcủatàiliệubởivì tàiliệuđượcquétcóthểbịnghiêngsovớibềngangcủatranggiấytrongtrườnghợpt à i liệuđ ó khôngđượcđ ặ t đ ú n gkhiquétvàot ừ máyq u é t Ư ớ c lượngđ ộ n g h i ê n g vàphântíchsơ đồ trì n h bàycủa v ă n bảnsẽđượcmôt ảng ắn gọnt r o n g phầndướiđây.Phươngphápnhậndạngkýtựquanghọcsẽđượcđềcậpđ ế n ởphầnsau
2.6.1 Xácđịnhgócnghiêngcủavănbản
Mộtdòngvănbảnbaogồmmộtnhómcáckýtự,biểutượngvàcáctừn ằ m liềnkề nhau,khágần nhauvàđềunằmtrêncùngmộtđườngthẳng(cóthểtheochiềuthẳngđứnghay
chiềudọc).Thôngthườnghướngcủacácdòngv ă n bảnsẽxácđịnhđộnghiêngcủatàiliệu.Bìnhthườngmộttrangtàiliệusẽc ó độnghiênglà0khimàcácdòng vănbảntheochiềunganghaychiềudọcs ẽ songsongvớicáccạnhtươngứngcủatrangtàiliệu,tuynhiêntrongmộtsốt r ư ờ n g hợpkhimộttrangtàiliệuđ ư ợ c quéth a y s a o c h ụ pbằngt a y , đ ộ nghiêngcủatàiliệukhiđósẽkhác0
Trang 27Hình2.6Vănbả nbịnghiêngsaukhiđượcquétquamá yquét.Hình2.6chovíd ụvềmộtvănbảnnghiêngsaukhiquétảnhgốcquamộtmáyscan.
Vìcác b ư ớ c phântích n hư OCRh a y phântích sơđ ồ trìnhbàyphụthuộcvàot r a n g tàil i ệ u đầuvàov ớ i đ ộ nghiênglà0 d o đ ó xácđịnhđộn g h i ê n
g vàđiềuchỉnhđộnghiêngcủatàiliệulàmộtviệclàmcầnthiếttrướck h i thựchiệnnhữngbướctrên.Mộtphươngphápxácđịnhđộnghiêngcủatàiliệuphổbiếnđó làphépchiếunghiêng.Phépchiếu nghiênglàphươngpháptínhsốlượngđiểmảnhON(điểmảnhcógiátrị1trongảnhnhịphân)khiquétả n h theocácdònghaycáccột vàlưugiátrịnàyvàomộtmảng,trongđóchỉsố củamảngchínhlàdònghaycộtđượcquét.DođógiátrịcácđiểmảnhONk h i quétquatrangảnhsẽđượcbiểudiễnbởimộtđồthịtầnsuất.Mỗimộtlầnthựchiệnphépchiếu nghiêngtasẽchiếuả n h theocác góckhácnh a
u (từ0đ ế n 180đ ộ ) , tứclàs ẽ thựchiệnquayảnhmộtgóct ư ơ n g ứng.Phépchiếun
g h i ê n g thườngđượcthựchiệntheochiềunganghoặcdọcvàđượcgọilàcácphépchiếunghiêngtheochiềungang,dọctươngứng.Vớimộttàiliệuảnhmàgócnghiêngbằng0thìcác đỉnhcủa phépchiếubiểu diễncácdòngcóchứa k ý tự, c ò n các v ù n gtrũngbiểudiễn chokhoảng không giantrắnggiữacá c dòng.Để tìmđượcgócnghiêngcủavănbảnthì sẽtìmgócquaysaochođồt h ì tầnsuấtcónhiềunhữngđỉnhcaonhấtvànhữngvùng trũngnhất.Nếuđồt h ịtầnsuấtcó10đỉnhvà10vùngtrũngthìcóthểsuyrarằngtàiliệuảnhcó
Trang 2810dòngvănbản.Dođó với mỗiphépchiếu nghiêngtasẽtínhsốđođộcaocủacácđỉnhvàsố đođộcaocác vùng trũng,góc chiếu nàomàcó sựkhác n h a u giữahaisốđonàylàlớnnhấtthìchínhlàgócnghiêngcủavănbản.
2.6.2 Phântíchbốcụccủatrangtài l i ệuảnh
Saukhixácđịnhđượcgócnghiêngcủatrangtàiliệu,ả n h sẽđ ượcquaymộtgócđểđộngh iêngcủatrangbằng0,sauđóquátrìnhphântíchbốcụccủa trangtài liệ
uđ ượcthựchiện.Phântíchbốcụctrangđ ượcthựchiệnđểlấyrađược cấutrúcc ác khối vănbản(cácđoạnvănbản)trongtàiliệu.T u ỳ thuộcvàođịnhdạngcủa t ừ n g loạitàiliệu,quátr ì n h phânđoạncó thểthựchiệnphântáchcáctừ,cácdòngvănbảnhaycấutrúccáckhối(nhómcácd ò n g vănbản, chẳnghạn các đoạnvănbảnhaycác bảngdanhmục).Thôngthường ngườitadựavàoquytắcsắpxếpthôngtintrongtrangtàiliệuđểnhậnd ạ n g từngkhốivàg á n n h ã n choc hú n g M ộ t thí dụđưarak ế t quảs a u khip hâ n tíchtrangđầutiêncủamộttàiliệukỹthuậtbaogồm:têntàiliệu,tácgiả,
t ó m tắt,từkhoá,cácđoạntrongthânvănbản v.v.Hình2.7đưaramộtthíd ụ vớikết quảsaukhiđãthực hiệnphântíchcấutrúcvàgán nhãnchocác khốitrênmộttrangtàiliệuảnh.Phântíchcấu trúccủa trangcóthểsửdụngp h ư ơ n g phápt i ế pcậntrên- x u ố n g [11]h a y tiếpcậnd ư ớ i –
l ê n [ 1 0 ] Vớip h ư ơ n g
pháptiếpcậntừtrên-xuống,mộttrangtàiliệuđượcphântáchtừcácthànhphầnlớnxuốngcácthànhphầnnhỏhơn,chẳnghạntrangtàiliệucóthểp h â n táchthành các cột,sauđó các cộtđượcphântáchthành các đoạnvănbản,từcácđoạnvănbảnlạitáchrathànhcácdòngvănbản,sauđótáchcáctừ.v.v Với phươngpháptiếpcậntừdưới –
lên,các thành phần liênthôngđượctrộnvớicáckýtựđểnhậndạngtừ,cáctừlạiđượctrộnvớinhauđểtạothànhcác dòng vănbản, từcác dòng vănbản xâydựngtha
̀nhcác đoạnvănb ả n v v Mộtcách lầnlượt,haiphươngpháptrêncóthểkết hợpcùngnhauđ ể phântíchcấutrúccủatàiliệu
Trang 29Hình2.7Vídụminhhọakếtquảphântíchbốcụccủ atrangtà iliệuả nh
2.7.Nhậndạngkýtựquanghọc(OCR)
Nhưchúngtađãb iếttrênthếgiớicónhiềukiểuchữkhácnhau, mặtkháccáck y
́ tựt rongmộtb ả n g chữc a ́ithườngc ó rấtn h i ê ̀ukiểuv i ế t khácnhau.Trênthựctếcáckýtựthườngđượcviếtbằngnhiềukiểukhácnhautuỳt h u ộ c vàokíchcỡ,loạiphôngchữvànétbútviếttaycủatừngngười.Mặcdùc á c kýtựcóthểviếttheonhiềucáchnhưngchúngvẫn cónhữngquytắcxácđ ị n h để n h ậ n biếttừngkýtự.Pháttriển
n hữ n g thuậttoántr ên máytính để n h ậ n biếtcáckýtựtrongbảngchữcáilàmộtnhiệm vụtrọngtâmcủaOCR.N h ư n g tháchthứcđốivớivấnđềnàyđólà–
trongkhiconngườicóthểnhậnd ạng gầnnhư
chínhxác100%cáckýtựviếttaythìOCRvẫnchưathểđạttớiđượcđiềunày
KhókhănđốivớiOCRthểhiệnquamộtsốđặcđiểm.Sựgiatăngsốl ư ợ n g vàkíchcỡcủaphôngchữtrongbảngchữcái,khôngràngbuộccáckiểuc h ữ viếttay,cáckýtựnốiliềnnhau,cácnétbịđứt,cácđiểmnhiễuv.v Tấtc ả chúnglàmchoquátrìnhnhậndạnggặpkhókhăn.Hình2.8chỉramộtthíd ụ giữasố„0‟vàsố„6‟rấtdễnhầmlẫnkhichúngđượcviếtbằngtay.Mộttừ
Trang 30cũngcó thểho àn toànlàcác consố, chẳnghạn cácsốđiện thoại,hayhoànt oà nlàcáckýtựtrongbảngchữcáihoặccóthểtrộnlẫngiữachữcáivàsố.
Hình2.8Chữviếttaycóthểg â y nhầ mlẫ n
2.7.1 ThuậttoánOCR
ThuậttoánOCRth ườ n g có h a i phần chính: trích chọn đặctrưngv
à p h â n loại.Mộtcách cơbản, quátrình OCRgán mộtảnhkýtựvàomộtlớpb ằ n
g cáchsửdụngthuậttoánphânloạidựatrênnhữngđặctrưng đượctríchchọnvàmốiliênhệgiữacác đặctrưngđó.Độđotươngtựlàcơsởđể xácđ ị n h mộtđốitượngcó thuộcmộtlớp kýtựhaykhông.Thôngthường sẽcó mộtt h à n h p hầ n thứb a đ
ó làq u á t r ì n h x ử l ý d ự a trênn g ữ c ả n h đ ể sửalạin h ữ n g lỗicủaOCR.Dướiđâ
ysẽtrìnhbàyngắngọnbathànhphầncủaOCR
2.7.1.1 Tríchchọnđặctrƣng
Tríchchọnđặctrưngliênquanđếnviệctríchranhữngthuộctínhcủađốitượngdướidạngcácđộđo
Đểbiểudiễnmộtlớpkýtựphảixâydựngmộtmôhình nguyênmẫuchungchocáclớpkýtự.Vàdođóquátrìnhtríchchọnđ ặ c trưngsẽcốgắngtìmracácthuộctínhdựatrênnguyênmẫuđãxâydựngchocáclớp.Cácđặctrưngchungnhư,sốlượngcáclỗhổngtrongkýtự,mặtlõmcủađườngviềnbênngoài,sựnhôracủađiểmcaonhấtvàcácđặctrưngnộitại,cácđiểmcắtngang,cácđiểmkếtthúc,cácgóc.v.v sẽđượcsửdụng.M ỗ iảnhkýtựsẽtríchracácđặctrưngtrênvàphânloạichúngvàolớptươngứng
Trang 312.7.1.2 Phânloại
Trongphươngphápphânloạidựatrênthốngkê,nhữngmẫuảnhkýtựđượcbiểudiễnbằngcácđiểmtrongkhônggianđặctrưngđachiều.Mỗimộtthànhphầntrongkhônggianđachiềubiểudiễnchomộtđộđođặctrưng.Quát r ì n h phânloạisẽchiakhônggianđachiềuthànhcácvùngtươngứngvớicáclớpkýtựvàchúngđượcgánnhãntươngứng
2.7.2.Nhậndạngkýtựdựatrênngữcảnh
Nhậndạngkýt ựdựatrênngữcảnhsửdụngthôngtintừcáckýtự
khácnhauđược n h ậ n dạngtrongmộttừvàdựav à o ý nghĩac ủ a từkhilắpghépkýt
ự vàotừ.Thôngthường mộttừcó nghĩahaykhôngsẽdựa vàotừđiểnhaytừvựngc
ủangônngữđó.Giảsửgiữahaitừuvàvrấtkhóphânbiệtk h i nhậndạng,chẳnghạnmột tronghaitừnàyxuấthiệntạivịtríthứhai(tínhtừtráisangphải)củatừqXeen.Kỹthuậtx ửlýdựatrênngữcảnhsẽxácđịnhk ý tựulàthíchhợptrongtrườnghợpnàyvìtrongt ừđiểntừqveenkhôngcót ro ng từđiểnTiếngAnh.Chúngtacũngcóthểápdụngquy tắckýtựđitheos a u kýtựqchỉcóu.
Đãc ó nhữngn g h i ê n cứ u mộtc á c h hệt h ố n g kế t quản h ậ n dạngthuđượctừOCRtrênTiếngAnh.MộtbáocáođầyđủkếtquảtừnhữngsảnphẩmO C R trêntàiliệuđượcinbằngmáyđượccôngbốbởitrườngđạihọcNevada[9].Vớinhữngtàiliệuđạt
tiêuchuẩn,kếtquảnhậndạngchínhxáctừ99.13%t ớ i 99.77% Vớin h ữ n g tàiliệucó c h ấ t l ư ợ n g kém,đ ộ c h í n h xácc ủ a nhậnd ạ n g cũngđ ạ t từ89.34%tới9 7
0 1 % K ế t quản h ậ n dạngg i ả m điđốivớinhững tàiliệuchấtlượngkémchủyếulàdocácnétkýtựbịđứtvàcáckýtựliềnkềnốiliềnnét
Đãc ó rấtnhiềutàil i ệ u n g h i ê n c ứ u môtảp h ư ơ n g phápnhậndạngO C
R OCRđượccoilànghiêncứuquantrọngnhấttronglĩnhvựcnhậndạng.Trongkhica
́cnghiêncứu phươngphápOCRtrênkýtự Lamãđãgiảm dần
Trang 32thìnghiêncứuOCRtrêncácloạikýtựkhôngphải Lamãtiếptụclàvấnđề đượcquantâmnhiềuđến.
2.8 Phântíchcácđốitƣợngảnhtrongtàiliệu
Trongphântíchtrangtàiliệuảnhthìn hậndạngđốitượngảnhlàmộttronghaichủđềquanvìcácthànhphầncủaảnhluônđikèmvớivănbản,
cácsơ đồbiểudiễn,lôgôcủa côngtyxuấthiệntrongđầuthư,vàcácđườngkẻ p h â ncáchcác ôtrongbảng Các đốitượngảnhđược n hậ n dạnglàcác ảnhxuấthiệndọctheocácđoạn vănbảnvàảnh trongtàiliệu.Chúng tacũngcóthểx â y dựngn h ữ
n g miềnứ n g dụngr i ê n g biệtđ ể n h ậ n dạngt ừ n g loạiđốit ư ợ n g ảnhtrongtàiliệu;chúngcóthểbaogồmcácbiểutượngtrongsơđồkỹthuật,biểuđồnghiệpvụ,bảnđồ,vântay.v.v…
Mụcđíchcủaviệcnhậndạngả n h làlấyrađượccác thôngtinmangý nghĩaxuấthiệnbêntrongnộidungcủaảnh
Phântíchtàiliệuảnhcàngtrởnênquantrọnghơnkhimàtàiliệuhầun hưđượctạo ravàxửlýb ằ n g máytínhthì việcNhữngngườilàmviệctrênmáytính liênquanđếnviệc truyềntảivàch uy ển đổitệp dữliệunhận thấymộtđiềurằngcáctệpdữliệuthườngítkhitươngthíchvớinhau.Bởivìcósựkhácnhauvềngônngữ,đặcđiểmcủahệthống,vàsựthayđổicủacácphiênb ả n CADvàcác góiđịnhdạngvănbản,dođócáctệpdữ liệucủanhữnghệ thống khácnhauthườngkhôngtươngthíchvớinhau.Mộthệthống xửlý tàiliệucóthểchuyểnđổimộtđịnhdạngtàiliệuảnhkỹthuậtnàysangđịnhdạngkhác,nhưngmụcđích củahệthống cũngphải cókhảnăngchuyểnđổiđượcn h ữ n g tàiliệuảnhvẽbằngtay.Điềunàycũnggiốngnhưviệcnhậndạngchữviếttayvàv ă n bảntrongO CR K h i máytínhcó khản ă n g phântí c h đượcn h
ữ n g hình vẽtayphứctạp mộtcách nhanh chóngvàchính xácthì vấnđề n h ậ
n dạngảnhsẽđượcgiảiquyết,tuynhiênđểđếnkhiđạtđượcđiềuđó thìv ẫ n cònnhiềucơhộivàtháchthứcđốivớilĩnhvựcnghiêncứunày
Trang 33Trongcácbướcxửlýđ ố i tượngảnhcónhữngbướcxứlýchungcũnggiống
n h ư đốiv ớ i nhậndạngv ă n b ả n Cácp h ư ơ n g phápt i ề n xửlý,phânđoạn,vàtríchchọnđặctrưngđược môtả trướcđâysẽđược thựchiệntrước tiên.Thuậttoánphânđoạnkhởitạothườngđểápdụngchotàiliệucólẫnđốit ư ợ n g vănbảnvàảnhnhằmtáchriêngthànhhaiphầnvănbảnvàảnh
Hầuhếtcáchệt hốngO CRt hươngmạic ó k hảnăngn hậnd ạ n g c ác đườngbiêndàivàđườngkẻtrongbảngkhácsovớicáchnhậndạngkýtự,dođ ó việccố gắngnhận dạngcác đốitượngđó nhưlàkýtựkhôngxảy ra.Hệph ântíchảnhchocácbảnvẽkỹthuậtphảiphânbiệtđượcđâulàvănbảnvàđ â u làảnh.Thôngthườngcáchệthốngđềucókhảnăngnhậndạngtốt
cácđốitượ ng ảnhngoạitrừmộtsốtrường hợpđặcbiệtchẳnghạnkhikýtựnốiliền
v ớ i cáchìnhvẽgâyranhầmlẫnđâylàmộtđốitượngảnh;haycónhữngbiểutượn gquanhỏvàđượccoinhưlàmộtkýtự.Táchđoạnvàphântíchảnhmàuvới nhiềulớpc ủ
a bảnđồ,n h ậ n dạngđốit ư ợ n g ảnhba chiềutrongảnhkỹthuật,vàn hữ n g bảnvẽkiến trúc 3–
Dlàn h ữ n g thí dụchothấycònnhiều tháchthứcđốivớinhữngngườilàmnghiêncứutronglĩnhvựcnhậndạng.Rõràngrằngrấtnhiềumiềnứngdụngphụthuộctrithứccũngđượcápdụngvàot r o n g tấtcảnhữnghệthốngnhậndạng,phântíchảnh
Hệp hântíchtàiliệuảnhvàcácthànhphầnchungđãđ ượcmô
tảt ổngquantrongchươngnày.Trongđóđã
trìnhbàycácbướcchínhtrongquát rìnhxửlýảnhtừkhithunhậnảnhđếnkhitríchrađượcnhữn
gthôngtinngườidùngmongmuốn Trongchương3sẽ môtảchitiếtnhữngthuậttoánnhậndạngđốitượngảnhdựavàothànhphầnliênthôngtrongtàiliệucólẫnảnhvàvănbản
Trang 34CHƯƠNG3 THUẬTTOÁNTÁCHVĂNBẢN- ẢNHTỪTRANGTÀILIỆUẢNH
3.1 Tổngquanvềphântáchvănbản– ả nh
Nhưchúngta đãb iếtmộttrangtàiliệuảnhthườngchứađựngcác
thôngtinhỗnhợpnhưcácđoạnvănbảnvàảnh,chẳnghạnnhưcáctrangbáođượcquét,bảnđồh ay các t à i liệuđượcquéttừmáyquét.D o đ óđể lấyrađượcphầnchứađựngthôngtinvàphầnchứaảnhriêngrẽvàchínhxáccầncóc á c kỹthuậtxửlýphứctạp.Cácthuậttoántáchvănbản-
ảnhsẽphânt á ch tàiliệuthànhhailớp:lớpchứa vănbảnvàlớpchứacác đốitượnga
ảnhgiúpchúngtalấyrađượccácthôngtinnhưvậy.Mộtthuậttoántáchvănbản-̉nh.C h ư ơ n g
nàysẽtrìnhkháiquátvềcácphươngpháptáchvănbản-ảnhvàtrìnhb à y
mộtthuậttoánphântáchvănbản-ảnh hiệuquả.Tưtưởngcơbảncủa thuậttoánlàtrướctiênđixácđịnhcácvùngkhôngphảilàvănbảnvàlưugiữt h ô n g tincủavùngnàyvàolớpcácđốitượngảnh.Cácvùngcònlạisẽthuộclớpvănbản.Cáchlàmnhưvậysẽhiệuquảhơnlàtrướctiênđixácđịnhtrựctiếpcácvùngvănbản
Trongmộthệthốngnhậndạngtàiliệu,mộttàiliệuthườngchứanhiềuloạibiểutượng(cáckiểukýtự,
ảnh)thôngtinkhácnhau.Chínhvìcósựkhácn h a u lớngiữacácđặctrưngcủatừngloạibiểutượngmàchúngsẽđượcxửlýtheotừngkỹthuậtkhácnhau.Hơnthếnữa,nhữngyêucầucaođốivớicáckỹthuậtxửlýảnhnhưcácphépvéctơhóađốitượngảnh,nhậndạngcácloạikýt ự TiếngAnh,kýtựsố,kýtựTrungHoađòihỏiphảiđược nghiêncứudựatheon h ữ n g cácht h ứ c khácnhau.Chínhv ì n h ữ n g l ý d o đ ó táchc á c t h à
n h p hần vănbảnvàảnhtừnhữngtệptàiliệuảnhlàmộtyêucầucầnthiếtđốivớimáytính
Trang 35Córấtnhiềuphươngpháptá c h vănbảnvà ả n h từtrangtàiliệuảnhđượccôngbốtrướcđây.Phươngphápđượcđưaratrongtàiliệu[3]dựatrênk h á i niệm,đốitượngvănbảnbaogiờcũngcókíchthướcnhỏhơnđốitượngảnh,quátrình táchvănbảnvàảnhđượcthực hiệnsaukhiđãlàmmảnhcác đốitượng Phươngpháptrênkháđơngiảnnhưngnósẽkhônghiệuquảkhimộtkýtựtiếpxúcvới mộtkýtựkháchaymộtđốitượngảnhkhác.Yamada[6]giới thiệumộtphươngpháptáchcácđối tượngtừbảnđồđịahình,trongđó phươngphápcóthểtáchracácđốitượnglàđườngđivàcáctoànhà,phầncò n lạicủabảnđồlàcác đốitượngvănbản.Mộttrongnhững phươngpháp đượcbiếtđếnnhiềunhấtlàcủaWong,CaseyvàWahl[7],đượcđiềuchỉnhvàc
ả i tiếntrong[2]Tuynhiên,mộtsố chứngminhchothấyphươngpháptrênc h ỉ hoạtđộng
hiệuquảtrêncáctệptàiliệuchứanhiềuvănbản,ngượclạitrênc á c tà i liệuảnhchứanhiềucác đốitượng ảnh thì phươngphápkhông h i ệ u quả.Mộtvàiphươngphápdựatrêncáckhoảngtrắng[15].Phươngphápđượcbiếtđếnlàhoạtđộnghiệuquảnhấttrongkỹthuậttáchvănbản-
ảnh được đưaratrong[4].Phươngphápnàydựatrênviệcphântíchcácthànhphầnliên
t h ô n g vàdựa vàophépbiến đổiHoughđể n h ó m cácthành phần trongcùngmộtchuỗikýtựvàtáchchúngrakhỏicácđốitượngảnh.Phươngpháphoạtđ ộ n g hiệuquảtrêncảnhững thayđổikiểuphôngchữ,kíchcỡphôngchữvàh ư ớ n g vănbản
Tấtcảcác phươngphápđượcgiớithiệuởtrênhoạtđộngdựatrêncáctrangtàiliệuảnhthỏamãncácyêucầusau:
- Tàiliệuảnhphảikhôngcócácthànhphầnnhiễuvàchúngp h ả i được
xửlýđểchuẩnhoámộtsốđiềukiệntrướckhithựchiệnthuậttoán
- Cácchuỗikýtựtrongtàiliệuảnhphảikhôngtiếpxúcvớiđốitượngảnh.Hướngcủacácchuỗikýtựthườngđượcnhậndạngtheochiềunganghay
Trang 36chiềudọc Trongtrường hợpchuỗikýtựcó hướng khácviệcnhận dạngsẽkhóhơn.
- VănbảnphảikhôngchứacáckiểukýtựTrungHoa[16]
Tuynhiênnhữngđiềukiện,yêucầuđốivớitàiliệuđượcnhậndạngởt r ê n đãlàmhạnchếviệcnhậndạngmộtsốlượnglớntàiliệucủamộtsốứngdụng.Chẳnghạntrongứngdụng
CAD/CAM,nósẽchuyểnmộtsốlượnglớntài liệuảnhtrêngiấysangđịnhdạngcủaCAD/
CAM.Tuynhiênnhữngloạit à i liệuảnhvẽnàylạicómộtsốlượnglớnthànhphầnnhiễu,cócáckýtựtiếpxúcvớikýtựvàkýtựtiếpxúcvớicácđốitượngảnh.Mặcdùcómộtsốthaot á c xửlý những vấnđềnày nhưngchúngvẫn gặpphải mộtsố hạn chếđó l
à v ấ n đềthờigian
Trongcácphươngphápphântáchvănbảnvàảnhtrongtàiliệuảnh,cóthểchiathànhbaloạiphươngphápcơbảnsau:
1 Sửdụngcácphépbiếnđổihìnhtháiđểlọcracácđốitượngtuyếntính,chẳnghạncác hình vẽvàsauđó táchnhữngđốitượngnày rakhỏitàiliệu,những thànhphầncònlạisẽđượccoilàvănbản.Phươngphápnày đặcbiệtcóhiệuquảđốivớicáctàiliệulàcácbảnđồđơngiản[5]
[14],tuynhiênnósẽgặpphảikhókhănkhimàtrongtàiliệucócáchìnhvẽphứctạphơn
2 Tươngtựnhưvậy,mộtsốkháclạiđitìmcácđườngkẻđểphânloạic á c đốitượng,dựavàophépbiếnđổivéctơhoá[12]củatàiliệuảnh
3 Phươngpháp thứ 3đượcsử dụngn h i ề u nhất,dựatrên việcphântíchcácthànhphầnliênthông,vàcácthànhphầnliênthôngnàysẽđượclọc raxemchúngthuộclớpđốitượngnào(vănbảnhayảnh)dựavàomộtsốquyt ắ c xácđịnh.Mộttrongnhữngthuậttoánnổitiếngnhấtdựatrênphươngphápn à y được đưarabởiFletchervàKasturi[4].Thuậttoánnày đãchứng minhrằngnócókhảnăngphântáchtốthailớpđốitượng,ngaycảkhitàiliệuchứa
Trang 37
Mộtthuậttoánphântáchvănbản-ảnhtrênnhững tàiliệuảnhvẽkỹthuậtdựatrênquytắc sẽđượctrìnhbàytrongchươngnày.Thuật toánphânt á chnàydựatrêntưtưởngphươngphápphântáchthứ3,tứclàđiphântíchcácthànhphầnliênthôngvàdựavàophântíchcácđặctrưngkhácnhaucủac á c đốitượngvănbảnvàảnh.Chiếnlượccủathuậttoánnàyđólàcốgắngđit ì
m càngn h i ề u càngt ố t c á c v ù n g đốitượngảnhvàl ư u t r ữ thôngtinc ủ a chúng,cáchlàmnàyhiệuquảhơnlàđitìmtrựctiếpcácvùng đốitượngvănb ả n trước.Thuậttoánnàycókhảnăngphân
táchđượccácđốitượngvănbảnbaogồmcáckýtựTrungHoa,kýtựPhươngTây,kýhiệuđặcbiệttừloạitàiliệuảnhcóchứahỗnhợpvănbảnvàảnhmộtcáchkháhiệuquả.Thuậttoánc ũ n g cómộtsốhạnchếtrongviệcnhận dạngmộtsốloạitàiliệuảnhvàmộts ố mứcđộnhiễuvà tuynhiênnócó khảnăngphântáchđốitượngvănbảntiếpxúcvớiđốitượngảnhvàkhôngphụthuộcvàokíchcỡkiểukýtự.Hướngcủachuỗikýtựcũngsẽđượcđánhgiá.Quátrình làmmảnhảnhcó thểdẫnđ ế n mấtthôngtin,thuậttoánsẽxửlýởmứcđiểmảnhtrướckhiquátrìnhlàmmảnhvàvéctơhoáđượcthựchiện,chínhvìvậymàhailớpđốitượngảnhsẽđượcl ư u lại:mộtlớpchứac á c đốitượngv ănbảnvàlớpkiachứa c á c đốit ư ợ n g ảnh.Cácloạiđốitượngnày sẽđượcnhận dạngsauđóbằngnhữnghệt hốngnhậndạngthíchhợp
Tiếptheoluậnvănsẽt rìnhbàychitiếtcác bướcthựchiệncủathuậttoán:Nhữngđặctrưngchungcủamộttàiliệuảnh,môtảcácbướcđểxácđịnhc á c đốitượngảnhvàtáchchúngrakhỏiđốitượngvănbản.
Trang 38Dựatrênnhững địnhnghĩacơbảncủahailoạiđốitượngvănbảnvà ảnh ởtrên,chúng tacó thểnhận biếtđượcnhững đặctrưngkhácnhaugiữah ì n h baocủavùngvănbảnvàảnhđượcliệtkêdướiđây:
- Kíchcỡcủakýtựvănbảnbaogiờcũngnhỏhơnnhiềukíchcỡcủacá c đốitượngảnh.Tỉlệkíchcỡhìnhbaocủavănbảnthườngnhỏ.Chẳnghạnvới kiểuchữTahoma–20cótỉlệtrungbìnhcủachiềurộng/chiềucaolàvàok hoảng2:3
- Cáckýtựvănbảnthườngnằmtrongmộtchuỗikýtự.Khoảngcáchgiữacáckýtự trongmộttừhaykhoảng cáchgiữacác từthường lành ỏ vàthường theonhững quytắcnhấtđịnh.Hướngcủachuỗikýtựthườnglàtheochiềungang,chiềudọchoặclànghiêngmộtgóc45độ
- Độđậmcủanétchữtrongvùngchuỗivănbảnbaogiờcũnglớnhơnsovớiđộđậmcủavùngảnh
- Độdàicủacácthànhphầntuyếntínhtrongnétbútcủachuỗikýtựt h ư ờ n gngắnhơnsovớicácđốitượngảnh,chẳnghạnnhưmộtđườngkẻdàihiếm khixuấthiệntrongnétbútcủachuỗikýtự
Trang 39Trênthựctếmỗiđặctrưngđượcđưaraởtrêncũngcómộtsốngoạilệxảy ra.Tuynhiênởtrênlàbốnđặctrưngchungnhấtcủacácđốitượngvănb ả n vàảnh.
Hình3.1Vídụvềcácđốitượngvănbảnvàđốitượngảnh
Hình3.1baogồmhailoạikiểukýtự:kýtựTrungHoavàkýtựTiếngA n h vàhìnhảnhlàmộtphầncủabảngvẽkỹthuật.Hình3.2biểudiễntầnsốxuấthiệncủacácđiểmảnhgiaonhaumàuđenvàmàutrắngkhi
đườngthẳngc ắ t ngangquacác đốitượng.NhìntrênHình3.2s ự thayđổitầnsốcủacác nétbúttrongvănbảnthườngcaohơnsovớiđốitượngảnh
abcd