LU NăV NăTH CăS... Bookmark not defined.. Bookmark not defined.. Bookmark not defined.. Bookmark not defined.. Bookmark not defined.. Bookmark not defined.. Phân tách ch vi t tay và các
Trang 1LU NăV NăTH CăS
NG IăH NGăD NăKHOAăH C:ăăPGS.TS.ăNGÔ QU C T O
HÀăN Iăậ 2007
Trang 2L IăC Mă N!
Lu n v n lƠ k t qu đ t đ c sau hai n m h c cao h c (2004-2006) t i
tr ng i h c Công Ngh - i h c Qu c Gia HƠ N i vƠ quá trình nghiên c u, công tác t i Trung tơm nghiên c u vƠ phát tri n Công ngh ph n m m, i h c Công ngh , HQGHN
Tr c tiên tôi xin g i l i bi t n chơn thƠnh nh t t i PGS TS Ngô Qu c T o
vƠ Th c s Nguy n Ti n S , ng i th y đƣ truy n đ t cho tôi nh ng ki n th c đ u tiên v X lý nh vƠ nh n d ng, ng i th y đƣ dìu d t, h ng d n tôi vƠ cho tôi
nh ng ý ki n quý báu, nh ng l i khuyên b ích trong su t quá trình tìm hi u vƠ hoƠn thƠnh lu n v n nƠy
Tôi xin bƠy t lòng bi t n đ n các th y cô trong Tr ng i h c Công ngh
đƣ d y d tôi trong su t hai n m h c cao h c v a qua Tôi xin g i l i c m n đ n Trung tơm nghiên c u vƠ phát tri n Công ngh Ph n m m, n i đƣ t o đi u ki n cho chúng tôi h c t p trong su t th i gian h c cao h c
Tôi xin bƠy t lòng cám n sơu s c đ n anh ch , b n bè cùng l p K11T2 đƣ cho tôi nh ng l i đ ng viên, góp ý vƠ giúp đ tôi trong quá trình h c t p vƠ th c
hi n lu n v n Tôi xin c m n các th y, anh ch vƠ các b n trong Trung tơm nghiên
c u vƠ phát tri n Công ngh ph n m m luôn cho tôi nh ng l i đ ng viên, khích l ,
nh ng góp ý sơu s c vƠ nh ng đ nh h ng đ tôi s m hoƠn thƠnh lu n v n nƠy Xin
c m n Khoa Công ngh thông tin, Tr ng i h c Công ngh , HQGHN luôn t o
đi u ki n t t cho tôi h c t p vƠ công tác trong su t quá trình h c t p vƠ lƠm lu n
Trang 3L IăCAMă OAN
Tôi xin cam đoan k t qu đ t đ c trong lu n v n lƠ s n ph m c a riêng cá nhơn tôi, không sao chép l i c a ng i khác Lu n v n lƠ k t qu c a quá trình h c
t p, nghiên c u vƠ lƠm vi c nghiêm túc trong su t h n hai n m cao h c Trong toƠn
b n i dung c a lu n v n, nh ng đi u đ c trình bƠy ho c lƠ k t qu nghiên c u
c a cá nhơn ho c lƠ k t qu t ng h p t nhi u ngu n tƠi li u khác Nh ng k t qu nghiên c u nƠo c a cá nhơn đ u đ c ch ra rõ rƠng trong lu n v n Các thông tin
t ng h p hay các k t qu l y t nhi u ngu n tƠi li u khác thì đ c trích d n m t cách đ y đ vƠ h p lý T t c các tƠi li u tham kh o đ u có xu t x rõ rƠng vƠ đ c trích d n h p pháp
Tôi xin hoƠn toƠn ch u trách nhi m vƠ ch u m i hình th c k lu t theo quy đ nh cho l i cam đoan c a mình
HƠ N i, tháng 11/2007
Phan V n Thu n
Trang 4M CăL C
M U
CH NG 1 - T ng quan 81.1 t v n đ 81.2 N i dung vƠ c u trúc c a lu n v n 10
CH NG 2 - Khái quát m t s ph ng pháp phơn vùng nh vƠ kh nghiêng Error! Bookmark not defined.
2.1 T ng quan v x lý bi u m u. Error! Bookmark not defined.
2.1.1 Các đ c tr ng c a bi u m u Error! Bookmark not defined.
Bookmark not defined.
2.1.3 Quá trình x lý bi u m u d a trên đ ng ký bi u m u (Form
registration) Error! Bookmark not defined.
2.1.4 H th ng x lý bi u m u Error! Bookmark not defined.
2.2 Các k thu t th ng đ c s d ng trong nh n d ng c u trúc bi u
m u. Error! Bookmark not defined.
2.2.1.1 Phơn tích hình nh c a phép chi u Error! Bookmark not defined.
2.2.1.2 Xác đ nh góc nghiêng d a vƠo bi n đ i Hough Error! Bookmark not defined.
2.2.1.3 Phơn c m hƠng xóm g n nh t Error! Bookmark not defined.
2.2.1.4 S t ng quan c a các đ ng th ng Error! Bookmark not defined.
2.2.1.5 M t s k thu t tính góc nghiêng khác. Error! Bookmark not defined.
2.2.1.6 B ng t ng k t v các thu t toán xác đ nh góc nghiêng Error! Bookmark not defined.
2.2.2 Phơn tích trang Error! Bookmark not defined.
2.2.2.1 Các k thu t phơn vùng ký t Error! Bookmark not defined.
2.2.2.2 Các k thu t phơn vùng trang v n b n Error! Bookmark not defined.
2.2.2.3 Các k thu t k t h p phơn vùng/phơn l p Error! Bookmark not defined.
2.2.2.4 Các k thu t phơn l p kh i Error! Bookmark not defined.
2.2.2.5 B ng t ng k t v các k thu t phơn tích trang Error! Bookmark not defined.
CH NG 3 - xu t gi i pháp s d ng bi u m u đ ng Error! Bookmark not defined.
3.1 H th ng x lý bi u m u đ ng Error! Bookmark not defined.
Trang 53.1.2 So sánh v i các ph ng pháp truy n th ng Error! Bookmark not defined.
3.1.3 Ph ng pháp nhơn d ng c b n Error! Bookmark not defined.
3.1.4 Thi t k h th ng Error! Bookmark not defined.
3.1.4.1 Ki n trúc h th ng Error! Bookmark not defined.
3.1.4.2 H th ng chu n b bi u m u Error! Bookmark not defined.
3.1.4.3 H th ng x lý bi u m u Error! Bookmark not defined.
3.1.4.4 ng d ng Error! Bookmark not defined.
3.2 Các thu t toán x lý nh áp d ng cho x lý bi u m u đ ng Error! Bookmark not defined.
3.2.1 Khái ni m bi u m u đ ng Error! Bookmark not defined.
3.2.2 L c đ x lý bi u m u đ ng Error! Bookmark not defined.
3.2.3 Các ph ng pháp tách ch vi t tay ra kh i khung đi n Error! Bookmark not defined.
3.2.3.1 Tìm hi u các thu t toán tách c b n Error! Bookmark not defined.
3.2.3.2 Tách ch vi t tay ra kh i khung đi n Error! Bookmark not defined.
3.2.4 Xác đ nh v trí các khung đi n Error! Bookmark not defined.
3.2.4.1 Ph ng pháp chi u Error! Bookmark not defined.
3.2.4.2 Ph ng pháp b qua các kho ng tr ng Error! Bookmark not defined.
not defined.
3.3 Các thu t toán khác áp d ng cho bi u m u đ ng Error! Bookmark not defined.
3.3.1 Thu t toán bóc vi n Error! Bookmark not defined.
3.3.2 Thu t toán xác đ nh góc nghiêng Error! Bookmark not defined.
3.3.2.1 Thu t toán s d ng phép chi u Error! Bookmark not defined.
3.3.2.2 Thu t toán s d ng đ ng th ng dƠy Error! Bookmark not defined.
3.4 Th c nghi m Error! Bookmark not defined.
3.4.1 Môi tr ng th c nghi m Error! Bookmark not defined.
3.4.2 Th c nghi m đ i v i các thu t toán c b n trên bi u m u đ ng
Error! Bookmark not defined.
3.4.2.1 Th c nghi m tách ch vi t tay kh i khung đi n Error! Bookmark not defined.
3.4.2.2 Th c nghi m xác đ nh v trí các khung đi n thông tin Error! Bookmark not defined.
3.4.2.3 Th c nghi m xác đ nh c u trúc đi m nh trong t ng khung Error! Bookmark not defined.
defined.
3.4.3.1 Xác đ nh góc nghiêng c a nh theo ph ng pháp chi u Error! Bookmark not defined.
Trang 63.4.3.2 Th c nghi m nh n d ng đ ng th ng dƠy Error! Bookmark not defined.
K t lu n Error! Bookmark not defined.
o TÀI LI U THAM KH O 12
Trang 7DANHăM CăHÌNHă NH
ảình 2.1: L c đ quá trình x lý bi u m u d a trên Ngôn ng mô t bi u m u
Error! Bookmark not defined.
ảình 2.2: M t h th ng x lý bi u m u v n b n Error! Bookmark not defined ảình 2.3: (a) nh tr c khi kh nghiêng; (b) nh sau khi kh nghiêng Error!
Bookmark not defined.
ảình 2.4: (a), (b), (c) : Các đ i t ng trên nh ; (d), (e), (f) : Phân c m các đ i
t ng [17] Error! Bookmark not defined ảình 3.1 Phân tách ch vi t tay và các khung Error! Bookmark not defined ảình 3.2 ả th ng bi u m u đ ng Error! Bookmark not defined ảình 3.3: Data set Error! Bookmark not defined ảình 3.4: Vùng mã hóa thông tin Error! Bookmark not defined ảình 3.5: M t minh h a v bi u m u đ ng Error! Bookmark not defined ảình 3.6: Lu ng x lý Error! Bookmark not defined ảình 3.7: ảình nh c a ch m nh Error! Bookmark not defined ảình 3.8: M t c u trúc c a khung Error! Bookmark not defined ảình 3.9: M t bi u m u đ ng Error! Bookmark not defined ảình 3.10: M t s c u trúc ch m nh Error! Bookmark not defined ảình 3.11: M t l c đ x lý bi u m u đ ng Error! Bookmark not defined ảình 3.12 : Khung tr c khi tách Error! Bookmark not defined ảình 3.13 : Khung sau khi đã tách ch vi t tay Error! Bookmark not defined ảình 3.14 : Ch vi t tay sau khi đã tách khung Error! Bookmark not defined ảình 3.15 : Phép chi u theo chi u ngang Error! Bookmark not defined ảình 3.16 : Phép chi u khung theo chi u d c Error! Bookmark not defined ảình 3.17 : Phép chi u theo chi u d c các đi m nh Error! Bookmark not
Bookmark not defined.
ảình 3.24: (a) nh scan, các đ ng màu đ là các đ ng chi u góc nghiêng
(b) nh đ c x p x b i các hình bình hành Error! Bookmark not defined.
ảình 3.25: (a) nh scan (b) (c) (d) nh các đ ng chi u đen và tr ng các góc nghiêng -2.50
, -3.50, 20 Error! Bookmark not defined.
ảình 3.26: (a) nh scan (b) nh sau khi chính xác góc nghiêng Error! Bookmark
not defined.
ảình 3.27 nh tr c và sau khi xoay đúng chi u Error! Bookmark not defined ảình 3.28 Phi u tr l i đ c quét ng c chi u Error! Bookmark not defined.
Trang 8M U
Nh p d li u t đ ng đang lƠ bƠi toán ngƠy cƠng thu hút nhi u s chú ý vƠ
đ u t nghiên c u b i vì đơy th t s lƠ m t v n đ quan tr ng, c n thi t do kh n ng
áp d ng r ng rƣi vƠo th c t c ng nh hi u qu mƠ nó mang l i Trong bƠi toán nƠy,
kh nhi u, kh nghiêng vƠ phơn vùng nh lƠ m t ph n có vai trò đ c bi t quan
tr ng Ch c n ng c a nó lƠ chính xác nh, tách ra các vùng đ c nh p thông tin, tách ch vi t tay ra kh i khung đi n thông tin đ lƠm đ u vƠo cho module nh n
d ng ch Trong lu n v n nƠy chúng tôi trình bƠy m t ph ng pháp s d ng “c u
trúc các ch m nh ” đ t o ra các khung đi n thông tin C u trúc các ch m nh nƠy
đ c t o ra b i r t nhi u các ch m nh ho c các đo n th ng nh Ph ng pháp c a chúng tôi có nh ng đ c đi m n i b t sau:
Không c n thi t k bi u m u có mƠu s c mƠ v n tách các ký t ch
vi t tay ra kh i khung đi n
D dƠng tách ph n ch vi t tay ra kh i khung đi n m t cách nhanh chóng vƠ d dƠng b ng các thu t toán x lý nh đ n gi n, đ c bi t trong các tr ng h p ch vi t tay đè lên khung
Chi phí cho x lý bi u m u lƠ th p
Không c n bi t tr c v trí logic c a các khung đi n ch vƠ tìm cách
x lý t đ ng các ký t trong khung
Chúng tôi đƣ ti n hƠnh th c nghi m trên nhi u m u bi u m u đ ng vƠ thu
đ c nh ng k t qu r t kh quan
Trang 9T khóa – X lý nh, Phân tích trang tài li u, Nh n d ng, Bi u m u, Phép toán hình thái, Active form.
Trang 10CH NGă1ă- T ngăquan
Trong th c t , công vi c nh p d li u chi m m t chi phí khá l n do kh i
l ng d li u ph i nh p vƠ công s c b ra đ đ m b o vi c nh p có đ chính xác cao Vì th t lơu v n đ nh p li u t đ ng đƣ đ c đ u t nhi u Ngu n d li u ph
bi n nh t lƠ các v n b n trên gi y, do đó gi i pháp ch y u lƠ ph i l y nh vƠ nh n
d ng Nh n d ng lƠ bƠi toán đƣ xu t hi n khá lơu vƠ đƣ đ t đ c nhi u thƠnh t u to
l n Tuy nhiên nh n d ng m t v n b n b t kì bao g m c các v n b n có l n ch
vi t tay hay hình nh luôn lƠ m t bƠi toán khó vƠ hi n nay v n ch a th t s có gi i pháp hoƠn ch nh
Trên th gi i, hi n đƣ có nhi u ng d ng liên quan đ n v n đ nh n d ng
v n b n hay nh p d li u t đ ng Có th k đ n nh : s n ph m FineReader, Scan
To Office c a hƣng ABBYY, Smart scan Xpress c a Pegasus Image, các ng d ng
ch m thi t đ ng ầ Vi t Nam c ng đƣ có các ng d ng nh n d ng v n b n nh VNDocR c a Vi n Công ngh Thông tin hay ImageScan c a CardPro ơy lƠ các
ng d ng nh n d ng ch in Vi c nh n d ng ch vi t tay đang còn lƠ m t thách
th c M t s nghiên c u v nh n d ng ch vi t tay đƣ đ c th c hi n t i Vi n CNTT vƠ B môn Công ngh Ph n m m Tuy nhiên các ng d ng nƠy hi n v n còn
r t nhi u h n ch do kh n ng nh n d ng ch vi t tay ch a đ t đ c đ chính xác
c n thi t đ có th áp d ng r ng rƣi trên th c t
Có hai đ i t ng v n b n c n nh n d ng có đ t tr ng khác nhau đòi h i có các ph ng pháp x lý khác nhau ó lƠ nh n d ng v n b n phi c u trúc vƠ nh n
d ng v n b n ki u bi u m u v i các d li u ch đ c s p x p trong nh ng vùng xác
đ nh Cùng v i s phát tri n c a công ngh x lý nh hi n nay, các thu t toán nh n
d ng ngƠy cƠng chính xác vƠ đ a ra đ c các k t qu đáng tin c y Ngay c đ i v i
ch vi t tay c ng có th đ t đ c đ chính xác cao v i đi u ki n lƠ ch nh n d ng
t ng ch riêng bi t vƠ ch vi t đ p V i các v n b n thông th ng, ta khó có th đ t
Trang 11đ c đi u nƠy Tuy nhiên, các bi u m u nh p li u lƠ ki u v n b n có c u trúc vƠ ta
có th đ a ra m t s quy t c rƠng bu c đ t ng đ chính xác cho vi c nh n d ng -
ch ng h n nh : các ch đ c vi t riêng r trên các ô riêng bi t c a các vùng nh p
li u M t khác, vi c nh n d ng ch vi t không c n thi t ph i ti n hƠnh trên toƠn b
nh c a tƠi li u mƠ ch gi i h n nh ng vùng nh p d li u c đi m nƠy c ng cho phép ta ti p c n bƠi toán m t cách có hi u qu h n, ch ng h n có th s d ng các thông tin s n có t thi t k bi u m u lƠm tham s nh n d ng M t khía c nh khác
kh i khung đi n, mƣ hóa thông tin vƠo khung đi n, gi i mƣ các thông tin t khung
đi n d a vƠo c u trúc các đi m nh Thêm vƠo đó, chúng tôi c ng s đ xu t m t
s thu t toán h tr đ nơng cao t l nh n d ng đúng Các gi i pháp th c nghi m bao g m các công vi c c th nh sau:
Các thu t toán x lý bi u m u đ ng :
- Thu t toán xác đ nh các khung đi n thông tin
- Thu t toán tách ch vi t tay ra kh i khung đi n thông tin vƠ ng c l i
- Thu t toán gi i mƣ các thông tin
Các thu t toán nơng cao đ chính xác:
- Thu t toán bóc biên
- Thu t toán ch nh đ nghiêng d a vƠo phép chi u
- Thu t toán ch nh đ nghiêng d a vƠo đ ng th ng dƠy
Trang 12 Th c nghi m
- Th nghi m đ chính xác c a các thu t toán
- ánh giá k t qu , hi u qu c a thu t toán vƠ nh n xét
1.2 N iădungăvƠăc uătrúcăc aălu năv n
BƠi toán con đ c th c hi n trong khoá lu n nƠy lƠ bƠi toán phơn vùng nh
vƠ tách ra đ c các ch vi t tay đ ph c v cho module nh n d ng ch vi t tay
N m b t đ c khó kh n c ng nh nh ng đ c tr ng c a bƠi toán nƠy, chúng tôi đƣ
áp d ng m t gi i pháp m i, đó lƠ s d ng bi u m u đ ng, có đ chính xác cao trong
vi c ti n x lý bi u m u, phơn vùng vƠ tách ra đ c các ch vi t tay đ nh n d ng
V i n i dung chính lƠ trình bƠy nh ng lý thuy t c b n v ti n x lý nh, phơn vùng nh khóa lu n đ c t ch c nh sau:
Ch ng 1: T ngăquan
Ph n đ u c a ch ng gi i thi u v bƠi toán nh p d li u t đ ng nói chung: tình hình Vi t Nam vƠ th gi i, các thƠnh t u đƣ đ t đ c trong l nh v c nh n d ng
ch vi t, nh ng khó kh n c ng nh các đ c tr ng c a bƠi toán nh n d ng bi u m u
nh p d li u so v i các bƠi toán nh n d ng khác Ph n ti p theo gi i thi u v h
th ng chung mƠ chúng tôi đang ti n hƠnh nghiên c u vƠ xơy d ng: nghiên c u vƠ xơy d ng h th ng nh p d li u t đ ng b ng nh n d ng hình nh, ph m vi gi i h n
vƠ quy trình gi i quy t bƠi toán T đó nêu lên n i dung mƠ chúng tôi nghiên c u vƠ
th c hi n trong bƠi toán chung
Ch ngă2:ăT ngăquanăm tăs ăph ngăphápăphơnăvùngă nhăvƠăkh ănghiêng
Ch ng hai trình bƠy v các ph ng pháp phơn vùng nh, kh nghiêng, các khái ni m vƠ t m quan tr ng c a kh nghiêng vƠ phơn vùng nh trong nh n d ng
bi u m u Ch ng nƠy c ng xác đ nh các u nh c đi m vƠ ph m vi áp d ng c a
m i ph ng pháp đ t đó l a ch n gi i pháp thích h p
Ch ngă3:ă ăxu tăgi iăphápăs ăd ngăbi uăm u đ ng
Trang 13Ch ng nƠy trình bƠy v ph n vi c chính mƠ tôi đƣ th c hi n trong đ tƠi chung: Gi i pháp s d ng h th ng x lý bi u m u đ ng cho vi c phơn vùng nh vƠ
tách ch vi t tay N i dung c a ch ng t p trung vƠo:
a ra các khái ni m v bi u m u đ ng vƠ h th ng x lý bi u m u
đ ng
Trình bƠy các thu t toán c b n ng d ng cho vi c nh n d ng bi u m u
đ ng
ánh giá u vƠ nh c đi m c a các thu t toán nƠy
Mô t chi ti t quá trình th c nghi m các thu t toán đƣ đ xu t
Ch ngă4:ăK tălu nă
Ch ng b n t ng k t l i nh ng k t qu đ t đ c vƠ nh ng vi c c n đ c
ti p t c th c hi n trong t ng lai