Trong chương này một thuật toán phân tách văn bản và ảnh cũng sẽ đượctrình bày dựa vào việc phân tích các thành phần liên thông CCs.. Chương 5 Chương trình thử nghiệm
Trang 1khoa học Việt Nam, luận văn của tôi đã được hoàn thành Mặc dù đã cố gắngkhông ngừng cùng với sự tận tâm của thầy hướng dẫn song do thời gian vàkhả năng vẫn còn nhiều hạn chế nên luận vă khó tránh khỏi những thiếu sóttrong quá trình làm luận văn
Để hoàn thành được luận văn này Em xin bày tỏ lòng biết ơn sâu sắctới PGS TS Ngô Quốc Tạo - người thầy đã tận tình giúp đỡ em trong suốtquá trình tìm hiểu, xây dựng và phát triển luận văn này
Em xin chân thành cảm ơn các thầy, cô giáo trong Viện Công nghệThông tin – Viện khoa học Việt Nam đã giảng dạy và hướng dẫn em trongsuốt 2 năm học qua Em cũng xin cảm ơn ban lãnh đạo khoa và toàn thể thầy
cô giáo trong khoa Công Nghệ thông tin – Đại Học Thái Nguyên đã tạo điềukiện tốt nhất giúp em học tập và hoàn thành luận văn này Và cuối cùng tôicũng xin cảm ơn gia đình, các bạn trong nhóm luận văn và toàn thể các họcviên lớp Cao học K6 đã động viên, quan tâm và giúp đỡ tôi trong thời gianqua
Cuối cùng tôi rất mong nhận được sự chỉ dẫn, góp ý của các thầy côvà các bạn để luận văn của tôi được hoàn thiện hơn
Trang 2CHƯƠNG 1: MỞ ĐẦU
Nhận dạng và xử lý ảnh là một lĩnh vực mang tính khoa học và côngnghệ Ở Việt Nam Nhận dạng và xử lý ảnh là một ngành khoa học mới mẻ sovới nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh Sự
ra đời của nó đã tạo ra các kỹ thuật quan trọng ảnh hưởng trực tiếp đến cáclĩnh vực như: Tivi, truyền thông, kỹ xảo đồ hoạ…
Cùng với sự phát triển đó có những nhu cầu thực tế đặt ra thách thứccác nhà khoa học máy tính càng nhiều Những công việc, những bài toánđược xử lý theo lối cổ truyền không theo kịp tốc độ phát triển của công nghệngày nay Một trong những bài toán đó chính là các tài liệu được lưu trữ trêncác chất liệu cổ truyền như giấy, gỗ, vải với khối lượng khổng lồ, chứa đựngrất nhiều tri thức của nhân loại nhưng lại không có độ bền vĩnh cửu, khó xử lývà lưu trữ Một bài toán khác là ngày nay công việc văn phòng liên quannhiều đến các tài liệu không đơn thuần là tài liệu chữ mà tài liệu có nhiềuthành phần như bảng biểu, ảnh Tất cả các tài liệu đó nếu tiếp tục lưu trữ theophương pháp cổ truyền thì rất phức tạp và khó xử lý Vậy làm thế nào đểchuyển đổi những kho tàng tri thức trên vào máy tính để lưu trữ, xử lý dễdàng, thuận tiên và nhanh gọn Một lĩnh vực của khoa học nhân dạng là Phântích tài liệu ảnh đã ra đời nhằm biểu diễn thông tin trong các tài liệu ảnh dướidạng có cấu trúc
Hệ phân tích và nhận dạng tài liệu ảnh có mục đích là chuyển đổi tựđộng những thông tin lưu trữ trong tài liệu giấy thành biểu diễn dưới dạngnhững cấu trúc mà có thể truy xuất, thay đổi được bằng máy tính Quy trình
xử lý của một hệ phân tích tài liệu bắt đầu bằng việc lấy dữ liệu, các tài liệu từgiấy in sẽ được quét qua máy quét để lưu trữ trong máy tính dưới dạng các tệpdữ liệu ảnh
Trang 3Một tài liệu ảnh là một cách biểu diễn trực quan của các trang tài liệuđược in như một bài tạp chí, một lá thư, một trang báo, một mẩu thư hay mộtbản vẽ kỹ thuật, v.v Một tài liệu ảnh có thể bao gồm các chuỗi ký tự, cáchình vẽ, các bức ảnh, v.v Bên cạnh việc chuyển toàn bộ nội dung của tàiliệu sang tài liệu điện tử cũng cần phải bảo toàn cấu trúc và định dạng của tàiliệu Mục tiêu cơ bản của một hệ phân tích tài liệu ảnh hoàn chỉnh đó làchuyển một tài liệu lưu trữ bằng giấy sang dạng biểu diễn có thứ tự cấu trúcvà nội dung của nó Tài liệu được chuyển sang phải có khả năng thay đổi,soạn thảo và lưu trữ bởi vì nội dung của tài liệu có thể truy cập bởi cấu trúccủa nó thay vì phải truy cập dưới dạng những mẫu ảnh Có một số lượng lớnứng dụng của hệ phân tích tài liệu ảnh được ứng dụng trong các lĩnh vực như:dịch vụ bưu chính, Chính phủ, chăm sóc y tế, thư viện, v.v.
Mục đích của luận văn là nghiên cứu kỹ thuật nhận dạng bảng và tríchchọn ra đối tượng của tài liệu ảnh Kỹ thuật “Phân tích bảng – T-Recs” lànghiên cứu chính
Với tư tưởng chính của “Phương pháp phân tích bảng” đó là khôngxem xét đến bất cứ một loại đường phân cách nào để xác định cấu trúc bảng.Thay vào đó phương pháp sẽ tập trung vào việc nhận biết các từ trong cùngmột khối logic (chẳng hạn các từ trong cùng một cột dữ liệu sẽ được cho vàotrong cùng một khối) Phương pháp sẽ không đi tìm những đặc trưng để phânbiệt hai vùng dữ liệu (hai cột) khác nhau mà tìm những đặc trưng để tìm racác từ trong cùng một khối logic và từ đó xây dựng cấu trúc riêng theo
phương pháp tiếp cận bottom - up
Trang 41.1 Cơ sở nghiên cứu và mục đích của luận văn
Ảnh là một đối tượng khá phức tạp về đường nét, dung lượng điểmảnh, độ sáng tối, môi trường để thu nhận ảnh phong phú kéo theo nhiễu.Trong nhiều khâu phân tích ảnh ngoài việc đơn giản hoá các phương pháptoán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trìnhtiếp nhận và xử ảnh theo cách của con người Trong các bước xử lý đó nhiềukhâu hiện nay đã xử lý theo các phương pháp trí tuệ của con người Những hệthống nhận dạng cấu trúc không chỉ đơn giản là chuyển một tài liệu in thànhmột tài liệu điện tử mà hơn thế nữa còn là xây dựng những quá trình xử lý kếthợp chẳng hạn như: tự động chép nội dụng, đánh chỉ mục và phân loại Do đóviệc quan trọng là kèm theo nội dung của tài liệu cũng phải trích chọn ranhững cấu trúc đi kèm với từng nội dung đó
Nhận dạng bảng là bài toán nhận dạng ra cấu trúc bảng có trong trangtài liệu ảnh, bao gồm việc nhận dạng các cột, các dòng và các ô có chứa dữliệu trong bảng Nhận dạng đối tượng ảnh là bài toán nhằm phân tách các đốitượng ảnh trong những trang tài liệu ảnh có chứa hỗn hợp các đối tượng làchuỗi ký tự và các đối tượng ảnh như: các sơ đồ, hình vẽ, bức ảnh …v.v
Mặc dù đã có nhiều kỹ thuật trong hệ thống nhận dạng cấu trúc Tuynhiên những nghiên cứu trên những vấn đề đó vẫn còn tiếp tục phát triển bởivì chất lượng, độ chính xác, tính hiệu quả của những phương pháp được côngbố trước đây vẫn còn chưa hoàn chỉnh và cần phải cải tiến chúng Luận vănnày trình bày kỹ thuật nhận dạng cấu trúc bảng bên trong tài liệu ảnh T-Recsvà đề xuất một số phương pháp khắc phục hạn chế thuật toán T-Recs để hoànthiện hiện hơn phương pháp phân tích bảng
Trang 51.2 Tổ chức của luận văn
Luận văn được trình bày thành 5 chươngvà 1 phụ lục
Chương 1 Trình bày tóm tắt cơ sở nghiên cứu và mục đích cũng nhưcách tổ chức của luận văn
Chương 2 Tổng quan về hệ phân tích tài liệu ảnh và các thành phầnchính trong hệ phân tích tài liệu ảnh: Lấy dữ liệu, xử lý ảnh, trích chọn đặctrưng, nhận dạng đối tượng ảnh và nhận dạng văn bản
Chương 3trình bày bài toán phân tách văn bản và ảnh một cách riêng
rẽ Trong chương này một thuật toán phân tách văn bản và ảnh cũng sẽ đượctrình bày dựa vào việc phân tích các thành phần liên thông (CCs)
Chương 4 trình bày phương pháp phân tích bảng ( T-Recs) dựa trênnhững hình chữ nhật bao quanh một từ và đầu ra là cấu trúc logic của khốivăn bản, cụ thể với những bảng nhận dạng được sẽ là cấu trúc các cột và các ôcủa bảng dữ liệu Phân tích những mặt hạn chế của thuật toán - trường hợpnhận dạng chưa chính xác các cột dữ liệu trong bảng luận văn đưa ra thuậttoán khắc phục những mặt hạn chế đó
Chương 5 Chương trình thử nghiệm và minh họa phân tích bảng trongtrang tài liệu ảnh
Trang 6CHƯƠNG 2: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH 2.1 Tài liệu ảnh
Hình ảnh của một đối tượng là sự sao chụp lại chính bản thân đốitượng đó Ảnh được hình thành qua một hệ thống ảnh
Tài liệu ảnh là các file ảnh đã được số hóa thu được bằng cách: quét cáctrang tài liệu, chụp ảnh, máy fax, hoặc từ vệ tinh, các file ảnh này được lưu trữtrong máy tính Ảnh tài liệu có nhiều loại: đen trắng, ảnh màu, ảnh đa cấp xám,
…v.v
2.2 Hệ phân tích trang tài liệu
Hệ phân tích trang tài liệu: Là một hệ thống bao gồm những thuật
toán và các kỹ thuật có thể áp dụng cho các tài liệu ảnh để lấy ra được cácthông tin mà máy tính có thể đọc được và hiểu được từ các điểm dữ liệu ảnh.Một lĩnh vực thu được nhiều thành công nhất trong phân tích tài liệu ảnh đólà Nhận dạng Ký tự Quang học (OCR), phần mềm có khả năng nhận, chuyểnđổi các ký tự từ các loại tài liệu dưới dạng ảnh sang tài liệu dưới dạng text.OCR giúp người dùng có khả năng soạn thảo và tìm kiếm nội dung của tàiliệu
Thành phần chính có trong một hệ phân tích tài liệu: Mục đích của
một hệ phân tích tài liệu là có khả năng nhận dạng ra các đối tượng văn bản,đối tượng ảnh trong tài liệu ảnh và có khả năng trích chọn ra được các thôngtin mà người dùng mong muốn Chúng ta có thể chia một hệ phân tích tài liệuthành hai phần Phần thứ nhất là xử lý văn bản, liên quan đến việc xử lý cácđối tượng văn bản: ký tự, chuỗi ký tự, các từ Xử lý văn bản bao gồm cáccông việc sau: xác định độ nghiêng của tài liệu (độ nghiêng hay độ xiên củatài liệu ảnh do tài liệu được đặt không đúng khi thực hiện quét vào từ máyquét), tìm các cột, các đoạn văn bản, các dòng văn bản, các từ và cuối cùng là
Trang 7nhận dạng văn bản (có thể thêm các thuộc tính như loại phông chữ, kíchthước của phông chữ) bởi phương pháp nhận dạng ký tự quang học (OCR).Phần thứ hai là xử lý các đối tượng ảnh là các đối tượng tạo ra từ các đường
kẻ trong sơ đồ, các đường kẻ phân tách giữa các đoạn văn bản, các hình vẽ,các lôgô của công ty… Sau khi áp dụng các kỹ thuật phân tích ảnh và vănbản, các đối tượng cần nhận dạng trong tài liệu ảnh được trích ra và được biểudiễn dưới dạng một tài liệu định dạng khác, chẳng hạn như word, html…
Ta có thể tóm tắt quá trình xử lý của hệ phân tích tài liệu theo sơ đồHình 2.1 [8]:
Hình 2.1 Sơ đồ quá trình xử lý tài liệu
Tại sao lại phải phân tích tài liệu? Những bài toán trong phần giớithiệu đã đề cập, ta hãy xem xét kỹ hơn về bài toán điển hình để thấy được sựcần thiết của việc phân tích tài liệu
- Lượng tri thức vô giá của nhân loại với số lượng lớn được lưu trữtrong các thư viện cổ điển dưới các chất liệu như giấy, vải, gỗ vẫn còn tồn tạirất nhiều, việc các tài liệu bị mất các thông tin, thiếu thông tin, số lượng bản
Xử lý tài liệu
Xử lý văn bản
Nhận dạng
ký tự quang
học
Phân tích cấu trúc trang
Xử lý đối tượng
ảnh
Xử lý
đường kẻ
Xử lý vùng và ký tự đặc biêt
Văn bản Xác định độ nghiêng,
dòng văn bản, các khối văn bản, các đoạn văn bản
Đường thẳng, đường cong, góc
Vùng được tô
Trang 8sao hạn chế hay thậm chí các tài liệu bị thoái hoá theo thời gian là những vấnđề phổ biến Vì vậy chúng cần phải được khôi phục và chỉnh sửa bằmg những
kỹ thuật phân tích tài liệu
- Ngày nay các văn phòng hiện đại các công việc đều được giải quyếtdựa vào máy tính Các tài liệu văn bản với nhiều đối tượng (chữ, hình ảnh,các sơ đồ) được tạo ra trên nhiều máy tính khác nhau, phần mềm khác nhau
do đó có thể là các định dạng của các tài liệu đó là không tương thích vớinhau, kích thước cũng khác nhau Như vậy cần một hệ phân tích tài liệu giúpnhận dạng các loại tài liệu, trích chọn ra được các phần chức năng và có thểchuyển từ một định dạng máy tính này sang một định dạng khác
- Một bài toán khác được đề cập là các máy phân loại thư tự độngdùng để phân loại, sắp xếp thư và nhận dạng địa chỉ thư Những máy này đãcó từ những thập kỷ trước, nhưng ngày nay yêu cầu cao hơn đó là xử lý nhiềuthư hơn, nhanh hơn và yêu cầu chính độ xác cao hơn
Những bài toán trên đã tạo ra thách thức và động lực cho sự phát triểnnhững giải pháp trong tương lai của một hệ phân tích tài liệu
Hình 2.2 mô tả các bước xử lý cho một hệ phân tích tài liệu [8] Saukhi dữ liệu(tài liệu ảnh) được đưa vào, tài liệu ảnh trải qua các bước xử lýđiểm ảnh và phân tích đặc trưng và sau đó phần nhận dạng văn bản và phầnnhận dạng ảnh được tách ra hai chức năng riêng rẽ
Trang 9Hình 2.2 Sơ đồ quá trình phân tích trang tài liệu
Các hệ phân tích tài liệu sẽ ngày càng phát triển và hiển nhiên làchúng sẽ có trong các hệ xử lý tài liệu Chẳng hạn như, hệ thống OCR sẽđược sử dụng rộng rãi để lưu trữ, tìm kiếm và trích dẫn từ các tài liệu lưu trữtrên giấy Các kỹ thuật phân tích cách bố trí trong một trang tài liệu giúp nhậndạng những biểu mẫu (form) riêng biệt, hay định dạng của một trang tài liệuvà cho phép sao lưu tài liệu đó Các sơ đồ có thể được đưa vào từ các bức ảnhhay vẽ bằng tay và có thể thay đổi, soạn thảo lại chúng Sử dụng máy tính cóthể chuyển các tài liệu viết bằng tay thành các tài liệu điện tử được lưu trữtrong máy tính Các tài liệu được lưu trữ trong các thư viện, các tài liệu kỹthuật trong các công ty sẽ được chuyển đổi sang thành tài liệu điện tử nhằmnâng cao hiệu quả, thuận tiện trong việc lưu trữ và dễ dàng mang đến cơ quanhay mang về nhà Mặc dù tài liệu sẽ ngày càng được xử lý và lưu trữ nhiềutrong máy tính nhưng trên thực tế có rất nhiều các hệ thống khác nhau mà tài
Thu nhận dữ liệuTrang tài liệu
Xử lý điểm ảnh
Phân tích đặc trưng
Phân tích và nhận dạng
đối tượng văn bản
Phân tích và nhận dạng đối tượng ảnh
Mô tài liệu
Trang 10liệu giấy là phương tiện làm việc hiệu quả và chắc chắn rằng tài liệu giấy vẫn
sẽ là phương tiện làm việc với chúng ta trong một vài thập kỷ nữa Vấn đề ởđây là làm sao chúng ta tích hợp những tài liệu giấy vào trong máy tính xử lý
Sau đây ta sẽ tìm hiểu ngắn gọn các bước xử lý của một hệ phân tíchtài liệu ảnh
2.3 Thu nhận dữ liệu ảnh
Các dữ liệu trên các trang tài liệu giấy thường được quét qua máy quétvà đưa vào máy tính dưới dạng file ảnh, chúng bao gồm các điểm ảnh (pixels)và được lưu trữ Với ảnh nhị phân giá trị điểm ảnh có thể là 0 hoặc 1 ,với ảnh
đa cấp xám và ảnh màu giá trị điểm ảnh nằm trong khoảng 0 đến 255 với 3giá trị R, G, B từ 0 đến 255 Ở độ phân giải thông thường thì có 120 điểm ảnhtrên 1 centimet và với 1 trang có kích thước 20 x 30 cm thì tạo ra một ảnh với
2400 x 3600 điểm ảnh Do đó có thể thấy rằng một tài liệu ảnh chỉ bao bồmcác dữ liệu thô (giá trị các điểm ảnh) và chúng sẽ được sử dụng những kỹthuật phân tích thích hợp để lấy ra được các thông tin cần thiết
2.4 Tiền xử lý điểm ảnh
Bước tiếp theo trong một hệ phân tích tài liệu là thực hiện một số thaotác xử lý trên tài liệu ảnh thu được để chuẩn bị cho những bước phân tích tiếptheo Chẳng hạn như các thao tác: chọn ngưỡng để chuyển ảnh đa cấp xám,ảnh màu về dạng ảnh nhị phân, giảm nhiễu để loại bỏ những dữ liệu khôngliên quan, phân đoạn để phân tách các thành phần khác nhau trong ảnh vàcuối cùng là làm mảnh hay dò biên để dễ dàng xác định các vùng, các đặctrưng thích hợp và các đối tượng cần quan tâm Sau những bước xử lý ở trên,dữ liệu thường được biểu diễn dưới dạng nén lại như dùng mã hoá CC và biểudiễn dưới dạng véctơ
Trang 112.4.1 Xử lý nhị phân
Với những ảnh đa cấp xám các thông tin đã sẵn ở dạng nhị phânchẳng hạn như các chuỗi văn bản hay các đối tượng ảnh, thì phương pháp nhịphân thông thường sẽ được thực hiện trước Mục đích của phương pháp nàylà sẽ tự động chọn một ngưỡng cần thiết để tách ảnh ra làm hai phần: thôngtin ảnh và thông tin nền Việc lựa chọn một ngưỡng tốt (ngưỡng mà có thểphân tách ảnh thành hai phần: phần ảnh, phần nền một cách chính xác) luôn làmột quá trình khó và dễ gây ra lỗi ()
Hình 2.3 Phương pháp nhị phân ảnh (a) Histogram của ảnh đa cấp xám nguyên bản, (b)
chọn ngưỡng thấp, (c) chọn ngưỡng hợp lý, (d) chọn ngưỡng quá cao.
Trang 12Quá trình xử lý này sẽ gặp khó khăn trong các trường hợp khi: độtương phản giữa giá trị các điểm ảnh văn bản và nền là thấp (chẳng hạn nhưvăn bản được soạn thảo trên một nền xám thuần nhất), nét của văn bản mỏnghoặc dữ liệu không được chiếu sáng tốt khi thực hiện quét tài liệu giấy Rấtnhiều phương pháp đã được phát triển để khắc phục những hạn chế trên,chẳng hạn như phương pháp tách ngưỡng tự động tìm ra giá trị θ thích hợp đểchia ảnh thành hai phần.
Bản chất của nhiễu là thường tương ứng với tần số cao và cơ sở lýthuyết của các bộ lọc là chỉ cho những tín hiệu có tần số nào đó thông qua, dođó để lọc nhiễu người ta thường sử dụng bộ lọc thông thấp hay lọc trung bình.Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc thông thấp, trung bình;với nhiễu xung ta dùng lọc trung vị, giả trung vị
Trong lọc trung bình, thường người ta ưu tiên cho các hướng để bảo vệbiên của ảnh khỏi bị mờ khi làm trơn ảnh Các kiểu mặt nạ được sử dụng tùytheo các trường hợp khác nhau Các bộ lọc trên là bộ lọc tuyến tính theo nghĩalà điểm ảnh ở tâm cửa số sẽ được thay bởi tổ hợp các điểm lân cận chập với mặtnạ Lọc thông thấp thường được sử dụng để làm trơn nhiễu
Trang 13Các bộ lọc phi tuyến cũng được dùng trong kỹ thuật tăng cường ảnh.Trong kỹ thuật này người ta dùng bộ lọc trung vị, bộ lọc giả trung vị Với bộlọc trung vị các điểm ảnh sẽ được thay thế bởi trung vị các điểm ảnh, bộ lọcgiả trung vị thì các điểm ảnh được thay thế bởi trung bình cộng của hai giá trị
“trung vị”
2.4.3 Phân đoạn ảnh
Quá trình phân đoạn ảnh được thực hiện làm hai giai đoạn Giai đoạnthứ nhất, tách các lớp văn bản và ảnh riêng biệt nếu như trong tài liệu có chứacả văn bản và ảnh Giai đoạn thứ hai là thực hiện phân tách trên hai lớp đốitượng vừa tách ở trên, với văn bản xác định các cột, các đoạn văn bản, các từvà các ký tự; với lớp đối tượng ảnh thực hiện phân tách các biểu tượng, cáchình vẽ, các đường kẻ và các hình ảnh Chẳng hạn như một tài liệu ảnh cóchứa các đoạn văn bản và các hình minh hoạ giống như một trang tạp chí, đầutiên văn bản và ảnh sẽ được tách riêng Sau đó văn bản sẽ được tách ra thànhcác chuỗi ký tự Ảnh thì được tách ra các thành phần như hình chữ nhật, hìnhtròn, các đường kẻ, biểu tượng v.v Sau bước trên tài liệu ảnh sẽ phân tách rathành những đối tượng nhỏ hơn như các ký tự và các thành phần cơ bản củaảnh
2.4.4 Làm mảnh và xác định vùng
Làm mảnh ảnh là một thao tác xử lý ảnh trong đó đối tượng ảnh đượcbiểu diễn như là những đường trục được gọi là đường tâm hay còn gọi là lấyxương của ảnh Một đối tượng ảnh khi đó chỉ được biểu diễn bởi đườngxương của nó bằng việc giảm bớt số lượng điểm ảnh có giá trị ON của đốitượng và vẫn đảm bảo tính chất liên thông của đối tượng Mục đích của việclàm mảnh ảnh là giảm bớt các thành phần mà chỉ lưu trữ các thông tin thiếtyếu phục vụ cho việc phân tích và nhận dạng sau này thuận tiện hơn Chẳnghạn như một đường kẻ thẳng có thể vẽ bằng tay với độ đậm của nét bút là
Trang 14khác nhau nhưng có thể biểu diễn chúng giống nhau Trong Hình 2.4 đưa ra
ví dụ ảnh được phân tích bằng phương pháp làm mảnh
Hình 2.4 Ảnh nguyên bản(Vân tay) bên trái và ảnh sau khi làm mảnh bên phải
Lưu ý rằng nếu một hình tròn hay một hình vuông mà được tô kín bởicác điểm đen thì kết quả làm mảnh những đối tượng trên sẽ là một điểm ảnhnằm tại tâm của hình vẽ bất kể kích thước của đối tượng là như thế nào Dođó có thể thấy rõ ràng rằng việc xác định được vùng biên của đối tượng là rấtquan trọng
Nói chung với các đối tượng có kích thước lớn, dò biên là phươngpháp lựa chọn thích hợp để biểu diễn đối tượng, còn đối với những đối tượngđược tạo thành bởi những nét kết nối dài thì làm mảnh là phương pháp thíchhợp hơn Làm mảnh thường được sử dụng như là một quá trình tiền xử lý đốivới những ứng dụng phân tích tài liệu như xử lý sơ đồ hay bản đồ Với nhữngđối tượng ảnh lớn mà vùng ảnh được tô đầy chẳng hạn như những lôgô thìphương pháp dò biên đối tượng thích hợp hơn Nhưng với những vùng nhỏ,chẳng hạn từng ký tự riêng biệt thì cũng không phải phương pháp làm mảnhcùng không phải phương pháp dò biên được thực hiện mà khi đó vùng ảnh sẽđược biểu diễn dưới dạng mảng các giá trị của điểm ảnh
Trang 152.4.5 Mã hóa CC và véctơ hóa
Khi một đối tượng ảnh được biểu diễn dưới dạng xương của ảnh haybằng đường viền, chúng có thể biểu diễn một cách hiệu quả hơn là lưu cácđiểm ảnh một cách đơn giản các giá trị ON và OFF Một trong những phươngpháp lưu ảnh hiệu quả đó là lưu dưới dạng mã xích CC (Chain Code –Freeman 1974), trong đó các điểm có giá trị ON được biểu diễn thông qua tậpcác điểm láng giềng đi theo một hướng quy định Thay vì phải lưu trữ vị trícủa điểm ảnh có giá trị ON chúng ta sẽ lưu trữ hướng của các điểm lánggiềng Các điểm láng giềng của một điểm x là tất cả các điểm nằm liền kề với
x thuộc ma trận 3 x 3 với điểm x là tâm Có hai ưu điểm khi biểu diễn giá trịđiểm ảnh theo hướng thay vì phải lưu vị trí của điểm ảnh Thứ nhất đó là việclưu trữ hiệu quả hơn Thông thường với những ảnh có kích thước lớn hơn 256
x 256, toạ độ giá trị điểm ảnh ON thường được biểu diễn bởi 16 bít; trái lạivới cách lưu trữ CC một điểm láng giềng thuộc 1 trong tám hướng, do đó mỗimột điểm ảnh ON chỉ cần biểu diễn bằng 1 byte hay thậm chí chỉ cần 3 bít đểlưu Một ưu điểm khác có thể thấy trong CC đó là vì CC lưu theo cấu trúc cácđiểm ảnh có liên quan với nhau và do đó dựa vào cách thức lưu trữ này có thểthực hiện các công việc xử lý như làm trơn các đường cong và tính xấp xỉ cácđường thẳng trơn
Sau bước xử lý điểm ảnh, dữ liệu thô của ảnh đã được biểu diễn ở cấpđộ trừu tượng cao hơn: đã khoanh được vùng bao của chuỗi ký tự, biểu diễn
CC và véctơ của các đường cong và đường thẳng, hay đã xác định được vùngbiên của các đối tượng
Tài liệu ảnh qua các quá trình tiền xử lý sẽ là tài liệu cơ sở cho quátrình phân tích cấu trúc của tài liệu đó Hình 2.5 minh họa một tài liệu trướcvà sau khi thực hiện quá trình tiền xử lý
Trang 16Hình 2.5 Tài liệu ảnh trước và sau các bước tiền xử lý Ảnh (a) gốc, ảnh (b) ảnh sau khi chuyển về ảnh nhị phân, ảnh (c) ảnh sau khi chỉnh nghiêng, ảnh
(d) ảnh sau khi lọc nhiễu.
2.5 Phân tích đặc trưng của tài liệu ảnh
Sau quá xử lý trên các điểm ảnh, các đặc trưng của các đối tượng trêntài liệu ảnh sẽ được trích chọn và phân tích để giúp ích cho những bước nhậndạng sau này Tại bước phân tích đặc trưng ảnh, dữ liệu ảnh làm mảnh và biểudiễn dưới dạng CC sẽ được phân tích để xác định các đường thẳng, các đườngcong và các điểm quan trọng nằm dọc trên đường cong Các đường congthường được tính xấp xỉ bởi hình đa giác Các điểm quan trọng chẳng hạn cácđiểm góc và điểm bị uốn cong đều được xác định để giúp ích cho việc phântích nhận dạng các hình vẽ Đối với các vùng giới hạn tương ứng của từng kýtự riêng rẽ hay các biểu tượng ảnh, các đặc trưng nội tại như tỉ lệ hình dáng,độ chặt của hình bao (tỉ lệ giữa diện tích và chu vi), tính không đối xứng, độđậm đặc của các điểm đen, tính trơn của đường viền, số lượng đường viền, sốlượng các đường thẳng giao nhau và các đường đầu mút đều được tính toánđể làm dữ liệu đầu vào phục vụ cho việc nhận dạng từng đối tượng
2.6 Phân tích đối tượng văn bản trong tài liệu
Có hai loại phân tích được áp dụng trong việc phân tích văn bản trongtài liệu ảnh Loại thứ nhất là nhận dạng ký tự quang học (OCR) để nhận dạngtừng ký tự, các chuỗi ký tự từ ảnh bitmap (bmp), loại thứ hai là phân tích sơ
đồ trình bày của trang tài liệu nhằm nhận biết được định dạng của văn bản, và
Trang 17từ đó hiểu được cấu trúc, vị trí, chức năng của các khối văn bản (tiêu đềchính, tiêu đề phụ, đoạn văn bản, chú thích v.v ) Phụ thuộc vào cách sắp xếpcủa các khối văn bản, một trang văn bản có thể là một trang tiêu đề, một bảngmục lục của tạp chí, một biểu mẫu kinh doanh, hay là một phong bì thư Nhậndạng ký tự quang học và phân tích sơ đồ trình bày có thể được thực hiện mộtcách riêng rẽ, hay có thể lấy kết quả của phần này để sử dụng cho phần kia.Nhận dạng ký tự quang học thường được nhận biết như là ứng dụng nhậndạng ký tự viết tay hay các ký tự trong tài liệu in Kỹ thuật phân tích sơ đồtrình bày được áp dụng để phân tích định dạng của trang, một loại ứng dụngphân tích sơ đồ trình báy đó là nhận dạng biểu mẫu, giúp phân tích và nhậndạng cấu trúc biểu mẫu và các văn bản có trong biểu mẫu Trong một sốtrường hợp người ta cần phải xác định độ nghiêng của tài liệu bởi vì tài liệuđược quét có thể bị nghiêng so với bề ngang của trang giấy trong trường hợptài liệu đó không được đặt đúng khi quét vào từ máy quét Ước lượng độnghiêng và phân tích sơ đồ trình bày của văn bản sẽ được mô tả ngắn gọntrong phần dưới đây Phương pháp nhận dạng ký tự quang học sẽ được đề cậpđến ở phần sau.
2.6.1 Xác định góc nghiêng của văn bản
Một dòng văn bản bao gồm một nhóm các ký tự, biểu tượng và các từnằm liền kề nhau, khá gần nhau và đều nằm trên cùng một đường thẳng (cóthể theo chiều thẳng đứng hay chiều dọc) Thông thường hướng của các dòngvăn bản sẽ xác định độ nghiêng của tài liệu Bình thường một trang tài liệu sẽcó độ nghiêng là 0 khi mà các dòng văn bản theo chiều ngang hay chiều dọc
sẽ song song với các cạnh tương ứng của trang tài liệu, tuy nhiên trong một sốtrường hợp khi một trang tài liệu được quét hay sao chụp bằng tay, độnghiêng của tài liệu khi đó sẽ khác 0
Trang 18Hình 2.6 Văn bản bị nghiêng sau khi được quét qua máy quét Hình 2.6 cho ví dụ về một văn bản nghiêng sau khi quét ảnh gốc quamột máy scan.
Vì các bước phân tích như OCR hay phân tích sơ đồ trình bày phụthuộc vào trang tài liệu đầu vào với độ nghiêng là 0 do đó xác định độnghiêng và điều chỉnh độ nghiêng của tài liệu là một việc làm cần thiết trướckhi thực hiện những bước trên Một phương pháp xác định độ nghiêng của tàiliệu phổ biến đó là phép chiếu nghiêng Phép chiếu nghiêng là phương pháptính số lượng điểm ảnh ON (điểm ảnh có giá trị 1 trong ảnh nhị phân) khi quétảnh theo các dòng hay các cột và lưu giá trị này vào một mảng, trong đó chỉsố của mảng chính là dòng hay cột được quét Do đó giá trị các điểm ảnh ONkhi quét qua trang ảnh sẽ được biểu diễn bởi một đồ thị tần suất Mỗi một lầnthực hiện phép chiếu nghiêng ta sẽ chiếu ảnh theo các góc khác nhau (từ 0đến 180 độ), tức là sẽ thực hiện quay ảnh một góc tương ứng Phép chiếunghiêng thường được thực hiện theo chiều ngang hoặc dọc và được gọi là cácphép chiếu nghiêng theo chiều ngang, dọc tương ứng Với một tài liệu ảnh màgóc nghiêng bằng 0 thì các đỉnh của phép chiếu biểu diễn các dòng có chứaký tự, còn các vùng trũng biểu diễn cho khoảng không gian trắng giữa cácdòng Để tìm được góc nghiêng của văn bản thì sẽ tìm góc quay sao cho đồthì tần suất có nhiều những đỉnh cao nhất và những vùng trũng nhất Nếu đồthị tần suất có 10 đỉnh và 10 vùng trũng thì có thể suy ra rằng tài liệu ảnh có
Trang 1910 dòng văn bản Do đó với mỗi phép chiếu nghiêng ta sẽ tính số đo độ caocủa các đỉnh và số đo độ cao các vùng trũng, góc chiếu nào mà có sự khácnhau giữa hai số đo này là lớn nhất thì chính là góc nghiêng của văn bản
2.6.2 Phân tích bố cục của trang tài liệu ảnh
Sau khi xác định được góc nghiêng của trang tài liệu, ảnh sẽ đượcquay một góc để độ nghiêng của trang bằng 0, sau đó quá trình phân tích bốcục của trang tài liệu được thực hiện Phân tích bố cục trang được thực hiệnđể lấy ra được cấu trúc các khối văn bản (các đoạn văn bản) trong tài liệu.Tuỳ thuộc vào định dạng của từng loại tài liệu, quá trình phân đoạn có thểthực hiện phân tách các từ, các dòng văn bản hay cấu trúc các khối (nhóm cácdòng văn bản, chẳng hạn các đoạn văn bản hay các bảng danh mục) Thôngthường người ta dựa vào quy tắc sắp xếp thông tin trong trang tài liệu để nhậndạng từng khối và gán nhãn cho chúng Một thí dụ đưa ra kết quả sau khiphân tích trang đầu tiên của một tài liệu kỹ thuật bao gồm: tên tài liệu, tác giả,tóm tắt, từ khoá, các đoạn trong thân văn bản v.v Hình 2.7 đưa ra một thídụ với kết quả sau khi đã thực hiện phân tích cấu trúc và gán nhãn cho cáckhối trên một trang tài liệu ảnh Phân tích cấu trúc của trang có thể sử dụngphương pháp tiếp cận trên - xuống [11] hay tiếp cận dưới – lên[10] Vớiphương pháp tiếp cận từ trên - xuống, một trang tài liệu được phân tách từ cácthành phần lớn xuống các thành phần nhỏ hơn, chẳng hạn trang tài liệu có thểphân tách thành các cột, sau đó các cột được phân tách thành các đoạn vănbản, từ các đoạn văn bản lại tách ra thành các dòng văn bản, sau đó tách cáctừ v.v Với phương pháp tiếp cận từ dưới – lên, các thành phần liên thôngđược trộn với các ký tự để nhận dạng từ, các từ lại được trộn với nhau để tạothành các dòng văn bản, từ các dòng văn bản xây dựng thành các đoạn vănbản.v.v Một cách lần lượt, hai phương pháp trên có thể kết hợp cùng nhauđể phân tích cấu trúc của tài liệu
Trang 20Hình 2.7 Ví dụ minh họa kết quả phân tích bố cục của trang tài liệu ảnh
2.7 Nhận dạng ký tự quang học (OCR)
Như chúng ta đã biết trên thế giới có nhiều kiểu chữ khác nhau, mặtkhác các ký tự trong một bảng chữ cái thường có rất nhiều kiểu viết khácnhau Trên thực tế các ký tự thường được viết bằng nhiều kiểu khác nhau tuỳthuộc vào kích cỡ, loại phông chữ và nét bút viết tay của từng người Mặc dùcác ký tự có thể viết theo nhiều cách nhưng chúng vẫn có những quy tắc xácđịnh để nhận biết từng ký tự Phát triển những thuật toán trên máy tính đểnhận biết các ký tự trong bảng chữ cái là một nhiệm vụ trọng tâm của OCR.Nhưng thách thức đối với vấn đề này đó là – trong khi con người có thể nhậndạng gần như chính xác 100% các ký tự viết tay thì OCR vẫn chưa thể đạt tớiđược điều này
Khó khăn đối với OCR thể hiện qua một số đặc điểm Sự gia tăng sốlượng và kích cỡ của phông chữ trong bảng chữ cái, không ràng buộc các kiểuchữ viết tay, các ký tự nối liền nhau, các nét bị đứt, các điểm nhiễu v.v Tấtcả chúng làm cho quá trình nhận dạng gặp khó khăn Hình 2.8 chỉ ra một thídụ giữa số ‘0’ và số ‘6’ rất dễ nhầm lẫn khi chúng được viết bằng tay Một từ
Trang 21cũng có thể hoàn toàn là các con số, chẳng hạn các số điện thoại, hay hoàntoàn là các ký tự trong bảng chữ cái hoặc có thể trộn lẫn giữa chữ cái và số.
Hình 2.8 Chữ viết tay có thể gây nhầm lẫn
2.7.1 Thuật toán OCR
Thuật toán OCR thường có hai phần chính: trích chọn đặc trưng vàphân loại Một cách cơ bản, quá trình OCR gán một ảnh ký tự vào một lớpbằng cách sử dụng thuật toán phân loại dựa trên những đặc trưng được tríchchọn và mối liên hệ giữa các đặc trưng đó Độ đo tương tự là cơ sở để xácđịnh một đối tượng có thuộc một lớp ký tự hay không Thông thường sẽ có
một thành phần thứ ba đó là quá trình xử lý dựa trên ngữ cảnh để sửa lại
những lỗi của OCR Dưới đây sẽ trình bày ngắn gọn ba thành phần của OCR
Trang 222.7.1.2 Phân loại
Trong phương pháp phân loại dựa trên thống kê, những mẫu ảnh ký tựđược biểu diễn bằng các điểm trong không gian đặc trưng đa chiều Mỗi mộtthành phần trong không gian đa chiều biểu diễn cho một độ đo đặc trưng Quátrình phân loại sẽ chia không gian đa chiều thành các vùng tương ứng với cáclớp ký tự và chúng được gán nhãn tương ứng
2.7.2 Nhận dạng ký tự dựa trên ngữ cảnh
Nhận dạng ký tự dựa trên ngữ cảnh sử dụng thông tin từ các ký tựkhác nhau được nhận dạng trong một từ và dựa vào ý nghĩa của từ khi lắpghép ký tự vào từ Thông thường một từ có nghĩa hay không sẽ dựa vào từ
điển hay từ vựng của ngôn ngữ đó Giả sử giữa hai từ u và v rất khó phân biệt
khi nhận dạng, chẳng hạn một trong hai từ này xuất hiện tại vị trí thứ hai (tính
từ trái sang phải) của từ qXeen Kỹ thuật xử lý dựa trên ngữ cảnh sẽ xác định ký tự u là thích hợp trong trường hợp này vì trong từ điển từ qveen không có
trong từ điển Tiếng Anh Chúng ta cũng có thể áp dụng quy tắc ký tự đi theo
sau ký tự q chỉ có u.
Đã có những nghiên cứu một cách hệ thống kết quả nhận dạng thuđược từ OCR trên Tiếng Anh Một báo cáo đầy đủ kết quả từ những sản phẩmOCR trên tài liệu được in bằng máy được công bố bởi trường đại học Nevada[9] Với những tài liệu đạt tiêu chuẩn, kết quả nhận dạng chính xác từ 99.13%tới 99.77% Với những tài liệu có chất lượng kém, độ chính xác của nhậndạng cũng đạt từ 89.34% tới 97.01% Kết quả nhận dạng giảm đi đối vớinhững tài liệu chất lượng kém chủ yếu là do các nét ký tự bị đứt và các ký tựliền kề nối liền nét
Đã có rất nhiều tài liệu nghiên cứu mô tả phương pháp nhận dạngOCR OCR được coi là nghiên cứu quan trọng nhất trong lĩnh vực nhận dạng.Trong khi các nghiên cứu phương pháp OCR trên ký tự La mã đã giảm dần
Trang 23thì nghiên cứu OCR trên các loại ký tự không phải La mã tiếp tục là vấn đềđược quan tâm nhiều đến
2.8 Phân tích các đối tượng ảnh trong tài liệu
Trong phân tích trang tài liệu ảnh thì nhận dạng đối tượng ảnh là mộttrong hai chủ đề quan vì các thành phần của ảnh luôn đi kèm với văn bản, các
sơ đồ biểu diễn, lôgô của công ty xuất hiện trong đầu thư, và các đường kẻphân cách các ô trong bảng Các đối tượng ảnh được nhận dạng là các ảnhxuất hiện dọc theo các đoạn văn bản và ảnh trong tài liệu Chúng ta cũng cóthể xây dựng những miền ứng dụng riêng biệt để nhận dạng từng loại đốitượng ảnh trong tài liệu; chúng có thể bao gồm các biểu tượng trong sơ đồ kỹthuật, biểu đồ nghiệp vụ, bản đồ, vân tay v.v… Mục đích của việc nhận dạngảnh là lấy ra được các thông tin mang ý nghĩa xuất hiện bên trong nội dungcủa ảnh
Phân tích tài liệu ảnh càng trở nên quan trọng hơn khi mà tài liệu hầunhư được tạo ra và xử lý bằng máy tính thì việc Những người làm việc trênmáy tính liên quan đến việc truyền tải và chuyển đổi tệp dữ liệu nhận thấymột điều rằng các tệp dữ liệu thường ít khi tương thích với nhau Bởi vì có sựkhác nhau về ngôn ngữ, đặc điểm của hệ thống, và sự thay đổi của các phiênbản CAD và các gói định dạng văn bản, do đó các tệp dữ liệu của những hệthống khác nhau thường không tương thích với nhau Một hệ thống xử lý tàiliệu có thể chuyển đổi một định dạng tài liệu ảnh kỹ thuật này sang định dạngkhác, nhưng mục đích của hệ thống cũng phải có khả năng chuyển đổi đượcnhững tài liệu ảnh vẽ bằng tay Điều này cũng giống như việc nhận dạng chữviết tay và văn bản trong OCR Khi máy tính có khả năng phân tích đượcnhững hình vẽ tay phức tạp một cách nhanh chóng và chính xác thì vấn đềnhận dạng ảnh sẽ được giải quyết, tuy nhiên để đến khi đạt được điều đó thìvẫn còn nhiều cơ hội và thách thức đối với lĩnh vực nghiên cứu này
Trang 24Trong các bước xử lý đối tượng ảnh có những bước xứ lý chung cũnggiống như đối với nhận dạng văn bản Các phương pháp tiền xử lý, phânđoạn, và trích chọn đặc trưng được mô tả trước đây sẽ được thực hiện trướctiên Thuật toán phân đoạn khởi tạo thường để áp dụng cho tài liệu có lẫn đốitượng văn bản và ảnh nhằm tách riêng thành hai phần văn bản và ảnh
Hầu hết các hệ thống OCR thương mại có khả năng nhận dạng cácđường biên dài và đường kẻ trong bảng khác so với cách nhận dạng ký tự, dođó việc cố gắng nhận dạng các đối tượng đó như là ký tự không xảy ra Hệphân tích ảnh cho các bản vẽ kỹ thuật phải phân biệt được đâu là văn bản vàđâu là ảnh Thông thường các hệ thống đều có khả năng nhận dạng tốt các đốitượng ảnh ngoại trừ một số trường hợp đặc biệt chẳng hạn khi ký tự nối liềnvới các hình vẽ gây ra nhầm lẫn đây là một đối tượng ảnh; hay có những biểutượng qua nhỏ và được coi như là một ký tự Tách đoạn và phân tích ảnh màuvới nhiều lớp của bản đồ, nhận dạng đối tượng ảnh ba chiều trong ảnh kỹthuật, và những bản vẽ kiến trúc 3 – D là những thí dụ cho thấy còn nhiềuthách thức đối với những người làm nghiên cứu trong lĩnh vực nhận dạng Rõràng rằng rất nhiều miền ứng dụng phụ thuộc tri thức cũng được áp dụng vàotrong tất cả những hệ thống nhận dạng, phân tích ảnh
Hệ phân tích tài liệu ảnh và các thành phần chung đã được mô tả tổngquan trong chương này Trong đó đã trình bày các bước chính trong quá trình
xử lý ảnh từ khi thu nhận ảnh đến khi trích ra được những thông tin ngườidùng mong muốn Trong chương 3 sẽ mô tả chi tiết những thuật toán nhậndạng đối tượng ảnh dựa vào thành phần liên thông trong tài liệu có lẫn ảnh vàvăn bản
Trang 25CHƯƠNG 3
THUẬT TOÁN TÁCH VĂN BẢN - ẢNH
TỪ TRANG TÀI LIỆU ẢNH
3.1 Tổng quan về phân tách văn bản – ảnh
Như chúng ta đã biết một trang tài liệu ảnh thường chứa đựng cácthông tin hỗn hợp như các đoạn văn bản và ảnh, chẳng hạn như các trang báođược quét, bản đồ hay các tài liệu được quét từ máy quét Do đó để lấy rađược phần chứa đựng thông tin và phần chứa ảnh riêng rẽ và chính xác cần cócác kỹ thuật xử lý phức tạp Các thuật toán tách văn bản - ảnh giúp chúng talấy ra được các thông tin như vậy Một thuật toán tách văn bản - ảnh sẽ phântách tài liệu thành hai lớp: lớp chứa văn bản và lớp chứa các đối tượng ảnh.Chương này sẽ trình khái quát về các phương pháp tách văn bản - ảnh và trìnhbày một thuật toán phân tách văn bản - ảnh hiệu quả Tư tưởng cơ bản củathuật toán là trước tiên đi xác định các vùng không phải là văn bản và lưu giữthông tin của vùng này vào lớp các đối tượng ảnh Các vùng còn lại sẽ thuộclớp văn bản Cách làm như vậy sẽ hiệu quả hơn là trước tiên đi xác định trựctiếp các vùng văn bản
Trong một hệ thống nhận dạng tài liệu, một tài liệu thường chứa nhiềuloại biểu tượng (các kiểu ký tự, ảnh) thông tin khác nhau Chính vì có sự khácnhau lớn giữa các đặc trưng của từng loại biểu tượng mà chúng sẽ được xử lýtheo từng kỹ thuật khác nhau Hơn thế nữa, những yêu cầu cao đối với các kỹthuật xử lý ảnh như các phép véc tơ hóa đối tượng ảnh, nhận dạng các loại kýtự Tiếng Anh, ký tự số, ký tự Trung Hoa đòi hỏi phải được nghiên cứu dựatheo những cách thức khác nhau Chính vì những lý do đó tách các thànhphần văn bản và ảnh từ những tệp tài liệu ảnh là một yêu cầu cần thiết đối vớimáy tính
Có rất nhiều phương pháp tách văn bản và ảnh từ trang tài liệu ảnhđược công bố trước đây Phương pháp được đưa ra trong tài liệu [3] dựa trên
Trang 26khái niệm, đối tượng văn bản bao giờ cũng có kích thước nhỏ hơn đối tượngảnh, quá trình tách văn bản và ảnh được thực hiện sau khi đã làm mảnh cácđối tượng Phương pháp trên khá đơn giản nhưng nó sẽ không hiệu quả khimột ký tự tiếp xúc với một ký tự khác hay một đối tượng ảnh khác Yamada[6] giới thiệu một phương pháp tách các đối tượng từ bản đồ địa hình, trongđó phương pháp có thể tách ra các đối tượng là đường đi và các toà nhà, phầncòn lại của bản đồ là các đối tượng văn bản Một trong những phương phápđược biết đến nhiều nhất là của Wong, Casey và Wahl [7], được điều chỉnh vàcải tiến trong [2] Tuy nhiên, một số chứng minh cho thấy phương pháp trênchỉ hoạt động hiệu quả trên các tệp tài liệu chứa nhiều văn bản, ngược lại trêncác tài liệu ảnh chứa nhiều các đối tượng ảnh thì phương pháp không hiệuquả Một vài phương pháp dựa trên các khoảng trắng [15] Phương pháp đượcbiết đến là hoạt động hiệu quả nhất trong kỹ thuật tách văn bản - ảnh đượcđưa ra trong [4] Phương pháp này dựa trên việc phân tích các thành phần liênthông và dựa vào phép biến đổi Hough để nhóm các thành phần trong cùngmột chuỗi ký tự và tách chúng ra khỏi các đối tượng ảnh Phương pháp hoạtđộng hiệu quả trên cả những thay đổi kiểu phông chữ, kích cỡ phông chữ vàhướng văn bản.
Tất cả các phương pháp được giới thiệu ở trên hoạt động dựa trên cáctrang tài liệu ảnh thỏa mãn các yêu cầu sau:
- Tài liệu ảnh phải không có các thành phần nhiễu và chúng phải được
xử lý để chuẩn hoá một số điều kiện trước khi thực hiện thuật toán
- Các chuỗi ký tự trong tài liệu ảnh phải không tiếp xúc với đối tượngảnh Hướng của các chuỗi ký tự thường được nhận dạng theo chiều ngang haychiều dọc Trong trường hợp chuỗi ký tự có hướng khác việc nhận dạng sẽkhó hơn
- Văn bản phải không chứa các kiểu ký tự Trung Hoa [16]
Trang 27Tuy nhiên những điều kiện, yêu cầu đối với tài liệu được nhận dạng ởtrên đã làm hạn chế việc nhận dạng một số lượng lớn tài liệu của một số ứngdụng Chẳng hạn trong ứng dụng CAD/CAM, nó sẽ chuyển một số lượng lớntài liệu ảnh trên giấy sang định dạng của CAD/CAM Tuy nhiên những loạitài liệu ảnh vẽ này lại có một số lượng lớn thành phần nhiễu, có các ký tự tiếpxúc với ký tự và ký tự tiếp xúc với các đối tượng ảnh Mặc dù có một số thaotác xử lý những vấn đề này nhưng chúng vẫn gặp phải một số hạn chế đó làvấn đề thời gian.
Trong các phương pháp phân tách văn bản và ảnh trong tài liệu ảnh, cóthể chia thành ba loại phương pháp cơ bản sau:
1 Sử dụng các phép biến đổi hình thái để lọc ra các đối tượng tuyếntính, chẳng hạn các hình vẽ và sau đó tách những đối tượng này ra khỏi tàiliệu, những thành phần còn lại sẽ được coi là văn bản Phương pháp này đặcbiệt có hiệu quả đối với các tài liệu là các bản đồ đơn giản [5][14], tuy nhiênnó sẽ gặp phải khó khăn khi mà trong tài liệu có các hình vẽ phức tạp hơn
2 Tương tự như vậy, một số khác lại đi tìm các đường kẻ để phân loạicác đối tượng, dựa vào phép biến đổi véc tơ hoá [12] của tài liệu ảnh
3 Phương pháp thứ 3 được sử dụng nhiều nhất, dựa trên việc phântích các thành phần liên thông, và các thành phần liên thông này sẽ được lọc
ra xem chúng thuộc lớp đối tượng nào (văn bản hay ảnh) dựa vào một số quytắc xác định Một trong những thuật toán nổi tiếng nhất dựa trên phương phápnày được đưa ra bởi Fletcher và Kasturi [4] Thuật toán này đã chứng minhrằng nó có khả năng phân tách tốt hai lớp đối tượng, ngay cả khi tài liệu chứacác đối tượng phức tạp Tuy nhiên thuật toán này vẫn chưa có khả năng phânloại trực tiếp đối tượng văn bản tiếp xúc với đối tượng ảnh
Một thuật toán phân tách văn bản - ảnh trên những tài liệu ảnh vẽ kỹthuật dựa trên quy tắc sẽ được trình bày trong chương này Thuật toán phân
Trang 28tách này dựa trên tư tưởng phương pháp phân tách thứ 3, tức là đi phân tíchcác thành phần liên thông và dựa vào phân tích các đặc trưng khác nhau củacác đối tượng văn bản và ảnh Chiến lược của thuật toán này đó là cố gắng đitìm càng nhiều càng tốt các vùng đối tượng ảnh và lưu trữ thông tin củachúng, cách làm này hiệu quả hơn là đi tìm trực tiếp các vùng đối tượng vănbản trước Thuật toán này có khả năng phân tách được các đối tượng văn bảnbao gồm các ký tự Trung Hoa, ký tự Phương Tây, ký hiệu đặc biệt từ loại tàiliệu ảnh có chứa hỗn hợp văn bản và ảnh một cách khá hiệu quả Thuật toáncũng có một số hạn chế trong việc nhận dạng một số loại tài liệu ảnh và mộtsố mức độ nhiễu và tuy nhiên nó có khả năng phân tách đối tượng văn bảntiếp xúc với đối tượng ảnh và không phụ thuộc vào kích cỡ kiểu ký tự Hướngcủa chuỗi ký tự cũng sẽ được đánh giá Quá trình làm mảnh ảnh có thể dẫnđến mất thông tin, thuật toán sẽ xử lý ở mức điểm ảnh trước khi quá trình làmmảnh và véc tơ hoá được thực hiện, chính vì vậy mà hai lớp đối tượng ảnh sẽđược lưu lại: một lớp chứa các đối tượng văn bản và lớp kia chứa các đốitượng ảnh Các loại đối tượng này sẽ được nhận dạng sau đó bằng những hệthống nhận dạng thích hợp.
Tiếp theo luận văn sẽ trình bày chi tiết các bước thực hiện của thuậttoán: Những đặc trưng chung của một tài liệu ảnh, mô tả các bước để xác địnhcác đối tượng ảnh và tách chúng ra khỏi đối tượng văn bản
3.2 Những đặc trưng chung của một tệp tài liệu ảnh
Đối tượng chủ yếu của tài liệu ảnh là văn bản và ảnh nhưng làm đểphân biệt được hai đối tượng trên máy tính đặc biệt là đối với ảnh nhị phânbởi vì cả hai đối tượng đều được biểu diễn bởi các con số 0 và 1 trong ảnh nhịphân Do đó việc phân biệt được sự khác nhau giữa hai loại đối tượng này sẽdựa vàophán đoán chủ quan và thống kê Mặc dù máy tính sẽ rất khó để phân
Trang 29biệt sự khác nhau giống, nhưng chúng ta sẽ dễ dàng phân biệt chúng nếu dựavào những điều kiện sau:
- Văn bản – các biểu tượng hay chuỗi ký tự bao gồm các ký tự, các
từ, ký tự số, ký tự Trung Hoa (hoặc ngôn ngữ khác) hoặc các ký tự đặc biệt
- Ảnh – các thành phần không chứa các ký tự, bao gồm tất cả các loại
đường thẳng, đường cong, hay các bức ảnh, sơ đồ, v.v
Dựa trên những định nghĩa cơ bản của hai loại đối tượng văn bản vàảnh ở trên, chúng ta có thể nhận biết được những đặc trưng khác nhau giữahình bao của vùng văn bản và ảnh được liệt kê dưới đây:
- Kích cỡ của ký tự văn bản bao giờ cũng nhỏ hơn nhiều kích cỡ củacác đối tượng ảnh Tỉ lệ kích cỡ hình bao của văn bản thường nhỏ Chẳng hạnvới kiểu chữ Tahoma – 20 có tỉ lệ trung bình của chiều rộng/chiều cao là vàokhoảng 2:3
- Các ký tự văn bản thường nằm trong một chuỗi ký tự Khoảng cáchgiữa các ký tự trong một từ hay khoảng cách giữa các từ thường là nhỏ vàthường theo những quy tắc nhất định Hướng của chuỗi ký tự thường là theochiều ngang, chiều dọc hoặc là nghiêng một góc 45 độ
- Độ đậm của nét chữ trong vùng chuỗi văn bản bao giờ cũng lớn hơn so với độ đậm của vùng ảnh
- Độ dài của các thành phần tuyến tính trong nét bút của chuỗi ký tự thường ngắn hơn so với các đối tượng ảnh, chẳng hạn như một đường kẻ dài hiếm khi xuất hiện trong nét bút của chuỗi ký tự
Trên thực tế mỗi đặc trưng được đưa ra ở trên cũng có một số ngoại lệxảy ra Tuy nhiên ở trên là bốn đặc trưng chung nhất của các đối tượng văn bản và ảnh
Trang 30
Hình 3.1 Ví dụ về các đối tượng văn bản và đối tượng ảnh
Hình 3.1 bao gồm hai loại kiểu ký tự: ký tự Trung Hoa và ký tự TiếngAnh và hình ảnh là một phần của bảng vẽ kỹ thuật Hình 3.2 biểu diễn tần sốxuất hiện của các điểm ảnh giao nhau màu đen và màu trắng khi đường thẳngcắt ngang qua các đối tượng Nhìn trên Hình 3.2 sự thay đổi tần số của cácnét bút trong văn bản thường cao hơn so với đối tượng ảnh
Hình 3.2 Biểu diễn các điểm ảnh giao nhau
Hình 3.3 chỉ ra một số trường hợp ngoại lệ Hình 3.3a đưa ra mộtbức ảnh nhỏ và nhìn giống như một ký tự Hình 3.3b là một ký tự Trung Hoarất khó phân biệt so với các đối tượng ảnh, đặc biệt khi ký tự này tiếp xúc vớicác đối tượng ảnh Hình 3.3c là một đối tượng ảnh có LSD cao Những ngoạilệ trên là những nguyên nhân chính dẫn đến sự nhận dạng và phân tách sai cácđối tượng trong các kết quả thí nghiệm được đưa ra dưới đây
ab
c
d
Trang 31Hình 3.3 Một số trường hợp ngoại lệ
3.3 Thuật toán phân tách văn bản - ảnh
Phần này sẽ trình bày thuật toán phân tách văn bản - ảnh dựa trên mộtsố quy tắc để xác định các đối tượng ảnh [16], lưu giữ thông tin của chúng vàtừ đó xác định được các đối tượng văn bản Các bước thực hiện chính củathuật toán được tóm tắt trong Hình 3.4 như sau:
Hình 3.4 Sơ đồ thuật toán phân tách văn bản
3.3.1 Xoá bỏ các đối tượng tuyến tính
Xác định các thành phần tuyến tính, lưu giữ thông tin của chúng, bao gồm các đường thẳng dài hay các đường thẳng ngắn
Xác định các nét bút không phải là văn bản, lưu giữ thông tin các đối tượng này, dựa vào việc phân tích nét bút của các thành phần liên thông
Kết hợp các nét bút trong một chuỗi, xác định các đối tượng không phải là văn bản dựa vào thành phần liên thông mới sau khi đã thực hiện một số
phép toán hình thái.
Trích ra thông tin từ các vùng bao chuỗi văn bản dựa vào hình chữ nhật giới hạn của các chuỗi trong ảnh ban đầu Lấy ra các đối tượng ảnh từ lớp đối tượng ảnh.
Trang 32Theo như đặc trưng 4 trong phần 3.2 các thành phần tuyến tính củaảnh thường được xác định trước Khái niệm thành phần tuyến tính (LC) để ámchỉ đến các đối tượng có nét bút là các điểm ảnh đen nằm liên tiếp khi đi theomột hướng nhất định Trong phần này, thuật toán sẽ duyệt từ trên xuống dướiquét theo từng hàng để tìm các thành phần LC, một LC sẽ được xác định làmột đối tượng ảnh khi mà độ dài của nó lớn hơn một tham số T1 được đặttrước Cũng làm tương tự như vậy nhưng sẽ quét theo chiều thẳng đứng từ tráisang phải để tìm những thành phần LC Các thành phần LC có góc nghiêng là
±22.5, ±45, ±67.5 cũng sẽ được xác định Tất cả các đối tượng LC được xácđịnh không phải là văn bản sẽ được đưa vào lớp các đối tượng ảnh
Trường hợp hình chữ nhật bao của đối tượng văn bản có chiều rộnghẹp xấp xỉ một điểm ảnh thì đối tượng đó được cho là một đường kẻ thẳngđứng hay ngang có độ rộng là 1 điểm ảnh và chúng được coi như là một đốitượng ảnh Do đó phần lớn các điểm nhiễu (dấu chấm câu) hay các LC ngắn(dấu gạch ngang, gạch nối) sẽ bị coi là những đối tượng ảnh.
Nếu các đối tượng đường thẳng không phải là các đường kẻ nganghoặc đường kẻ dọc sẽ được minh họa trong Hình 3.5 dưới đây thì một phéptoán kéo giãn đơn giản (tương đương với phép quay một góc α) sẽ được thựchiện trên các đối tượng đường thẳng này
Hình 3.5 Nhận dạng đường kẻ nghiêng với phép toán kéo dãn
Với một điểm ảnh có toạ độ (i, j) ta tính giá trị B = (tgα*j) trong đó αj) trong đó αlà góc nghiêng của đường thẳng so với mặt phẳng ngang Khi đó điểm ảnh cótoạ độ (i, j) sẽ được di chuyển tới toạ độ (i+B, j) Hình 3.5 b là kết quả của
Trang 33phép kéo giãn Hình 3.5 a khi góc α = 22.5 độ.Hình 3.5c với góc α = 45 độ.Hình 3.5d với góc α = 67.5 độ Rõ ràng rằng đường kẻ có góc nghiêng 22.5trên Hình 3.5a sẽ chuyển thành đường kẻ ngang trên Hình 3.5 b Sau khi thựchiện phép kéo giãn ta có thể thực hiện quét từng dòng để xác định các đường
kẻ ngang Tham số để xác định xem đường thẳng có là một đối tượng ảnh haykhông khi đó sẽ là T1*j) trong đó αcosα, bởi vì sau khi thực hiện phép kéo giãn độ dài củađường thẳng sẽ thay đổi Cuối cùng là thực hiện phép kéo giãn ngược lại đểkhởi tạo lại ảnh ban đầu với góc nghiêng là góc đối của phép kéo giãn vừathực hiện Hai phép biến đổi trên không làm mất thông tin của ảnh mà chỉ tìmđược những đường thẳng thích hợp để xác định chúng là các đối tượng ảnh
Nếu như một bức ảnh được số hoá chính xác thì phần lớn đường kẻnằm ngang hoặc nằm thẳng đứng với góc nghiêng là 0 hay 90 độ, hay nghiêngmột góc 45 độ Do đó phần lớn các đường kẻ sẽ được xác định một cách đơngiản chứ không cần phải thực hiện phép biến đổi như ở trên, điều đó sẽ giúpnâng cao tốc độ xử lý của hệ nhận dạng
3.3.2 Phân tích các thành phần liên thông của nét bút
Khi đã xác định được các thành phần tuyến tính là các đối tượng ảnh ởbước trên thì tài liệu vẫn còn các đối tượng ảnh, là những đối tượng có kíchthước khác biệt Chúng ta sẽ xem xét từng thành phần liên thông bắt gặp khiquét toàn bộ ảnh theo từng dòng “Thành phần liên thông” (CCs) [4] nghĩa làcác điểm ảnh màu đen thuộc về một vùng giới hạn liên thông tám, trong đómỗi điểm ảnh đen sẽ liên thông tám với một điểm ảnh đen khác trong vùnggiới hạn Trong CCs các điểm ảnh liên thông tám có thể thuộc về đối tượngvăn bản hay đối tượng ảnh và nằm trong vùng giới hạn hình chữ nhật Mỗimột hình bao chữ nhật sẽ là một thành phần CCs Một thành phần CCs sẽ nắmgiữ các thông tin sau: toạ độ nhỏ nhất và lớn nhất của hình chữ nhật, số lượngđiểm ảnh màu đen Phương pháp phân tích CCs như sau
Trang 341 Thành phần CCs được tạo ra sau khi đã xác định được các thànhphần LC và xoá chúng khỏi tài liệu.
2 Thứ hai là chúng ta sẽ sử dụng thông tin độ đậm đặc của CCs đểxác định các đối tượng ảnh
Ngay khi CCs được xác định là một đối tượng ảnh, chúng sẽ được đưavào lớp đối tượng ảnh và xoá chúng khỏi tài liệu ảnh, khi đó tài liệu ảnh chỉbao gồm các đối tượng văn bản
Các thành phần liên thông – CCs được tạo ra nhờ sử dụng phươngpháp tách cạnh, toạ độ các điểm ảnh của vùng bao giới hạn của một CCs đượcký hiệu là (Xi, Yi), i = 1, 2, 3, , n, trong đó n là tổng số điểm ảnh bao vùnggiới hạn Các thông số quan trọng sau sẽ được tính toán:
1) MaxBox, biểu diễn toạ độ lớn nhất và nhỏ nhất hình bao chữ nhật củaCCs
2) WBRatio, biểu diễn độ đậm đặc của các điểm ảnh đen trong vùng giớihạn của MaxBox
3) HWRatio biểu diễn tỉ lệ giữa hai chiều của vùng giới hạn MaxBox.Nếu HWRatio < 1 thì đặt HWRatio = 1 / HWRatio
Khi đó CCs sẽ được coi là một đối tượng ảnh nếu các thông số trênthoả mãn 1 trong các điều kiện sau:
A) WBRatio ≤ T2,
B) HWRatio ≥ T3, hoặc
C) Độ dài của cạnh dài hơn của MaxBox ≤ T4
Trong đó T2, T3 và T4 là các tham số được thiết lập trước giống nhưT1 Điều kiện A để xác định các đường kẻ mà có góc nghiêng không nằmtrong các trường hợp 0, ±22.5, ±45, ±67.5 hay ±90, bởi vì số lượng các điểmảnh trắng trong MaxBox của các đường kẻ nghiêng sẽ nhiều hơn so với CCscủa văn bản Hơn thế nữa điều kiện A còn để xác định các hình có kích thước