Nhiệm vụ quan trọng nhất là làm sao để có thể từ file ảnh số này ta có thể xử lý được thông tin trên các phần mềm hiện có như bộ office, open office… Xuất phát từ thực tế đó, tôi lựa chọ
Trang 1MỤC LỤC
MỤC LỤC 1
LỜI CẢM ƠN 3
DANH MỤC HÌNH ẢNH 4
MỞ ĐẦU 7
CHƯƠNG 1 TỔNG QUAN PHÂN TÍCH TRANG TÀI LIỆU ẢNH 9
1.1. Khái niệm 9
1.2. Cấu trúc vật lý và cấu trúc logic của ảnh tài liệu 10
1.3. Tiền xử lý 11
1.3.1. Lọc nhiễu (noise romaval): 11
1.3.2. Tách nền (Background separation): 12
1.3.3. Xác định góc nghiêng 12
1.4. Cấu trúc tài liệu 14
1.5. Hệ thống phân tích tài liệu ảnh hiện nay 17
CHƯƠNG 2 CÁC PHƯƠNG PHÁP PHÂN TÍCH TRANG TÀI LIỆU ẢNH 27
2.1. Top-Down 27
2.1.1. Tổng quan 27
2.1.2. Module phân tích Top-down 29
2.1.3. Nhược điểm 32
2.2. Bottom-up 33
2.2.1. Tổng quan 33
2.2.2. Nhược điểm 36
2.3. Phương pháp Tách và Nối thích nghi (Adaptive Split – and – Merge) 36
2.3.1. Tổng quan 36
2.3.2. Ưu điểm 38
2.3.3. Nhược điểm 38
2.4. Fractal Signature (FS) 39
2.4.1. Tổng quan 39
Trang 22.4.2. Phân tích Fractal Signature 43
2.4.3. Mô phỏng thuật toán FS 46
2.4.4. Ưu điểm 47
2.4.5. Nhược điểm 48
CHƯƠNG 3 CHƯƠNG TRÌNH DEMO PHÂN TÍCH TRANG TÀI LIỆU ẢNH 49 3.1 Thiết kế chương trình 49
3.2. Thiết kế hệ thống 50
3.2.1. Sơ đồ khối 50
3.2.2. Ảnh đầu vào 50
3.2.3. Module Tiền xử lý 51
3.2.4 Module chuẩn hóa ảnh 52
3.2.5 Module lọc và làm trơn nhiễu 54
3.3 Chương trình 55
3.3.1 Cấu trúc tài liệu ảnh 55
3.3.2 Giao diện 57
KẾT LUẬN 82
TÀI LIỆU THAM KHẢO 83
Trang 3LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn đến các thầy cô ở Viện toán ứng dụng và tin học, Viện đào tạo sau đại học – Đại học Bách Khoa Hà Nội đã tổ chức chỉ đạo và giảng dạy khóa cao học của chúng tôi
Tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn PGS TS Ngô Quốc Tạo về những chỉ dẫn khoa học và tận tình hướng dẫn cho tôi trong suốt quá trình làm luận văn Nếu không có sự quan tâm giúp đỡ của thầy thì tôi khó có thể hoàn thành bản luận văn này
Tôi xin cảm ơn lãnh đạo khoa Công nghệ thông tin, lãnh đạo Học viện kỹ thuật mật mã – Trường học viện kỹ thuật mật mã nơi tôi công tác, đã tạo điều kiện cho tôi trong thời gian hoàn thành hoàn thành các môn học cũng như trong thời gian làm luận văn tốt nghiệp
Cuối cùng tôi xin cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn ủng hộ, động viên tôi
Xin chân thành cảm ơn!
LÊ ĐỨC THUẬN
Trang 4DANH MỤC HÌNH ẢNH
Hình 1 – Tài liệu ảnh có cấu trúc phức tạp……… ….9
Hình 2 – Sơ đồ nguyên lý hệ thống xử lý tài liệu……… 11
Hình 3 – (a): ảnh gốc; (b): ảnh sau khi tách nền……… ………….12
Hình 4 – Một ảnh tài liệu bị nghiêng……….……….… 13
Hình 5 – Sơ đồ OCR cơ bản ……….……… ……….15
Hình 6 – Cây mô tả cấu trúc logic của một trang tài liệu ………17
Hình 7 - Ví dụ nhận dạng của VnDocr ……… 18
Hình 8 - Ảnh đầu vào có cấu trúc đơn giản……….….…………19
Hình 9 - Kết quả của Vndocr với ảnh đầu vào như hình 8……… ………20
Hình 10 - Ảnh có cấu trúc vật lý được phân từng khối rõ ràng ……….……… …21
Hình 11 - Vndocr nhận dạng vào ảnh đầu vào là hình 10 ……….….22
Hình 12 - Đầu ra phân vùng chỉ có 1 vùng văn bản……….23
Hình 13 - Ommipage đoán nhận sai các vùng văn bản ….……… 24
Hình 14 - Ảnh sau khi phân tích bằng finereader đạt hiệu quả cao ……… 25
Hình 15 - Finereader đã phân vùng đúng các vùng văn bản và ảnh ……… 25
Hình 16 – Kết quả chiếu nghiêng theo phương ngang và đứng của tài liệu……….28
Hình 17- Phân tách cột dựa vào phép chiếu nghiêng theo phương ngang…………29
Hình 18 – Lược đồ chiếu đứng của trang tài liệu bị nghiêng………32
Hình 19 – Lược đồ chiếu đứng của một bài báo……… 33
Trang 5Hình 20 – Phương pháp Dostrum cho phân tích định dạng từ dưới lên………… 35
Hình 21 – Mô tả thuật toán tách và nối thích nghi………37
Hình 22 – Mô tả thuật toán FS ……… ……… 39
Hình 23 – Sơ đồ khối hệ thống phân tích tài liệu ảnh……….…………50
Hình 24 – Một khối chuyển sang bề mặt không gian ……… …51
Hình 25 – Chuyển ảnh chữ "c" sang bề mặt không gian 3D……….52
Hình 26 – Chuyển ảnh đầu vào thành ma trận điểm ảnh ………55
Hình 27 – Giao diện chính………57
Hình 28 – Kết quả phân tích Top-down trên tài liệu thuần văn bản 65
Hình 29 – Phân tích Top-down trên tài liệu có câu trúc đơn giản ……… 66
Hình 30- Phân tích Top-down trên văn bản có nền phức tạp … ………67
Hình 31 – Phân tích Top-down trên tài liệu tài liệu nghiêng ……….……… 68
Hình 32 – Phân tích Top-down trên tài liệu nghiêng phức tạp ……… ….69
Hình 33 – Phân tích Top-down trên tài liệu có cấu trúc phức tạp ……… 70
Hình 34 – Phân tích Top-down trên tờ rơi quảng cáo ……… ………71
Hình 35- Phân tích Top-Down trên tài liệu có cấu trúc phức tạp ……… 72
Hình 36 – Kết quả phân tích Top-down trên tài liệu thuần văn bản 73
Hình 37 – Phân tích Top-down trên tài liệu có câu trúc đơn giản ……… 74
Hình 38 - Phân tích Top-down trên văn bản có nền phức tạp … ……… ………75
Hình 39 – Phân tích Top-down trên tài liệu tài liệu nghiêng ……….……… 76
Trang 6Hình 40 – Phân tích Top-down trên tài liệu nghiêng phức tạp ……… ….77
Hình 41 – Phân tích Top-down trên tài liệu có cấu trúc phức tạp ……… 78
Hình 42 – Phân tích Top-down trên tờ rơi quảng cáo ……… ………79
Hình 43- Phân tích Top-Down trên tài liệu có cấu trúc phức tạp ……… 80
Trang 7MỞ ĐẦU
Trước khi có sự bùng nộ của máy tính, ở tất cả các lĩnh vực khi muốn lưu trữ dữ liệu của cá nhân, cơ quan, công ty… người ta đều phải lưu trữ các dữ liệu này ở dạng văn bản viết tay, các bài báo, hay những quyển sách Những hồ sơ lưu trữ này sẽ tồn tại ở kho lưu trữ 1 năm, 2 năm, 5 năm, 10 năm hoặc lâu hơn nữa đến khi nào tổ chức nhận thấy không còn quan trọng nữa thì sẽ tiêu hủy
Kho lưu trữ của tổ chức sẽ ngày càng nhiều tài liệu, để tìm kiếm được một tài liệu mà bản thân cần tới sẽ phải mất rất nhiều thời gian tra cứu Khi đã tìm thấy tài liệu cần thiết thì sẽ phải chép lại những phần cần dùng trong tài liệu Mặt khác, những tài liệu khi đã để quá lâu sẽ dẫn tới hiện tượng chữ mờ, nhòe, hay trang giấy
bị nhàu nát, rách… gây khó khăn cho người tìm kiếm
Khi máy tính bùng nổ nhanh chóng đi vào các lĩnh vực trong cuộc sống nó
đã giúp ích cho con người, trở thành dụng cụ không thể thiếu trong thời buổi thông tin như hiện nay Lợi ích của máy tính trong việc lưu trữ là không thể phủ nhận, nó
có thể lưu trữ cả ngàn, cả tỉ tài liệu, từ các tổ chức bé tới lớn chỉ với kích thước nhỏ gọn Chính điều này khiến cho kho lưu trữ của các tổ chức có thể giảm nhẹ một cách đáng kể so với trước đây
Một vấn đề được mọi người quan tâm là làm sao để có thể chuyển được gần như toàn bộ dữ liệu của cơ quan, tổ chức đang ở kho lưu trữ vào máy tính? Điều này một phần có thể giải quyết được thông qua việc thuê nhân lực để gõ toàn bộ dữ liệu đó vào Việc làm này dẫn đến cơ quan tổ chức đó phải trả một số tiền không nhỏ cho việc nhập liệu, mặt khác trong quá trình nhập liệu đó ta không thể kiểm soát hết xem người nhập liệu có nhập đúng hay không Thêm nữa, có những văn bản có chữ ký hoặc văn bản viết tay hay văn bản có hình ảnh thì người nhập liệu không thể nhập vào trong máy tính (ta gọi là văn bản dạng số)
Vậy có cách nào để có thể thực hiện được điều này nhanh hơn, chính xác hơn, đỡ tốn tiền của hơn?
Trang 8Bài toán tối ưu này chưa có lời giải triệt để, nhưng hướng xử lý nó đã có Đó
là chúng ta biến những tài liệu đang lưu trữ trong kho này thành những file ảnh số trong máy tính (điều này có thể làm được thông qua máy scan) Nhiệm vụ quan trọng nhất là làm sao để có thể từ file ảnh số này ta có thể xử lý được thông tin trên các phần mềm hiện có như bộ office, open office…
Xuất phát từ thực tế đó, tôi lựa chọn đề tài "Nghiên cứu phương pháp phân tích trang tài liệu ảnh" Mục đích chính của đề tài là hệ thống hóa kiến thức về các
phương pháp phân tích trang tài liệu ảnh để đưa ra các nhận xét, so sánh, đánh giá
về các phương pháp phân tích trang tài liệu ảnh Qua đó có cái nhìn tổng quát hơn
về các phương pháp
Luận văn được chia làm 3 phần với nội dung như sau:
Chương 1: Nêu khái niệm về cấu trúc của một trang tài liệu ảnh và các bài toán liên quan Các chương trình phân tích trang tài liệu ảnh hiện nay ở trong nước và trên thế giới
Chương 2: Trình bày các phương pháp phân tích trang tài liệu ảnh, từ đó có cơ sở
để so sánh xem phương pháp nào có ưu điểm, nhược điểm nhiều hơn
Chương 3: Demo chương trình phân tích trang tài liệu ảnh bằng 2 thuật toán
Top-down và Fractal Signature với ảnh đầu vào là đa cấp xám
Do thời gian hạn hẹp và trong quá trình nghiên cứu một vấn đề khoa học để đi đến kết quả là một khó khăn và nhiều thách thức Do vậy luận văn có nhiều điểm còn thiếu sót Rất mong nhận được ý kiến đóng góp của thầy cô, đồng nghiệp, bạn bè để tôi có thể hoàn thiện hơn trong tương lai
Học viên
Lê Đức Thuận
Trang 9CHƯƠNG 1 TỔNG QUAN PHÂN TÍCH TRANG TÀI LIỆU
ẢNH 1.1 Khái niệm
Một ảnh tài liệu bao gồm nhiều thực thể vật lý hoặc các vùng như các khối văn bản, các dòng, các từ, các hình, các bảng và nền Ảnh tài liệu cũng có những nhãn chức năng như các câu, các tiêu đề, chú thích, …
Ảnh tài liệu được tạo ra từ các tài liệu vật lý bằng cách số hóa như dùng máy quét hoặc máy ảnh kỹ thuật số Nhiều văn bản như báo, tạp chí và tài liều quảng cáo
có chứa cấu trúc phức tạp do các vị trí của các hình, các tiêu đề, các nền , định dạng văn bản…
Hình 1 - Tài liệu ảnh có cấu trúc phức tạp
Một người đọc có thể sử dụng các dấu hiệu để thêm vào thông tin như bối cảnh, thông tin về ngôn ngữ/ kịch bản, cùng với quá trình lý luận phức tạp để giải
Trang 10mã nội dung của tài liệu Phân tích tài liệu tự động với những tài liệu phức tạp là một nhiệm vụ vô cùng khó khăn
1.2 Cấu trúc vật lý và cấu trúc logic của ảnh tài liệu
Sự xắp xếp vật lý của một trang tài liệu đề cập đến ranh giới vật lý và các biên của các khu vực trong ảnh tài liệu Quá trình phân tích bố trí tài liệu nhằm mục đích để phân tách một hình ảnh tài liệu vào các khu vực đồng nhất, như ảnh, hình nền, khối văn bản, các dòng văn bản, các từ, các ký tự … Các thuật toán để phân tích có thể được phân loại chủ yếu dựa vào ba nhóm tiếp cận:
- Bottom-up: Bắt đầu từ những phần tử nhỏ nhất (từ các pixel hay các phần
tử liên thông) sau đó liên tục nhóm chúng lại thành các vùng lớn hơn
- Top-down: Bắt đầu từ những vùng lớn nhất chức cả trang tài liệu sau đó liên tục phân chia thành các vùng nhỏ hơn
- Các thuật toán không theo thứ bậc: Fractal Signature, Adaptive merge …
Ngoài cấu trúc vật lý, các trang tài liệu còn chứa đựng nhiều thông tin về ngữ cảnh
và nội dung như các tiêu đề, đoạn văn, đề mục,… và mỗi vùng nội dung này lại được gán các nhãn logic hay nhãn theo chức năng tương ứng, khác biệt hoàn toàn trong các nhãn của cấu trúc vật lý Hầu hết các tài liệu đều có một quy tắc đọc để có thể hiểu hết nội dung của tài liệu Với một số ngôn ngữ đặc biệt như tiếng trung, tiếng nhật, tiếng Ả rập thì lại có quy các đọc khác biệt (Từ trái qua phải) Tập hợp tất cả các yếu tố logic và chức năng trong một tài liệu và mối quan hệ giữa chúng được gọi là cấu trúc logic của tài liệu Các phân tích cơ cấu hợp lý của một tài liệu thường được thực hiện trên kết quả của giai đoạn phân tích Tuy nhiên trong nhiều văn bản phức tạp, việc phân tích sẽ yêu cầu một số thông tin hợp lý về vùng để thực hiện phân đoạn chính xác
Hầu hết các ảnh tài liệu đều có nhiễu do quá trình thu nhận ảnh gây ra (môi trường, chất lượng máy quét), vì thế trong quá trình xây dựng các thuật toán phân
Trang 11tích cần loại bỏ các nhiễu này và công việc này thường được tiến hành trước khi bắt đầu phân tích bố cục hay cấu trúc gọi là tiền xử lý Nhiệm vụ chính của bước này là loại bỏ nhiễu, tách nền ra khỏi nội dụng, phát hiện và xoay góc nghiêng…
Sơ đồ nguyên lý của một hệ thống tự động phân tích tài liệu như sau:
Hình 2 – Sơ đồ nguyên lý hệ thống xử lý tài liệu
1.3 Tiền xử lý
Giai đoạn tiền xử lý trong đồ án này chủ bao gồm các tiến trình:
- Loại bỏ nhiễu chứa trong ảnh được tạo ra khi ta scan ảnh hay trong quá trình chụp ảnh số
- Phân tách nền trong ảnh tài liệu
- Xử lý độ nghiêng của ảnh trong qus trình quét ảnh
1.3.1 Lọc nhiễu (noise romaval):
Nhiễu luôn là một vấn đề trong hầu hết các bài toán đọc hiểu tài liệu Nhiễu sinh ra không chỉ do quá trình scan ảnh mà còn bao gồm các nhiễu trắng gây ra từ chính sensor hay các mạch thu nhận trong các máy thu nhận ảnh số, nhiễu muối, nhiễu hạt tiêu, sự lượng tử hóa… Nhiễu có thể
Trang 12được loại bớt sử dụng một số các kỹ thuật như lọc trung bình, lọc trung vị, lọc thông thấp, …
1.3.2 Tách nền (Background separation):
Một trong những vấn đề quan trong trong sự tìm hiểu cấu trúc tài liệu là tách nền từ một nền ảnh Vấn đề này tương đối đơn giản trong trường hợp các văn bản có hền trắng hoặc nền có cấu trúc đơn giản Nhưng ngay cả trong những trường hợp như vậy ta cũng rất khó khăn trong việc xác định điểm ảnh có chính xác thuộc về tiền cảnh hay không
Ta có thể tách nền bằng một số kỹ thuật như sau:
- Gán mỗi điểm ảnh vào "phần nổi" hay phần nền dựa theo một tiêu chí nào đấy (như ngưỡng mức xám, …)
- Dựa theo độ đo xác suất xuất hiện của mỗi điểm ảnh mà phân lớp nó vào nền hày phần nổi
- Dựa vào các pixel liên thông kết hợp với mạng noron để phân tách
Hình 3 – (a): ảnh gốc; (b): ảnh sau khi tách nền
1.3.3 Xác định góc nghiêng
Do quá trình thu nhận ảnh (như đặt lệch tài liệu khi scan, …) ảnh tài liệu thu được rất có thể bị nghiêng, tức trục của các dòng văn bản không song song với trục ngang (hình 7) Việc xác định được góc nghiêng và xoay lại tài liệu là một khâu rất quan trọng ảnh hưởng tới hiệu quả trong một số
Trang 13thuật toán phân tích Ví dụ như các thuật toán dựa theo biểu đồ sau phép chiếu nghiêng để tiến hành phân tích thì sẽ hoàn toàn thất bại nếu văn bản bị nghiêng Tuy nhiên có thể tự động ước lượng được chính xác góc nghiêng của ảnh tài liệu là một bài toán khó
Có nhiều kỹ thuật để có thể xác định được góc nghiêng của tài liệu, điểm chung trong hầu hết các thuật toán là xác định góc nghiêng bằng việc xác định hướng của các dòng văn bản dựa vào vị trí một số ký tự trong tài liệu
Hình 4 – Một ảnh tài liệu bị nghiêng
Trang 141.4 Cấu trúc tài liệu
Là sự hiểu biết về cấu trúc với mô tả logic của các vùng hoặc các đặc tính vật lý
Định nghĩa: Cấu trúc logic của tài liệu ảnh là một ánh xạ từ các vùng vật lý trong
trang tài liệu tới những nhãn logic Phân tích cấu trúc tài liệu là tiến trình phân định các nhãn logic tới các vùng vật lý được định nghĩa trong quá trình phân tích trang
Các nhãn logic bao gồm tiêu đề, abstract, sub-title, đoạn, câu, từ, header, footer, chú thích, số trang … Mặc dù tiến trình phân tích trang logic được định nghĩa là cho phép phân tích trang, trong thực tế, hai tiến trình có thể được kết hợp trong một tiến trình tìm hiểu tài liệu duy nhất
Một trong những phương pháp để định nghĩa cấu trúc logic của một tài liệu
là thiết lập các vùng của tài liệu như là một chuỗi các ký hiệu Một văn phạm được định nghĩa bởi nhiều các ký hiệu mà được mô tả bởi cấu trúc logic của một tài liệu bất kỳ Tiến trình của phân tích cấu trúc là sự tính toán, phân tích (thiết lập các nguyên tắc) để tạo ra các chuỗi ký tự đã được quan sát Vấn đề phát sinh khi có nhiều phân tích tương ứng với một tài liệu và khi đó ta có thể lựa chọn Các quy tắc ngữ pháp được tăng cường với các thuộc tính của vùng mà chúng liên kết để tương thích với hoàn cảnh Sự phân tích tốt nhất được định nghĩa bằng cách sử dụng giá của các chức năng được đưa vào Cũng có thể sử dụng phương pháp ngẫu nhiên tùy thuộc vào các quy tắc được sử dụng trong thuộc tính cuối Các quy tắc ngẫu nhiên luôn chứa một xác suất nhất định
Các hệ thống nguyên tắc cơ bản được đưa ra để xác định cấu trúc logic của tài liệu Các quy tắc trong một hệ thống quy tắc cơ bản có thể biểu thị các hành động được đưa vào trong tình huống cụ thể hoặc phạm vi hiểu biết Hệ thống DeLos được đề xuất bởi Niyogi và Srihari sử dụng ba cấp độ của bộ nguyên tắc: phạm vi hiểu biết (domain knowledge), điều khiển thông tin và chiến lược Cách tiếp cận này hoạt động tốt ngay cả đối với các tài liệu phức tạp như các tờ báo Tuy nhiên,
Trang 15bản thân các quy tắc là cứng nhắc và các hệ thống quy tắc cơ bản không có khả năng học hỏi từ những tập hợp của các văn bản mẫu
Một cách tiếp cận thứ hai là áp dụng phạm vi hiểu biết về trang và cấu trúc dựa trên kết quả của OCR và đồ họa OCR (Optical Charater Recognition) là quá trình chuyển đổi tài liệu dưới dạng các tài liệu mà chỉ có mỗi con người có thể hiểu
và đọc được sang tài liệu dưới dạng file văn bản (được lưu trữ trên máy tính và cả con người và máy tính đều có thể đọc được)
OCR có nhiều lợi ích như:
- Xắp xếp thư
- Tự động thu thập dữ liệu từ các mẫu đơn, bảng biểu hay từ các hồ sơ
- Hệ thống tự động kiểm tra xác thực (Kiểm tra nhận dạng chữ ký…)
- Tự động xử lý các hóa đơn hay các yêu cầu thanh toán
- Hệ thống tự động đọc và kiểm tra passport
- Tự động phục hồi và copy tài liệu từ các ảnh quét
- Máy đọc cho những người khiếm thính
Trang 16Hình 5 – Sơ đồ OCR cơ bản Cách tiếp cận này rất mạnh mẽ vì nó có thể được dùng trong những ngữ cảnh của văn bản có nhiều chức năng
Có một số phương pháp phân tích và được phân ra làm hai loại như sau:
¾ Các phương thức có thứ bậc: Trong quá trình chia tài liệu thành các block chúng ta quan tâm đến mối liên hệ về mặt hình học giữa các block Có ba phương pháp thuộc loại này là:
o Phân tích top-down (trên xuống)
o Phân tích buttom-up (dưới lên)
o Phân tích Adaptive split-and-merge (tách và nối thích nghi)
¾ Các phương pháp không thứ bậc: Trong quá trình chia tài liệu thành các khối chúng ta không quan tâm đến mối liên hệ hình học giữa các block
Từ kết quả của pha phân tích cấu trúc vật lý, phân tích cấu trúc logic sẽ đi xác định mối quan hệ logic giữa các vùng đã được gắn nhãn tiêu đề, văn bản, đề mục, hearder,… Bước này là cơ sở cho việc nhận dạng ký tự
- Việc xác định được vị trí chính xác của mỗi vùng trong cấu trúc logic sẽ tăng thêm thông tin cho quá trình nhận dạng như thông tin về ngữ cảnh,
Trang 17đoán nhận được kiểu font và kích thước chữ nếu biết nó thuộc vùng tiêu
đề, đề mục hay trong đoạn văn, …
Hình 6 – Cây mô tả cấu trúc logic của một trang tài liệu
1.5 Hệ thống phân tích tài liệu ảnh hiện nay
VnDOCR
Vndocr phần mềm nhận dạng tiếng việt là sản phẩm của Viện công nghệ thông tin VnDOCR thu nhập thông tin nhờ quá trình quét các loại sách báo thông qua máy quét thành các tệp ảnh và chuyển đổi thành các tệp có định dạng *.doc,
*.xls, *.txt, *.rtf, … có thể đọc và chỉnh sửa được trên các phần mềm soạn thảo văn bản thông dụng như Office, Wordpad, …
Môi trường
¾ PC với hệ điều hành Windows 9x, ME, 2000, XP, NT, Vista, Win 7, … Tiện ích: Bộ gõ font ABC, VNI, Unicode, …
Trang 18Thông tin đưa vào
¾ Quét trực tiếp các loại sách báo, văn bản qua máy quét
¾ Đọc và xử lý hơn 30 dạng tệp tin ảnh phổ dụng nhất như PCX, BMP, TIF, GIF, JPG, …
¾ Có thể nhận dạng trực tiếp tài liệu quét qua máy scan không cần lưu trữ dưới dạng tệp ảnh trung gian Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang
Các chức năng chính:
- Phân tích cấu trúc vật lý của tài liệu và đưa ra cấu trúc phần vùng
- Phân tích và nhận dạng chưc đầu ra text có thể copy hay lưu trữ và soạn thảo lại được
Hình 7 - Ví dụ nhận dạng của VnDocr
Trang 19Thí nghiệm 1:
- với ảnh đầu vào như sau:
Hình 8 - Ảnh đầu vào có cấu trúc đơn giản
Trang 20- Kết quả phân tích của VnDocr như sau:
Hình 9 - Kết quả của Vndocr với ảnh đầu vào như hình 8
Ö VnDocr đã tìm thấy và khoanh vùng đúng các vùng văn bản
Trang 21Thí nghiệm 2:
- Với ảnh đầu vào có cấu trúc vật lý đơn giản như sau:
Hình 10 - Ảnh có cấu trúc vật lý được phân từng khối rõ ràng
Trang 22- Kết quả khi phân tích bởi Vndocr như sau:
Hình 11 – Vndocr nhận dạng vào ảnh đầu vào là hình 10
Ö VnDocr phân vùng sai ảnh và text
Một số hạn chế:
- VnDOCR chỉ làm việc với ảnh đen trắng
- Với các ảnh có cấu trúc vật lý phức tạp VnDOCR cho kết quả phân tích với hiệu quả chưa cao
OminiPage
OminiPage là phần mềm nhận dạng văn bản của NUANCE Nó có thể chuyển dổi các file ảnh tài liệu hay file PDF sang dạng file văn bản có thể đọc được bởi các phần mềm soạn thảo như Office Với khả năng nhận dạng các ký tự la tinh chính xác tới 99%
Một số đặc tính chính:
- Nhận dạng chính xác 99% trên 119 ngôn ngữ khác nhau
- Nhận dạng cả các file đầu vào là PDF
Trang 23- Nhận dạng được các trang có nhiều loại font, kiểu font hoặc có nền là ảnh mầu
Hạn chế:
- Chưa hiệu quả với các ảnh tài liệu có cấu trúc phức tạp
Thí nghiệm 1:
Hình 12 - Đầu ra phân vùng chỉ có 1 vùng văn bản
Ö Ominipage đoán nhận tất cả 1 trang là một vùng văn bản
Trang 24Thí nghiệm 2:
Hình 13 – Ommipage đoán nhận sai các vùng văn bản
Ö OminiPage phân vùng không đúng các vùng văn bản hiện có
Finereader
Finereader là một sản phẩn ORC của ABBYY với một số tính năng chính sau:
- Cho phép kết nối và nhận dạng ảnh trực tiếp từ Camera
- Nhận dạng được 38 ngôn ngữ khác nhau
- Nhận dạng được cả text và đồ họa
Trang 25Hình 14 - Ảnh sau khi phân tích bằng finereader đạt hiệu quả cao
Hình 15 - Finereader đã phân vùng đúng các vùng văn bản và ảnh
Ö Với 2 mẫu văn bản có cấu trúc đơn giản và phức tạp thì Finereader đều cho hiệu quả cao, nói chung Finereader đều cho hiệu quả cao với các tài liệu có
bố cục phức tạp
Ö Finereader có tốc độ làm việc chậm hơn so với VnDocr và OminiPage
Trang 26Kết luận
Thông qua các kết quả phân tích với những chương trình phân tích trang tài liệu ảnh hiện có ở trong nước và trên thế giới thì trong đề tài này, tôi sẽ chủ tìm hiểu các phương pháp phân tích một trang tài liệu ảnh Từ đó đi xây dựng một chương trình demo với ảnh đa cấp xám có độ phức tạp cao và cải tiến hơn so với chương trình vnDocr
Trang 27CHƯƠNG 2 CÁC PHƯƠNG PHÁP PHÂN TÍCH TRANG
TÀI LIỆU ẢNH 2.1 Top-Down
¾ Phép chiếu nghiêng theo hướng x bất kỳ: Thực chất là đi xác định lược đồ xám bằng cách tính tổng các điểm ảnh màu đen (hoặc trắng) theo phương vuông góc với x dọc theo trục x Trong thực tế x thường là phương nằm ngang hay phương thẳng đứng so với trang văn bản
Một ví dụ về phép chiếu nghiêng với một trang tài liệu ở Hình - 20
Trên lược đồ xám của phép chiếu nghiêng sẽ xuất hiện các điểm cực trị, với phép chiếu nghiêng theo phương thẳng đứng ta dễ nhận thấy độ rộng của các đáy chính là khoảng cách giữa hai dòng, với các độ rộng của đáy nào đó mà tần suất xuất hiện ít hoặc vượt quá một ngưỡng chính là khoảng cách giữa hai vùng văn bản Còn lại vị trí của đỉnh là trục của mỗi dòng văn bản
Với phép chiếu nghiêng theo phương ngang ta có thể phân tách được các cột hay các vùng cơ sở dựa vào ngưỡng khoảng cách của đáy (hình 20) Cũng theo nguyên tắc này nếu áp dụng phép chiếu nghiêng trên mỗi dòng văn bản ta cũng có thể phân đoạn được các ký tự hoặc từ dựa vào khoảng cách của đáy (hình 21)
Trang 28Hình 16 – Kết quả chiếu nghiêng theo phương ngang và đứng của tài liệu
Trang 29Hình 17- Phân tách cột dựa vào phép chiếu nghiêng theo phương ngang
2.1.2 Module phân tích Top-down
Thuật toán phân tích Top-down được thiết kế theo kiểu đệ quy, và cần tham số chiều cao của font chữ Để tính chiều cao của font chữ có 2 giải pháp
- Một là cho phép người dùng nhập vào
- Hai là dò từ động theo thuật toán sau:
B1: Tính lược đồ chiếu nghiêng theo phương thẳng đứng
B2: Tìm độ rộng xuất hiện nhiều nhất của các "cột" trong lược đồ chiếu nghiêng, đó là xấy xỉ bằng chiều cao font chữ
Trang 30Trong đề tài này, ta xác định chiều cao bằng phương pháp dò tự động
Giải thuật Top-down
Input: Ảnh đa cấp xám I kích thước m x n, chiều cao font chữ k
Output: Ảnh đã được phân đoạn văn bản và đồ họa
Thuật toán:
Proceduce Topdown (I,x,y,m,n,k) //I là ảnh đầu vào
// trên cùng góc
Begin
B1: Tính lược đồ chiếu đứng cho ảnh I được kết quả là mảng A gồm m phần tử
Trang 322.1.3 Nhược điểm
Phân tích top-down tồn tại những nhược điểm như:
- Kém hiệu quả với các loại tài liệu có bố cục phức tạp
- Cần xoay ảnh về đúng vị trí ngang nếu ảnh bị nghiêng
- Làm việc tốt chỉ với ảnh nhị phân
- Kém hiệu quả với các trang tài liệu sử dụng nhiều loại font và size khác nhau
- Thông thường top-down được sử dụng cho các loại tài liệu biết trước form bố cục, và có bố cục vật lý đơn giản
Hình 18 – Lược đồ chiếu đứng của trang tài liệu bị nghiêng
Trang 33Hình 19 – Lược đồ chiếu đứng của một bài báo
2.2 Bottom-up
2.2.1 Tổng quan
Bottom-up bắt đầu với những phần nhỏ và tìm cách nhóm chúng vào những phần lớn hơn, liên tiếp tới khi mọi khối trên trang được xác định Trong phạm vi luận văn này, chỉ giới thiệu một số cách tiếp cận được coi là bottom-up nhưng sử dụng nhưng phương pháp trực tiếp rất khác nhau nhằm đạt cùng mục đích
¾ Một số giải pháp được mô tả với các bước sau:
o Xác định góc nghiêng θ thông qua phép biến đổi Hough
o Xác định khoảng cách giữa các dòng thông qua việc xác định khoảng cách giữa các đỉnh của phép chiếu nghiêng θ cố định bằng góc nghiêng tìm được
o Làm trơn theo loạt (run-length-smothing), sau đó thực hiện tách các từ hoặc ký tự dựa vào việc xác định các khoảng trắng trong dòng thông
Trang 34qua việc tìm đỉnh trên biểu đồ chiếu nghiêng và các độ dài vùng đen (các từ)
o Thực hiện phép nhóm bottom-up các phần văn bản nhờ một loạt thao tác làm trơn theo loạt, theo các hướng Kết quả thu được là các vùng
ON và ta phân tích các vùng liên thông trên đó Tính toán một vài số liệu trên những vùng liên thông này, ví dụ khoảng chiều cao và chiều dài các từ Những thông tin đặc trưng này được dùng để phân biệt các khối văn bản và phân biệt phần văn bản và phần đồ họa Esposito đã dùng cách tiếp cận tương tự, nhưng trước hết xác định hợp biên của từng ký tự, sau đó thao tác trên hợp biên này, thay vì trên từng pixel nhằm giảm lượng tính toán
o Một phương pháp Dostrum bó cụm khác thực hiện với k lân cận gần nhất để nhóm các ký tự và các dòng văn bản và các khối cấu trúc
o Trước tiên, với mỗi phần tài liệu, xác định các đường nối k lân cận gần nhất với các phần xung quanh Khoảng cách và các đường nối này
sẽ được vẽ trên các biểu đồ Vì hầu hết các đường nối được tạo giữa các ký tự cùng dòng, góc tối đa sẽ chỉ ra góc nghiêng và khoảng cách tối đa sẽ là khoảng cách giữa các ký tự Sử dụng các ước lượng này, các dòng văn bản được xác định như nhóm các ký tự và các từ dọc theo hướng của trang Các dòng văn bản được nhóm thành các khối sử dụng đặc tính của tài liệu là các dòng cùng khối thường gần nhau hơn các dòng khác khối
Trang 35(a) – Một phần của nội dung văn bản gốc
Trang 362.2.2 Nhược điểm
Phương pháp phân tích bottom-up tồn tại nhược điểm sau sau:
- Cần phải phân đoạn để xác định các thành phần cơ sở trước khi có thể nhóm lại
- Tốc độ thực hiện chậm và phụ thuộc vào số thành phần trong trang tài liệu
- Cũng như Top-down hiệu quả phụ thuộc trực tiếp vào việc xác định được góc nghiêng của tài liệu, vì khoảng cách dòng và từ chỉ xác định chính xác được nếu gọc nghiêng của tài liệu ≈ 0 0
- Kém hiệu quả với những trang tài liệu có cấu trúc phức tạp (nhiều bảng, tỉ lệ
đồ họa lớn hơn văn bản)
- Kém hiệu quả với loại trang tài liệu có nhiều loại font chữ (chứa nhiều size chữ khác nhau), vì với các trang chứ nhiều font có size khác nhau hoặc loại font chữ nghiêng đặc biệt với chữ viết tay thì chương trình rất khó có thể tính được chiều cao chữ hay độ rộng giữa hai dòng thông qua biểu đồ chiếu nghiêng
2.3 Phương pháp Tách và Nối thích nghi (Adaptive Split – and –
Merge)
2.3.1 Tổng quan
Phương pháp phân tích Adaptive Split – and – Merge được Lui, Tang và Suen thiết kế với ý tưởng chính từ một trang tài liệu ban đầu và coi đó như một vùng chưa đồng nhất, từ đó liên tiếp chia mỗi vùng thành các vùng nhỏ hơn, tại mỗi bước chia thực hiện nối các vùng đồng nhất và chia tiếp các vùng không đồng nhất
Để có thể mô tả được thuật toán một cấu trúc cây tứ phân, phân lớp được
sử dụng để biểu diễn quá trình tách và nối của thuật toán Trong đó nút ở đỉnh tương ứng với trang tài liệu ban đầu và gọi là lớp cao nhất, các nút con tiếp theo là các vùng con tương ứng với lớp thứ k của bước chia thứ k các vùng không đồng nhất
Trang 37Hình 21 – Mô tả thuật toán tách và nối thích nghi
¾ Các bước của thuật toán:
o B1: tại lớp thứ K nếu tìm thấy một vùng không đồng nhất thì tiến hành chia vùng đó thành 4 vùng nhỏ hơn
o B2: Nếu thấy ít nhất 2 vùng trong 4 vùng vừa tách là đồng nhất thì tiến hành nối chúng lại, còn các vùng không đồng nhất ta quay lại B1
và tách chúng thành các vùng ở lớp thứ K+1
¾ Tiêu chuẩn xác định vùng đồng nhất để nối ghép
Hai vùng tương ứng rm và rn được coi là đồng nhất nếu chúng thỏa mãn điều kiện sau:
Trang 38nó Như vậy các trang tài liệu có thể bỏ qua khâu xác định và hiệu chỉnh độ nghiêng
- Có thể áp dụng cho các loại trang tài liệu có nhiều loại font chữ khác nhau
- tốc độ thực hiện nhanh hơn Top-down và Bottom-up
2.3.3 Nhược điểm
- Hiệu quả của thuật toán phụ thuộc vào giá trị trung bình của vùng được xét, trong một số tình huống thì giá trị trung bình của vùng văn bản và vùng đồ họa là như nhau Nên thuật toán này vẫn có thể phân đoạn nhầm
- Không có một giá trị hằng số τ cho mọi trang tài liệu vì thế việc xác định giá trị τ là một vấn đề khó
Trang 392.4 Fractal Signature (FS)
2.4.1 Tổng quan
Ý tưởng chính của thuật toán là chia trang tài liệu A thành các vùng có kích thước bằng nhau Bk (k = 1, …, n) sao cho Bk ∈ A Sau đó tính FS cho mỗi vùng này, theo lý thuyết FS thì nếu có 3 vùng B1 (giả thiết là vùng nền), B2 (giả thiết là vùng chữ), B3 (giả thiết là vùng đồ họa) thì ta luôn có
FS(B1) < FS(B2) < FS(B3)
Quá trình thực hiện thuật toán có thể được mô tả như sau:
Hình 22 – Mô tả thuật toán FS
Trang 40 Cơ sở toán học Fractical Signature
Cho F{Xi,j}, với I = 0,1,…,K và j = 0.,1,…L là một ảnh tài liệu đa cấp xám, trong đó Xi,j là giá trị cấp xám của điểm thứ (I,j) Trong một dải đo nào đấy thì bề mặt tạo bởi các độ xám của các điểm ảnh có thể xem như một phần tử hình học (Fractal) Vùng bề mặt này có thể được dùng để xác định gần đúng hướng hình học của nó (Fractal dimension) Cho một đơn vị đo δ , khi đó thể tích của một vùng A(δ ) có thể được tính xấp xỉ như sau:
A D
Fδ = ∈ x y − ≤ δ ∈
Trong kỹ thuật blanket tất cả các điểm trong không gian 3 chiều trong phạm vi δ tính từ bề mặt mức xám được xét đến Các điểm này tạo thành một blanket bao bọc với độ dày là 2δ của bề mặt đang xét Một ảnh tài liệu được hiển thị qua một hàm mức xám g(i,j) Khối blanket bao bọc