Để thực hiện được bài toán đặt ra của mình, tôi áp dụng một số phương phápnhận dạng và gán nhãn vào một phần nhỏ các tài liệu được lưu trữ tại Sở Nội vụ,tỉnh Vĩnh Phúc; nhận thấy ứng dụn
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI
LUẬN VĂN THẠC SỸ
NHẬN DẠNG TÊN VĂN BẢN
VÀ GÁN NHÃN CHO CÁC TÀI LIỆU
LƯU TRỮ TẠI SỞ NỘI VỤ, TỈNH VĨNH PHÚC
ĐẶNG TRẦN HƯNG
HÀ NỘI - 2015
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI
LUẬN VĂN THẠC SỸ
NHẬN DẠNG TÊN VĂN BẢN
VÀ GÁN NHÃN CHO CÁC TÀI LIỆU
LƯU TRỮ TẠI SỞ NỘI VỤ, TỈNH VĨNH PHÚC
ĐẶNG TRẦN HƯNG
CHUYÊN NGHÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60480201
Người hướng dẫn khoa học:
PGS.TS Nguyễn Quang Hoan
HÀ NỘI - 2015
Trang 3LỜI CAM ĐOAN
Em xin cam đoan luận văn “Nhận dạng tên văn bản và gán nhãn cho các tài
liệu lưu trữ tại Sở Nội vụ, tỉnh Vĩnh Phúc” là công trình nghiên cứu của riêng em
từ tháng 3 năm 2015 đến nay, được sự hướng dẫn tận tình của thầy giáo PGS TS
Nguyễn Quang Hoan cùng với sự giúp đỡ và góp ý của a Hoàng Minh Sơn là bạn
học của em, cùng với một số anh em bạn bè đồng nghiệp đã tạo điều kiện cho emđược nghiên cứu cụ thể hơn về đề tài này Các số liệu và kết quả nghiên cứu trìnhbày trong luận văn là trung thực và chưa từng được công bố trong bất kỳ tài liệu,tạp chí, hội nghị nào khác
Nếu có vấn đề gì trong nội dung của luận văn thì em xin chịu hoàn toàn trách nhiệm
Vĩnh Phúc, tháng 12 năm 2015
TÁC GIẢ LUẬN VĂN
Đặng Trần Hưng
Trang 4LỜI CẢM ƠN
Trước tiên, em xin được cảm ơn PGS.TS Nguyễn Quang Hoan, người đã tậntình chỉ dẫn các kiến thức chuyên môn, những tài liệu kỹ thuật, cũng như động viêngiúp em hoàn thành luận văn này
Em xin gửi lời cảm ơn đến các thầy giáo, cô giáo đã và đang giảng dạy tạiViện Đại học Mở Hà Nội nói chung, khoa Sau Đại học và khoa Công nghệ Thôngtin nói riêng đã tạo điều kiện, tổ chức khóa học này để em có điều kiện tiếp thuthêm kiến thức để hoàn thành luận văn cao học này
Em cũng xin chân thành cảm ơn các bạn bè cùng lớp đã giúp đỡ và độngviên em, đặc biệt em xin cảm ơn anh Hoàng Minh Sơn đã giúp em rất nhiều để hoànthành luận văn này
Mặc dù em đã rất nỗ lực và cố gắng để hoàn thành luận văn tốt nghiệp nàysong chắc chắn không thể tránh khỏi những sai sót nhất định Vì vậy, em rất mongđược sự hướng dẫn chỉ bảo, góp ý của thầy, cô để luận văn của em ngày càng đượchoàn thiện hơn
Cuối cùng, em kính gửi thành quả này đến gia đình và người thân của em,những người đã hết lòng động viên em để em có được kết quả ngày hôm nay
Trang 5MỤC LỤC
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG ẢNH VĂN BẢN TIẾNG VIỆT 3
1.1 Tổng quan về nghiên cứu, ứng dụng của nhận dạng văn bản trong và ngoài nước 3
1.1.1 Trong nước 3
1.1.2 Nước ngoài 5
1.2 Ảnh văn bản tiếng Việt 6
1.2.1 Ảnh tài liệu và định dạng 6
1.2.2 Các vấn đề cơ bản trong xử lý ảnh 7
1.2.3 Các kỹ thuật xử lý ảnh cơ bản 11
1.3 Nhận dạng ảnh văn bản tiếng Việt 14
1.3.1 Phương pháp đối sánh mẫu 14
1.3.2 Phương pháp tiếp cận cấu trúc 15
1.3.3 Kỹ thuật đối sánh từng điểm xuất phát từ tâm 15
1.3.4 Kỹ thuật nhận dạng dựa vào đối sánh 16
1.3.5 Kỹ thuật nhận dạng dựa vào hình chiếu 16
1.3.6 Phương pháp mặt nạ đối sánh 17
1.3.7 Phương pháp thống kê giao điểm 17
1.4 Kết luận chương 1 17
CHƯƠNG 2: NGHIÊN CỨU, TÌM HIỂU MẠNG NƠRON NHÂN TẠO 18
2.1 Nơron sinh học và nơron nhân tạo 18
2.1.1 Nơron sinh học 18
2.1.2 Nơron nhân tạo 19
2.2 Cấu tạo và phương thức làm việc của mạng nơron 22
2.2.1 Mạng nơron một lớp 22
2.2.2 Mạng nơron truyền thẳng nhiều lớp 23
2.2.3 Mạng nơron phản hồi 24
2.2.4 Mạng nơron hồi quy 24
2.3 Các luật học 25
2.3.1 Học có giám sát 25
Trang 62.3.2 Học củng cố 25
2.3.3 Học không có giám sát 26
2.5 Kết luận chương 2 26
CHƯƠNG 3: ỨNG DỤNG MẠNG NƠRON TRONG NHẬN DẠNG TÊN VĂN BẢN VÀ KỸ THUẬT GÁN NHÃN 27
3.1 Mô tả bài toán 27
3.2 Cấu trúc mạng BAM 27
3.3 Thiết kế mạng BAM 32
3.5 Kết luận chương 3 36
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 37
4.1 Thực nghiệm 37
4.2 Đánh giá kết quả 42
4.3 Kết luận chương 4 42
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 43 TÀI LIỆU THAM KHẢO
Trang 7DANH MỤC CÁC CHỮ VIẾT TẮT
ANN Artificial Neural Network Mạng nơron nhân tạo
BAM Bidirectional Associative Memory Bộ nhớ liên kết hai chiều
GA Genetic Algorithm Giải thuật di truyền
GALib Genetic Algorithm Library Thư viện phần mềm giải
thuật di truyềnNơron Neural Tế bào thần kinh
SOM Self Organizing Maps Mạng Neural tự tổ chức
VnDOCR Tên phần mềm nhận dạng
VietOCR Tên phần mềm nhận dạngABBYY
FineReader
Pro
Tên phần mềm nhận dạng
DANH MỤC CÁC BẢNG
Trang 8Bảng 2.1: Các hàm truyền H(s) thường dùng 21
Bảng 2.2: Một số hàm phi tuyến thường dùng trong mô hình nơron 22
Bảng 3.1: Vector chức năng và vector nhãn xác định 33
Bảng 4.1: Loại văn bản dự kiến thực hiện 37
Bảng 4.2: Các lĩnh vực quản lý cơ bản 39
Bảng 4.3: Số liệu nhận dạng các mẫu đã được học 40
DANH MỤC CÁC HÌNH ẢNH, SƠ ĐỒ
Trang 9Hình 1.1: Mô hình các giai đoạn trong xử lý ảnh nhận dạng văn bản 3
Hình 1.2: Giao diện phần mềm VnDocr 4
Hình 1.3: Giao diện phần mềm VietOCR 5
Hình 1.4: Sơ đồ tổng quan quá trình tạo ảnh tài liệu 6
Hình 1.5: Ảnh tài liệu 7
Hình 1.6: Biểu đồ sắc thái hình ảnh 13
Hình 2.1: Minh họa nơron sinh học 18
Hình 2.2: Mô hình nơron nhân tạo 20
Hình 2.3: Mô hình nơron một lớp 23
Hình 2.4: Mô hình mạng nơ ron truyền thẳng nhiều lớp 24
Hình 2.5: Mô hình mạng nơron phản hồi 24
Hinh 2.6: Mô hình mạng nơron hồi quy 25
Hình 2.7: Mô hình học có giám sát 25
Hình 2.8: Mô hình học không giám sát 26
Hình 3.1: Mô hình mạng BAM 28
Hinh 3.2: Mô hình mạng BAM với đầu vào X 31
Hình 3.3: Mô hình mạng BAM với đầu vào Y 32
Hình 3.4: Mô hình mạng Nơ ron với 3 tập mẫu 33
Trang 10MỞ ĐẦU
Nhận thức rõ về tầm quan trọng và ý nghĩa vô cùng to lớn của tài liệu lưu trữđối với tất cả các lĩnh vực trong đời sổng xã hội như: Chính trị, kinh tế, văn hoá, xã hội,khoa học Cùng với sự phát triển không ngừng và nhanh chóng của khoa học côngnghệ, đặc biệt là công nghệ thông tin, tri thức của con người ngày càng được nâng cao,vai trò và ý nghĩa của tài liệu lưu trữ ngày càng được coi trọng và khẳng định
Hiện nay tại Sở Nội vụ tỉnh Vĩnh Phúc đã tiến hành thu thập, chỉnh lý và xácđịnh giá trị tài liệu của 21 cơ quan bao gồm các sở, ban, ngành trong tỉnh với hơn72.731 hồ sơ chuyên môn trong tổng số 1.400 mét giá tài liệu Trong số các tài liệuđang được lưu trữ tại kho lưu trữ có tài liệu của UBHC tỉnh Vĩnh Phúc giai đoạn1950-1968 gồm 1.464 hồ sơ với 12 mét giá tài liệu; tài liệu của UBND tỉnh VĩnhPhúc từ năm 1997-2008 gồm 12.120 hồ sơ với gần 200 mét giá tài liệu; tài liệu SởTài chính gồm 19.272 hồ sơ sơ với hơn 500 mét giá tài liệu và tài liệu của thuộc các
sở, ban, ngành khác
Tuy nhiên, tài liệu lưu trữ trên được lưu trữ bằng các hình thức truyền thốngnên chịu sự tác động lớn về thời tiết, khí hậu và dần bị lão hóa theo thời gian, nếuchúng bị hủy hoại do các thảm họa thiên nhiên hoặc do các tác nhân khác thì sẽvĩnh viễn bị mất, không thể phục hồi được Mặt khác, việc tổ chức lưu trữ thủ côngnhư hiện nay rất khó kiểm soát và khó tìm kiếm tài liệu
Hiện nay, do tài liệu lưu trữ được hình thành ngày càng nhiều, việc tìm kiếmthủ công sẽ ngày càng mất thời gian và khó khăn hơn Vì vậy, ngoài việc lưu trữ tàiliệu giấy còn cần thêm một cách lưu trữ nữa là lưu trữ dưới dạng số Việc này nhằmtăng tính an toàn cho tài liệu lưu trữ và hạn chế khai thác trên tài liệu gốc sẽ tăngcường bảo vệ tài liệu, tránh gây rách nát và thất thoát tài liệu ngoài ý muốn
Tài liệu lưu trữ của tỉnh Vĩnh Phúc là tài sản có giá trị phải được quản lý, sửdụng lâu dài, phục vụ cho công tác quản lý nhà nước trên các lĩnh vực chính trị,kinh tế, văn hóa, xã hội, an ninh, quốc phòng, khoa học kỹ thuật… Vì vậy việc bảo
Trang 11đó, tôi thấy cần phải lưu trữ các loại tài liệu này bằng cách áp dụng khoa học, côngnghệ Để thực hiện được bài toán đặt ra của mình, tôi áp dụng một số phương phápnhận dạng và gán nhãn vào một phần nhỏ các tài liệu được lưu trữ tại Sở Nội vụ,tỉnh Vĩnh Phúc; nhận thấy ứng dụng mạng Nơron (Neural Network) nhân tạo đãphát triển trong các lĩnh vực về nhận dạng, phân loại, giảm nhiễu, dự đoán…nên tôi
áp dụng vào đề tài của mình
Với mục tiêu phân loại được các loại văn bản, phục vụ tốt cho việc quản lý,tìm kiếm và nhu cầu sử dụng tài liệu của các tổ chức, cá nhân trên địa bàn tỉnh một
cách hiệu quả nhất Vì vậy, tôi quyết định chọn đề tài: “Nhận dạng tên văn bản và
gán nhãn cho các tài liệu lưu trữ tại Sở Nội vụ, tỉnh Vĩnh Phúc” làm luận văn
Thạc sỹ, với dữ liệu đầu vào đã được mã hóa (không nhận dạng ảnh văn bản) và ápdụng các thuật toán, các kỹ thuật xử lý, các luật học mạng Nơron, ứng dụng mạngBAM (Bidirectionl Associative Memory) để giải quyết bài toán đặt ra, nếu khả thitôi sẽ áp dụng cho mục đích lớn hơn của mình sau này
Do thời gian và trình độ hiểu biết về các kỹ thuật xử lý về nhận dạng, gán nhãncòn hạn chế, vì vậy trong luận văn này em chỉ xây dựng nên hệ thống có khả năng:
- Nhận dạng tên văn bản (Quyết định, Công văn, Báo cáo )
- Gán nhãn cho các tài liệu (Quyết định, Công văn, Báo cáo )
Luận văn này gồm 4 chương:
Chương 1: Tổng quan về nhận dạng ảnh văn bản tiếng Việt
Chương 2: Mạng Nơron nhân tạo
Chương 3: Ứng dụng mạng Nơron trong nhận dạng tên văn bản và các kỹ
thuật gán nhãnChương 4: Thực nghiệm và đánh giá kết quả
Kết luận và hướng phát triển của đề tài
Trang 12CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG ẢNH VĂN BẢN TIẾNG VIỆT
1.1 Tổng quan về nghiên cứu, ứng dụng của nhận dạng văn bản trong và ngoài nước
Hiện nay các phương pháp nhận dạng đã và đang thu hút rất nhiều sự đầu tư
và nghiên cứu của các nhà khoa học trên khắp thế giới Ý tưởng về xây dựng các hệthống nhận dạng đã có từ năm 50 của thế kỷ 20 và đến nay trong thế kỷ 21 này đã
có khá nhiều ứng dụng thực tiễn trong cuộc sống
Hình 1.1: Mô hình các giai đoạn trong xử lý ảnh nhận dạng văn bản
1.1.1 Trong nước
Trong nước ta, nhận dạng là lĩnh vực khá mới Đến nay tuy đã có nhiều nghiêncứu về nhận dạng và đã đạt được một số thành tựu, nhưng nhìn chung vẫn chữa đạtđược kết quả cần thiết để có thể tạo ra các sản phẩm mang tính ứng dụng cao
VnDOCR 4.0 Professional là phần mềm nhận dạng chữ Việt in, được pháttriển bởi nhóm chuyên gia phát triển phần mềm của Phòng Nhận dạng và Côngnghệ tri thức, Viện Công nghệ thông tin - Viện Khoa học và Công nghệ Việt Nam
Trang 13VnDOCR thu thập thông tin nhờ quá trình quét các loại sách báo thông qua máyquét thành các tệp ảnh và chuyển đổi thành các tệp có định dạng *.doc, *.xls,
*.txt, *.rtf, có thể đọc và chỉnh sửa được trên các phần mềm soạn thảo văn bảnthông dụng như Office, Wordpad,… Có thể nhận dạng trực tiếp tài liệu quét quaScanner không cần lưu trữ dưới dạng tệp ảnh trung gian Đọc và xử lý hơn 30 dạngtệp tin ảnh phổ biến nhất như PCX, BMP, TIF, GIF, JPG,…Các trang tài liệu cóthể được quét và lưu trữ dưới dạng tệp tin nhiều trang
Hình 1.2: Giao diện phần mềm VnDocr [8]
VietOCR: là một chương trình mã nguồn mở do người Việt phát triển Cócùng khả năng nhận diện ký tự từ các loại dạng ảnh phổ thông Chương trình còn cókhả năng vận hành như một ứng dụng console, thi hành lệnh từ command line 2phiên bản 1 sử dụng nền tảng Net, 2 là sử dụng trên nền Java (Java Enviroment 6.0trở lên) Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức
độ chính xác có thể đạt hơn 80%
Trang 14Hình 1.3: Giao diện phần mềm VietOCR [9]
1.1.2 Nước ngoài
Trên thế giới đã có rất nhiều hệ thống nhận dạng được ứng dụng rộng rãi và
có hiệu quả cao
ABBYY FineReader Pro là một phần mềm chuyên nghiệp giúp người dùngchuyển đổi các tài liệu giấy hay hình ảnh kỹ thuật số được scan sang các định dạng
có khả năng chỉnh sửa và tìm kiếm ABBYY FineReader có thể nhận dạng văn bảnđược viết bằng bất kỳ ngôn ngữ nào trong số 190 ngôn ngữ được hỗ trợ hoặc kếthợp những ngôn ngữ này Trong số các ngôn ngữ được hỗ trợ có Tiếng Ả Rập,Tiếng Việt, Tiếng Hàn, Tiếng Trung, Tiếng Nhật, Tiếng Thái và Tiếng Do Thái.ABBYY FineReader có thể tự động phát hiện ngôn ngữ của tài liệu Công nghệ củaABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF,PNG, BMP, PCX, DCX, DjVu Kết quả nhận dạng được lưu trữ dưới các định
Trang 15dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó địnhdạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu.Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên,các công cụ tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạngđược bên dưới [9]
1.2 Ảnh văn bản tiếng Việt
1.2.1 Ảnh tài liệu và định dạng
Ảnh tài liệu được xác định ở đây là các file ảnh thu được bằng cách quét cáctrang tài liệu dùng máy scanner, máy ảnh số được chụp từ máy ảnh, máy fax (Hình1.1), file ảnh này được lưu giữ trong máy tính
Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với cácđịnh dạng như TIF, PDF, BMP, PCX,…(Hình 1.4)
Hình 1.4: Sơ đồ tổng quan quá trình tạo ảnh tài liệu
Trang 16Nhị phân hóa
Đầu vào ban đầu của hệ nhận dạng là một ảnh đa mức xám, phân đoạn ảnhđược xử lý trên ảnh nhị phân, vì vậy cần phải thực hiện chuyển về ảnh nhị phân.Phương pháp mà em sử dụng để chuyển sang ảnh nhị phân là xác định dựa vàongưỡng Ngưỡng được xác định dựa trên phân phối mức xám của ảnh
Lọc nhiễu
Nhận dạng nói chung và trong nhận dạng chữ tiếng Việt nói riêng, nhiễuthường gặp và có nhiều ảnh hưởng đến kết quả nhận dạng là nhiễu đốm và nhiễuvạch Hiện nay, chất lượng máy quét rất tốt vì thế nhiễu vạch đã giảm nhiều, tuynhiên nhiễu đốm thì vẫn thường thấy
Trang 17 Xoay lại ảnh
Ảnh đầu vào là ảnh scan nên rất dễ bị xoay Vì vậy việc xoay lại ảnh haykhử độ nghiêng của ảnh là rất cần thiết, cho việc xử lý sau này Công việc xoay vănbản gồm 2 giai đoạn chính là:
- Xác định góc nghiêng
- Xoay lại ảnh theo góc nghiêng đã xác định
Hiện nay có ba phương pháp thường được xử dụng để xác định góc nghiêngcủa ảnh là: Sử dụng Histogram, phương pháp láng giềng gần nhất, phương pháp sửdụng biến đổi Hough
Phương pháp sử dụng biến đổi Hough rất hữu ích cho việc dò tìm đườngthẳng trong trang văn bản vì thế rất thích hợp cho việc xác định góc nghiêng củatrang văn bản gồm các thành phần là các dòng văn bản Biến đổi Hough cần rấtnhiều tính toán do phải thao tác trên từng điểm ảnh riêng lẻ Hiện nay phương phápnày được rất nhiều người nghiên cứu và cải tiến Tuy vậy tốc độ xử lý của phươngpháp này là tương đối chậm, so với các phương pháp khác
Phương pháp láng giềng gần nhất được phát triển dựa trên nhận xét: trongmột trang văn bản, khoảng cách giữa các kí tự trong một từ và giữa các kí tự của từtrên cùng một dòng là nhỏ hơn khoảng cách giữa hai dòng văn bản, vì thế đối vớimỗi kí tự, láng giềng gần nhất của nó sẽ là các kí tự liền kề trên cùng một dòng vănbản Phương pháp này có tốc độ nhanh hơn phương pháp biến đổi Hough, tuy nhiên
nó vẫn chậm hơn phương pháp sử dụng Histogram Phương pháp này khó có thể ápdụng cho tiếng Việt, bởi vì: với những chữ có 3 thành phần gồm thân, mũ và dấuhỏi Khi đó, láng giềng gần nhất của mỗi phần sẽ là một trong hai thành phần cònlại chứ không phải là kí tự liền kề với nó
Phương pháp sử dụng Histogram được phát triển dựa trên nhận xét: khi vănbản không bị nghiêng thì các điểm đen tập trung chủ yếu ở các đường thuộc dòngvăn bản, tại các đường không thuộc dòng văn bản, số điểm đen là rất ít Trong khi
đó đối với văn bản nghiêng thì số điểm đen lại được phân bố khá đồng đều ở cả cácđường thuộc dòng văn bản, và các đường không thuộc dòng văn bản
Trang 18Tách đoạn
Quan sát ảnh quét ta dễ nhận ra, mỗi văn bản sẽ được chia thành các đoạnkhác nhau Mỗi đoạn này có những đặc trưng khá tương đồng về cỡ chữ, font chữ.Chính sự tương đồng đó sẽ tạo điều kiện thuận lợi, giảm bớt sự phức tạp trong giaiđoạn xử lý phía sau
Để tách thành các đoạn (hay các vùng ảnh) chúng ta sử dụng 2 đặc trưng:Khoảng cách trắng giữa các đoạn sẽ lớn hơn khoảng trắng giữa các dòng, lùi đầudòng của dòng kế tiếp
Tách dòng
- Tách dòng dựa vào các đường kẻ ngang
Ta nhận thấy, với mỗi dòng văn bản chúng ta có thể chia làm 3 vùng dựa vào bốnđường cơ bản là: Top_Line, Bottom_Line, X_Line, Base_Line
Bước 1: Ý tưởng chính của phương pháp này là dựa trên nhận xét các điểm
đen tập trung chủ yếu trong khoảng đường Base_line và X_Line Các đường này thì
có số điểm đên lớn hơn số điểm đên trung bình chính vì vậy chúng ta có thể xácđịnh được hai đường Base_Line và X_Line
Bước 2: Sau khi xác định được Base_Line và X_Line chúng ta tiến hành xác
định miền liên thông
Bước 3: Ta duyệt tất cả các miền liên thông Nếu miền liên thông nào có
diện tích về dòng nào nhiều hơn, thì thuộc về dòng đó
Nhận xét: Tuy nhiên phương pháp này sẽ gây ra lỗi nếu có xuất hiện các
dòng ngắn Khi đó vì số ký tự trong dòng này quá ít, nên trong khoảng từ base-lineđến x-line, số điểm đen trên mỗi đường vẫn nhỏ hơn giá trị trung bình Có thể khắcphục lỗi này bằng cách gọi đệ qui với các vùng chứa các dòng ngắn Phương phápcũng sẽ gây lỗi nếu gặp dòng toàn chữ in hoa (không tồn tại 4 đường đặc trưng nhưtrên), và khó áp dụng đối với văn bản tiếng việt vì tiếng việt có thêm các dấu nênnhiều trường hợp giá trị x-line tìm được lại chính là top line, kết quả sẽ không
Trang 19chính xác nữa Sau khi xác định được x-line, base-line cũng khó phân tách cácdòng, nếu chúng khá liền nhau (hoặc dính vào nhau)
- Tách dòng dựa vào thành phần liên thông
Ý tưởng của phương pháp này là tìm tất cả các thành phần liên thôngtrong ảnh và sắp xếp theo thứ tự tăng dần của tung độ của điểm trên nhất Sau đódựa vào sự tương quan giữa tung độ của điểm trên nhất, tung độ của điểm dướinhất của mỗi thành phần liên thông để gộp các thành phần này vào một dòng vănbản
Nhận xét:
Ưu điểm của phương pháp này ta có thể tách được các dòng mà giữa chúng
có phần giao với nhau (không dính) và đường cắt giữa 2 dòng sẽ được đi theo mộtđường cong, chứ không phải là một đường thẳng như những cách khác
Nhược điểm của phương pháp này chạy tương đối chậm, do thời gian tính toánthành phần liên thông, đồng thời phải duyệt lại thành phần liên thông nhiều lần
- Tách từ
Để tách từ trong dòng văn bản, ta dựa trên nhận xét khoảng cách giữa các kí
tự trong một từ, sẽ nhỏ hơn khoảng cách giữa các từ trong một dòng Ở đây ta sẽ
sử dụng một giá trị làm ngưỡng, giá trị này có tác dụng tách khoảng trắng giữa các
kí tự với khoảng trắng giữa các từ Để đạt được độ chính xác cho quá trình tách từ,
do các dòng, các từ trong cùng văn bản có thể có kích cỡ khác nhau Vì vậy phảixác định ngưỡng đối với từng dòng riêng biệt Nếu như vậy ta phải xác định lạingưỡng nhiều lần Các vùng văn bản này có cỡ chữ thường là giống nhau Nên ta
có thể tính ngưỡng chung cho một vùng của văn bản
Thuật toán:
Bước 1: Xác định tất cả các khoảng trống trong dòng văn bản
Bước 2: Sắp xếp theo thứ tự tăng dần kích thước khoảng trống, xác định
ngưỡng của dòng
Trang 20Bước 3: Ta lần lượt đi từ đầu đến cuối mảng các khoẩng trống, tại mỗi vị trí
ta so sánh kích thước khoảng trống tai đó với kích trước trung bình các khoảngtrống đã đi qua, nếu nó vượt quá một giá trị nào đó thì sẽ dừng và xác định là vị trícủa nhát cắt
- Tách ký tự
Thao tác được coi là phức tạp nhất của phân đoạn ảnh chính là giai đoạntách kí tự Do các kí tự thường bị dính vào nhau, làm cho các nhát cắt của chúng tatrở lên không chính xác Ở đây chúng ta đưa ra hai khái niệm mới: Nhát cắt chínhxác và nhát cắt nhập nhằng Một nhát cắt được coi là chính xác nếu nhát cắt đóphân thành 2 kí tự Một vị trí cắt được gọi là nhập nhằng nếu ta không thể chắcchắn đó là vị trí phân tách giữa hai kí tự (thực tế có thể là có)
Thuật toán tìm các vị trí cắt có thể được thực hiện trong 2 bước sau:
Bước 1: Ta cắt từ thành một ký tự dựa vào khoảng trắng giữa các ký tự.
Khoảng trắng được chọn làm vị trí đặt nhát cắt
Bước 2: Sau bước 1 thì các ký tự thu được (nằm giữa 2 vị trí cắt) có thể
không thật sự là một ký tự (vì có thể 2 ký tự dính nhau) Do vậy đối với các ký tựthu được ta xét xem liệu nó có thể là hai từ dính lại với nhau hay không, nếu có thì
sẽ thực sử dụng Histrogram theo chiều dọc với một ngưỡng threshold để xác địnhcác vị trí cắt không chính xác Để xác định xem liệu một ảnh ký tự thu được (nằmgiữa hai vị trí cắt) có thể là do nhiều ký tự dính vào nhau hay không Và nó sẽ được
Trang 21Quá trình này được thực hiện nhờ vào hàm phân ngưỡng:
Dest(x, y) = 1 if Source(x, y) >= T
0 if Source(x, y) < T
Trong đó, Source(x,y) là giá trị điểm ảnh ở vị trí (x,y) của ảnh nguồn,
Dest(x,y) là giá trị điểm ảnh tương ứng ở vị trí (x,y) của ảnh đích T là giá trị
ngưỡng Tuy nhiên, giá trị cụ thể của ngưỡng lại phụ thuộc vào từng ảnh, vùng ảnhđầu vào đang xét, không thể lấy cố định
Để xác định giá trị của ngưỡng hiện nay có rất nhiều phương pháp:
1 Chọn ngưỡng theo phân phối xác suất mức xám
2 Chọn ngưỡng cố định
3 Thuật toán Isodata (Iterative self-organizing data analysis technique)
4 Thuật toán Background-symmetry
5 Thuật toán Triangle (thuật toán tam giác)
Tùy vào điều kiện và mục đích chúng ta có thể sử dụng một phương phápxác định ngưỡng thích hợp Vì mỗi phương pháp đều có những ưu điểm và nhượcđiểm riêng của mình Trong luận văn này chúng tôi sử dụng phương pháp chọnngưỡng theo phân phối mức xám
Phương pháp chọn ngưỡng theo phân phối mức xám: là thiết lập ngưỡng saocho số lượng các điểm đen đạt một ngưỡng chấp nhận được Ví dụ, chúng ta có thể biếtrằng các kí tự chiếm 25% diện tích của một trang văn bản thông thường Vì thế chúng
ta có thể thiết lập ngưỡng sao cho số lượng điểm đen còn lại chiếm ¼ trang văn bản
Phương pháp này có ưu điểm là tiết kiệm được tính toán, kết quả của phépchọn chấp nhận được trong bài toán nhận dạng của chúng ta
Biểu đồ sắc thái của hình ảnh (Histogram)
Histogram là một dạng biểu đồ với trục hoành là độ sáng và trục tung là sốlượng điểm ảnh ở những độ sáng tương ứng Hoặc nói dễ hiểu hơn Histogram là 1
Trang 22biểu đồ trong đó cột đứng tượng trưng cho số điểm ảnh còn cột ngang tượng trưngcho dãy sắc độ chuyển từ đen (bên trái) sang trắng (bên phải)
Hình 1.6: Biểu đồ sắc thái hình ảnh
Chúng ta có thể nhìn vào Histogram để đánh giá về sắc thái và mức độtương phản của một hình Trong hầu hết các ứng dụng đồ hoạ chuyên nghiệp đềucung cấp cho ta công cụ này Và trong phần review của các máy ảnh số sau nàycũng thường có phần hiển thị histogram
Hiện nay có hai loại Histogram phổ biến là: Histogram theo chiều ngang vàHistogram theo chieu doc
Khái niệm điểm lân cận
Cho một điểm P với tọa độ (x, y), khi đó bốn điểm
N1 (x + 1, y); N2 (x – 1, y) ; N3 (x, y + 1); N4 (x, y – 1)
P’ được gọi là lân cận bốn của điểm P, và các điểm
N5 (x - 1, y - 1); N6 (x – 1, y + 1); N7 (x + 1, y - 1); N8 (x + 1, y + 1)
Trang 23Thành phần liên thông: Liên thông bốn và liên thông tám
Hai điểm P1, P2, được gọi là liên thông bốn với nhau nếu có một trong hai
điều kiện:
- P2 là lận cận bốn với của P1 (hoặc P1 là lân cận bốn với P2)
- Tồn tại điểm P3 mà P3 là lân cận bốn của P2 và P3 là lân cận bốn của P1 Hai điểm P1, P2 được gọi là liên thông tám với nhau nếu có một trong hai điều kiện:
- P2 là lận cận tám với của P1 (hoặc P1 là lân cận bốn với P2)
- Tồn tại điểm P3 mà P3 là lân cận tám của P2 và P3 là lân cận tám của P1.
1.3 Nhận dạng ảnh văn bản tiếng Việt
1.3.1 Phương pháp đối sánh mẫu
Kỹ thuật nhận dạng chữ đơn giản nhất dựa trên cơ sở đối sánh các nguyênmẫu với nhau để nhận dạng ký tự hoặc từ Nói chung, toán tử đối sánh xác địnhmức độ giống nhau giữa hai vector (nhóm các điểm, độ cong, hình dạng )trong một không gian đặc trưng Các kỹ thuật đối sánh có thể nghiên cứu theo bahướng sau:
Đối sánh trực tiếp: Một ký tự đầu vào là ảnh đa cấp xám hoặc ảnh nhị phân
được so sánh trực tiếp với một tập mẫu chuẩn đã được lưu trữ Việc so sánh dựatheo một độ đo về sự tương đối nào đó để nhận dạng Các kỹ thuật đối sánh này cóthể đơn giản như việc so sánh một hoặc phức tạp hơn như phân tích cây quyết định.Mặc dù phương pháp đối sánh trực tiếp đơn giản và có một cơ sở toán học vữngchắc nhưng kết quả nhận dạng của nó cũng rất nhạy cảm với nhiễu
Các mẫu biến dạng và đối sánh mềm: Một phương pháp đối sánh khác là sử
dụng các mẫu biến dạng Trong đó một phép biến dạng ảnh được dùng để đối sánhmột ảnh chưa biết với một cơ sở dữ liệu ảnh đã biết
Ý tưởng cơ bản của đối sánh mềm là đối sánh một cách tối ưu mẫu chưa biếtvới tất cả các mẫu có thể mà các mẫu này có thể kéo giãn ra hoặc co lại Chỉ mộtkhông gian đặc trưng được thành lập, các vectơ chưa biết được đối sánh bằng cách
sử dụng quy hoạch động và một hàm biến dạng
Trang 24Đối sánh giảm nhẹ: Đây là một kỹ thuật đối sánh ảnh ở mức độ tượng trưng,
kỹ thuật này sử dụng hình dáng đặc trưng cơ bản của ảnh ký tự Thứ nhất các vùngđối sánh đã được nhận biết, trên cơ sở một số vùng đối sánh đã được nhận biết Sau
đó một số vùng đối sánh được đánh giá tốt, các phần tử của ảnh được so sánh vớicác vùng đối sánh này Công việc này đòi hỏi một kỹ thuật tìm kiếm trong mộtkhông gian đa chiều để tìm cực đại toàn cục của một số hàm
1.3.2 Phương pháp tiếp cận cấu trúc
Cách tiếp cận của phương pháp này dựa vào việc mô tả đối tượng nhờ một sốkhái niệm biểu diễn đối tượng cơ sở trong ngôn ngữ tự nhiên Để mô tả đối tượngngười ta dùng một số dạng nguyên thuỷ như đoạn thẳng, cung… Mỗi đối tượngđược mô tả như một sự kết hợp của các dạng nguyên thuỷ
Các quy tắc kết hợp các dạng nguyên thuỷ được xây dựng giống như việcnghiên cứu văn phạm trong một ngôn ngữ, do đó quá trình quyết định nhận dạng làquá trình phân tích cú pháp Phương pháp này đặt vấn đề để giải quyết bài toánnhận dạng chữ tổng quát Tuy nhiên cho đến nay vẫn còn nhiều vấn đề liên quanđến hệ nhận dạng cú pháp chưa được giải quyết độc lập và chưa xây dựng được cácthuật toán khả dụng Hiện nay, nhận dạng theo cấu trúc phổ biến là trích chọn cácđặc trưng của mẫu học, phân hoạch bảng ký tự dựa trên các đặc trưng này, sau đóảnh cần nhận dạng sẽ được trích chọn đặc trưng, so sánh trên bảng phân hoạch đểtìm ra ký tự có các đặc trưng phù hợp
1.3.3 Kỹ thuật đối sánh từng điểm xuất phát từ tâm
Chữ sau khi được tách khỏi từ, tâm nó được tính toán và tọa độ được xácđịnh Chữ được đối sánh với chữ chuẩn từng điểm một, từ tâm ra biên Các hìnhvành khăn lồng nhau có trọng tâm tạo thành lớp các điểm ảnh có cùng trọng số
Khoảng cách giữa 2 điểm ảnh x và x’ được tính:
DIST( x,x ’ ) =
x lop cua so trong là
Wx
x nêu x 0
(1.1)
Trang 251.3.4 Kỹ thuật nhận dạng dựa vào đối sánh
Phương pháp này là sự cải tiến của phương pháp trên Trong phương phápnày người ta tính xem trên từng hàng, mỗi hàng cắt chữ tại bao nhiêu điểm, các giátrị này được lưu vào một vector và loại bỏ giá trị 0 ở đầu và cuối Đối với các cộtcũng thực hiện tương tự, sau đó vector này được coi là mẫu chuẩn nếu vector đó làtập con của vector chuẩn và ngược lại Phương pháp này đơn giản, cho tốc độ cao,kết quả không bị ảnh hưởng bởi mất các điểm ở biên chữ, xong nhược điểm đòi hỏimột phông chữ chuẩn
1.3.5 Kỹ thuật nhận dạng dựa vào hình chiếu
Kỹ thuật này là cải tiến của kỹ thuật trên, nhằm áp dụng cho nhiều kiểu font
Giả sử mẫu nhận dạng có kích thước n x n gọi ilà vector bậc n gồm các phần tử 0
và 1tương ứng với hàng i ( hay cột i) gọi ( )i là tổng số các phần tử 1 trong vector
với là độ rộng cuả ký tự và là ngưỡng cho trước (*)
Ý nghĩa của hàng, cột dài là chúng thể hiện chiều ngang hay chiều cao của ký tự.Đặt *
Trang 26( )i
Khi đó ta có thể viết ( ) 1i* Để trích ra các đặc trưng của mẫu, ảnh đượcduyệt theo chiều ngang hay đứng như phương pháp trên Tuy nhiên, ta có:
H H hoặc V i V i 1 bị xóa khỏi chuỗi cuối cung ta thu được các chuỗi H’ và
nhiều font Xong nếu chất lượng quá tồi, ảnh có nhiều răng cưa giả thì chuỗi đặctrưng sẽ lệch nhiều so với chuỗi chuẩn
1.3.6 Phương pháp mặt nạ đối sánh
Phương pháp này được phát triển từ những năm 1960, nội dung chủ yếu làmẫu cần nhận dạng, được chia nhỏ thành các vùng khác nhau Tại mỗi vùng tổng sốđiểm đen được tính toán nếu giá trị của chúng lớn hơn một ngưỡng nào đó thì vùng
đó gọi là vùng đen, ngược lại vùng dưới ngưỡng lá vùng trắng quá trình nhận dạngnhờ một cây quyết định, mỗi nút, phải trả lời một câu hỏi vùng tương ứng có phải làvùng đen không? Phương pháp này khá đơn giản, nếu số lượng các vùng lớn, độphức tạp xử lý sẽ tăng nhiều lần đến kém hiệu quả khi thay đổi kiểu chữ
1.3.7 Phương pháp thống kê giao điểm
Phương pháp này gần giống như phương pháp mặt nạ đối sánh với các điểm cắtdọc và cắt ngang, ở đây người ta xây dựng bốn vector, ngoài hai vector thẳng đứng vànằm ngang còn có hai vector chéo 450 và 1350 Trê mỗi hướng chỉ cần xét nhữngđường quét cắt ký tự từ một đến bốn điểm, cuối cùng ta thu được vector đặc trưng,chứa tham số cho cả vector trước, quá trình nhận dạng dựa vào một tập quyết định