VIỆN CÔNG NGHỆ THÔNG TIN NGUYỄN XUÂN CƯỜNG NGHIÊN CỨU CÁC KỸ THUẬT XỬ LÝ ẢNH PHỤC VỤ VIỆC NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT LUẬN VĂN THẠC SĨ Hà Nội - 2015... VIỆN CÔNG NGHỆ THÔ
Trang 1VIỆN CÔNG NGHỆ THÔNG TIN
NGUYỄN XUÂN CƯỜNG
NGHIÊN CỨU CÁC KỸ THUẬT XỬ LÝ ẢNH PHỤC VỤ VIỆC NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT
LUẬN VĂN THẠC SĨ
Hà Nội - 2015
Trang 2VIỆN CÔNG NGHỆ THÔNG TIN
NGUYỄN XUÂN CƯỜNG
NGHIÊN CỨU CÁC KỸ THUẬT XỬ LÝ ẢNH PHỤC VỤ VIỆC NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT
Ngành: Công nghệ Thông tin Chuyên ngành: Quản lý Hệ thống Thông tin
Mã số: Chuyên ngành đào tạo thí điẻm
LUẬN VĂN THẠC SĨ
NGƯỜ I HƯỚNG DẪN KHOA HỌC: Ts Vũ Duy Linh
Hà Nội – 2015
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan rằng, đây là kết quả nghiên cứu của tôi trong đó có sự giúp
đỡ rất lớn của thầy hướng dẫn và các đồng nghiệp ở cơ quan Các nội dung nghiên cứu và kết quả trong đề tài này hoàn toàn trung thực
Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã liệt
kê tại phần “Tài liệu tham khảo” ở cuối luận văn
Tác giả luận văn
Trang 4LỜI CẢM ƠN
Em xin chân thành cảm ơn đến Viện Công Nghệ thông tin, Đại học Công Nghệ, Đại học Quốc gia Hà Nội đã tạo điều kiện cho em học tập và thực hiện luận văn này
Em xin gửi lời cảm ơn chân thành đến Tiến sĩ Vũ Duy Linh, người đã tận tình hướng dẫn em trong quá trình làm luận văn này
Em xin cảm ơn quý Thầy Cô đã nhiệt tình giảng dạy cho chúng em trong những năm học vừa qua
Cuối cùng, em xin được gửi lời cảm ơn chân thành đến gia đình cũng như bạn
bè, đồng nghiệp đã luôn ủng hộ, động viên em để em có thể có điều kiện tốt nhất để học tập và nghiên cứu
Hà Nội, tháng 6/2015
Nguyễn Xuân Cường – CIO 04 Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội
Trang 5MỤC LỤC
BẢNG KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT 6
MỞ ĐẦU 7
CHƯƠNG 1 – TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ THƯ VIỆN OPENCV 9
1.1 Giới thiệu về xử lý ảnh 9
1.1.1 Phần thu nhận ảnh 10
1.1.2 Tiền xử lý 10
1.1.3 Phân đoạn ảnh (phân vùng ảnh) Error! Bookmark not defined 1.1.4 Biểu diễn và mô tả Error! Bookmark not defined 1.1.5 Nhận dạng và nội suy Error! Bookmark not defined 1.1.6 Cơ sở tri thức Error! Bookmark not defined 1.2 Những vấn đề cơ bản trong hệ thống xử lý ảnh Error! Bookmark not defined 1.2.1 Điểm ảnh Error! Bookmark not defined 1.2.2 Độ phân giải của ảnh Error! Bookmark not defined 1.2.3 Mức xám của ảnh Error! Bookmark not defined 1.2.4 Định nghĩa ảnh số Error! Bookmark not defined 1.2.5 Mối liên hệ giữa các điểm ảnh Error! Bookmark not defined 1.3 Những vấn đề khác trong xử lý ảnh Error! Bookmark not defined 1.3.1 Biến đổi ảnh Error! Bookmark not defined 1.3.2 Nén ảnh Error! Bookmark not defined 1.4 Một số phương pháp biểu diễn ảnh Error! Bookmark not defined 1.4.1 Mã loạt dài Error! Bookmark not defined 1.4.2 Mã xích Error! Bookmark not defined 1.4.3 Mã tứ phân Error! Bookmark not defined 1.5 Thư viện OpenCV Error! Bookmark not defined 1.5.1 Tổng quan Error! Bookmark not defined 1.5.2 Những điểm đặc trưng Error! Bookmark not defined 1.5.3 Các tổ chức Error! Bookmark not defined
1.6 ImageMagick Error! Bookmark not defined
CHƯƠNG 2 – MỘT SỐ PHƯƠNG PHÁP TIỀN XỬ LÝ NÂNG CAO CHẤT LƯỢNG ẢNH Error!
Bookmark not defined
2.1 Cải thiện ảnh sử dụng các toán tử điểm Error! Bookmark not defined 2.1.1 Tăng độ tương phản (Stretching Contrast) Error! Bookmark not defined
Trang 62.1.2 Tách nhiễu và phân ngưỡng Error! Bookmark not defined 2.1.3 Biến đổi âm bản (Digital Negative) Error! Bookmark not defined 2.1.4 Cắt theo mức (Intensity Level Slicing) Error! Bookmark not defined 2.1.5 Trích chọn bit (Bit Extraction) Error! Bookmark not defined 2.1.6 Trừ ảnh Error! Bookmark not defined 2.1.7 Nén dải độ sáng Error! Bookmark not defined 2.1.8 Mô hình hóa và biến đổi lược đồ xám Error! Bookmark not defined 2.2 Cải thiện ảnh dùng toán tử không gian Error! Bookmark not defined 2.2.1 Làm trơn nhiễu bằng lọc tuyến tính: lọc trung bình và lọc dải thông thấp Error! Bookmark not
defined
2.2.2 Làm trơn nhiễu bằng lọc phi tuyến Error! Bookmark not defined 2.2.3 Mặt lạ gờ sai phân và làm nhẵn Error! Bookmark not defined 2.2.4 Lọc thông thấp, thông cao và lọc dải thông Error! Bookmark not defined 2.2.5 Khuyếch đại và nội suy Error! Bookmark not defined 2.2.6 Một số kỹ thuật cải thiện ảnh nhị phân Error! Bookmark not defined 2.3 Khôi phục ảnh Error! Bookmark not defined 2.3.1 Các mô hình quan sát và tạo ảnh Error! Bookmark not defined 2.3.2 Các bộ lọc Error! Bookmark not defined CHƯƠNG 3 – TRIỂN KHAI CHƯƠNG TRÌNH VÀ KẾT QUẢ Error! Bookmark not defined 3.1 Cài đặt và tích hợp thư viện OpenCV vào Microsoft Visual Studio Error! Bookmark not defined 3.2 Triển khai chương trình Error! Bookmark not defined 3.2.1 Xử lý phông nền chứng minh thư Error! Bookmark not defined 3.2.2 Xử lý đường kẻ ô trong văn bản Error! Bookmark not defined 3.2.3 Xử lý tăng DPI cho văn bản Error! Bookmark not defined 3.3 Mã chương trình Error! Bookmark not defined 3.3.1 Đưa ảnh màu về đa mức xám Error! Bookmark not defined 3.3.2 Tăng độ nét Error! Bookmark not defined 3.3.3 Tăng độ sáng Error! Bookmark not defined 3.3.4 Tăng độ tương phản Error! Bookmark not defined 3.3.5 Loại bỏ phông nền Error! Bookmark not defined 3.3.6 Loại bỏ nhiễu Error! Bookmark not defined 3.3.7 Tăng DPI Error! Bookmark not defined 3.3.8 Xóa đường kẻ ô Error! Bookmark not defined
Trang 73.4 Hình ảnh triển khai chương trình Error! Bookmark not defined CHƯƠNG 4 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Error! Bookmark not defined 4.1 Kết luận Error! Bookmark not defined 4.2 Hướng phát triển Error! Bookmark not defined
TÀI LIỆU THAM KHẢO 11
Trang 8BẢNG KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT
OCR Optical Character Recognition
Nhận dạng ký tự bằng quang học
Trang 9MỞ ĐẦU
Sự cấp thiết của đề tài
Xử lý ảnh là lĩnh vực mà ngày nay được phát triển và ứng dụng rất rộng rãi trong nhiều lĩnh vực khác nhau nhờ vào sự phát triển ngày càng mạnh mẽ của các
hệ thống máy tính, các thuật toán và công trình nghiên cứu khác nhau của nhiều nhà khoa học trên thế giới
Ở Việt Nam, các ứng dụng về xử lý ảnh đã bước đầu được triển khai trên một
số lĩnh vực như lắp đặt hệ thống nhận dạng biển số xe, nhận dạng vân tay, … Môn học xử lý ảnh ở các trường đại học được xem là môn học bắt buộc ở một số ngành như công nghệ thông tin, điện tử viễn thông, … Tuy nhiên nhìn một cách tổng quan thì số lượng các ứng dụng được triển khai trên thực tế vẫn là quá ít, lĩnh vực này sẽ còn phát triển mạnh mẽ trong tương lai nếu được quan tâm một cách nghiêm túc Một trong những ứng dụng phổ biến hiện nay liên quan mật thiết với xử lý ảnh
đó là nhận dạng ký tự quang học – OCR
Các chương trình hỗ trợ OCR hiện nay có thể nhận dạng được ký với tỷ lệ trên 90% đối với ảnh có chất lượng nét và font chữ thông dụng Đối với hình ảnh chất lượng thấp, font chữ đặc biệt, chữ viết tay hoặc có phông nền phức tạp thì kết quả cho ra không mấy khả quan, hầu như không nhận dạng được
Với sự phát triển mạnh mẽ của công nghệ, ngày càng có nhiều yêu cầu cao hơn trong các ứng dụng liên quan đến nhận dạng ký tự quang học, yêu cầu nhận dạng chính xác hơn, nhanh hơn
Nội dung của luận văn
Với mục đích như trên luận văn có những nội dung như sau:
- Luận văn tổng hợp lý thuyết về xử lý ảnh – giải pháp nâng cao chất lượng hình ảnh phục vụ cho nhận dạng, cụ thể ở đây là nhận dạng tiếng Việt
- Luận văn mô tả một số phương pháp xử lý ảnh Nền tảng lý thuyết này sẽ được triển khai thử nghiệm trong luận văn này
Trang 10- Luận văn đã mô tả từng bước triển khai xử lý ảnh, đưa ra kết quả sau khi xử
lý
Cấu trúc luận văn
Với mục tiêu xây dựng ứng dụng tiền xử lý ảnh phục vụ cho nhận dạng, luận văn được chia làm bốn chương:
Chương 1: Tổng quan về tiền xử lý ảnh và thư viện OpenCV
Chương này giới thiệu về các khái niệm trong xử lý ảnh, giới thiệu qua về thư viện xử lý ảnh OpenCV
Chương 2: Một số phương pháp tiền xử lý nâng cao chất lượng ảnh
Từ các khái niệm xử lý ảnh được đưa ra ở Chương I, chương này giới thiệu một
số phương pháp tiền xử lý ảnh như: nhị phân hóa, tăng cường độ sáng, tăng cường
độ tương phản, loại bỏ phông nền, khử nhiễu, …
Chương 3: Triển khai chương trình và kết quả
Chương này giới thiệu về chương trình đã được triển khai, các bước thực hiện
và các kết quả của mỗi bước đạt được
Chương 4: Kết luận và hướng phát triển
Chương này tôi tổng kết lại các kết quả và các đóng góp mà việc thực hiện đề tài đem lại Ngoài ra, tôi cũng đề xuất các phương hướng nghiên cứu tiếp theo, nhằm giúp cho đề tài trở lên hoàn thiện hơn
Trang 11CHƯƠNG 1 – TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ THƯ VIỆN OPENCV
1.1 Giới thiệu về xử lý ảnh
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ Nó là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chuyên dụng riêng cho nó
Xử lý ảnh được đưa vào giảng dạy ở bậc đại học ở nước ta khoảng chục năm nay Nó là môn học liên quan đến nhiều lĩnh vực và cần nhiều kiến thức cơ sở khác Đầu tiên phải kể đến Xử lý tín hiệu số - một môn học hết sức cơ bản cho xử lý tín hiệu chung, các khái niệm về tính chập, các biến đổi Fourier, Laplace, các bộ lọc
… Thứ hai, các công cụ như Đại số tuyến tính, Xác xuất, thống kê Một số kiến thức cần thiết khác như Trí tuệ nhân tạo, mạng noron nhân tạo cũng được đề cập đến trong quá trình phân tích và đặc biệt là nhận dạng – OCR
Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính: nâng cao chất lượng ảnh và phân tích ảnh Ứng dụng đầu tiên được biết đến là nâng cao chất lượng ảnh báo được truyền qua cáp từ London đến New York từ những năm 1920 Vấn đề nâng cao chất lượng ảnh có liên quan tới cân bằng sáng và độ phân giải của ảnh Việc nâng cao chất lượng ảnh được phát triển vào khoảng những năm 1955 Điều này có thể giải thích được vì sau thế chiến thứ hai, máy tính phát triển nhanh tạo điều kiện cho quá trình xử lý ảnh số thuận lợi Năm 1964, máy tính đã có khả năng
xử lý và nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh Từ năm 1964 đến nay, các phương tiện xử lý, nâng cao chất lượng, nhận dạng ảnh phát triển không ngừng Các phương pháp tri thức nhân tạo như mạng noron nhân tạo, các thuật toán xử lý hiện đại và cải tiến, các công cụ nén ảnh ngày càng được ấp dụng rộng rãi và thu nhiều kết quả khả quan
Về cơ bản, các bước cần thiết trong xử lý ảnh bao gồm:
Trang 12Đầu tiên ảnh tự nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như Camera, máy chụp ảnh, scan, …) Trước đây, các tấm ảnh thu được qua máy chụp hình với phim âm bản, không có tác dụng trong xử lý ảnh Gần đây, với sự phát triển của công nghệ, ảnh màu hoặc đen trắng được lấy ra từ Camera, sau đó nó được chuyển trực triếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo – máy ảnh số, chụp qua điện thoại … là những ví dụ gần gũi Mặt khác, ảnh cũng có thể tiếp nhận
từ vệ tinh, có thể quét từ ảnh chụp bằng máy quét ảnh Hình 1.1 dưới dây mô tả các bước cơ bản trong xử lý ảnh
Hình 1.1 Các bước cơ bản trong xử lý ảnh
1.1.1 Phần thu nhận ảnh
Ảnh có thể nhận qua camera màu hoặc đen trắng Camera thường dùng loại là loại quét dòng, ảnh tạo ra có dạng hai chiều Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong cảnh)
1.1.2 Tiền xử lý
Sau bộ thu nhận, ảnh có thể nhiễu, độ tương phản thấp nên cần đưa vào bộ tiền
xử lý để nâng cao chất lượng Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng
độ tương phản để làm ảnh rõ hơn, nét hơn
Thu nhận
ảnh
Tiền xử
lý ảnh
Phân đoạn ảnh
Biểu diễn
và mô tả
Nhận dạng
và nội suy
Cơ sở tri thức
Trang 13TÀI LIỆU THAM KHẢO
1 Nhập môn xử lý ảnh – Lương Mạnh Bá, Nguyễn Thanh Thủy
2 Xử lý ảnh – PGS.TS Nguyễn Quang Hoan
3 Xử lý ảnh – PGS.TS Đỗ Năng Toàn
4 Xử lý ảnh – TS Đỗ Năng Toàn, TS Phạm Việt Bình
5 Ứng dụng xử lý ảnh trong thực tế với thư viện OpenCV C/C++ – Nguyễn Văn Long
6 http://docs.opencv.org/
7 http://opencvexamples.blogspot.com/
8 http://stackoverflow.com/
9 http://www.bogotobogo.com/
10 http://vi.wikipedia.org/