Thu nhận ảnh Tách các đặc tính Phân đoạn Hình 1.2: Các bước cơ bản trong xử lý ảnh Sơ đồ này bao gồm các thành phần sau: a Thu nhận ảnh Đầu tiên, ảnh tự nhiên từ thế giới ngoài được thu
Trang 1- -
Vũ Thị Hồng Thƣ
NÂNG CAO CHẤT LƢỢNG
HỆ THỐNG NHẬP ĐIỂM TỰ ĐỘNG THEO FORM
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên - 2012
Trang 2- -
Vũ Thị Hồng Thƣ
NÂNG CAO CHẤT LƢỢNG
HỆ THỐNG NHẬP ĐIỂM TỰ ĐỘNG THEO FORM
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS Nguyễn Thị Hồng Minh
Thái Nguyên - 2012
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan kết quả trong luận văn là sản phẩm của riêng cá nhân tôi Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp
Tôi xin hoàn toàn chịu trách nhiệm theo quy định cho lời cam đoan của mình
Thái Nguyên, ngày 10 tháng 10 năm 2012
Người cam đoan
Vũ Thị Hồng Thƣ
Trang 4MỤC LỤC
Trang Trang bìa
Trang phụ bìa
LỜI CAM ĐOAN i
MỤC LỤC ii
DANH MỤC CÁC BẢNG v
DANH MỤC CÁC HÌNH VẼ, ẢNH CHỤP vi
MỞ ĐẦU 1
Chương 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG FORM MẪU 3
1.1 Khái quát về xử lý ảnh 3
1.1.1 Xử lý ảnh là gì? 4
1.1.2 Các vấn đề cơ bản của xử lý ảnh 6
1.1.2.1 Một số khái niệm cơ bản 6
1.1.2.2 Biểu diễn ảnh trong máy tính 10
1.1.2.3 Phân loại ảnh 11
1.1.2.4 Quan hệ giữa các điểm ảnh 12
1.2 Nhận dạng form mẫu 14
1.2.1 Form mẫu và biểu diễn form mẫu 14
1.2.1.1 Khái niệm form mẫu 14
1.2.1.2 Biểu diễn form mẫu 14
1.2.1.3 Phân tách vùng chứa dữ liệu 17
1.2.1.4 Tách dòng và tách kí tự 18
1.2.1.5 Trích rút đặc trưng 19
1.2.2 Nhận dạng chữ viết trong form 20
1.2.2.1 Sơ đồ tổng quát của một hệ nhận dạng chữ 20
1.2.2.2 Một số thuật toán nhận dạng chữ 21
Trang 5Chương 2: MỘT SỐ KỸ THUẬT NÂNG CAO CHẤT LƢỢNG NHẬN DẠNG
FORM ĐIỂM 30
2.1 Kỹ thuật nâng cao chất lƣợng ảnh form 30
2.1.1 Tăng, giảm độ sáng 30
2.1.2 Tăng, giảm độ tương phản 31
2.1.3 Tách ngưỡng 32
2.1.3.1 Phương pháp ngưỡng toàn cục 32
2.1.3.2 Phương pháp ngưỡng tự động 34
2.1.4 Loại bỏ nhiễu 35
2.1.4.1 Nhiễu ảnh 36
2.1.4.2 Một số kiểu nhiễu 36
2.1.4.3 Phương pháp lọc nhiễu 37
2.1.5 Các phép biến đổi hình học 47
2.1.5.1 Phép dịch ảnh 47
2.1.5.2 Phép quay ảnh 47
2.1.5.3 Phóng to hoặc thu nhỏ 49
2.2 Một số kỹ thuật hiệu chỉnh form mẫu 50
2.2.1 Hiệu chỉnh độ dịch chuyển 50
2.2.2 Hiệu chỉnh góc lệch 52
2.2.2.1 Phương pháp chiếu nghiêng 52
2.2.2.2 Phương pháp biến đổi Hough 54
2.2.2.3 Phương pháp người láng giềng gần nhất 60
2.3 Một số kỹ thuật nâng cao chất lƣợng chữ viết trong form 61
2.3.1 Khử nhiễu 61
2.3.2 Làm trơn chữ 61
2.3.3 Làm đầy chữ 63
2.3.4 Làm mảnh chữ 63
2.3.5 Xoay văn bản đi một góc 64
Trang 6Chương 3: THIẾT KẾ CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM 65
3.1 Bài toán 65
3.2 Phân tích, thiết kế chương trình 65
3.2.1 Chuyển đổi sang ảnh nhị phân 66
3.2.2 Loại bỏ nhiễu 67
3.2.3 Tách dòng và trích rút vùng cần lấy dữ liệu 68
3.2.4 Tách ký tự trên một dòng 69
3.2.5 Mô tả chương trình chính 70
3.3 Kết quả chương trình 73
PHẦN KẾT LUẬN 74
DANH MỤC TÀI LIỆU THAM KHẢO 75
Trang 7DANH MỤC CÁC BẢNG
Trang 92.9 Các toán tử gờ sai phân 45
47
53
Trang 10MỞ ĐẦU
Một trong những giai đoạn khó khăn nhất của công nghệ thông tin là làm cho máy tự động thu nhận, hiểu được ngôn ngữ tự nhiên của chữ viết và tiếng nói Trong đó nhận dạng chữ viết là một lĩnh vực được nghiên cứu phổ biến, nó đã được nghiên cứu từ hơn nửa thập kỷ qua Ngày nay nhận dạng chữ viết đã nhận được sự quan tâm đáng kể và nhận dạng chữ viết tay là một đề tài rất quan trọng trong những ứng dụng khác nhau như tình báo, kỹ thuật robot, Đã có nhiều thuật toán nhận dạng được đưa ra, luôn được cải tiến và phát triển để đáp ứng được nhu cầu của xã hội Các nghiên cứu về nhận dạng chữ viết tay đã đạt được nhiều thành quả thiết thực tại nhiều nước trên thế giới Tuy nhiên, ở Việt Nam vẫn còn ít người nghiên cứu
Cùng với sự phát triển nhanh chóng về phần cứng máy tính, các phần mềm càng trở nên đa dạng, phong phú, hoàn thiện hơn và hỗ trợ hiệu quả hơn cho con người Ngày nay, các phần mềm mô phỏng nghiệp vụ phức tạp ngày càng nhiều, hỗ trợ cho người sử dụng một cách thuận tiện, thời gian xử lý công việc nhanh chóng và một số nghiệp vụ được tự động hóa cao
Hiện nay, công việc quản lý điểm, quản lý thi trong công tác đào tạo của các trường đã được đơn giản hóa rất nhiều nhờ vào việc sử dụng phần mềm Tuy nhiên, một vấn đề làm mất không ít thời gian là nhập điểm thi từ phiếu điểm vào trong cơ sở dữ liệu, đặc biệt là đối với những trường trung học phổ
thông có số lượng học sinh nhiều và các kỳ thi là thường xuyên (thi khảo sát
đầu năm, thi giữa kỳ I, thi hết học kỳ I, thi giữa kỳ II, thi hết học kỳ II, thi nghề phổ thông, thi thử tốt nghiệp, và thi tốt nghiệp trung học phổ thông) thì
đây thực sự là một công việc có khối lượng lớn và dễ gây ra nhầm lẫn Xuất
phát từ thực tế đó, luận văn “Nâng cao chất lượng hệ thống nhập điểm tự
động theo Form” có tính thời sự và có ý nghĩa thực tiễn cao
Trang 11Mục đích của luận văn là xây dựng hệ thống nhập điểm tự động Đây là một hệ thống có khả năng phân tích hình ảnh , nhận dạng chữ viết trên phiếu điểm được đưa vào chương trình dưới dạng file ảnh Từ đó xác định các thông tin liên quan như: Họ tên học sinh, lớp, điểm các môn thi, Cuối cùng chương trình sẽ cập nhật các thông tin trên vào cơ sở dữ liệu giúp cho công tác quản lý được dễ dàng, nhanh chóng và hiệu quả hơn Các công đoạn chính của hệ thống nhập điểm tự động bao gồm:
- Phiếu điểm viết tay của giáo viên tại trường trung học phổ thông Thụy Hương - Kiến Thụy - Hải Phòng qua máy quét thu được hình ảnh và đưa vào máy tính
- Phân vùng ảnh thành 2 vùng cần thiết: Số báo danh và điểm thi
- Nhận dạng điểm viết tay tương ứng với số báo danh dựa trên 2 vùng được trích rút từ form điểm
- Cập nhật vào cơ sở dữ liệu quản lý thi của trường trung học phổ thông
Thụy Hương - Kiến Thụy - Hải Phòng
Hệ thống nhập điểm tự động đã giải quyết được những khó khăn và bất tiện của chương trình quản lý thi hiện có để lại
Nội dung của luận văn gồm có 3 chương:
Chương 1: Khái quát về xử lý ảnh và nhận dạng form mẫu
Chương 1 giới thiệu khái quát về xử lý ảnh và form mẫu, một số thuật toán nhận dạng chữ viết trong form
Chương 2: Một số kỹ thuật nâng cao chất lượng nhận dạng form điểm
Chương 2 cung cấp một số kỹ thuật nâng cao chất lượng ảnh form, chữ viết trong form và một số kỹ thuật hiệu chỉnh form mẫu
Chương 3: Chương trình thử nghiệm
Chương 3 trình bầy về thiết kế hệ thống “Nâng cao chất lượng hệ thống
nhập điểm tự động theo Form” và các kết quả của chương trình thử nghiệm
Trang 12Chương 1
KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG FORM MẪU
Ả nh là mộ t dạ ng dữ liệ u đóng vai trò quan trọ ng trong việ c trao đổ i, xử lý, lư u giữ thông tin Trong nhiề u ngành nghề , trong mộ t số các loạ i hình công việ c, ngư ờ i ta đề u cầ n đế n hình ả nh để mô tả , minh chứ ng hay diễ n đạ t nhữ ng điề u mà đôi khi chữ viế t hay ngôn ngữ nói không lộ t tả hế t đư ợ c Việ c lư u ả nh củ a các tài liệ u, các bả n vẽ , … hay sử a đổ i và chuyể n chúng sang các dạ ng đồ họ a khác để thuậ n tiệ n cho việ c nhậ n
dạ ng, đố i sánh mẫ u để sử dụ ng sau này là điề u cầ n thiế t Vậ y chúng ta nên tổ chứ c lư u trữ các dạ ng hình
ả nh này như thế nào? Có cầ n xử lý gì trư ớ c khi lư u chúng không? Câu trả lờ i là có Do đó xử lý ả nh là việ c
1.1 Khái quát về xử lý ảnh
Xử lý ảnh là một trong những mảng quan trọng nhất trong kỹ thuật thị giác máy tính, là tiền đề cho nhiều nghiên cứu thuộc lĩnh vực này Hai nhiệm
vụ cơ bản của quá trình xử lý ảnh là nâng cao chất lượng thông tin hình ảnh
và xử lý số liệu cung cấp cho các quá trình khác trong đó có việc ứng dụng thị giác vào điều khiển
Các công trình nghiên cứu tại nhiều quốc gia từ những năm 1920 đến nay
về xử lý ảnh đã góp phần thúc đẩy tiến bộ trong lĩnh vực này lớn mạnh không ngừng Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong
Trang 13cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy
1.1.1 Xử lý ảnh là gì?
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ Nó là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chuyên dụng riêng cho nó
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh
có thể là một ảnh “tốt hơn” hoặc một kết luận.[4]
Hình 1.1: Quá trình xử lý ảnh
Để có thể hình dung cấu hình một hệ thống xử lý ảnh chuyên dụng hay một hệ thống xử lý ảnh trong nghiên cứu, đào tạo, trước hết chúng ta hãy xem xét các bước cần thiết trong xử lý ảnh
Thu nhận
ảnh
Tách các đặc tính Phân đoạn
Hình 1.2: Các bước cơ bản trong xử lý ảnh
Sơ đồ này bao gồm các thành phần sau:
a) Thu nhận ảnh
Đầu tiên, ảnh tự nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như Camera, máy chụp ảnh, máy scanner) Trước đây, ảnh thu qua Camera là các ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng) Gần đây, với sự phát triển của công nghệ, ảnh màu hoặc
Trang 14đen trắng được lấy ra từ Camera, sau đó nó được chuyển trực tiếp thành ảnh
số tạo thuận lợi cho xử lý tiếp theo (máy ảnh số hiện nay là một thí dụ gần gũi) Mặt khác, ảnh cũng có thể tiếp nhận từ vệ tinh qua các bộ cảm ứng hay ảnh; có thể quét từ ảnh chụp bằng máy quét ảnh scanner Sau đó được lưu trữ trong máy tính Gồm có 2 quá trình:
+ Biến đổi năng lượng quang học sang năng lượng điện
+ Biến đổi năng lượng điện sang dạng ma trận số
b) Xử lý trước (hay tiền xử lý)
Ảnh sau khi thu nhận có thể bị nhiễu, bị méo, độ tương phản thấp là do những nguyên nhân khác nhau: có thể do chất lượng thiết bị thu nhận ảnh, do nguồn sáng hay do nhiễu ảnh có thể bị suy biến Vì vậy cần phải tăng cường
và khôi phục lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống nhất với trạng thái gốc (trạng thái trước khi ảnh bị biến dạng) nhằm các mục đích phục vụ cho các bước tiếp theo
Những mục đích riêng biệt có thể đặt ra cho quá trình tiền xử lý là: + Thực hiện điều chỉnh độ chiếu sáng để khắc phục hậu quả của sự chiếu sáng không đồng đều
+ Giảm nhỏ thành phần nhiễu
+ Cải thiện độ tương phản của ảnh màu do khuôn màu không tốt
+ Hiệu chỉnh độ méo giá trị xám
+ Loại bỏ tính không đồng thể của ảnh gây nên từ tính không đồng bộ của lớp nhạy quang của hệ thống thu nhận ảnh
+ Chuẩn hóa độ lớn, dạng và màu
+ Điều chỉnh bộ lọc để khuyếch đại các tần số với những thông tin quan trọng được khuyếch đại và nén đi các tần số khác
c) Phân đoạn (hay phân vùng ảnh)
Trang 15Là quá trình phân chia các đối tượng cần khảo sát ra khỏi phần nội dung còn lại của ảnh, phân tách các đối tượng tiếp giáp nhau và phân tách những đối tượng riêng biệt thành những đối tượng con Một phương pháp phân đoạn ảnh là sử dụng một ngưỡng giá trị xám để phân tách ảnh thành đối tượng và nền (những điểm dưới ngưỡng xám thuộc về nền, ngược lại thuộc về đối tượng).[1]
d) Tách các đặc tính
Dựa trên các thông tin thu nhận được qua quá trình phân đoạn, kết hợp với các kỹ thuật xử lý để đưa ra các đặc trưng, đối tượng ảnh cũng như các thông tin cần thiết trong quá trình xử lý Nhờ các đặc tính có được từ ảnh ta
có thể phân loại các đối tượng khác nhau của ảnh
e) Phân loại ảnh
Thực hiện công việc sắp xếp một đối tượng vào một lớp đối tượng cho trước Để giải quyết bài toán này thì các đặc tính có ý nghĩa phải được lựa chọn Ta tìm thấy các đặc tính có ý nghĩa khi ta phân tích các mẫu được lựa chọn từ những đối tượng khác nhau
này, người ta sử dụng khái niệm Picture element mà ta quen gọi hay viết là
Pixel - phần tử ảnh Mỗi Pixel bao gồm một cặp tọa độ chỉ vị trí (x,y) và một
Trang 16mức xám nhất định Mật độ Pixel trên một ảnh số cho ta xác định được độ phân giải của ảnh Ảnh có độ phân giải càng cao thì càng rõ nét và ngược lại
Ví dụ một ảnh số có độ phân giải là 800600 Pixel nghĩa là có 800 điểm theo chiều ngang và 600 điểm theo chiều dọc.[1]
Trang 17* Ảnh: Là tập hợp hữu hạn các điểm ảnh, thường được biểu diễn bằng
một mảng hai chiều I(n,m) với n là số hàng, m là số cột Ta ký hiệu P(x,y) là một điểm ảnh tại vị trí (x, y) Số lượng điểm ảnh trên mỗi hàng hoặc các hàng xác định độ phân giải của ảnh.[1]
b) Mức xám, màu
* Mức xám
Mức xám của điểm ảnh là kết quả sự biến đổi tương ứng một cường
độ sáng của điểm ảnh đó với một giá trị số (kết quả của quá trình lượng hóa) Cách mã hóa kinh điển thường dùng 16, 32 hay 64 mức Mã hóa 256 mức là phổ dụng nhất do lý do kỹ thuật Vì 28
= 256 (0, 1, , 255), nên với 256 mức mỗi pixel sẽ được mã hóa bởi 8 bit.[1]
Kí hiệu hàm số f tại tọa độ x,y là f(x,y) là mức xám L của ảnh tại tại điểm đó: Lmin <= L <= Lmax
- Ảnh nhị phân: 0 <= L <= 1
- Ảnh biểu diễn dạng 8 bit : 0 <= L<= 255
- Ảnh biểu diễn dạng 16 bit : 0 <= L <= 216 - 1
* Màu
- Màu sắc: Mắt người có thể phân biệt được vài chục màu nhưng có thể cảm nhận được hàng ngàn màu Ba thuộc tính của một màu đó là: Sắc (Hue), độ tinh khiết (Saturation), và độ sáng hay độ chói (Itensity)
- Mô hình màu:
+ Mô hình màu RGB (RED - GREEN - BLUE): Thông tin con người thu nhận bằng hình ảnh đều bắt nguồn từ thị giác Mắt con người có khả năng phân biệt được rõ nét 3 màu: đỏ, lục, lam Các ảnh màu nói chung đều bao gồm 3 ảnh xám đối với màu nền đỏ, lục và lam Tất cả các màu sắc trong tự nhiên đều có thể tổng hợp từ 3 thành phần màu nói trên
Trang 18Mô hình RGB còn gọi là mô hình cộng tính, mỗi mức xám của ảnh sẽ được biểu diễn bởi 3 thành phần: R, G, B (Mỗi thành phần được biểu diễn bởi 1 byte)
Lục(0,1,0) Vàng(1,1,0)
Trắng (1, 1, 1)
Đỏ(1,0,0)
Đỏ lila (1,0,1) Lam(0,0,1 )
Đỏ cô ban(0, 1,1)
Đen(0,0,0)
Hình 1.3: Mô hình màu RGB
+ Mô hình màu CMY( CYAN - MAGENTA - YELLOW): là phần
bù của hệ màu RGB theo nguyên tắc: C + R = M + G = B + Y =(1, 1, 1) Hệ màu này thường dùng để xuất thông tin màu ra các thiết bị như máy in màu
Đỏ lila(0,1,0) Lam(1,1,0)
Đen (1, 1, 1)
Đỏ cô ban (1,0,0)
Lục (1,0,1) Vàng(0,0,1
Đỏ (0, 1,1)
Trắng(0,0,0)
Hình 1.4: Mô hình màu CMY
Trang 19+ Mô hình màu CMYK( CYAN - MAGENTA - YELLOW- BLACK):
Xuất phát từ hệ màu CMY với K là độ đậm nhạt của màu K Với C, M, K được xác định từ CMY( C1, M1, Y1) như sau:
K = min(C1, M1, Y1, K); C = C1-K; M = M1-K; Y = Y1-K c) Độ phân giải của ảnh
Độ phân giải của ảnh là mật độ điểm ảnh được ấn định trên một ảnh
1.1.2.2 Biểu diễn ảnh trong máy tính
Trong biểu diễn ảnh, người ta thường dùng các phần tử đặc trưng của ảnh là pixel Nhìn chung có thể xem một hàm hai biến chứa các thông tin như biểu diễn của một ảnh Các mô hình biểu diễn ảnh cho ta một mô tả lôgic hay định lượng các tính chất của hàm này Trong biểu diễn ảnh cần chú ý đến tính trung thực của ảnh hoặc các tiêu chuẩn “thông minh” để đo chất lượng ảnh hoặc tính hiệu quả của các kỹ thuật xử lý
Ta cần xem xét ảnh sẽ được biểu diễn ra sao trong bộ nhớ máy tính Nếu lưu trữ trực tiếp ảnh thô theo kiểu bản đồ ảnh, dung lượng sẽ khá lớn, tốn kém mà nhiều khi không hiệu quả theo quan điểm ứng dụng Thường người ta không biểu diễn toàn bộ ảnh thô mà tập trung đặc tả các đặc trưng của ảnh như: biên ảnh (Boundary) hay các vùng ảnh (Region).[1]
Trang 201.1.2.3 Phân loại ảnh
* Ảnh nhị phân (hay ảnh đen trắng)
Ảnh chỉ có 2 mức đen, trắng phân biệt Với ảnh nhị phân dùng 1 bit
* Ảnh xám
Là ảnh có hai màu đen, trắng (không chứa màu khác) với mức xám ở các điểm ảnh có thể khác nhau Giá trị xám nằm trong khoảng 0 255 Như vậy mỗi điểm ảnh trong ảnh nhị phân được biểu diễn bới 1 byte Ứng với cấp xám L bằng 2 là ảnh nhị phân Còn với L lớn hơn 2, ta có ảnh xám hay còn gọi là ảnh đa cấp xám
Ví dụ: Ảnh 512512 cần ít nhất không gian lưu trữ là 512512 Bytes hay 256 Kbytes
* Ảnh màu
Ảnh màu nói chung là ảnh tổ hợp từ 3 màu cơ bản: đỏ (Red), lục (Green), lam (Blue) và thường thu nhận trên các giải băng tần khác nhau Với ảnh màu cách biểu diễn cũng tương tự như ảnh đen trắng chỉ khác là mỗi Pixel ảnh gồm 3 thành phần màu P=[red, green, blue] nên cần được biểu diễn
Trang 21bằng 3 bytes Mỗi màu cũng phân thành L cấp khác nhau (L thường là 256)
Do vậy, để lưu trữ ảnh màu, người ta có thể lưu trữ từng mặt màu riêng biệt, mỗi màu lưu trữ như một ảnh đa cấp xám Do đó không gian nhớ dành cho một ảnh màu lớn gấp 3 lần một ảnh đa cấp xám cùng kích thước
1.1.2.4 Quan hệ giữa các điểm ảnh
Một ảnh số giả sử được biểu diễn bằng hàm f(x, y) Tập con các điểm ảnh là S; cặp điểm ảnh có quan hệ với nhau ký hiệu là p, q Chúng ta nêu một
số các khái niệm sau:
a) Các lân cận của điểm ảnh
Giả sử có điểm ảnh p tại toạ độ (x, y) p có 4 điểm lân cận gần nhất theo chiều đứng và ngang (có thể coi như lân cận 4 hướng chính: Đông, Tây, Nam, Bắc)
{(x-1, y); (x, y-1); (x, y+1); (x+1, y)} = N4(p) trong đó: số 1 là giá trị logic; N4(p) tập 4 điểm lân cận của p
Hình 1.6: Lân cận các điểm ảnh của toạ độ (x,y) Các lân cận chéo: Các điểm lân cận chéo NP(p) (Có thể coi lân cận chéo là 4 hướng: Đông-Nam, Đông-Bắc, Tây-Nam, Tây-Bắc)
Np(p) = { (x+1, y+1); (x+1, y-1); (x-1, y+1); (x-1, y-1)}
Tập kết hợp: N8(p) = N4(p) + NP(p) là tập hợp 8 lân cận của điểm ảnh p Chú ý: Nếu (x, y) nằm ở biên (mép) ảnh; một số điểm sẽ nằm ngoài ảnh
Trang 22b) Các mối liên kết điểm ảnh
Các mối liên kết được sử dụng để xác định giới hạn (Boundaries) của đối tượng vật thể hoặc xác định vùng trong một ảnh Một liên kết được đặc trưng bởi tính liền kề giữa các điểm và mức xám của chúng
Giả sử V là tập các giá trị mức xám Một ảnh có các giá trị cường độ sáng từ thang mức xám từ 32 đến 64 được mô tả như sau :
V={32, 33, … , 63, 64}
Có 3 loại liên kết
* Liên kết 4: Hai điểm ảnh p và q được nói là liên kết 4 với các giá
trị cường độ sáng V nếu q nằm trong một các lân cận của p, tức q thuộc N4(p)
* Liên kết 8: Hai điểm ảnh p và q nằm trong một các lân cận 8 của
p, tức q thuộc N8(p)
* Liên kết m (liên kết hỗn hợp): Hai điểm ảnh p và q với các giá trị
cường độ sáng V được nói là liên kết m nếu: - q thuộc N4(p) hoặc
- q thuộc NP(p) c) Đo khoảng cách giữa các điểm ảnh
Định nghĩa: Khoảng cách D(p, q) giữa hai điểm ảnh p toạ độ (x, y), q toạ độ (s, t) là hàm khoảng cách (Distance) hoặc Metric nếu:
- D(p,q) ≥ 0 (Với D(p,q)=0 nếu và chỉ nếu p=q)
- D(p,q) = D(q,p)
- D(p,z) ≤ D(p,q) + D(q,z); z là một điểm ảnh khác
Khoảng cách Euclide: Khoảng cách Euclide giữa hai điểm ảnh p(x, y)
và q(s, t) được định nghĩa như sau:
De(p, q) = [(x - s)2 + (y - t)2]1/2Khoảng cách khối: Khoảng cách D4(p, q) được gọi là khoảng cách khối đồ thị (City-Block Distance) và được xác định như sau:
D4(p,q) = | x - s | + | y - t |
Trang 23Giá trị khoảng cách giữa các điểm ảnh r: giá trị bán kính r giữa điểm ảnh từ tâm điểm ảnh đến tâm điểm ảnh q khác Ví dụ: Màn hình CGA 12” (12”*2,54cm = 30,48cm=304,8mm) độ phân giải 320*200; tỷ lệ 4/3 (Chiều dài/Chiều rộng) Theo định lý Pitago về tam giác vuông, đường chéo sẽ lấy tỷ
lệ 5 phần (5/4/3: đường chéo/chiều dài/chiều rộng màn hình); khi đó độ dài thật là (305/244/183) chiều rộng màn hình 183mm ứng với màn hình CGA
200 điểm ảnh theo chiều dọc Như vậy, khoảng cách điểm ảnh lân cận của CGA 12” là ≈ 1mm.[2]
Khoảng cách D8(p, q) còn gọi là khoảng cách bàn cờ (Chess-Board Distance) giữa điểm ảnh p, q được xác định như sau:
D8(p,q) = max (| x-s | , | y-t |)
1.2 Nhận dạng form mẫu
1.2.1 Form mẫu và biểu diễn form mẫu
1.2.1.1 Khái niệm form mẫu
Form mẫu là form dùng để nhập dữ liệu, có cấu trúc gồm các trường
mà mỗi trường có tên trường, nội dung, kiểu dữ liệu tương ứng Ví dụ các loại phiếu điều tra, phiếu điểm, phiếu trả lời trắc nghiệm…
1.2.1.2 Biểu diễn form mẫu
a) Cấu trúc vật lý
Cấu trúc vật lý của một form tài liệu mô tả vị trí và các đường ranh giới giữa các vùng có nội dung khác nhau trong một trang tài liệu Quá trình phân tích bố cục tài liệu là thực hiện việc tách từ một trang tài liệu ban đầu thành các vùng có nội dung cơ sở như hình ảnh nền, vùng văn bản,…
Để mô tả cấu trúc vật lý của tài liệu người ta sử dụng một cấu trúc hình học với mỗi đối tượng trong cấu trúc là một phần tử chỉ chứa nội dung đồng nhất Các kiểu đối tượng hình học được định nghĩa như sau:
Trang 24+ Block là đối tượng cơ sở tương ứng với một vùng hình chữ nhật chứa một phần nội dụng của tài liệu
+ Frame một đối tượng hỗn hợp tương ứng với một hình chữ nhật bao gồm một hoặc nhiều block hoặc bao gồm các frame
+ Page là đối tượng hình học hoặc hỗn hợp các thành phần cơ sở tương ứng với một vùng hình chữ nhật, nếu là đối tượng hỗn hợp nó chứa một hoặc nhiều block, một hoặc nhiều frame
+ Page set (tập trang) là một tập của một hoặc nhiều page
nhất trong sơ đồ phân cấp của cấu trúc hình học tài liệu Hình 1.7 cho ví dụ một cấu trúc hình học mô tả bố cục vật lý của trang tài liệu tương ứng
Các thuật toán phân tích bố cục tài liệu có thể được chia làm ba loại chính dựa theo phương pháp thực hiện của nó
- Bottom-up: Ý tưởng chính của các thuật toán loại này là bắt đầu phân tích từ những phần tử nhỏ nhất (như từ các pixel hay các phần tử liên thông) sau đó nhóm chúng lại thành các vùng lớn hơn (có thể là ký tự), rồi lại nhóm các vùng này lại thành một khối lớn hơn nữa, và cứ tiếp tục như vậy cho đến khi phân tích được toàn bộ trang tài liệu
- Top-down: Thuật toán này bắt đầu từ toàn bộ trang tài liệu, sau đó sẽ phân tích trang tài liệu đó thành các vùng nhỏ hơn, các vùng nhỏ hơn này lại được phân tích thành các vùng nhỏ hơn nữa, thủ tục tách cứ được lặp đi, lặp lại nhiều lần cho đến khi thỏa mãn các tiêu chuẩn đề ra của bài toán
- Các thuật toán không theo thứ bậc: như Fractal Signature, Adaptive splitand-merge …
Trang 25b) Cấu trúc logic
Ngoài bố cục vật lý, các trang tài liệu còn chứa đựng nhiều thông tin
về ngữ cảnh và nội dung như các tiêu đề, đoạn văn, đề mục… và mỗi vùng nội dung này lại được gán các nhãn logic hay nhãn theo chức năng tương ứng, khác biệt hoàn toàn với các nhãn trong bố cục vật lý
Hầu hết các tài liệu đều có một quy tắc đọc để có thể hiểu hết nội dung của tài liệu Với một số ngôn ngữ đặc biệt như tiếng Trung, tiếng Ả rập lại có quy cách đọc khác biệt (như đọc từ phải qua trái, trên xuống) Tập hợp tất cả các yếu tố logic và chức năng trong một tài liệu và mối quan hệ giữa chúng được gọi là cấu trúc logic của tài liệu Thông thường pha phân tích cấu trúc logic của tài liệu được thực hiện trên kết quả của bước phân tích bố cục vật lý Tuy nhiên với một số loại tài liệu phức tạp, thì pha phân tích bố cục vật
lý lại cần thêm một số thông tin logic liên quan đến các vùng để có thể phân đoạn một cách chính xác
Hình 1.7: Ví dụ mô tả cấu trúc vật lý, cấu trúc logic của tài liệu
Cấu trúc logic
(a) Tài liệu
Cấu trúc vật lý
Trang 261.2.1.3 Phân tách vùng chứa dữ liệu
Trong quá trình nhập điểm, thông tin quan trọng cần được lấy đó là vùng ảnh chứa số báo danh và vùng ảnh chứa điểm thi Khi lấy được vùng ảnh chứa
số báo danh và vùng ảnh chứa điểm thi, ta thực hiện việc tách ra thành các dòng khác nhau Mỗi một dòng sẽ là số báo danh của từng học sinh và căn cứ vào số báo danh này ta có thể cập nhật điểm mà được lấy ra từ vùng ảnh chứa điểm thi vào trong cơ sở dữ liệu
Việc tách một vùng ảnh ra thành các vùng nhỏ tương ứng với các hàng khác nhau được thực hiện khá đơn giản bằng giải thuật “Horizontal Projection” Tương tự, việc tách các kí tự trên cùng một hàng sẽ được thực hiện bằng giải thuật “Vertical Projection”
Dưới đây là bức ảnh của bảng điểm mà chúng ta thu được bằng cách sử dụng máy scan và lưu lại dưới dạng file ảnh
Hình 1.8: Mẫu form điểm thu nhận từ máy quét
Trang 27Nhìn vào chúng ta có thể thấy công việc của chúng ta cần làm là tách bức ảnh trên ra thành 2 vùng nhỏ:
+ Vùng 1: Chứa số báo danh
+ Vùng 2: Chứa điểm thi của học sinh
1.2.1.4 Tách dòng và tách kí tự
a Giải thuật Horizontal Projection
Giải thuật Horizontal Projection được sử dụng để chia nhỏ vùng ảnh chứa số báo danh ra thành các vùng ảnh nhỏ hơn, mỗi vùng ảnh chứa một số báo danh của một học sinh
Giải thuật Horizontal Projection có thể được mô tả như sau:
Trong đó: - PH(h) là tổng số điểm ảnh màu đen trên dòng h
- W là chiều rộng của ảnh
- p(x,h) nghĩa là điểm ảnh nằm trên tọa độ (x,h)
Hình 1.9: Ảnh được tách thành 2 vùng để xử lý
Trang 28Khi chúng ta tính Horizontal Projection trên hàng h, nếu như hàng này
có PH(h) != 0 thì chúng ta có thể cắt từ hàng 0 tới h-1 thành một vùng ảnh nhỏ
và được coi là một hàng tương ứng với một số báo danh
b Giải thuật Vertical Projection
Giải thuật này được sử dụng để chia vùng ảnh con tương ứng với một hàng thu được từ bước trên để lấy được các kí tự riêng biệt
Giải thuật Vertical Projection có thể được mô tả như sau:
Trong đó: - PV(c) là tổng số điểm ảnh màu đen trên dòng h
- H là chiều cao của ảnh
- p(x,c) nghĩa là điểm ảnh nằm trên tọa độ (x,c)
Khi chúng ta tính Vertical Projection trên cột c, nếu như hàng này có
PH(c) != 0 thì chúng ta có thể cắt từ cột 0 tới c-1 thành một vùng ảnh nhỏ và được coi là một hàng tương ứng với một chữ số trong số báo danh
1.2.1.5 Trích rút đặc trưng
Sau khi tách dòng và tách riêng từng kí tự thành công Ta thực hiện tiếp công đoạn tiếp theo đó là trích rút đặc trưng của từng bức ảnh chứa các kí tự riêng biệt để mỗi bức ảnh chứa kí tự có những thông tin quan trọng, nó quyết định những đặc tính để phân biệt nó với các bức ảnh chứa kí tự khác
Mỗi bức ảnh chứa kí tự riêng biệt có kích thước khác nhau sẽ được đưa
về cùng kích thước Trong đề tài này, tôi điều chỉnh tất cả các ảnh sang cùng
cho bức ảnh đó
Hình 1.10: Bức ảnh trước khi điều chỉnh kích thước
Trang 29Hình 1.11: Bức ảnh sau khi điều chỉnh kích thước thành 75
1.2.2 Nhận dạng chữ viết trong form
1.2.2.1 Sơ đồ tổng quát của một hệ nhận dạng chữ
Về cơ chế, một hệ thống nhận dạng chữ thường gồm các khối chính, phù hợp với các giai đoạn xử lý sau:
Lưu trữ văn bản
Trình bày lại văn bản
Trang 301.2.2.2 Một số thuật toán nhận dạng chữ
Nhận dạng chữ sau khi đã tách khỏi từ là giai đoạn quan trọng nhất và cũng là mục đích của các hệ nhận dạng chữ viết Mỗi loại chữ có những đặc điểm riêng nên các kỹ thuật áp dụng cũng khác nhau
a) Kỹ thuật đối sánh mẫu
Chữ in thường rõ nét và chất lượng khá tốt sau khi quét Trong nhận dạng chữ in, người ta thường dùng một số kỹ thuật:
- Kỹ thuật đối sánh từng điểm - xuất phát từ tâm
- Kỹ thuật đối sánh các dãy cắt dọc và cắt ngang
- Kỹ thuật nhận dạng theo hình chiếu
Chữ sau khi được tách khỏi từ, tâm nó được tính toán và tọa độ được xác định Chữ được đối sánh với chữ chuẩn (nhận dạng chữ viết là bài toán học có mẫu) từng điểm một, từ tâm ra biên Các hình vành khăn lồng nhau có trọng tâm tạo thành lớp các điểm ảnh có cùng trọng số Khoảng cách giữa 2 điểm ảnh x và x' được tính:
Trang 31 Kỹ thuật nhận dạng dựa vào đối sánh các điểm cắt dọc và cắt ngang
Kỹ thuật này nhằm khắc phục một số nhược điểm của kỹ thuật trên Giả
sử chữ cô lập có kích thước WChar và HChar Chúng ta duyệt theo chiều ngang để tìm số điểm cắt theo chiều ngang
Gọi Hi là số điểm cắt ngang của dòng thữ i Như vậy H1 H2, , HWChar sẽ là dãy các điểm cắt ngang Tương tự như vậy, gọi Vi là số điểm cắt dọc tại cột thứ i Như vậy V1 V2, , VHChar sẽ là dãy các điểm cắt dọc
Bỏ qua các điểm 0 ở đầu và cuối 2 dãy, ta có 2 dãy con H = H1, H2, , Hni và
V1, V2 , , Vni sẽ là dãy các điểm cắt dọc như chỉ ra trong hình 1.13 với chữ P:
Hình 1.13: Chữ P
Hx' và Vx' Vx hoặc Vx Vx' Nhìn chung, kỹ thuật này tương đối đơn giản, tốc độ cao và kết quả nhận dạng không phụ thuộc vào việc mất các điểm
ở biên chữ Tuy nhiên, kỹ thuật này đòi hỏi font phải chuẩn
Kỹ thuật này là cải tiến của kỹ thuật trên, nhằm áp dụng cho nhiều kiểu font Giả sử mẫu nhận dạng có kích thước nn Gọi i là véctơ bậc n gồm các phần tử 0 và 1 tương ứng với hàng i (hay cột i) Gọi (i) là tổng số các phần tử 1 trong véctơ i và (i) là số giao điểm của i với ảnh mẫu Khi đó một hàng hay một cột được gọi là dài nếu: (i) = 1
(i) - , với là độ rộng của ký tự và là ngưỡng cho trước (*)
Trang 32ý nghĩa của hàng hay cột dài là chúng thể hiện chiều ngang hay chiều cao của
kí tự Đặt i* = i i+1 Nếu thoả mãn các điều kiện (*) , tức là:
(i*) = 1
(i*) -
khi đó ta có thể viết (i *) = 1 Để trích ra các đặc trưng của mẫu, ảnh được duyệt theo chiều ngang hay đứng như phương pháp trên Tuy nhiên, ở đây ta có: Hi = (i*) và Vi = (i*)
Tiếp đó, nếu trong các chuỗi H và V nếu Hi = Hi+1 hoặc Vi = Vi+1 thì phần tử Hi+1 hoặc Vi+1 bị xóa khỏi chuỗi Cuối cùng ta thu được các chuỗi H'
và V' đặc trưng cho ký tự Ví dụ:
H = 0001112222211111111110 thì H' = 012110
V = 01112111133322222111111000 thì V' = 0123210
Quá trình nhận dạng trở thành so sánh các cặp H' và V' Kỹ thuật này
có ưu điểm là có thể áp dụng cho nhiều font Song nếu chất lượng quét tồi, ảnh có nhiều răng cưa giả thì chuỗi đặc trưng sẽ lệch nhiều so với chuỗi chuẩn Ngoài các kỹ thuật kể trên còn có một số kỹ thuật khác như thống kê giao điểm, đồ thị đối sánh
b) Thuật toán nhận dạng chữ dựa vào cấu trúc
Khác với kỹ thuật trên dựa vào lý thuyết ra quyết định trên cơ sở không gian dấu hiệu, kỹ thuật này dựa vào cấu trúc chữ Theo kỹ thuật này, mỗi ký
tự nhận dạng được biểu diễn bởi một xâu hay tổng quát hơn bởi một đồ thị của các dạng nguyên thủy và mối quan hệ giữa chúng Như đã nêu trong phần nhận dạng cấu trúc, quá trình nhận dạng là quá trình phân tích cú pháp hay đối sánh đồ thị Một văn bản coi như một dạng phức tạp cấu thành từ các dạng trung gian Các dạng trung gian lại có thể coi được cấu tạo từ các dạng con (là ký tự) Cuối cùng, mỗi ký tự được cấu thành từ các dạng nguyên thủy Quá trình nhận dạng có thể biểu diễn theo sơ đồ sau:
Trang 33Hình 1.14: Quá trình nhận dạng theo cấu trúc
Kỹ thuật nhận dạng này bao gồm 3 công đoạn:
- Phân hoạch ký tự-biểu diễn dạng: phân hoạch tập nhận dạng thành N tập đơn theo như lý thuyết phân hoạch không gian
- Trích chọn các các đặc trưng: Văn bản sau khi được sử lý sơ bộ sẽ qua phần trích chọn các đặc trưng mà ở đây là các điểm kết thúc, chạc ba
- Nhận dạng dấu: Nhận dạng dấu là công đoạn quan trọng, nhất là trong nhận dạng chữ Việt Dòng dấu thường nhỏ hơn và khó nhận dạng hơn
Gọi là tập các đối tượng nhận dạng:
- j: số điểm nối (Junctions point: ngã 3, ngã tư)
- e: số điểm ngoặt (turning point)
- f: số điểm kết thúc (end point)
- t: hướng (trên, dưới, phải trái)
Ta phân hoạch tập đối tượng đã cho thành các tập con áp dụng tiếp các quy tắc, dấu hiệu này, ta lại phân tiếp các tập con thành các tập nhỏ hơn Ví
dụ với tập đã cho, dùng quy tắc e (số điểm ngoặt) ta phân thành 3 tập nhỏ:
Dạng nguyên
gian
Dạng nguyên thủy
Trang 341 = {A D O P Q R}, 2 = {B} 3 = {C E F, } tương ứng với số điểm ngoặt khác nhau
Nếu chưa đủ độ tin cậy, ta dùng thêm hướng t để phân tiếp Ví dụ, dùng thêm t cho tập 1 ta thu được 5 tập nhỏ:
Trích chọn các đặc trưng
Các đặc trưng của ký tự cần trích chọn bao gồm các điểm kết thúc, các chạc ba Điểm kết thúc chỉ có duy nhất 1 trong các 8 láng giềng là đen (a,b) Điểm chạc ba thỏa mãn các điều kiện c,d,e
Hình 1.15 : Điểm kết thúc và chạc ba Các ký tự nhận dạng được làm mảnh sẽ được duyệt theo dòng để tìm kiếm các cột đen trên ảnh, sau đó quá trình duyệt lại được bắt đầu từ điểm vừa tìm ra bằng cách lần theo cạnh Để tăng độ chính xác, người ta còn kết hợp phương pháp này với phương pháp thống kê giao điểm
Trang 35c) Nhận dạng chữ dựa vào mạng nơron
Mạng nơron nhân tạo (Artificial Neural Network gọi tắt là ANN) bao gồm: các nút (đơn vị xử lý, nơron) được nối với nhau bởi các liên kết nơron Mỗi liên kết kèm theo một trọng số nào đó, đặc trưng cho tính kích hoạt hay
ức chế giữa các nơron Có thể xem các trọng số là phương tiện để lưu giữ thông tin dài hạn trong mạng nơron và nhiệm vụ của quá trình huấn luyện (học) mạng là cập nhật các trọng số khi có thêm các thông tin về các mẫu học, hay nói một cách khác, các trọng số được điều chỉnh sao cho dữ liệu đầu vào
mà nó mô phỏng hoàn toàn phù hợp với môi trường đang xét
Hình 1.16: Cấu trúc mạng nơron Hướng tiếp cận nhận dạng kí tự bằng mạng Back Propagation gồm có 3 tầng, số phần tử nơron trên mỗi tầng phụ thuộc vào người dùng lựa chọn Thông thường, có một tầng input, một tầng output và một tầng hidden
Trên tầng input có 35 phần tử nơron Có nghĩa là mỗi một ảnh được nhận dạng bởi 35 điểm ảnh đặc trưng Kích thước của ảnh phụ thuộc vào chiều cao và độ rộng của kí tự Cuối cùng, tất cả các ảnh cần nhận dạng được trích rút đặc trưng và đưa về kích thước chuẩn: 75
Trang 36Số nơron trên tầng hidden tùy thuộc vào lựa chọn của người dùng Nó
có thể lấy giá trị từ 10 đến 1000 hoặc nhiều hơn Nhưng để lấy được kết quả tốt nhất chúng ta phải thực hiện phương pháp thử và sửa sai
Trên tầng output có 10 phần tử nơron Mỗi một nơron tương ứng với các
Nễu mẫu kế tiếp sẵn sàng
S
MSE <= Threshold
Số lần lặp = Max Epoch
Hình 1.17: Lược đồ thuật toán huấn luyện mạng
Trang 37- B1: Tạo mạng nơron tương ứng với các thông số đầu vào
- B2: Giá trị các trọng số được khởi tạo ngẫu nhiên
- B3: Sau khi xây dựng được mạng, chúng ta phải xử lý ảnh đầu vào Ở
đề tài này bao gồm: Loại bỏ nhiễu và chuyển đổi sang ảnh nhị phân
- B4: Lấy mẫu đầu tiên
- B5: Phân tích mẫu đầu vào và phân tách mẫu này thành các mảng
tuyến tính
- B6: Thiết lập tổng số lỗi = 0
- B7: Huấn luyện mẫu đó
- B8: Tính toán lỗi sau khi huấn luyện
- B9: Cộng giá trị lỗi cho mỗi nơron rồi cộng vào tổng lỗi
- B10: Nếu mẫu kế tiếp sẵn sang thì load tiếp và lặp lại bước 6
- B11: Nếu không còn mẫu nào nữa thì tính toán MSE (Mean
Square Error)
- B12: Nếu MSE <= Threshold thì dừng lại
- B13: Nếu MSE > Threshold thì kiểm tra số lần lặp có thể
- B14: Nếu số lần lặp <> Maximum Epoch thì lặp lại bước 4
- B15: Nếu số lần lặp = Maximum thì dừng lại
* Thuật toán BackPropagation
BackPropagation là một phương pháp phổ biến được dùng để huấn luyện mạng nơron làm thế nào để thực hiện mục đích Trong đề tài này tôi sử
dụng cách huấn luyện có giám sát
Trang 38Lược đồ thuật toán BackPropagation
Bắt đầu
Khởi tạo trọng số
Tính tổng trọng số của tín hiệu vào ở các tầng
Tính thông tin lỗi
- Back Propagation của lỗi:
+ Thông tin lỗi được tính
+ Ta sử dụng giá trị này để tính toán thông tin lỗi trên mỗi nơron còn lại
- Cập nhật giá trị trọng số:
Chúng ta sử dụng thông tin lỗi trên mỗi node để tính toán và cập nhật lại giá trị mới cho trọng số liên kết giữa các nơron
Trang 39Chương 2 MỘT SỐ KỸ THUẬT NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG
FORM ĐIỂM
2.1 Kỹ thuật nâng cao chất lượng ảnh form
Nâng cao chất lượng là bước cần thiết trong xử lý ảnh nhằm hoàn thiện một số đặc tính của ảnh
2.1.1 Tăng, giảm độ sáng
Tăng cường độ sáng (Brightness) của một ảnh có thể được hiểu như sự phát sáng toàn bộ ảnh Hay nói một cách cụ thể đó là sự phát sáng toàn bộ của mọi Pixel trong ảnh đó
Đây là một kỹ thuật khá đơn giản: để tăng thêm độ sáng, tất cả các Pixel của ảnh cần được cộng thêm giá trị điều chỉnh vào mọi kênh màu RGB Tuy
kỹ thuật này đơn giản nhưng nó đem lại hiệu quả khá cao và rất hay được sử dụng trong lĩnh vực xử lý ảnh Nó giúp ích rất nhiều trong các ngành như y học, địa lý, quân sự, trong việc phân tích và nhận dạng
Điều chỉnh Brightness không chỉ được sử dụng để làm sáng lên những ảnh tối mà còn được sử dụng để làm tối đi các ảnh sáng Một ảnh sáng hoàn toàn đơn giản là tất cả các Pixel đều màu trắng trong khi một ảnh tối hoàn toàn là tất cả các Pixel đều màu tối Sự khác nhau duy nhất trong làm tối một ảnh là trừ đi giá trị điều chỉnh vào mỗi kênh màu RGB của ảnh
Đối với mỗi kênh màu, chúng chỉ nhận các giá trị [0 255] Chính vì thế khi tăng cường hay giảm độ sáng của một ảnh ta phải chú ý đến ngưỡng của các kênh Điều đó có nghĩa là với mỗi kênh màu của một Pixel nếu nhỏ hơn 0 thì ta phải gán bằng 0 và nếu lớn hơn 255 thì ta phải gán bằng 255
Biểu thức cho kỹ thuật Brightness có dạng:
g(x,y) = f(x,y) + b
Trang 40Trong đó b là hằng số cộng thêm vào giá trị màu f(x,y) Độ sáng của ảnh tăng nếu b > 0, và giảm bớt nếu b < 0
Ảnh giảm độ sáng Ảnh gốc Ảnh tăng độ sáng
Hình 2.1: Tăng, giảm độ sáng
2.1.2 Tăng, giảm độ tương phản
Độ tương phản (Contrast) thể hiện sự thay đổi cường độ sáng của đối tượng so với nền, hay nói cách khác, độ tương phản là độ nổi của điểm ảnh hay vùng ảnh so với nền
Ảnh số là tập hợp các điểm, mà mỗi điểm có giá trị độ sáng khác nhau
Ở đây, độ sáng để mắt người dễ cảm nhận ảnh song không phải là quyết định Thực tế chỉ ra rằng hai đối tượng có cùng độ sáng nhưng đặt trên hai nền khác nhau sẽ cho cảm nhận khác nhau Vì vậy ta có thể thay đổi độ tương phản của ảnh sao cho phù hợp
Việc làm tăng độ tương phản rất hữu ích khi tiến hành xử lý trước theo phương pháp phân ngưỡng Bằng việc làm tăng độ tương phản, sự khác nhau của giá trị nền và đối tượng, độ dốc của cạnh đối tượng được tăng lên Do đó sau khi làm tăng độ tương phản ta có thể tìm các giá trị màu thích hợp với một vùng sáng hơn
Trong một ảnh có độ tương phản cao, có thể xác định được các viền rõ ràng và chi tiết khác nhau của ảnh đó được nổi bật Còn trong một ảnh có độ tương phản thấp, tất cả các màu đều gần như nhau gây khó khăn cho việc xác định các chi tiết của ảnh