1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)

82 173 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 82
Dung lượng 2,31 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)

Trang 1

LÊ XUÂN LONG

NGHIÊN CỨU TRÍCH CHỌN ĐẶC TRƯNG ỨNG DỤNG CHO TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2017

Trang 2

LÊ XUÂN LONG

NGHIÊN CỨU TRÍCH CHỌN ĐẶC TRƯNG ỨNG DỤNG CHO TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS Ngô Quốc Tạo

THÁI NGUYÊN - 2017

Trang 3

LỜI CẢM ƠN

Trước hết, em xin bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn PGS.TS Ngô Quốc Tạo, là người trực tiếp hướng dẫn, tận tình chỉ bảo, giúp đỡ em trong quá trình hình thành đề tài của luận văn

Em xin trân thành cảm ơn tới tất cả các thầygiáo, cô giáo và Ban lãnh đạo trường Đại học Công nghệ Thông tin và Truyền thông Thái Nguyên đã đem tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho chúng em và luôn luôn tạo mọi điều kiện tốt nhất cho chúng em trong suốt quá trình theo học tại trường

Cám ơn đề tài Phòng thí nghiệm trọng điểm: " Nghiên cứu phương pháp tra cứu ảnh dựa vào đa truy vấn" mã số PTNTĐ17.04 đã hỗ trợ trong thực hiện luận văn

Luận văn hoàn thành, ngoài sự cố gắng của bản thân còn có sự động viên, giúp

đỡ và kích lệ về tinh thần của bạn bè đồng nghiệp và gia đình giúp cho em vượt qua những khó khăn trong thời gian thực hiện luận văn Em xin trân thành cảm ơn tới tất cả mọi người

Học viên

Lê Xuân Long

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, với sự hỗ trợ từ người hướng dẫn khoa học PGS.TS NGÔ QUỐC TẠO

Các số liệu, kết quả nêu trong luận văn là trung thực Việc sử dụng những dữ liệu có trong luận văn được thu thập từ các nguồn thông tin khác nhau có ghi trong phần tài liệu tham khảo

Thái Nguyên, tháng 12 năm 2017

Người cam đoan

Lê Xuân Long

Trang 5

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN ii

MỤC LỤC iii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi

DANH MỤC HÌNH VẼ vii

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Đối tượng và phạm vi nghiên cứu 1

3 Hướng nghiên cứu của đề tài 2

4 Ý nghĩa khoa học và thực tiễn của đề tài 2

5 Phương pháp nghiên cứu 2

CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH TÀI LIỆU 4

1.1 Tổng quan về tra cứu ảnh tài liệu 4

1.1.1 Truy vấn người sử dụng 6

1.1.2 Trích chọn đặc trưng ảnh 6

1.1.3 Đánh chỉ số nhiều chiều 8

1.2 Một số khái niệm cơ bản trong xử lý ảnh 9

1.2.1 Ảnh đen trắng và ảnh màu 13

1.2.2 Không gian màu 14

1.2.3 Phân tích ảnh 16

1.2.4.Tra cứu ảnh 17

1.2.5 Nhận dạng ảnh 18

1.3 Tra cứu thông tin 18

1.4 Những thách thức trong thiết kế và thực thi hệ thống tìm kiếm ảnh tài liệu 19

1.4.1.Tốc độ tính toán 19

1.4.2.Các tài liệu kém chất lượng 19

1.4.3.Ngôn ngữ trong tài liệu 19

Trang 6

1.5 Hệ thống đề xuất 19

CHƯƠNG 2: MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU VÀ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG 22

2.1.Tiền xử lý ảnh 22

2.1.1.Nhiễu ảnh và lọc nhiễu 22

2.1.2.Chuẩn hóa kích thước ảnh 23

2.1.3.Làm trơn biên chữ 24

2.1.4.Làm đầy chữ 24

2.1.5.Làm mảnh chữ 24

2.1.6.Điều chỉnh độ nghiêng của văn bản 25

2.2.Các phương pháp trích chọn đặc trưng cơ bản cho ảnh tài liệu 25

2.3.Trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu 29

2.3.1.Chuyển ảnh xám 29

2.3.2 Ảnh nhị phân, nhị phân hóa với ngưỡng động 30

2.3.3.Một số thao tác trên ảnh nhị phân 34

2.3.3.1 Các lân cận của điểm ảnh( Image Neighbors) 34

2.3.3.2.Gán nhãn các thành phần liên thông (CCL-Connected Components Labeling ) 35

2.3.3.3.Phân đoạn từ trong ảnh tài liệu 41

2.3.3.4 Đặc trưng về vùng của đối tượng 43

2.3.3.5 Hình chữ nhật bao và các điểm cực trị 47

2.3.3.6 Moment không gian 48

2.3.3.7 Phép chiếu 50

2.4 Đối sánh những đặc trưng trong hệ thống đề xuất 51

2.4.1 Tỉ lệ về chiều cao và chiều rộng (Width to Height Ratio) 51

2.4.2 Mật độ vùng của từ (Word Area Density) 51

2.4.3 Điểm trọng tâm của từ ( Center of Gravity ) 51

2.4.4 Phép chiếu dọc (Vertical Projection) 52

2.4.5 Phép chiếu hình dạng trên và dưới (Top – Bottom Shape Projections) 55

Trang 7

2.4.6 Những đặc trưng phần bên trên và bên dưới của từ (Upper - Down Grid

Features ) 56

2.5 Thực hiện công việc đối sánh trong hệ thống đề xuất 58

CHƯƠNG 3: 61

CHƯƠNG TRÌNH THỬ NGHIỆM TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU TRÊN CƠ SỞ LÝ THUYẾT ĐÃ XÂY DỰNG 61

3.1.Môi trường cài đặt 61

3.2 Hệ thống mô tả chương trình thử nghiệm 61

3.3 Giao diện chính của chương trình tìm kiếm từ trong ảnh tài liệu 63

3.4 Một số kết quả 66

3.5 Đánh giá 67

DANH MỤC TÀI LIỆU THAM KHẢO 70

Trang 8

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

RGB Red, Green, Blue

CMY Cyan-Magenta-Yellow

CBIR Content Baased Image Retrieval

CSDL Cơ Sở Dữ Liệu

Trang 9

DANH MỤC HÌNH VẼ

Hình 1.1 Lược đồ mô tả hệ thống tra cứu ảnh dựa vào nội dung 5

Hình 1.2 Các giai đoạn cơ bản trong xử lý ảnh [2] 10

Hình 1.3 Hình người đi bộ với các kích thước ảnh khác nhau 12

Hình 1.4 Không gian màu RGB 15

Hình 1.5 Không gian màu HSV được trực quan hóa như một hình nón 16

Hình 1.6 Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu 20

Hình 2.1 Nhiễu đốm và nhiễu vệt 23

Hình 2.2 Chuẩn hóa kích thước ảnh các ký tự “A” và “P” 24

Hình 2.3 Làm mảnh chữ 24

Hình 2.4 Hiệu chỉnh độ nghiêng của văn bản 25

Hình 2.5 Ảnh màu được chuyển sang ảnh xám tính theo công thức trên 29

Hình 2.6 Biểu đồ mức xám của ảnh 31

Hình 2.7 Ví dụ về Histogram và ma trận ảnh xám [3] 32

Hình 2.8 biểu đồ histogram và công thức tính cho những giá trị màu nhỏ hơn hoặc bằng ngưỡng t=3 [3] 32

Hình 2.9 Biểu đồ histogram và công thức tính cho những giá trị màu lớn hơn hoặc bằng ngưỡng t=3 [3] 32

Hình 2.10 Tính toán giá trị phương sai trong một lớp ứng với từng giá trị mức xám [3] 33

Hình 2.11 Kết quả thu được sau khi sử dụng phương pháp Otsu [3] 33

Hình 2.12 ảnh xám của từ chứa nhiều nhiễu (được khoanh đỏ trong hình trên) 33

Hình 2.13 Ảnh đã được bỏ nhiễu và chuyển sang ảnh nhị phân nhờ phương pháp Otsu 34 Hình 2.14 Lân cận các điểm ảnh của tọa độ (x, y) 35

Hình 2.15 Các khả năng liên thông được sử dụng 35

Trang 10

Hình 2.16 Ảnh nhị phân và gán nhãn cho các thành phần liên kết 36

Hình 2.17 Nhị phân và ma trận nhãn của điểm ảnh nổi (Foreground pixel ) được khởi tạo tăng dần 37

Hình 2.18 Cấu trúc Union-Find thể hiện qua mảng PARENT 37

Hình 2.19 Áp dụng Find cho toàn bộ nốt ta có PARENT 38

Hình 2.20 Ứng dụng thuật toán gán nhãn cho các thành phần liên thông 41

Hình 2.21 Ảnh tài liệu có nhiều nhiễu 42

Hình 2.22 Tìm các thành phần liên thông trong ảnh tài liệu 42

Hình 2.23 Loại bỏ nhiễu 42

Hình 2.24 Mở rộng kích thước hình chữ nhật bao theo hai hướng trái và phải 43

Hình 2.25 Xác định từ 43

Hình 2.26 Các vùng đã được gán nhãn trong ảnh tài liệu 46

Hình 2.27 Các đặc trưng của 3 vùng ở hình 2.26 46

Hình 2.28 Tám điểm cực trị của một vùng nằm trên Hình chữ nhật bao Các đường chéo đứt đoạn là trục các điểm cực trị 47

Hình 2.29 Moment của một trục được tính bằng bình phương khoảng cách từ mỗi điểm đến trục đó 49

Hình 2.30 Ảnh nhị phân của con thằn lằn với phép chiếu ngang và dọc 50

Hình 2.31 Xác định tỉ lệ chiều rộng và cao dựa vào hình chữ nhật bao của vùng trong từ 51

Hình 2.32 Ảnh tính toán phép chiếu dọc : (a) là ảnh gốc; (b) là phép chiếu dọc; (c) là phép chiếu đã được làm trơn và sử dụng ma trận mặt nạ 5×1 53

Hình 2.33 Ảnh bàn cờ lý tưởng và ảnh bàn cờ có nhiễu Sau đó ảnh được khử nhiễu bằng cách làm trơn ảnh sử dụng ma trận mặt nạ 5x5 54

Hình 2.34 Ảnh biểu diễn thao tác với đặc trưng phép chiếu trên và dưới của từ 56

Trang 11

Hình 2.35 Ảnh biểu diễn thao tác với đặc trưng thông tin về phần bên trên và phần

bên dưới của từ 57

Hình 2.36 Mô hình 93 thành phần theo thứ tự cấu trúc 58

Hình 2.37 Thủ tục đối sánh từ 59

Hình 3.2 và hình 3.3 giao diện chức năng thêm ảnh vào CSDL 63

Hình 3.4 giao diện khi thêm ảnh vào CSDL thành công 64

Hình 3.5 kết quả tìm kiếm từ 65

Hình 3.6 từ cần tìm kiếm có trong ảnh tài liệu được bôi màu vàng 65

Bảng 3.1 kết quả tìm kiếm từ 66

Bảng 3.2 ba mươi từ ngẫu nhiên được dùng trong đánh giá 67

Bảng 3.3 Giá trị độ chính xác và khả năng thu hồi của ba mươi từ ngẫu nhiên được dùng trong đánh giá 67

Hình 3.7 sự thay đổi độ chính xác và thu hồi cho các tìm kiếm Độ chính xác là 87.8% và khả năng thu hồi là 99.26%KẾT LUẬN 68

KẾT LUẬN 69

Trang 12

MỞ ĐẦU

1 Lý do chọn đề tài

Ngày này chúng ta đang sống trong thế giới bùng nổ về các công nghệ hiện đại Các thiết bị số ngày càng phổ biến, các thiết bị như máy ảnh số, máy quay phim, di động (có chức năng camera) có thể giúp chúng ta dễ dàng lưu trữ thông tin dưới dạng ảnh hoặc video Tuy nhiên, với số lượng các ảnh quá nhiều, việc tìm kiếm thông tin trở nên khó khăn và mất rất nhiều thời gian Để giúp con người tìm kiếm thông tin dễ dàng hơn trong ảnh, hệ thống tìm kiếm nội dung trong ảnh đã được ra đời Mục đích của hệ thống là tìm những bức ảnh liên quan từ những thông tin, mà được cung cấp bởi người dùng Thông thường trong hệ thống tìm kiếm ảnh, những nội dung có thể nhìn thấy như màu sắc, hình dạng, kết cấu, bố cục không gian thường được chọn lọc, đánh chỉ số và biểu diễn dưới dạng vector đặc trưng nhiều chiều Những đặc trưng này sẽ được sử dụng để đối sánh và tìm những bức ảnh khác có liên quan

Tùy vào mục đích tìm kiếm khác nhau mà có các hình thức tìm kiếm ảnh khác nhau Hệ thống tìm từ trong ảnh tài liệu chỉ là một dạng của hệ thống tìm kiếm ảnh nói chung Mục đích của hệ thống tìm kiếm từ trong ảnh tài liệu là đưa ra những ảnh tài liệu liên quan với từ mà người dùng cung cấp Trong luận văn này sẽ trình bày một số phương pháp trích chọn đặc trưng và ứng dụng cho tìm kiếm từ trong ảnh tài liệu giúp người dùng có thể truy tìm thông tin từ ảnh tài liệu, hoặc ảnh in từ câu truy vấn Hệ thống đưa ra việc tìm kiếm trên ngôn ngữ là Tiếng anh Với

những lý do trên đây nên học viên đã mạnh dạn nhận đề tài: “Nghiên cứu trích chọn

đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu”

2 Đối tượng và phạm vi nghiên cứu

Hiểu được các phương pháp trích chọn đặc trưng cho tìm kiếm từ trong ảnh tài liệu Từ đó đưa ra những nhận xét, so sánh giữa các phương pháp Lựa chọn

công cụ phát triển phù hợp cài đặt ứng dụng

Trang 13

3 Hướng nghiên cứu của đề tài

Tìm hiểu một vài phương pháp trích chọn đặc trưng cho tìm kiếm từ trong ảnh

tài liệu về mặt lý thuyết, từ đó lựa chọn phương pháp cài đặt ứng dụng vào thực tế

Áp dụng đối với ảnh tài liệu

4 Ý nghĩa khoa học và thực tiễn của đề tài

Hệ thống hoá các kiến thức về xử lý ảnh và phương pháp trích chọn đặc trưng cho tìm kiếm từ trong ảnh tài liệu

Việc tìm hiểu và phát triển ứng dụng thành công giúp cho việc tìm kiếm ảnh tài liệu trở nên đơn giản và dễ dàng hơn

5 Phương pháp nghiên cứu

- Phương pháp nghiên cứu lý thuyết: Tìm hiểu tài liệu, đọc hiểu các kiến thức

cơ bản đến xử lý ảnh và trích chọn đặc trưng, đề xuất các phương pháp cài đặt trên ngôn ngữ lập trình

- Phương pháp nghiên cứu thực nghiệm: Cài đặt thử nghiệm chương trình tìm

kiếm từ trong ảnh tài liệu

- Phương pháp trao đổi khoa học: Trao đổi hướng nghiên cứu với người hướng

dẫn, các đồng nghiệp để đề xuất và giải quyết các nội dung luận văn đề ra

Luận văn gồm có 3 chương và phần kết luận:

Chương 1: TỔNG QUAN VỀ TRA CỨU ẢNH TÀI LIỆU

Chương này sẽ đưa ra những khái niệm chung, cơ bản nhất về xử lý ảnh và phương pháp sử dụng để tra cứu ảnh Mục đích là đưa cho người đọc những hiểu biết chung về xử lý ảnh và những khó khăn, thách thức trong ứng dụng của chương trình tìm kiếm từ trong ảnh tài liệu

Chương 2: MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU

VÀ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG

Chương này chủ yếu trình bày các thao tác dùng để nhận dạng các từ trong văn bản của hình ảnh tài liệu và tìm hiểu hiểu được các trích chọn đặc trưng chung hay dùng để đối sánh đối tượng

Trang 14

Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU TRÊN CƠ SỞ LÝ THUYẾT ĐÃ XÂY DỰNG

Chương này sẽ trình bày phần cài đặt chương trình Đánh giá một số từ truy vấn đối với chương trình

Do thời gian thực hiện có hạn, kiến thức còn hạn chế nên luận văn không tránh khỏi thiếu sót Rất mong nhận được sự giúp đỡ của các thầy cô và các bạn quan tâm đến vấn đề này để học viên có thể hoàn thiện hơn kiến thức của mình

Trang 15

CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH TÀI LIỆU

1.1 Tổng quan về tra cứu ảnh tài liệu

Trong những năm gần đây, sự gia tăng nhanh chóng về mặt số lượng các tài liệu đa phương tiện đặc biệt là dữ liệu ảnh Những dữ liệu dạng này tăng nhanh do việc tạo ra chúng dễ dàng nhờ sử dụng máy quét (Scanner) và máy ảnh kỹ thuật số (Digital camera) Do đó, các văn bản có thể được chụp hoặc quét và được lưu dưới dạng ảnh tài liệu (Document image) Nhưng những thông tin này không được đánh chỉ số cho nên việc tìm kiếm thông tin trở nên khó khăn

Việc tìm kiếm thông tin trong ảnh tài liệu là một lĩnh vực nghiên cứu hấp dẫn với sự phát triển ngày càng tăng nhanh Những tài liệu dạng này đóng một vai trò quan trọng trong cuộc sống hằng ngày của chúng ta Những tài liệu phức tạp hơn đưa ra những thử thách lớn hơn cho lĩnh vực nhận dạng và tìm kiếm ảnh tài liệu Sự hiện diện của các loại nhiễu, chữ viết tay, chữ ký, logo, chữ in trong cùng một tài liệu với các loại font khác nhau cũng như việc quy định viết chữ theo dòng đã gây nhiều hạn chế đến các thuật toán mà đơn thuần làm việc trên những bức ảnh tài liệu đơn giản

Công việc chính của quá trình xử lý ảnh tài liệu phức tạp là tách biệt những nội dung khác nhau có trong ảnh tài liệu Một khi những nội dung đã được phân tách, thì chúng có thể được đánh chỉ số để sẵn dùng bởi hệ thống tìm kiếm ảnh Sự hiểu biết nội dung của ảnh tài liệu như là tài liệu về kiểm tra tài khoản ngân hàng, thư trong doanh nghiệp, các mẫu điền thông tin, và các bài báo kĩ thuật đã dần trở thành những lĩnh vực nghiên cứu hấp dẫn

Trong chương này sẽ đưa ra kiến thức chung nhất về hệ thống tra cứu ảnh tài liệu và một số vấn đề liên quan đến xử lý ảnh Các thách thức đặt ra với hệ thống tìm kiếm ảnh nói chung và hệ thống các đề xuất

Trang 16

Hình 1.1 Lược đồ mô tả hệ thống tra cứu ảnh dựa vào nội dung

Chúng ta thấy rằng trên hệ thống tra cứu ảnh dựa vào nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và có các truy vấn người sử dụng Chúng được liên kết thông qua một chuỗi các tác vụ như được minh họa trong hình trên Sau đây chúng ta sẽ đưa ra cái nhìn khái quát về một số tác vụ chính của một hệ thống tra cứu ảnh bao gồm các nội dung sau:

Phân tích nội dung của các nguồn thông tin và biểu diễn các nội dung được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng Bước này thường cần nhiều thời gian nhất vì nó phải xử lý lần lượt các ảnh đưa vào cơ sở dữ liệu và được thực hiện một lần

Phân tích các truy vấn người sử dụng và biểu diễn ở dạng thích hợp cho so sánh với cơ sở dữ liệu nguồn, chỉ áp dụng với ảnh truy vấn

So sánh các truy vấn tìm kiếm thông tin trong cơ sở dữ liệu nguồn, tra cứu thông tin liên quan theo cách hiệu quả nhất Được thực hiện trực tiếp và yêu cầu rất nhanh, các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng để tốc độ đối sánh được nhanh hơn

Điều chỉnh cần thiết ở hệ thống dựa vào phản hồi từ người sử dụng hoặc các ảnh được tra cứu

Trang 17

1.1.1 Truy vấn người sử dụng

Có nhiều cách gửi một truy vấn trực quan Một phương pháp truy vấn tốt là phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thông tin từ người sử dụng để trích rút các kết quả có ý nghĩa Các phương pháp truy vấn dưới đây được sử dụng phổ biến trong nghiên cứu tra cứu ảnh dựa vào nội dung

Truy vấn bởi ảnh mẫu (QBE - Query By Example): trong loại truy vấn này,

người sử dụng hệ thống chỉ rõ một ảnh truy vấn cần tìm , dựa trên ảnh đó hệ thống

sẽ tìm kiếm trong cơ sở dự liệu ảnh các ảnh tương tự nhất Ưu điểm của hệ thống này là một cách tự nhiên cho những người sử dụng chung và tra cứu trong cơ sở dữ liệu

Truy vấn bởi đặc trưng (QBF – Query By Feature): trong hệ thống QBF

tiêu biểu, những người sử dụng các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm Truy vấn này được chỉ rõ bằng việc sử dụng các công cụ giao diện đồ họa chuyên dụng Những người sử dụng hệ thống tra cứu ảnh chuyên nghiệp thì có thể thấy loại truy vấn này là bình thường còn người sử dụng chung thì không thể

Các truy vấn dựa vào thuộc tính ( Attribute – Based queries): Các truy vấn

dựa vào thuộc tính sử dụng các chú thích văn bản, trích rút trước bởi nỗ lực con người, như một khóa tra cứu chính Phương pháp này nhanh và dễ thực hiện, nhưng chủ quan và nhập nhằng cao xuất hiện như đã đề cập

1.1.2 Trích chọn đặc trưng ảnh

Trích chọn đặc trưng liên quan đến việc trích chọn những thông tin hữu ích từ ảnh Vì vậy nó giảm yêu cầu về bộ nhớ cấn thiết và do đó làm hệ thống trở nên nhanh hơn và tìm kiếm ảnh hiệu quả hơn Mỗi khi một hoặc nhiều đặc trưng được trích chọn, chúng là được lưu trữ trong cơ sở dữ liệu để sử dụng cho công việc sau này Số lượng thông tin hữu ích mà một máy tính lấy ra từ ảnh là yếu tố rất quan trọng quyết định tính thông minh, cũng như hiệu quả của hệ thống tìm kiếm ảnh Một ưu điểm lớn nhất của việc trích chọn đặc trưng đó là nó bỏ đi những thông tin không cần thiết và chỉ giữ lại những thông tin cần thiết để có thể biểu diễn nội dung cho ảnh

Trang 18

a)Trích chọn đặc trưng theo mầu sắc tổng thể và cục bộ

Tra cứu ảnh dựa trên màu sắc hầu hết là biến đổi dựa trên ý tưởng giống nhau của các biểu đồ màu Mỗi ảnh khi đưa vào tập hợp ảnh đều được phân tích, tính toán một biểu đồ màu Sau đó, biểu đồ màu của mỗi ảnh sẽ được lưu trữ trong cơ sở dữ liệu Khi tìm kiếm, người sử dụng có thể xác định tỷ lệ của mỗi màu mong muốn (ví dụ 75% Blue, 25% Red) hoặc đưa ra một ảnh mẫu với biểu đồ màu

đã được tính toán Quá trình tra cứu sẽ đối sánh biểu đồ màu này với biểu

đồ màu trong cơ sở dữ liệu để tìm ra kết quả tương tự nhất Kỹ thuật đối sánh được

sử dụng phổ biến nhất là biểu đồ màu giao nhau được phát triển đầu tiên bởi Swain Những kỹ thuật cải tiến từ kỹ thuật này ngày nay được sử dụng rộng rãi trong các hệ thống ra cứu ảnh hiện thời Kết quả của các hệ thống này đã tạo những ấn tượng khá sâu sắc

b)Trích chọn đặc trưng theo kết cấu

Kết cấu (texture) là một tính chất quan trọng khác của ảnh Kết cấu là một thành phần có ảnh hưởng rất quan trọng đối với sự nhận thức trực quan của con người Tất cả mọi người đều có thể nhận ra kết cấu nhưng lại rất khó có thể định nghĩa chính xác nó là gì Không giống như màu sắc, kết cấu “xảy ra” trên một vùng chứ không phải tại một điểm ảnh và thường được định nghĩa bằng các mức xám Rất nhiều cách thể hiện kết cấu đã được nghiên cứu trong lĩnh vực nhận dạng và thị giác máy tính Xét một cách cơ bản, các phương pháp biểu diễn kết cấu có thể được chia thành hai loại: Phương pháp cấu trúc và phương pháp thống kê

* Các phương pháp cấu trúc bao gồm: các toán tử hình thái và đồ thị liền kề,

mô tả kết cấu bằng cách định nghĩa các nguyên thuỷ cấu trúc và luật sắp đặt của chúng Các phương pháp này tỏ ra có hiệu quả khi áp dụng trong trường hợp kết cấu thông thường

* Các phương pháp thống kê bao gồm: Phương pháp phổ năng lượng Fourier, ma trận đồng khả năng, Tamura, Phân tích Wold, trường ngẫu nhiên Markov, mô hình fractal, các bộ lọc đa phân giải như biến đổi Gabor và biến đổi dạng sóng thể hiện kết cấu bằng sự phân bố thống kê của độ sáng của các điểm ảnh

Trang 19

c)Trích chọn đặc trưng theo hình dạng

Các đặc điểm phát hiện biên của các vùng ảnh và các đối tượng ảnh được sử dụng trong rất nhiều hệ thống tra cứu ảnh So với các đặc điểm về màu sắc và các đặc điểm về kết cấu thì các đặc điểm về hình dạng thường chỉ được sử dụng sau khi ảnh đã phân thành các vùng hoặc các đối tượng ảnh Nhưng do việc phân vùng

và tách đối tượng ảnh khó thu được kết quả tốt nên việc sử dụng các đặc điểm hình dạng để tra cứu ảnh thường bị bó hẹp trong một số ứng dụng mà ở đó các vùng ảnh hoặc đối tượng ảnh đã được tách biệt rõ ràng Các phương pháp trích chọn đặc điểm hình dạng thường được chia thành hai loại là trích chọn dựa theo đường biên (xấp xỉ đa giác, mô hình phần tử hữu hạn, mô tả hình dạng theo Fourier) và trích chọn dựa theo vùng ảnh (mô hình thống kê) Một phương pháp trích chọn đặc điểm hình dạng tốt phải đảm bảo yêu cầu là phải không phụ thuộc vào vị trí, góc quay hay sự co giãn của đối tượng ảnh Trước khi áp dụng các phương pháp trích chọn đặc điểm hình dạng, các đối tượng ảnh cần phải được tách ra khỏi ảnh Giả sử là trong mỗi ảnh chỉ có một đối tượng ảnh duy nhất, nhiệm vụ của hệ thống trước hết

là phải tách được đối tượng ảnh ra khỏi nền ảnh

Cách biểu diễn hình dạng của đối tượng ảnh có thể chia thành hai kiểu: Theo đường bao quanh (biên) và theo vùng Cách biểu diễn theo đường viền bao quanh chỉ sử dụng đường biên bên ngoài của hình dạng, điều này có thể thực hiện được bằng cách mô tả vùng đang quan tâm bằng cách đặc tính bên ngoài của nó tức là các điểm ảnh dọc theo đường viền bao quanh đối tượng ảnh Cách biểu diễn theo vùng

sử dụng cả vùng ảnh bằng cách mô tả vùng đang quan tâm bằng các đặc tính bên trong tức là các điểm ảnh ở bên trong vùng đó

1.1.3 Đánh chỉ số nhiều chiều

Để thực hiện việc tra cứu dựa vào nội dung đối với các cơ sở dữ liệu ảnh lớn, các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng Có ba cộng đồng nghiên cứu chính đóng góp vào lĩnh vực này: hình học tính toán, quản trị cơ sở dữ liệu và nhận dạng mẫu Các kỹ thuật đánh chỉ số nhiều chiều phổ biến như thuật toán bucketing, cây K-D, cây K-D ưu tiên, cây tứ phân, cây K-D-B, cây hB.v.v

Trang 20

1.2 Một số khái niệm cơ bản trong xử lý ảnh

Trước khi đi vào tìm hiểu một cách tổng quan về các quá trình xử lý ảnh, ta cần quan tâm tới một số khái niệm cơ bản Để thực hiện được các bước của quá trình xử lý ảnh thì trước hết ta phải hiểu: xử lý ảnh là gì ? ảnh là gì ? Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy

Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận [1]

Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ Nó là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chuyên dụng riêng cho nó.[2]

Trên đây là các thành phần cơ bản trong các khâu xử lý ảnh Trong thực tế, các quá trình sử dụng ảnh số không nhất thiết phải qua hết các khâu đó tùy theo đặc điểm ứng dụng Hình 1.3 sơ đồ phân tích và xử lý ảnh và lưu đồ thông tin giữa các khối một cách khá đầy đủ Ảnh sau khi được số hóa được nén, lưu lại để truyền cho các hệ thống khác sử dụng hoặc để xử lý tiếp theo Mặt khác, ảnh sau khi số hóa có thể bỏ qua công đoạn nâng cao chất lượng (khi ảnh đủ chất lượng theo một yêu cầu nào đó) để chuyển tới khâu phân đoạn hoặc bỏ tiếp khâu phân đoạn chuyển trực tiếp tới khâu trích chọn đặc trưng Hình 1.3 cũng chia các nhánh song song như: nâng cao chất lượng ảnh có hai nhánh phân biệt: nâng cao chất lượng ảnh (tăng độsáng,

độ tương phản, lọc nhiễu) hoặc khôi phục ảnh (hồi phục lại ảnh thật khi ảnh nhận được bị méo) v.v…[2]

Trang 21

Hình 1.2 Các giai đoạn cơ bản trong xử lý ảnh [2]

Sơ đồ này bao gồm các thành phần như sau:

Thu nhận ảnh: Ảnh có thể được thu nhận trong thế giới thực qua máy chụp

hình, từ tranh ảnh thông qua máy quét hoặc từ vệ tinh qua các bộ cảm biến bằng tín hiệu số hoặc tín hiệu tương tự Ảnh có thể nhận qua camera màu hoặc đen trắng

Số hóa ảnh: Tất cả các thông tin được lưu trong máy tính đều ở dạng số Vì

vậy, ảnh sau khi thu nhận được từ các thiết bị khác cần phải được số hóa để lưu trữ hoặc có thể dùng để xử lý tiếp

Tiền xử lý: Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần

đưa vào bộ tiền xử lý để nâng cao chất lượng Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn

Phân tích ảnh: Phân tích ảnh là một quá trình gồm nhiều giai đoạn nhỏ hơn:

tăng cường ảnh để nâng cao chất lượng ảnh và khắc phục những thiếu sót trong quá trình thu nhận ảnh và số hóa ảnh như nhiễu, méo … làm nổi bật các đặc trưng chính của ảnh đảm bảo cho ảnh gần giống với hình ảnh thật nhất Tiếp theo là phát hiện và trích chọn các đặc trưng như biên, màu, kết cấu … Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu diễn phân tích, nhận dạng ảnh Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này

Trang 22

Đối sánh, nhận dạng ảnh: Là quá trình đối sánh, phân lớp ảnh, nhận biết

được tên gọi của đối tượng Kết quả của quá trình này phục vụ cho các mục đích và các ứng dụng khác nhau

a) Ảnh và điểm ảnh:

Là tập hợp hữu hạn các điểm ảnh Ảnh có thể được biểu diễn dưới dạng một

ma trận 2 chiều, mỗi phần tử của ma trận tương ứng với một điểm ảnh Mỗi phần tử này được gọi là một pixel (Piture Eement) Ảnh được biểu diễn bởi một mảng số thực hai chiều (Ii j) có kích thước (m x n), trong đó mỗi phần tử Ii j (i = 1…m; j = 1…n) biểu đồ mức xám của ảnh tại vị trí (i, j) tương ứng

Đối tượng ảnh: Trong quá trình xử lý ảnh, một ảnh được thu nhận vào máy phải được mã hóa, vì vậy ảnh phải được lưu trữ thế nào sao cho các ứng dụng khác nhau có thể thao tác trên các loại dữ liệu này Một số dạng ảnh đã được chuẩn hóa như: GIF, BMP, PCX, ; mỗi kiểu lưu trữ ảnh đều có điểm riêng Tùy theo vùng các giá trị xám của điểm ảnh mà các ảnh được phân chia ra thành ảnh màu, ảnh xám, ảnh nhị phân

Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng Để có thể xử lý ảnh bằng máy tính thì cần thiết phải tiến hành số hóa ảnh Số hóa ảnh là sự biến đổi gần đúng một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức xám) Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt người không phân biệt được ranh giới giữa chúng Mỗi một điểm như vậy gọi là điểm ảnh (PEL-Piture Eement) ay gọi là Pixel Trong khuôn khổ ảnh hai chiều, mỗi Pixel ứng với cặp tọa độ (x,y)[2] Các cặp tọa độ (x, y) tạo nên độ phân giải Chẳng hạn như màn hình máy tính có độ phân giải là 480x640 nghĩa là trên màn hình có 480x640 điểm ảnh (x, y), chiều rộng 480 điểm ảnh và chiều dài 640 điểm ảnh

Định nghĩa : Điểm ảnh (Pixel) là một phần tử của ảnh số tại tọa độ (x,y) với

tọa độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức

Trang 23

xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi là một phần tử ảnh.[2]

b) Độ phân giải ảnh

Định nghĩa: Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn

định trên một ảnh số được hiển thị.[2]

Trong quá trình xử lý ảnh việc chọn giá trị phù hợp về kích thước N của ảnh cũng khá phức tạp và quan trọng Chúng ta chọn N đủ lớn sẽ giải quyết những mức

độ yêu cầu về độ chi tiết của bức ảnh Nhưng N quá nhỏ, ảnh có chất lượng xấu: những đường nét sẽ xuất hiện như những khối và nhiều chi tiết bị mất Những giá trị lớn hơn của N đưa ra nhiều chi tiết hơn, nhưng cần nhiều không gian bộ nhớ hơn để lưu trữ ảnh, và ảnh sẽ được xử lý lâu hơn do có nhiều điểm ảnh

Hình 1.3 Hình người đi bộ với các kích thước ảnh khác nhau

Ví dụ như với những bức ảnh về người đi bộ trong Hình 1.3 với các độ phân giải khác nhau Hình 1.3(a) với độ phân giải 64 x 64 đưa ra cấu trúc rộng Chúng ta khó có thể quan sát bất kỳ chi tiết nào ở mặt của người đàn ông, hoặc bất kỳ thứ khác Với Hình 1.3(b) với độ phân giải 128 x 128, chúng ta bắt đầu thấy chi tiết hơn nhưng vẫn khó xác định được người đàn ông này Và với bức ảnh ở Hình 1.3(c) chúng ta vừa có thể quan sát chi tiết vật thể và cũng có thể nhận dạng vật thể là ai

Một ví dụ khác : Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh (320*200) Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320*200 Lý do: cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn

Trang 24

Ảnh đen trắng : là ảnh có hai màu đen và trắng (không chứa màu sắc khác)

với mức xám ở các điểm ảnh có thể khác nhau

Ảnh nhị phân : ảnh chỉ có 2 mức đen trắng phân biệt, tức là dùng 1 bit mô tả

21 mức khác nhau Tức là mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1

Ảnh màu: Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế

giới màu, người ta thường dung 3 byte để mô tả mức màu, khi đó các giá trị màu:

28*3 = 224 = 16,7 triệu màu

1.2.1 Ảnh đen trắng và ảnh màu

Ảnh có thể biểu diễn dưới dạng tương tự hoặc tín hiệu số Trong biểu diễn số của các ảnh đa mức xám thì một ảnh được biểu diễn dưới dạng một ma trận hai chiều Mỗi phần tử của ma trận biểu diễn cho mức xám hay cường độ của ảnh tại vị trí đó Một lưới chia ô vuông được đặt lên ảnh Độ lớn mỗi ô vuông của lưới xác định kích thước của một điểm ảnh Mức xám của một điểm được tính bằng cường độ xám trung bình tại mỗi ô vuông này Mắt lưới càng nhỏ thì chất lượng ảnh càng cao Trong kỹ thuật tương tự, một bức ảnh thường được biểu diễn dưới dạng các dòng nằm ngang kế tiếp nhau Mỗi dòng là một tín hiệu tương tự mang theo các thông tin về cường độ sáng dọc theo một đường nằm ngang trong ảnh gốc

* Ảnh đen trắng

Ảnh đen trắng chỉ bao gồm 2 màu : màu đen và màu trắng Người ta phân mức đen trắng đó thành L mức nếu sử dụng số bit B = 8 bit để mã hóa mức đen trắng (hay mức xám) thì L được xác định : L=2B ( trong ví dụ của ta L=28=256 mức).[2]

Trang 25

Nếu L=2, B=1, nghĩa là chỉ có 2 mức : mức 0 và mức 1, còn gọi là ảnh nhị phân Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối Nếu L lớn hơn 2 ta có ảnh đa cấp xám Như vậy, với ảnh đen trắng : nếu dùng 8 bit (1 byte) để biểu diễn mức xám thì số mức xám có thể biểu diễn sẽ là 256 Mỗi mức xám được biểu diễn dưới dạng số nguyên nằm trong khoảng từ 0-255, với mức 0 biểu diễn cho mức cường độ đen nhất và mức 255 biểu diễn cho mức cường độ sáng nhất [2]

Ảnh nhị phân khá đơn giản, các phần tử ảnh có thể coi là các phần tử logic Ứng dụng chính của nó được dùng để phân biệt đối tượng ảnh với nền hay để phân biệt điểm biên với các điểm khác.[2]

* Ảnh màu

Theo lý thuyết của Thomas thì ảnh màu là ảnh tổ hợp từ 3 màu cơ bản là Red, Green, Blue và thu nhận trên các dải bang tần khác nhau Với ảnh màu thì cách biểu diễn cũng tương tự như ảnh đen trắng, chỉ khác là các số tại mỗi phần tử của ma trận biểu diễn cho ba màu riêng rẽ Để biểu diễn cho một điểm ảnh màu cần 24 bit

24 bit này được chia thành ba khoảng 8 bit Mỗi màu cũng phân thành L cấp màu khác nhau (thường L = 256) Mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính Do đó, để lưu trữ ảnh màu người ta có thể lưu trữ từng màu riêng biệt, mỗi màu lưu trữ một ảnh đa cấp xám Chính vì vậy không gian nhớ dành cho một ảnh màu lớn gấp 3 lần một ảnh đa cấp xám cùng kích cỡ.[2]

1.2.2 Không gian màu

Một không gian màu là một mô hình đại cho màu về giá trị độ sáng, một không gian màu xác định bao nhiêu thông tin màu được thể hiện Một thành phần màu được gọi là một kênh màu phổ biến : RGB, CMY, HSx,…

* Không gian màu RGB

Không gian màu RGB mô tả màu sắc bằng 3 thành phần chính là Red - Green và Blue Không gian này được xem như một khối lập phương 3 chiều với màu Red là trục x, màu Green là truc y, và màu Blue là trục z Mỗi màu trong không gian này được xác định bởi 3 thành phần R, G, B Ứng với các tổ hợp khác nhau của 3 màu này sẽ cho ta một màu mới Trong hình lập phương bên dưới (hình 1.4) mỗi màu gốc (R,G,B) có các gốc đối diện là các màu bù với nó Hai màu được

Trang 26

gọi là bù nhau khi kết hợp hai màu này lại với nhau ra màu trắng Ví dụ : Green - Magenta, Red - Cyan, Blue - Yellow

Hình 1.4 Không gian màu RGB

*Không gian màu YUV ( chuẩn PAL - PHASE ALTERNATIVE LINE )

Hệ tọa độ này có 3 thành phần: Y là độ chói (cường độ sáng), U là độ sắc màu cảm thụ và V là độ bão hòa Các thành phần của hệ tọa độ này được biểu diễn thông qua hệ tọa độ RGB như sau:

Y = 0.299 R + 0.587G + 0.114B

U = 0.493 (B-Y) = - 0.147R – 0.289G + 0.436B

V = 0.877 (R-Y) = 0.615R – 0.515G – 0.100B

* Không gian màu CMY

CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam, màu đỏ tươi, màu vàng), đó là ba màu chính tương ứng với ba màu mực in Do đó, tọa độ các màu trong không gian CMY trái ngược với không gian RGB Ví dụ : màu White có các thành phần là (0,0,0), màu Black (1,1,1), màu Cyan (1,0,0), Chúng được gọi là những màu gốc để trừ, mỗi màu trong không gian CMY được tạo ra thông qua sự hấp thụ độ sáng

* Không gian màu HSx

Các không gian màu HSI, HSV, HSB và HSL (quy ước gọi là HSx) là gần với nhận thức của người hơn không gian màu RGB, nhưng vẫn không là đồng nhất nhận thức

Các trục từ các không gian màu HSx biểu diễn các đặc trưng màu (hue), độ bão hòa (saturation), và độ sáng (lightness) (cũng được gọi là value, brightness và

Trang 27

intensity) Sự khác biệt giữa các không gian màu trong HSx là cách chúng biến đổi

từ không gian màu RGB Chúng thường được biểu diễn bởi các hình thức khác nhau (ví dụ như hình nón, hình trụ) Trong hình 3 không gian màu HSV được trực quan hóa như hệ thống tọa độ có dạng hình trụ và tập màu thành phần của không gian bên trong mô hình màu được xác định là hình nón hoặc hình chóp sáu cạnh

như trong hình 1.5 Đỉnh hình chóp là sáu cạnh khi V= 1 chứa đựng mối quan hệ

giữa các màu sáng và những màu trên mặt phẳng với V= 1 đều có màu sáng Mô hình màu này còn được gọi là hệ HSB với B là Brightness (độ sáng) dựa trên cơ sở nền tảng trực giác về tông màu, sắc độ và sắc thái mỹ thuật

Hue có giá trị từ 00 → 3600

S, V có giá trị từ 0 → 1

Hình 1.5 Không gian màu HSV được trực quan hóa như một hình nón

Mô hình màu dạng hình chóp sáu cạnh này đường cao V với đỉnh là điểm gốc tọa độ (0,0) Điểm ở đỉnh là màu đen có giá trị tọa độ màu V= 0, tại các điểm này giá trị của H và S là không liên quan với nhau Khi điểm có

S= 0 và V= 1 là điểm màu trắng, những giá trị trung gian của V đối với S= 0 (trên đường thẳng qua tâm) là các màu xám Khi S=0 giá trị của H phụ thuộc được gọi bởi các quy ước không xác định, ngược lại khi S khác 0 giá trị của H sẽ là phụ thuộc

1.2.3 Phân tích ảnh

Trong phân tích ảnh việc trích chọn đặc điểm là một bước quan trọng Các đặc điểm của đối tượng được trích chọn tùy theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau đây:

Trang 28

Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm

uốn …

Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực

hiện lọc vùng (zonal filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn …)

Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và

do vậy rất hữu ích trong việc trích chọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán

tử la bàn, toán tử laplace, toán tử “chéo không” (zero crossing) …

Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống

Phân tích ảnh là quá trình suy luận, tính toán dựa vào các đặc tính thể hiện trên hình ảnh để từ đó rút ra được các thông tin định lượng về hình ảnh Phân tích ảnh có thể tách biệt các vật thể trên ảnh, đo lường, phân loại, mô tả, so sánh chúng Mặt khác, từ việc phân tích ảnh cũng có thể suy ra các số liệu thống kê về hình ảnh Liên quan đến việc xác định các tọa độ đo định lượng của một ảnh để đưa ra một

mô tả đầy đủ về ảnh Có nhiều kỹ thuật khác nhau hỗ trợ phân tích ảnh như: các kỹ thuật lọc, các kỹ thuật tách, hợp dựa trên các tiêu chuẩn đánh giá về màu sặc, cường

độ, kết cấu … và các kỹ thuật phân lớp dựa theo cấu trúc Phân vùng ảnh là một hướng riêng của phân tích ảnh Phân vùng ảnh bao gồm các kỹ thuật phân tách các vùng của ảnh thành những vùng có những nét đặc trưng của nó hoặc tách biệt hoàn toàn giữa các vùng ảnh này với các vùng ảnh khác trên ảnh và nền Mục đích là giúp cho dễ quan sát và dễ xử lý và hỗ trợ cho các giai đoạn tiếp theo của hệ thống

xử lý ảnh

1.2.4.Tra cứu ảnh

Tra cứu ảnh có nhiệm vụ tìm được ảnh theo yêu cầu của người sử dụng Có hai kỹ thuật tra cứu ảnh thường được sử dụng đó là: tra cứu ảnh dựa trên từ khóa và tra cứu ảnh dựa trên nội dung Trong những năm gần đây đã có nhiều hệ thống tra

Trang 29

cứu ảnh được nghiên cứu thành công và triển khai thành các hệ thống tra cứu ảnh thương mại như: tra cứu địa lý, tra cứu tem thư, tra cứu ảnh y học …

1.2.5 Nhận dạng ảnh

Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc trưng chủ yếu của đối tượng Có hai kiểu mô tả đối tượng:

- Mô tả tham số ( nhận dạng theo tham số)

- Mô tả theo cấu trúc ( nhận dạng theo cấu trúc)

Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công với nhiều đối tượng khác nhau như: nhận dạng ảnh vân tay, nhận dạng chữ ( chữ cái, chữ số, chữ

1.3 Tra cứu thông tin

Tra cứu thông tin về ảnh là quá trình tìm kiếm trong một cơ sở dữ liệu ảnh những ảnh thỏa mãn một yêu cầu nào đó Tra cứu thông tin về ảnh thường dựa vào hai đặc trưng chính là văn bản mô tả đi kèm ảnh hoặc nội dung ảnh Một số công cụ tìm kiếm ảnh theo văn bản mô tả đi kèm như Google Image Search, Yahoo, MSN,…Một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl, Bing,…

Phương pháp tra cứu dựa theo nội dung ra đời đã khắc phục được nhược điểm

của phương pháp tìm kiếm ảnh dựa vào văn bản đi kèm Phương pháp "Tra cứu ảnh

dựa theo nội dung" (Content Based Image Retrieval) cho phép trích chọn các đặc

trưng dựa vào nội dung trực quan của ảnh như màu sắc, kết cấu, hình dạng và bố

cục không gian của ảnh để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ

liệu ảnh

Trang 30

1.4 Những thách thức trong thiết kế và thực thi hệ thống tìm kiếm ảnh tài liệu

Những tài liệu phức tạp đưa ra nhiều thách thách lớn trong lĩnh vực nhận dạng tài liệu và tìm kiếm ảnh Để thiết kế và thực thi thành công một cơ chế tìm kiếm trong lĩnh vực về ảnh, chúng ta cần đề cập những vấn đề sau:

1.4.1.Tốc độ tính toán

Thực hiện công việc tìm kiếm từ tập dữ liệu ảnh lớn thông qua nhiều bước như

xử lý ảnh sơ bộ, trích chọn đặc trưng, đối sánh và lấy tài liệu Mỗi bước có thể mất nhiều thời gian tính toán Do đó cần phải sử dụng những thao tác tối ưu trong suốt quá trình truy vấn

1.4.2.Các tài liệu kém chất lượng

Nguyên nhân dẫn đến chất lượng của ảnh tài liệu bị giảm thường là:

-Những vết mực lớn dính lên các chữ cái hoặc các thành phần khác

-Mực in tạo thành các đốm nhiễu tại các ký tự, mất nét chữ, dính chữ, chữ in

bị đậm hằn lên trang trước nguyên nhân do chất lượng kém của giấy và mực in Thiết kế một lược đồ biểu diễn phù hợp và thuật toán đối sánh để điều chỉnh hiệu quả đối với những ảnh tài liệu có chất lượng kém là vấn đề cần thiết

1.4.3.Ngôn ngữ trong tài liệu

Các ngôn ngữ khác nhau có cách thức biểu diễn và quy luật viết riêng Ngoài

ra lại có nhiều font chữ, phong cách viết khác nhau Cho nên cần phải tìm ra những đặc trưng nào là bất biến để đối sánh giữa các từ hoặc ký tự Thông thường việc thiết kế thuật toán tìm kiếm cho các ngôn ngữ châu á thường khó hơn so với các ngôn ngữ châu âu do những đặc trưng nêu trên Ngôn ngữ tiếng anh được đánh giá cao vì được sử dụng tiền tố và hậu tố cho mẫu từ, diễn đạt mối quan hệ ngữ pháp

1.5 Hệ thống đề xuất

Xuất phát từ kiến trúc chung về hệ thống tìm kiếm ảnh Trong luận văn này đề xuất hệ thống tìm kiếm từ trong ảnh tài liệu và đánh dấu hoặc làm nổi bật từ cần tìm Những kỹ thuật đưa ra bắt gặp trong vấn đề tìm kiếm ảnh tài liệu là sử dụng thủ tục đối sánh một từ Thủ tục này thực hiện đối sánh từ trực tiếp trong ảnh tài liệu mà

Trang 31

không dùng phương pháp nhận dạng ký tự quang học (OCR - optical character recognition) và sử dụng ảnh của một từ như làm câu truy vấn Toàn bộ hệ thống bao gồm hai thủ tục chính là A và B như hình 1.6 bên dưới

Trong thủ tục B, tất cả ảnh tài liệu được phân tích để tìm số lượng từ tối đa bên trong chúng Sau đó các đặc trưng có thể được lấy ra ứng với hình dạng của từ

và bỏ qua những sự khác nhau chi tiết do nhiễu hoặc phông chữ Những đặc trưng này sau đó được lưu vào cơ sở dữ liệu

Hình 1.6 Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu

Trong thủ tục A, người sử dụng nhập một từ truy vấn và sau đó hệ thống sẽ tạo ra một bức ảnh ứng với từ đó Tiếp theo ảnh này cũng được xử lý để lấy ra các đặc trưng có thể Sau đó, những đặc trưng này được dùng để tìm những từ tương tự thông qua thủ tục đối sánh từ Cuối cùng, những ảnh tài liệu chứa những từ tương tự được hiện thị lên cho người dùng Kết quả thí nghiệm chỉ ra rằng hệ thống đề xuất đưa ra kết quả tìm kiếm có độ chính xác thông qua độ đo về tỉ lệ độ chính xác

(precision) và độ thu hồi (recall)

Trong các chương còn lại của luận văn sẽ đi chi tiết vào từng bước trong hệ thống và các kỹ thuật sử dụng trong từng bước

Trang 32

Kết luận

Trong chương này, học viên đã đưa ra các khái niệm tổng quan về tra cứu ảnh tài liệu, giới thiệu các khái niệm cơ bản của xử lý ảnh và những thách thức trong thiết kế, thực thi hệ thống tìm kiếm ảnh tài liệu, tra cứu ảnh dựa vào nội dung bao gồm: các chức năng chính của hệ thống tra cứu ảnh theo nội dung và hệ thống đề xuất, đánh giá hiệu năng tra cứu

Trang 33

CHƯƠNG 2:

MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU VÀ

PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG

2.1.Tiền xử lý ảnh

Tiền xử lý là một bước quan trọng trong xử lý ảnh Ở bước này ảnh được xử

lý để đưa về những dạng chuẩn trước khi đến những thao tác xử lý phức tạp

Đầu vào của quá trình xử lý ảnh là các ảnh gốc ban đầu, thu được qua scanner hay chụp Ảnh ban đầu thường có chất lượng thấp do ảnh hưởng của nhiễu, bị nghiêng, bị đứt nét nên chúng ta cần phải có một quá trình tiền xử lý ảnh

để nâng cao chất lượng ảnh đầu vào trước khi đưa vào nhận dạng Quá trình này bao gồm công đoạn khôi phục ảnh và tăng cường ảnh Khôi phục ảnh nhằm mục đích loại bỏ hay làm giảm tối thiểu các ảnh hưởng của môi trường bên ngoài lên ảnh thu nhận được Công đoạn khôi phục ảnh bao gồm các bước như lọc ảnh, khử nhiễu, quay ảnh, qua đó giảm bớt các biến dạng do quá trình quét ảnh gây ra và đưa ảnh về trang thái gần như ban đầu Tăng cường ảnh là một công đoạn quan trọng, tạo tiền

đề cho xử lý ảnh Tăng cường ảnh không phải làm tăng lượng thông tin trong ảnh

mà là làm nổi bật những đặc trưng của ảnh giúp cho công việc xử lý phía sau được hiệu quả hơn

Giai đoạn này góp phần làm tăng độ chính xác phân lớp của hệ thống nhận dạng, tuy nhiên nó cũng làm cho tốc độ nhận dạng của hệ thống chậm lại Vì vậy, tùy thuộc vào chất lượng ảnh quét vào của từng văn bản cụ thể để chọn một hoặc một vài chức năng trong khối này Khối tiền xử lý bao gồm một số chức năng: nhiễu ảnh và lọc nhiễu, chuẩn hóa kích thước ảnh, làm trơn biên chữ, làm đầy chữ, làm mảnh chữ và xoay văn bản

2.1.1.Nhiễu ảnh và lọc nhiễu

Trong xử lý ảnh các ảnh đầu vào thường được thu thập từ các nguồn ảnh khác nhau và các ảnh thu thập đươc thường có nhiễu và cần loại bỏ nhiễu hay ảnh thu được không sắc nét, bị mờ cần làm rõ các chi tiết trước khi đưa vào xử lý

Trang 34

a)Nhiễu ảnh

Một số loại nhiễu ảnh thường gặp:

- Nhiễu cộng : nhiễu cộng thường phân bố khắp ảnh Nếu ta gọi ảnh quan sát ( ảnh thu được) là Xqs, ảnh gốc là Xgốc và nhiễu là , ảnh thu được có thể biểu diễn bởi: Xqs = Xgốc + .[2]

- Nhiễu nhân : Nhiễu nhân thường phân bố khắp ảnh và ảnh thu được sẽ biểu diễn với công thức: Xqs = Xgốc * .[2]

- Nhiễu xung : Nhiễu xung thường gây đột biến ở một số điểm của ảnh[2] Trong hầu hết các trường hợp thừa nhận nhiễu là tuần hoàn Các phương pháp lọc đề cập trong báo cáo xét với các trường hợp ảnh chỉ có sự xuất hiện của nhiễu

b)Lọc nhiễu

Nhiễu là một tập các điểm sáng thừa trên ảnh Khử nhiễu là một vấn

đề thường gặp trong nhận dạng, nhiễu có nhiều loại (nhiễu đốm, nhiễu vệt, nhiễu đứt nét )

Hình 2.1 Nhiễu đốm và nhiễu vệt

Để khử các nhiễu đốm ( các nhiễu với kích thước nhỏ ), có thể sử dụng các phương pháp lọc ( lọc trung bình, lọc trung vị ) Tuy nhiên, với các nhiễu vệt ( hoặc các nhiễu có kích thước lớn ) thì các phương pháp lọc tỏ ra kém hiệu quả, trong trường hợp này sử dụng phương pháp khử các vùng liên thông nhỏ tỏ ra có hiệu quả hơn

2.1.2.Chuẩn hóa kích thước ảnh

Việc chuẩn hóa kích thước ảnh dựa trên việc xác định trọng tâm ảnh, sau đó xác định khoảng cách lớn nhất từ tâm ảnh đến các cạnh trên, dưới, trái, phải của hình chữ nhật bao quanh ảnh Thông qua khoảng cách lớn nhất đó, có thể xác định

Trang 35

được một tỷ lệ co, giãn của ảnh gốc so với kích thước đã xác định, từ đó hiệu chỉnh kích thước ảnh theo tỷ lệ co, giãn này Như vậy, thuật toán chuẩn hóa kích thước ảnh luôn luôn đảm bảo được tính cân bằng khi co giãn ảnh, ảnh sẽ không bị biến dạng hoặc bị lệch

Hình 2.2 Chuẩn hóa kích thước ảnh các ký tự “A” và “P”

2.1.3.Làm trơn biên chữ

Đôi khi do chất lượng quét ảnh quá xấu, các đường biên của chữ không còn giữ được dáng điệu trơn tru ban đầu mà hình thành các đường răng cưa giả tạo Trong các trường hợp này, phải dùng các thuật toán làm trơn biên để khắc phục

Hình 2.3 Làm mảnh chữ

Trang 36

2.1.6.Điều chỉnh độ nghiêng của văn bản

Do trang tài liệu quét vào không cẩn thận hoặc do sự cố in ấn, các hàng chữ

bị lệch so với lề chuẩn một góc a, điều này gây khó khăn cho công đoạn tách chữ,

đôi khi không thể tách được Trong những trường hợp như vậy, phải tính lại tọa độ điểm ảnh của các chữ bị sai lệch Có nhiều kỹ thuật để điều chỉnh độ nghiêng, kỹ thuật phổ biến nhất dựa trên cơ sở biểu đồ chiếu (projection profile) của ảnh tài liệu; một số kỹ thuật dựa trên cơ sở các phép biến đổi Hough và Fourier

Hình 2.4 Hiệu chỉnh độ nghiêng của văn bản

2.2.Các phương pháp trích chọn đặc trưng cơ bản cho ảnh tài liệu

Trích chọn đặc trưng là bài toán thu thập thông tin từ dữ liệu thô, trích chọn những thông tin hữu ích từ hình ảnh tài liệu Bộ nhớ được giảm tải chỉ cần lưu giữ thông tin cần thiết, tạo cho hệ thống trở nên nhanh hơn và tìm kiếm tài liệu hiệu quả hơn Khi một hoặc nhiều đặc trưng được trích chọn sẽ được lưu trong cơ sở dữ liệu

để sử dụng cho công việc sau này Số lượng thông tin hữu ích mà một máy tính lấy

ra từ hình ảnh là yếu tố rất quan trọng quyết định tính thông minh, cũng như hiệu quả của hệ thống truy tìm hình ảnh Nhiều đặc trưng khác nhau đã được sử dụng trong xử lý ảnh và nhận dạng mẫu (đại diện hình ảnh tài liệu) Trong trường hợp đơn giản nhất, ảnh đa cấp xám hoặc ảnh nhị phân được sử dụng cho việc nhận dạng Tuy nhiên, trong hầu hết các hệ nhận dạng, để giảm độ phức tạp và tăng độ chính xác của các thuật toán phân lớp thì đòi hỏi các đặc trưng được trích chọn phải rút gọn lại càng nhỏ càng tốt nhưng vẫn phải đảm bảo được thông tin của ký tự Với mục tiêu này, một tập các đặc trưng được trích chọn cho mỗi lớp sao cho có thể phân biệt được với các lớp khác

Trang 37

Có hàng trăm phương pháp trích chọn đặc trưng cho ảnh văn bản, nhưng chung quy lại, các phương pháp này được gom lại thành ba nhóm chính sau:

a) Biến đổi toàn cục và khai triển chuỗi

Một tín hiệu liên tục thường chứa nhiều thông tin và chúng có thể sử dụng làm các đặc trưng cho mục đích phân lớp Các đặc trưng được trích chọn cũng có thể đúng đối với việc xấp xỉ các tín hiệu liên tục thành các tín hiệu rời rạc Một cách

để biểu diễn một tín hiệu là sử dụng một tổ hợp tuyến tính của một dãy các hàm đơn giản hơn Một số biến dạng khác như các phép dịch chuyển và phép quay là bất biến dưới các phép biến đổi toàn cục và khai triển chuỗi Sau đây là một số phương pháp biến đổi và khai triển chuỗi thường được áp dụng trong lĩnh vực nhận dạng chữ:

Biến đổi Fourier: Một trong những tính chất nổi bật nhất của phép biến đổi Fourier

là khả năng nhận dạng các ký tự có sự thay đổi về các tư thế khác nhau, các phép biến đổi này đã được áp dụng để nhận dạng ký tự theo nhiều cách khác nhau

Biến đổi Wavelet: Phép biến đổi này là một dãy các kỹ thuật khai triển cho phép

mô tả đặc trưng của ảnh ở các mức độ khác nhau Các công đoạn tách chữ thành các

ký tự hoặc từ được mô tả bằng các hệ số wavelet theo các mức độ khác nhau đối với từng giải pháp Sau đó các hệ số wavelet được chuyển qua một máy phân lớp để phục vụ cho việc nhận dạng

Phương pháp mô men: Theo phương pháp này, ảnh gốc sẽ được thay thế bằng một

tập các đặc trưng vừa đủ của để nhận dạng các đối tượng bất biến đối với các phép thay đổi tỷ lệ, tịnh tiến hoặc quay Các mô men được xét như các dãy khai triển đặc trưng vì ảnh gốc có thể xây dựng lại một cách đầy đủ từ các hệ số mô men

Khai triển Karhunent-Loeve: Việc khai triển này nhằm phân tích các véc tơ riêng

để rút gọn số chiều của tập đặc trưng bằng cách tạo ra các đặc trưng mới là tổ hợp tuyến tính của các đặc trưng gốc Đây chỉ là một phép biến đổi tối ưu trong một số giới hạn nào đó của việc nén thông tin Tuy nhiên, để tăng tốc độ tính toán cho các máy phân lớp, các đặc trưng này trở nên thiết thực hơn cho các hệ nhận dạng chữ trong những năm gần đây

b) Đặc trưng thống kê

Các đặc trưng thống kê của ảnh văn bản bảo toàn các kiểu biến đổi đa dạng về hình

Trang 38

dáng của chữ Mặc dù các kiểu đặc trưng này không thể xây dựng lại ảnh gốc, nhưng nó được sử dụng để thu nhỏ số chiều của tập đặc trưng nhằm tăng tốc độ và giảm thiểu độ phức tạp tính toán Sau đây là một số đặc trưng thống kê thường dùng

để biểu diễn ảnh ký tự:

Phân vùng (zoning): Khung chứa ký tự được chia thành một vài vùng chồng nhau

hoặc không chồng nhau Mật độ của các điểm ảnh trong các vùng khác nhau được phân tích và tạo thành các đặc trưng

Các giao điểm và khoảng cách: Một đặc trưng thống kê phổ biến là số giao điểm

giữa chu tuyến của chữ với một đường thẳng theo một hướng đặc biệt nào đó Khung chứa ký tự được phân chia thành một tập các vùng theo các hướng khác nhau và sau đó các dãy đen trong mỗi vùng được mã hóa bởi các số lũy thừa của 2 Tương tự như vậy, khoảng cách từ biên của khung chứa ảnh tới điểm đen đầu tiên của chu tuyến chữ trên cùng một dòng quét cũng được sử dụng như những đặc trưng thống kê

Các phép chiếu: Các ký tự có thể được biểu diễn bằng cách chiếu các giá trị mức

xám của từng điểm lên trên các dòng theo các hướng khác nhau Các đặc trưng này tạo ra dãy tín hiệu một chiều từ ảnh hai chiều

Đặc trưng hướng: Các ký tự bao gồm các nét chữ, các nét này là các đoạn thẳng có

hướng, các cung hoặc các đường cong Hướng của các nét đóng vai trò quan trọng trong việc so sánh sự khác nhau giữa các ký tự Các ký tự được mô tả như các véc

tơ mà các phần tử của nó là các giá trị thống kê về hướng Để trích chọn các đặc trưng này, góc định hướng của nét chữ phải được phân chia thành một số vùng cố định và số các đoạn của nét chữ trong mỗi vùng góc được chọn như một giá trị đặc trưng Vì vậy, tập các số lượng của các đoạn định hướng sẽ tạo thành một biểu đồ được gọi là biểu đồ hướng và các đặc trưng về biểu đồ hướng có thể gọi chung là đặc trưng hướng Các ảnh ký tự được phân rã thành các mặt phẳng định hướng và một độ đo khoảng cách được tính giữa các mặt phẳng đó với mẫu của mỗi lớp Hướng nét chữ cục bộ của một ký tự có thể được xác định bằng nhiều cách khác nhau: hướng của xương, phân đoạn nét chữ, mã hóa chu tuyến, hướng đạo hàm

Trang 39

Hiện nay, các đặc trưng mã hóa chu tuyến và hướng đạo hàm được áp dụng rộng rãi

vì chúng dễ cài đặt và xấp xỉ bất biến với sự biến đổi đa dạng của các chữ

c) Đặc trưng hình học và hình thái

Các tính chất cục bộ và toàn cục khác nhau của các ký tự có thể được biểu diễn bằng các đặc trưng hình học và hình thái Các kiểu đặc trưng này cũng có thể giải mã một số tri thức về cấu trúc của đối tượng ảnh hoặc có thể cung cấp một số tri thức như sắp xếp các thành phần để tạo ra đối tượng Các loại đặc trưng này có thể phân thành các nhóm sau:

Trích chọn và đếm các cấu trúc hình thái: trong nhóm đặc trưng này, một cấu

trúc đã xác định được tìm kiếm trong một ký tự hoặc một từ Số lượng vị trí hoặc quan hệ vị trí của các cấu trúc trong ký tự này tạo thành các đặc trưng biểu diễn ký

tự Thông thường, các cấu trúc nguyên thủy (các đoạn thẳng, các cung) là các nét tạo ra ký tự Các ký tự và các từ có thể được mô tả bằng cách trích chọn và đếm nhiều loại đặc trưng về hình thái như các điểm cực đại và cực tiểu, các điểm chóp trên và chóp dưới của một ngưỡng nào đó, mở rộng cho các điểm trái, phải, trên, dưới và các giao điểm, các điểm nhánh, điểm cuối đoạn thẳng, hướng của một nét

từ một điểm đặc biệt, các điểm cô lập đã tạo nên các ký tự

Đo và xấp xỉ các tính chất hình học: các ký tự được biểu diễn bằng độ đo của các

đại lượng hình học như tỷ số giữa chiều rộng và chiều cao của hộp chứa ký tự, quan

hệ khoảng cách giữa hai điểm, so sánh độ dài giữa hai nét, độ rộng của một nét, khối lượng chữ hoa và chữ thường của các từ, độ dài từ Một độ đo tiêu biểu rất quan trọng nữa là độ cong hoặc thay đổi độ cong Các đại lượng hình học đo được

có thể xấp xỉ bởi một tập các đặc trưng hình học vừa đủ và thuận tiện hơn Đồ thị và cây: Đầu tiên, các từ hoặc các ký tự được phân chia thành một tập các đối tượng nguyên thủy như các nét, các điểm chạc Sau đó, các thành phần nguyên thủy được thay thế bằng các thuộc tính hoặc các đồ thị liên quan Có hai loại đặc trưng ảnh được mô tả bằng đồ thị: Loại thứ nhất sử dụng các tọa độ của hình dáng ký tự Loại thứ hai là một đặc trưng trừu tượng, các nút của đồ thị tương ứng với các nét chữ và các cạnh của đồ thị tương ứng với các mối quan hệ giữa các nét chữ Cây cũng có thể dùng để biểu diễn các từ và các ký tự với một tập các đặc trưng theo một quan hệ

Trang 40

2.3.Trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu

Những đặc trưng phổ biển được sử dụng là những đặc trưng hình học, đặc trưng về hình dạng, đặc trưng về mật độ điểm ảnh ở mỗi vùng Tập hợp những đặc trưng đó tạo nên vectơ đặc trưng cho một từ Đầu vào của ảnh tài liệu đa số là ảnh màu, để giảm bớt các đặc trưng có thể tác động lên kết quả tìm kiếm thì ảnh đầu vào cần chuyển đổi thành ảnh nhị phân, quá trình chuyển ảnh đầu vào sang ảnh nhị phân được thực hiện gián tiếp sang ảnh xám

2.3.1.Chuyển ảnh xám

Thông thường việc lưu trữ các tài liệu văn bản dạng chữ thông qua các máy ảnh hoặc máy quét, ảnh được thu nhận thường là ảnh màu Để dễ dàng hơn trong việc xử lý, những ảnh màu thường được chuyển về những ảnh đơn giản hơn như là

ảnh xám, rồi sau đó chuyển thành ảnh nhị phân

Công thức để chuyển ảnh màu về ảnh xám được tính như sau:

Gray = Red* 0.298 + 0.588* Green + 0.114*Blue (2.3.1)

Hình 2.5 Ảnh màu được chuyển sang ảnh xám tính theo công thức trên

Ngày đăng: 18/04/2018, 17:23

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. PGS.TS.Đỗ Năng Toàn,TS.Phạm Việt Bình, “Giáo trình xử lý ảnh”, Khoa Công Nghệ Thông Tin, Đại Học Thái Nguyên Sách, tạp chí
Tiêu đề: Giáo trình xử lý ảnh”
[2]. PGS.TS. Nguyễn Quang Hoan, “Giáo Trình Xử lý ảnh”, Học viện Công Nghệ Bưu Chính Viễn Thông.Tiếng anh Sách, tạp chí
Tiêu đề: “Giáo Trình Xử lý ảnh”
[3]. Nobuyuki Otsu, “A threshold selection method from gray-level histograms” Sách, tạp chí
Tiêu đề: “A threshold selection method from gray-level histograms
[4]. Manesh B. Kokare, M.S.Shirdhonkar, “Document Image Retrieval: An Overview” Sách, tạp chí
Tiêu đề: “Document Image Retrieval: An Overview
[5]. Kavallieratou, E. Fakotakis, N. Kokkinakis, “An unconstrained handwriting recognition system” Sách, tạp chí
Tiêu đề: “An unconstrained handwriting recognition system
[6]. Konstantinos Zagoris, Kavallieratou Ergrina, Nikos Papamarkos, “Developing Document Image Retrieval System” Sách, tạp chí
Tiêu đề: “Developing Document Image Retrieval System
[8]. Chew Lim Tan, Weihua Huang, Zhaohui Yu, Yi Xu, “Imaged Document Text Retrieval without OCR” Sách, tạp chí
Tiêu đề: Imaged Document Text Retrieval without OCR
[9]. Kobus Barnard , Nikhil V. Shirahatti, “A method for comparing content based image retrieval method” Sách, tạp chí
Tiêu đề: A method for comparing content based image retrieval method
[10]. Anand Kumar, C.V. Jawahar, R. Manmatha, "Efficient Search in Document Image Collections” Sách, tạp chí
Tiêu đề: Efficient Search in Document Image Collections
[11]. Mark S. Nixon, Alberto S. Aguado, “Feature Extraction and Image Processing” Sách, tạp chí
Tiêu đề: Feature Extraction and Image Processing
[12]. Million Meshesha, C. V. Jawahar, “Matching word images for content-based retrieval from printed document images” Sách, tạp chí
Tiêu đề: Matching word images for content-based retrieval from printed document images
[13]. K. Zagoris, N. Papamarkos , C. Chamzas, “Web Document Image Retrieval System Based on Word Spotting” Sách, tạp chí
Tiêu đề: Web Document Image Retrieval System Based on Word Spotting
[14]. Toni M. Rath, R. Manmatha, “Word Image Matching Using Dynamic Time Warping” Sách, tạp chí
Tiêu đề: Word Image Matching Using Dynamic Time Warping
[15]. Yue Lu, Chew Lim Tan, “Information Retrieval in Document Image Databases”Danh mục các Website tham khảo [16]. http://codeproject.com Sách, tạp chí
Tiêu đề: “Information Retrieval in Document Image Databases”

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm