Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Luận văn thạc sĩ)
Trang 1LÊ XUÂN LONG
NGHIÊN CỨU TRÍCH CHỌN ĐẶC TRƯNG ỨNG DỤNG CHO TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2017
Trang 2LÊ XUÂN LONG
NGHIÊN CỨU TRÍCH CHỌN ĐẶC TRƯNG ỨNG DỤNG CHO TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: PGS.TS Ngô Quốc Tạo
THÁI NGUYÊN - 2017
Trang 3LỜI CẢM ƠN
Trước hết, em xin bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn PGS.TS Ngô Quốc Tạo, là người trực tiếp hướng dẫn, tận tình chỉ bảo, giúp đỡ em trong quá trình hình thành đề tài của luận văn
Em xin trân thành cảm ơn tới tất cả các thầygiáo, cô giáo và Ban lãnh đạo trường Đại học Công nghệ Thông tin và Truyền thông Thái Nguyên đã đem tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho chúng em và luôn luôn tạo mọi điều kiện tốt nhất cho chúng em trong suốt quá trình theo học tại trường
Cám ơn đề tài Phòng thí nghiệm trọng điểm: " Nghiên cứu phương pháp tra cứu ảnh dựa vào đa truy vấn" mã số PTNTĐ17.04 đã hỗ trợ trong thực hiện luận văn
Luận văn hoàn thành, ngoài sự cố gắng của bản thân còn có sự động viên, giúp
đỡ và kích lệ về tinh thần của bạn bè đồng nghiệp và gia đình giúp cho em vượt qua những khó khăn trong thời gian thực hiện luận văn Em xin trân thành cảm ơn tới tất cả mọi người
Học viên
Lê Xuân Long
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, với sự hỗ trợ từ người hướng dẫn khoa học PGS.TS NGÔ QUỐC TẠO
Các số liệu, kết quả nêu trong luận văn là trung thực Việc sử dụng những dữ liệu có trong luận văn được thu thập từ các nguồn thông tin khác nhau có ghi trong phần tài liệu tham khảo
Thái Nguyên, tháng 12 năm 2017
Người cam đoan
Lê Xuân Long
Trang 5MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN ii
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi
DANH MỤC HÌNH VẼ vii
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Đối tượng và phạm vi nghiên cứu 1
3 Hướng nghiên cứu của đề tài 2
4 Ý nghĩa khoa học và thực tiễn của đề tài 2
5 Phương pháp nghiên cứu 2
CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH TÀI LIỆU 4
1.1 Tổng quan về tra cứu ảnh tài liệu 4
1.1.1 Truy vấn người sử dụng 6
1.1.2 Trích chọn đặc trưng ảnh 6
1.1.3 Đánh chỉ số nhiều chiều 8
1.2 Một số khái niệm cơ bản trong xử lý ảnh 9
1.2.1 Ảnh đen trắng và ảnh màu 13
1.2.2 Không gian màu 14
1.2.3 Phân tích ảnh 16
1.2.4.Tra cứu ảnh 17
1.2.5 Nhận dạng ảnh 18
1.3 Tra cứu thông tin 18
1.4 Những thách thức trong thiết kế và thực thi hệ thống tìm kiếm ảnh tài liệu 19
1.4.1.Tốc độ tính toán 19
1.4.2.Các tài liệu kém chất lượng 19
1.4.3.Ngôn ngữ trong tài liệu 19
Trang 61.5 Hệ thống đề xuất 19
CHƯƠNG 2: MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU VÀ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG 22
2.1.Tiền xử lý ảnh 22
2.1.1.Nhiễu ảnh và lọc nhiễu 22
2.1.2.Chuẩn hóa kích thước ảnh 23
2.1.3.Làm trơn biên chữ 24
2.1.4.Làm đầy chữ 24
2.1.5.Làm mảnh chữ 24
2.1.6.Điều chỉnh độ nghiêng của văn bản 25
2.2.Các phương pháp trích chọn đặc trưng cơ bản cho ảnh tài liệu 25
2.3.Trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu 29
2.3.1.Chuyển ảnh xám 29
2.3.2 Ảnh nhị phân, nhị phân hóa với ngưỡng động 30
2.3.3.Một số thao tác trên ảnh nhị phân 34
2.3.3.1 Các lân cận của điểm ảnh( Image Neighbors) 34
2.3.3.2.Gán nhãn các thành phần liên thông (CCL-Connected Components Labeling ) 35
2.3.3.3.Phân đoạn từ trong ảnh tài liệu 41
2.3.3.4 Đặc trưng về vùng của đối tượng 43
2.3.3.5 Hình chữ nhật bao và các điểm cực trị 47
2.3.3.6 Moment không gian 48
2.3.3.7 Phép chiếu 50
2.4 Đối sánh những đặc trưng trong hệ thống đề xuất 51
2.4.1 Tỉ lệ về chiều cao và chiều rộng (Width to Height Ratio) 51
2.4.2 Mật độ vùng của từ (Word Area Density) 51
2.4.3 Điểm trọng tâm của từ ( Center of Gravity ) 51
2.4.4 Phép chiếu dọc (Vertical Projection) 52
2.4.5 Phép chiếu hình dạng trên và dưới (Top – Bottom Shape Projections) 55
Trang 72.4.6 Những đặc trưng phần bên trên và bên dưới của từ (Upper - Down Grid
Features ) 56
2.5 Thực hiện công việc đối sánh trong hệ thống đề xuất 58
CHƯƠNG 3: 61
CHƯƠNG TRÌNH THỬ NGHIỆM TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU TRÊN CƠ SỞ LÝ THUYẾT ĐÃ XÂY DỰNG 61
3.1.Môi trường cài đặt 61
3.2 Hệ thống mô tả chương trình thử nghiệm 61
3.3 Giao diện chính của chương trình tìm kiếm từ trong ảnh tài liệu 63
3.4 Một số kết quả 66
3.5 Đánh giá 67
DANH MỤC TÀI LIỆU THAM KHẢO 70
Trang 8DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
RGB Red, Green, Blue
CMY Cyan-Magenta-Yellow
CBIR Content Baased Image Retrieval
CSDL Cơ Sở Dữ Liệu
Trang 9DANH MỤC HÌNH VẼ
Hình 1.1 Lược đồ mô tả hệ thống tra cứu ảnh dựa vào nội dung 5
Hình 1.2 Các giai đoạn cơ bản trong xử lý ảnh [2] 10
Hình 1.3 Hình người đi bộ với các kích thước ảnh khác nhau 12
Hình 1.4 Không gian màu RGB 15
Hình 1.5 Không gian màu HSV được trực quan hóa như một hình nón 16
Hình 1.6 Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu 20
Hình 2.1 Nhiễu đốm và nhiễu vệt 23
Hình 2.2 Chuẩn hóa kích thước ảnh các ký tự “A” và “P” 24
Hình 2.3 Làm mảnh chữ 24
Hình 2.4 Hiệu chỉnh độ nghiêng của văn bản 25
Hình 2.5 Ảnh màu được chuyển sang ảnh xám tính theo công thức trên 29
Hình 2.6 Biểu đồ mức xám của ảnh 31
Hình 2.7 Ví dụ về Histogram và ma trận ảnh xám [3] 32
Hình 2.8 biểu đồ histogram và công thức tính cho những giá trị màu nhỏ hơn hoặc bằng ngưỡng t=3 [3] 32
Hình 2.9 Biểu đồ histogram và công thức tính cho những giá trị màu lớn hơn hoặc bằng ngưỡng t=3 [3] 32
Hình 2.10 Tính toán giá trị phương sai trong một lớp ứng với từng giá trị mức xám [3] 33
Hình 2.11 Kết quả thu được sau khi sử dụng phương pháp Otsu [3] 33
Hình 2.12 ảnh xám của từ chứa nhiều nhiễu (được khoanh đỏ trong hình trên) 33
Hình 2.13 Ảnh đã được bỏ nhiễu và chuyển sang ảnh nhị phân nhờ phương pháp Otsu 34 Hình 2.14 Lân cận các điểm ảnh của tọa độ (x, y) 35
Hình 2.15 Các khả năng liên thông được sử dụng 35
Trang 10Hình 2.16 Ảnh nhị phân và gán nhãn cho các thành phần liên kết 36
Hình 2.17 Nhị phân và ma trận nhãn của điểm ảnh nổi (Foreground pixel ) được khởi tạo tăng dần 37
Hình 2.18 Cấu trúc Union-Find thể hiện qua mảng PARENT 37
Hình 2.19 Áp dụng Find cho toàn bộ nốt ta có PARENT 38
Hình 2.20 Ứng dụng thuật toán gán nhãn cho các thành phần liên thông 41
Hình 2.21 Ảnh tài liệu có nhiều nhiễu 42
Hình 2.22 Tìm các thành phần liên thông trong ảnh tài liệu 42
Hình 2.23 Loại bỏ nhiễu 42
Hình 2.24 Mở rộng kích thước hình chữ nhật bao theo hai hướng trái và phải 43
Hình 2.25 Xác định từ 43
Hình 2.26 Các vùng đã được gán nhãn trong ảnh tài liệu 46
Hình 2.27 Các đặc trưng của 3 vùng ở hình 2.26 46
Hình 2.28 Tám điểm cực trị của một vùng nằm trên Hình chữ nhật bao Các đường chéo đứt đoạn là trục các điểm cực trị 47
Hình 2.29 Moment của một trục được tính bằng bình phương khoảng cách từ mỗi điểm đến trục đó 49
Hình 2.30 Ảnh nhị phân của con thằn lằn với phép chiếu ngang và dọc 50
Hình 2.31 Xác định tỉ lệ chiều rộng và cao dựa vào hình chữ nhật bao của vùng trong từ 51
Hình 2.32 Ảnh tính toán phép chiếu dọc : (a) là ảnh gốc; (b) là phép chiếu dọc; (c) là phép chiếu đã được làm trơn và sử dụng ma trận mặt nạ 5×1 53
Hình 2.33 Ảnh bàn cờ lý tưởng và ảnh bàn cờ có nhiễu Sau đó ảnh được khử nhiễu bằng cách làm trơn ảnh sử dụng ma trận mặt nạ 5x5 54
Hình 2.34 Ảnh biểu diễn thao tác với đặc trưng phép chiếu trên và dưới của từ 56
Trang 11Hình 2.35 Ảnh biểu diễn thao tác với đặc trưng thông tin về phần bên trên và phần
bên dưới của từ 57
Hình 2.36 Mô hình 93 thành phần theo thứ tự cấu trúc 58
Hình 2.37 Thủ tục đối sánh từ 59
Hình 3.2 và hình 3.3 giao diện chức năng thêm ảnh vào CSDL 63
Hình 3.4 giao diện khi thêm ảnh vào CSDL thành công 64
Hình 3.5 kết quả tìm kiếm từ 65
Hình 3.6 từ cần tìm kiếm có trong ảnh tài liệu được bôi màu vàng 65
Bảng 3.1 kết quả tìm kiếm từ 66
Bảng 3.2 ba mươi từ ngẫu nhiên được dùng trong đánh giá 67
Bảng 3.3 Giá trị độ chính xác và khả năng thu hồi của ba mươi từ ngẫu nhiên được dùng trong đánh giá 67
Hình 3.7 sự thay đổi độ chính xác và thu hồi cho các tìm kiếm Độ chính xác là 87.8% và khả năng thu hồi là 99.26%KẾT LUẬN 68
KẾT LUẬN 69
Trang 12MỞ ĐẦU
1 Lý do chọn đề tài
Ngày này chúng ta đang sống trong thế giới bùng nổ về các công nghệ hiện đại Các thiết bị số ngày càng phổ biến, các thiết bị như máy ảnh số, máy quay phim, di động (có chức năng camera) có thể giúp chúng ta dễ dàng lưu trữ thông tin dưới dạng ảnh hoặc video Tuy nhiên, với số lượng các ảnh quá nhiều, việc tìm kiếm thông tin trở nên khó khăn và mất rất nhiều thời gian Để giúp con người tìm kiếm thông tin dễ dàng hơn trong ảnh, hệ thống tìm kiếm nội dung trong ảnh đã được ra đời Mục đích của hệ thống là tìm những bức ảnh liên quan từ những thông tin, mà được cung cấp bởi người dùng Thông thường trong hệ thống tìm kiếm ảnh, những nội dung có thể nhìn thấy như màu sắc, hình dạng, kết cấu, bố cục không gian thường được chọn lọc, đánh chỉ số và biểu diễn dưới dạng vector đặc trưng nhiều chiều Những đặc trưng này sẽ được sử dụng để đối sánh và tìm những bức ảnh khác có liên quan
Tùy vào mục đích tìm kiếm khác nhau mà có các hình thức tìm kiếm ảnh khác nhau Hệ thống tìm từ trong ảnh tài liệu chỉ là một dạng của hệ thống tìm kiếm ảnh nói chung Mục đích của hệ thống tìm kiếm từ trong ảnh tài liệu là đưa ra những ảnh tài liệu liên quan với từ mà người dùng cung cấp Trong luận văn này sẽ trình bày một số phương pháp trích chọn đặc trưng và ứng dụng cho tìm kiếm từ trong ảnh tài liệu giúp người dùng có thể truy tìm thông tin từ ảnh tài liệu, hoặc ảnh in từ câu truy vấn Hệ thống đưa ra việc tìm kiếm trên ngôn ngữ là Tiếng anh Với
những lý do trên đây nên học viên đã mạnh dạn nhận đề tài: “Nghiên cứu trích chọn
đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu”
2 Đối tượng và phạm vi nghiên cứu
Hiểu được các phương pháp trích chọn đặc trưng cho tìm kiếm từ trong ảnh tài liệu Từ đó đưa ra những nhận xét, so sánh giữa các phương pháp Lựa chọn
công cụ phát triển phù hợp cài đặt ứng dụng
Trang 133 Hướng nghiên cứu của đề tài
Tìm hiểu một vài phương pháp trích chọn đặc trưng cho tìm kiếm từ trong ảnh
tài liệu về mặt lý thuyết, từ đó lựa chọn phương pháp cài đặt ứng dụng vào thực tế
Áp dụng đối với ảnh tài liệu
4 Ý nghĩa khoa học và thực tiễn của đề tài
Hệ thống hoá các kiến thức về xử lý ảnh và phương pháp trích chọn đặc trưng cho tìm kiếm từ trong ảnh tài liệu
Việc tìm hiểu và phát triển ứng dụng thành công giúp cho việc tìm kiếm ảnh tài liệu trở nên đơn giản và dễ dàng hơn
5 Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý thuyết: Tìm hiểu tài liệu, đọc hiểu các kiến thức
cơ bản đến xử lý ảnh và trích chọn đặc trưng, đề xuất các phương pháp cài đặt trên ngôn ngữ lập trình
- Phương pháp nghiên cứu thực nghiệm: Cài đặt thử nghiệm chương trình tìm
kiếm từ trong ảnh tài liệu
- Phương pháp trao đổi khoa học: Trao đổi hướng nghiên cứu với người hướng
dẫn, các đồng nghiệp để đề xuất và giải quyết các nội dung luận văn đề ra
Luận văn gồm có 3 chương và phần kết luận:
Chương 1: TỔNG QUAN VỀ TRA CỨU ẢNH TÀI LIỆU
Chương này sẽ đưa ra những khái niệm chung, cơ bản nhất về xử lý ảnh và phương pháp sử dụng để tra cứu ảnh Mục đích là đưa cho người đọc những hiểu biết chung về xử lý ảnh và những khó khăn, thách thức trong ứng dụng của chương trình tìm kiếm từ trong ảnh tài liệu
Chương 2: MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU
VÀ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG
Chương này chủ yếu trình bày các thao tác dùng để nhận dạng các từ trong văn bản của hình ảnh tài liệu và tìm hiểu hiểu được các trích chọn đặc trưng chung hay dùng để đối sánh đối tượng
Trang 14Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU TRÊN CƠ SỞ LÝ THUYẾT ĐÃ XÂY DỰNG
Chương này sẽ trình bày phần cài đặt chương trình Đánh giá một số từ truy vấn đối với chương trình
Do thời gian thực hiện có hạn, kiến thức còn hạn chế nên luận văn không tránh khỏi thiếu sót Rất mong nhận được sự giúp đỡ của các thầy cô và các bạn quan tâm đến vấn đề này để học viên có thể hoàn thiện hơn kiến thức của mình
Trang 15CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH TÀI LIỆU
1.1 Tổng quan về tra cứu ảnh tài liệu
Trong những năm gần đây, sự gia tăng nhanh chóng về mặt số lượng các tài liệu đa phương tiện đặc biệt là dữ liệu ảnh Những dữ liệu dạng này tăng nhanh do việc tạo ra chúng dễ dàng nhờ sử dụng máy quét (Scanner) và máy ảnh kỹ thuật số (Digital camera) Do đó, các văn bản có thể được chụp hoặc quét và được lưu dưới dạng ảnh tài liệu (Document image) Nhưng những thông tin này không được đánh chỉ số cho nên việc tìm kiếm thông tin trở nên khó khăn
Việc tìm kiếm thông tin trong ảnh tài liệu là một lĩnh vực nghiên cứu hấp dẫn với sự phát triển ngày càng tăng nhanh Những tài liệu dạng này đóng một vai trò quan trọng trong cuộc sống hằng ngày của chúng ta Những tài liệu phức tạp hơn đưa ra những thử thách lớn hơn cho lĩnh vực nhận dạng và tìm kiếm ảnh tài liệu Sự hiện diện của các loại nhiễu, chữ viết tay, chữ ký, logo, chữ in trong cùng một tài liệu với các loại font khác nhau cũng như việc quy định viết chữ theo dòng đã gây nhiều hạn chế đến các thuật toán mà đơn thuần làm việc trên những bức ảnh tài liệu đơn giản
Công việc chính của quá trình xử lý ảnh tài liệu phức tạp là tách biệt những nội dung khác nhau có trong ảnh tài liệu Một khi những nội dung đã được phân tách, thì chúng có thể được đánh chỉ số để sẵn dùng bởi hệ thống tìm kiếm ảnh Sự hiểu biết nội dung của ảnh tài liệu như là tài liệu về kiểm tra tài khoản ngân hàng, thư trong doanh nghiệp, các mẫu điền thông tin, và các bài báo kĩ thuật đã dần trở thành những lĩnh vực nghiên cứu hấp dẫn
Trong chương này sẽ đưa ra kiến thức chung nhất về hệ thống tra cứu ảnh tài liệu và một số vấn đề liên quan đến xử lý ảnh Các thách thức đặt ra với hệ thống tìm kiếm ảnh nói chung và hệ thống các đề xuất
Trang 16Hình 1.1 Lược đồ mô tả hệ thống tra cứu ảnh dựa vào nội dung
Chúng ta thấy rằng trên hệ thống tra cứu ảnh dựa vào nội dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và có các truy vấn người sử dụng Chúng được liên kết thông qua một chuỗi các tác vụ như được minh họa trong hình trên Sau đây chúng ta sẽ đưa ra cái nhìn khái quát về một số tác vụ chính của một hệ thống tra cứu ảnh bao gồm các nội dung sau:
Phân tích nội dung của các nguồn thông tin và biểu diễn các nội dung được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng Bước này thường cần nhiều thời gian nhất vì nó phải xử lý lần lượt các ảnh đưa vào cơ sở dữ liệu và được thực hiện một lần
Phân tích các truy vấn người sử dụng và biểu diễn ở dạng thích hợp cho so sánh với cơ sở dữ liệu nguồn, chỉ áp dụng với ảnh truy vấn
So sánh các truy vấn tìm kiếm thông tin trong cơ sở dữ liệu nguồn, tra cứu thông tin liên quan theo cách hiệu quả nhất Được thực hiện trực tiếp và yêu cầu rất nhanh, các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng để tốc độ đối sánh được nhanh hơn
Điều chỉnh cần thiết ở hệ thống dựa vào phản hồi từ người sử dụng hoặc các ảnh được tra cứu
Trang 171.1.1 Truy vấn người sử dụng
Có nhiều cách gửi một truy vấn trực quan Một phương pháp truy vấn tốt là phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thông tin từ người sử dụng để trích rút các kết quả có ý nghĩa Các phương pháp truy vấn dưới đây được sử dụng phổ biến trong nghiên cứu tra cứu ảnh dựa vào nội dung
Truy vấn bởi ảnh mẫu (QBE - Query By Example): trong loại truy vấn này,
người sử dụng hệ thống chỉ rõ một ảnh truy vấn cần tìm , dựa trên ảnh đó hệ thống
sẽ tìm kiếm trong cơ sở dự liệu ảnh các ảnh tương tự nhất Ưu điểm của hệ thống này là một cách tự nhiên cho những người sử dụng chung và tra cứu trong cơ sở dữ liệu
Truy vấn bởi đặc trưng (QBF – Query By Feature): trong hệ thống QBF
tiêu biểu, những người sử dụng các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm Truy vấn này được chỉ rõ bằng việc sử dụng các công cụ giao diện đồ họa chuyên dụng Những người sử dụng hệ thống tra cứu ảnh chuyên nghiệp thì có thể thấy loại truy vấn này là bình thường còn người sử dụng chung thì không thể
Các truy vấn dựa vào thuộc tính ( Attribute – Based queries): Các truy vấn
dựa vào thuộc tính sử dụng các chú thích văn bản, trích rút trước bởi nỗ lực con người, như một khóa tra cứu chính Phương pháp này nhanh và dễ thực hiện, nhưng chủ quan và nhập nhằng cao xuất hiện như đã đề cập
1.1.2 Trích chọn đặc trưng ảnh
Trích chọn đặc trưng liên quan đến việc trích chọn những thông tin hữu ích từ ảnh Vì vậy nó giảm yêu cầu về bộ nhớ cấn thiết và do đó làm hệ thống trở nên nhanh hơn và tìm kiếm ảnh hiệu quả hơn Mỗi khi một hoặc nhiều đặc trưng được trích chọn, chúng là được lưu trữ trong cơ sở dữ liệu để sử dụng cho công việc sau này Số lượng thông tin hữu ích mà một máy tính lấy ra từ ảnh là yếu tố rất quan trọng quyết định tính thông minh, cũng như hiệu quả của hệ thống tìm kiếm ảnh Một ưu điểm lớn nhất của việc trích chọn đặc trưng đó là nó bỏ đi những thông tin không cần thiết và chỉ giữ lại những thông tin cần thiết để có thể biểu diễn nội dung cho ảnh
Trang 18a)Trích chọn đặc trưng theo mầu sắc tổng thể và cục bộ
Tra cứu ảnh dựa trên màu sắc hầu hết là biến đổi dựa trên ý tưởng giống nhau của các biểu đồ màu Mỗi ảnh khi đưa vào tập hợp ảnh đều được phân tích, tính toán một biểu đồ màu Sau đó, biểu đồ màu của mỗi ảnh sẽ được lưu trữ trong cơ sở dữ liệu Khi tìm kiếm, người sử dụng có thể xác định tỷ lệ của mỗi màu mong muốn (ví dụ 75% Blue, 25% Red) hoặc đưa ra một ảnh mẫu với biểu đồ màu
đã được tính toán Quá trình tra cứu sẽ đối sánh biểu đồ màu này với biểu
đồ màu trong cơ sở dữ liệu để tìm ra kết quả tương tự nhất Kỹ thuật đối sánh được
sử dụng phổ biến nhất là biểu đồ màu giao nhau được phát triển đầu tiên bởi Swain Những kỹ thuật cải tiến từ kỹ thuật này ngày nay được sử dụng rộng rãi trong các hệ thống ra cứu ảnh hiện thời Kết quả của các hệ thống này đã tạo những ấn tượng khá sâu sắc
b)Trích chọn đặc trưng theo kết cấu
Kết cấu (texture) là một tính chất quan trọng khác của ảnh Kết cấu là một thành phần có ảnh hưởng rất quan trọng đối với sự nhận thức trực quan của con người Tất cả mọi người đều có thể nhận ra kết cấu nhưng lại rất khó có thể định nghĩa chính xác nó là gì Không giống như màu sắc, kết cấu “xảy ra” trên một vùng chứ không phải tại một điểm ảnh và thường được định nghĩa bằng các mức xám Rất nhiều cách thể hiện kết cấu đã được nghiên cứu trong lĩnh vực nhận dạng và thị giác máy tính Xét một cách cơ bản, các phương pháp biểu diễn kết cấu có thể được chia thành hai loại: Phương pháp cấu trúc và phương pháp thống kê
* Các phương pháp cấu trúc bao gồm: các toán tử hình thái và đồ thị liền kề,
mô tả kết cấu bằng cách định nghĩa các nguyên thuỷ cấu trúc và luật sắp đặt của chúng Các phương pháp này tỏ ra có hiệu quả khi áp dụng trong trường hợp kết cấu thông thường
* Các phương pháp thống kê bao gồm: Phương pháp phổ năng lượng Fourier, ma trận đồng khả năng, Tamura, Phân tích Wold, trường ngẫu nhiên Markov, mô hình fractal, các bộ lọc đa phân giải như biến đổi Gabor và biến đổi dạng sóng thể hiện kết cấu bằng sự phân bố thống kê của độ sáng của các điểm ảnh
Trang 19c)Trích chọn đặc trưng theo hình dạng
Các đặc điểm phát hiện biên của các vùng ảnh và các đối tượng ảnh được sử dụng trong rất nhiều hệ thống tra cứu ảnh So với các đặc điểm về màu sắc và các đặc điểm về kết cấu thì các đặc điểm về hình dạng thường chỉ được sử dụng sau khi ảnh đã phân thành các vùng hoặc các đối tượng ảnh Nhưng do việc phân vùng
và tách đối tượng ảnh khó thu được kết quả tốt nên việc sử dụng các đặc điểm hình dạng để tra cứu ảnh thường bị bó hẹp trong một số ứng dụng mà ở đó các vùng ảnh hoặc đối tượng ảnh đã được tách biệt rõ ràng Các phương pháp trích chọn đặc điểm hình dạng thường được chia thành hai loại là trích chọn dựa theo đường biên (xấp xỉ đa giác, mô hình phần tử hữu hạn, mô tả hình dạng theo Fourier) và trích chọn dựa theo vùng ảnh (mô hình thống kê) Một phương pháp trích chọn đặc điểm hình dạng tốt phải đảm bảo yêu cầu là phải không phụ thuộc vào vị trí, góc quay hay sự co giãn của đối tượng ảnh Trước khi áp dụng các phương pháp trích chọn đặc điểm hình dạng, các đối tượng ảnh cần phải được tách ra khỏi ảnh Giả sử là trong mỗi ảnh chỉ có một đối tượng ảnh duy nhất, nhiệm vụ của hệ thống trước hết
là phải tách được đối tượng ảnh ra khỏi nền ảnh
Cách biểu diễn hình dạng của đối tượng ảnh có thể chia thành hai kiểu: Theo đường bao quanh (biên) và theo vùng Cách biểu diễn theo đường viền bao quanh chỉ sử dụng đường biên bên ngoài của hình dạng, điều này có thể thực hiện được bằng cách mô tả vùng đang quan tâm bằng cách đặc tính bên ngoài của nó tức là các điểm ảnh dọc theo đường viền bao quanh đối tượng ảnh Cách biểu diễn theo vùng
sử dụng cả vùng ảnh bằng cách mô tả vùng đang quan tâm bằng các đặc tính bên trong tức là các điểm ảnh ở bên trong vùng đó
1.1.3 Đánh chỉ số nhiều chiều
Để thực hiện việc tra cứu dựa vào nội dung đối với các cơ sở dữ liệu ảnh lớn, các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng Có ba cộng đồng nghiên cứu chính đóng góp vào lĩnh vực này: hình học tính toán, quản trị cơ sở dữ liệu và nhận dạng mẫu Các kỹ thuật đánh chỉ số nhiều chiều phổ biến như thuật toán bucketing, cây K-D, cây K-D ưu tiên, cây tứ phân, cây K-D-B, cây hB.v.v
Trang 201.2 Một số khái niệm cơ bản trong xử lý ảnh
Trước khi đi vào tìm hiểu một cách tổng quan về các quá trình xử lý ảnh, ta cần quan tâm tới một số khái niệm cơ bản Để thực hiện được các bước của quá trình xử lý ảnh thì trước hết ta phải hiểu: xử lý ảnh là gì ? ảnh là gì ? Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận [1]
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ Nó là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chuyên dụng riêng cho nó.[2]
Trên đây là các thành phần cơ bản trong các khâu xử lý ảnh Trong thực tế, các quá trình sử dụng ảnh số không nhất thiết phải qua hết các khâu đó tùy theo đặc điểm ứng dụng Hình 1.3 sơ đồ phân tích và xử lý ảnh và lưu đồ thông tin giữa các khối một cách khá đầy đủ Ảnh sau khi được số hóa được nén, lưu lại để truyền cho các hệ thống khác sử dụng hoặc để xử lý tiếp theo Mặt khác, ảnh sau khi số hóa có thể bỏ qua công đoạn nâng cao chất lượng (khi ảnh đủ chất lượng theo một yêu cầu nào đó) để chuyển tới khâu phân đoạn hoặc bỏ tiếp khâu phân đoạn chuyển trực tiếp tới khâu trích chọn đặc trưng Hình 1.3 cũng chia các nhánh song song như: nâng cao chất lượng ảnh có hai nhánh phân biệt: nâng cao chất lượng ảnh (tăng độsáng,
độ tương phản, lọc nhiễu) hoặc khôi phục ảnh (hồi phục lại ảnh thật khi ảnh nhận được bị méo) v.v…[2]
Trang 21Hình 1.2 Các giai đoạn cơ bản trong xử lý ảnh [2]
Sơ đồ này bao gồm các thành phần như sau:
Thu nhận ảnh: Ảnh có thể được thu nhận trong thế giới thực qua máy chụp
hình, từ tranh ảnh thông qua máy quét hoặc từ vệ tinh qua các bộ cảm biến bằng tín hiệu số hoặc tín hiệu tương tự Ảnh có thể nhận qua camera màu hoặc đen trắng
Số hóa ảnh: Tất cả các thông tin được lưu trong máy tính đều ở dạng số Vì
vậy, ảnh sau khi thu nhận được từ các thiết bị khác cần phải được số hóa để lưu trữ hoặc có thể dùng để xử lý tiếp
Tiền xử lý: Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần
đưa vào bộ tiền xử lý để nâng cao chất lượng Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn
Phân tích ảnh: Phân tích ảnh là một quá trình gồm nhiều giai đoạn nhỏ hơn:
tăng cường ảnh để nâng cao chất lượng ảnh và khắc phục những thiếu sót trong quá trình thu nhận ảnh và số hóa ảnh như nhiễu, méo … làm nổi bật các đặc trưng chính của ảnh đảm bảo cho ảnh gần giống với hình ảnh thật nhất Tiếp theo là phát hiện và trích chọn các đặc trưng như biên, màu, kết cấu … Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu diễn phân tích, nhận dạng ảnh Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này
Trang 22Đối sánh, nhận dạng ảnh: Là quá trình đối sánh, phân lớp ảnh, nhận biết
được tên gọi của đối tượng Kết quả của quá trình này phục vụ cho các mục đích và các ứng dụng khác nhau
a) Ảnh và điểm ảnh:
Là tập hợp hữu hạn các điểm ảnh Ảnh có thể được biểu diễn dưới dạng một
ma trận 2 chiều, mỗi phần tử của ma trận tương ứng với một điểm ảnh Mỗi phần tử này được gọi là một pixel (Piture Eement) Ảnh được biểu diễn bởi một mảng số thực hai chiều (Ii j) có kích thước (m x n), trong đó mỗi phần tử Ii j (i = 1…m; j = 1…n) biểu đồ mức xám của ảnh tại vị trí (i, j) tương ứng
Đối tượng ảnh: Trong quá trình xử lý ảnh, một ảnh được thu nhận vào máy phải được mã hóa, vì vậy ảnh phải được lưu trữ thế nào sao cho các ứng dụng khác nhau có thể thao tác trên các loại dữ liệu này Một số dạng ảnh đã được chuẩn hóa như: GIF, BMP, PCX, ; mỗi kiểu lưu trữ ảnh đều có điểm riêng Tùy theo vùng các giá trị xám của điểm ảnh mà các ảnh được phân chia ra thành ảnh màu, ảnh xám, ảnh nhị phân
Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng Để có thể xử lý ảnh bằng máy tính thì cần thiết phải tiến hành số hóa ảnh Số hóa ảnh là sự biến đổi gần đúng một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức xám) Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt người không phân biệt được ranh giới giữa chúng Mỗi một điểm như vậy gọi là điểm ảnh (PEL-Piture Eement) ay gọi là Pixel Trong khuôn khổ ảnh hai chiều, mỗi Pixel ứng với cặp tọa độ (x,y)[2] Các cặp tọa độ (x, y) tạo nên độ phân giải Chẳng hạn như màn hình máy tính có độ phân giải là 480x640 nghĩa là trên màn hình có 480x640 điểm ảnh (x, y), chiều rộng 480 điểm ảnh và chiều dài 640 điểm ảnh
Định nghĩa : Điểm ảnh (Pixel) là một phần tử của ảnh số tại tọa độ (x,y) với
tọa độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức
Trang 23xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi là một phần tử ảnh.[2]
b) Độ phân giải ảnh
Định nghĩa: Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn
định trên một ảnh số được hiển thị.[2]
Trong quá trình xử lý ảnh việc chọn giá trị phù hợp về kích thước N của ảnh cũng khá phức tạp và quan trọng Chúng ta chọn N đủ lớn sẽ giải quyết những mức
độ yêu cầu về độ chi tiết của bức ảnh Nhưng N quá nhỏ, ảnh có chất lượng xấu: những đường nét sẽ xuất hiện như những khối và nhiều chi tiết bị mất Những giá trị lớn hơn của N đưa ra nhiều chi tiết hơn, nhưng cần nhiều không gian bộ nhớ hơn để lưu trữ ảnh, và ảnh sẽ được xử lý lâu hơn do có nhiều điểm ảnh
Hình 1.3 Hình người đi bộ với các kích thước ảnh khác nhau
Ví dụ như với những bức ảnh về người đi bộ trong Hình 1.3 với các độ phân giải khác nhau Hình 1.3(a) với độ phân giải 64 x 64 đưa ra cấu trúc rộng Chúng ta khó có thể quan sát bất kỳ chi tiết nào ở mặt của người đàn ông, hoặc bất kỳ thứ khác Với Hình 1.3(b) với độ phân giải 128 x 128, chúng ta bắt đầu thấy chi tiết hơn nhưng vẫn khó xác định được người đàn ông này Và với bức ảnh ở Hình 1.3(c) chúng ta vừa có thể quan sát chi tiết vật thể và cũng có thể nhận dạng vật thể là ai
Một ví dụ khác : Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh (320*200) Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320*200 Lý do: cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn
Trang 24Ảnh đen trắng : là ảnh có hai màu đen và trắng (không chứa màu sắc khác)
với mức xám ở các điểm ảnh có thể khác nhau
Ảnh nhị phân : ảnh chỉ có 2 mức đen trắng phân biệt, tức là dùng 1 bit mô tả
21 mức khác nhau Tức là mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1
Ảnh màu: Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế
giới màu, người ta thường dung 3 byte để mô tả mức màu, khi đó các giá trị màu:
28*3 = 224 = 16,7 triệu màu
1.2.1 Ảnh đen trắng và ảnh màu
Ảnh có thể biểu diễn dưới dạng tương tự hoặc tín hiệu số Trong biểu diễn số của các ảnh đa mức xám thì một ảnh được biểu diễn dưới dạng một ma trận hai chiều Mỗi phần tử của ma trận biểu diễn cho mức xám hay cường độ của ảnh tại vị trí đó Một lưới chia ô vuông được đặt lên ảnh Độ lớn mỗi ô vuông của lưới xác định kích thước của một điểm ảnh Mức xám của một điểm được tính bằng cường độ xám trung bình tại mỗi ô vuông này Mắt lưới càng nhỏ thì chất lượng ảnh càng cao Trong kỹ thuật tương tự, một bức ảnh thường được biểu diễn dưới dạng các dòng nằm ngang kế tiếp nhau Mỗi dòng là một tín hiệu tương tự mang theo các thông tin về cường độ sáng dọc theo một đường nằm ngang trong ảnh gốc
* Ảnh đen trắng
Ảnh đen trắng chỉ bao gồm 2 màu : màu đen và màu trắng Người ta phân mức đen trắng đó thành L mức nếu sử dụng số bit B = 8 bit để mã hóa mức đen trắng (hay mức xám) thì L được xác định : L=2B ( trong ví dụ của ta L=28=256 mức).[2]
Trang 25Nếu L=2, B=1, nghĩa là chỉ có 2 mức : mức 0 và mức 1, còn gọi là ảnh nhị phân Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối Nếu L lớn hơn 2 ta có ảnh đa cấp xám Như vậy, với ảnh đen trắng : nếu dùng 8 bit (1 byte) để biểu diễn mức xám thì số mức xám có thể biểu diễn sẽ là 256 Mỗi mức xám được biểu diễn dưới dạng số nguyên nằm trong khoảng từ 0-255, với mức 0 biểu diễn cho mức cường độ đen nhất và mức 255 biểu diễn cho mức cường độ sáng nhất [2]
Ảnh nhị phân khá đơn giản, các phần tử ảnh có thể coi là các phần tử logic Ứng dụng chính của nó được dùng để phân biệt đối tượng ảnh với nền hay để phân biệt điểm biên với các điểm khác.[2]
* Ảnh màu
Theo lý thuyết của Thomas thì ảnh màu là ảnh tổ hợp từ 3 màu cơ bản là Red, Green, Blue và thu nhận trên các dải bang tần khác nhau Với ảnh màu thì cách biểu diễn cũng tương tự như ảnh đen trắng, chỉ khác là các số tại mỗi phần tử của ma trận biểu diễn cho ba màu riêng rẽ Để biểu diễn cho một điểm ảnh màu cần 24 bit
24 bit này được chia thành ba khoảng 8 bit Mỗi màu cũng phân thành L cấp màu khác nhau (thường L = 256) Mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính Do đó, để lưu trữ ảnh màu người ta có thể lưu trữ từng màu riêng biệt, mỗi màu lưu trữ một ảnh đa cấp xám Chính vì vậy không gian nhớ dành cho một ảnh màu lớn gấp 3 lần một ảnh đa cấp xám cùng kích cỡ.[2]
1.2.2 Không gian màu
Một không gian màu là một mô hình đại cho màu về giá trị độ sáng, một không gian màu xác định bao nhiêu thông tin màu được thể hiện Một thành phần màu được gọi là một kênh màu phổ biến : RGB, CMY, HSx,…
* Không gian màu RGB
Không gian màu RGB mô tả màu sắc bằng 3 thành phần chính là Red - Green và Blue Không gian này được xem như một khối lập phương 3 chiều với màu Red là trục x, màu Green là truc y, và màu Blue là trục z Mỗi màu trong không gian này được xác định bởi 3 thành phần R, G, B Ứng với các tổ hợp khác nhau của 3 màu này sẽ cho ta một màu mới Trong hình lập phương bên dưới (hình 1.4) mỗi màu gốc (R,G,B) có các gốc đối diện là các màu bù với nó Hai màu được
Trang 26gọi là bù nhau khi kết hợp hai màu này lại với nhau ra màu trắng Ví dụ : Green - Magenta, Red - Cyan, Blue - Yellow
Hình 1.4 Không gian màu RGB
*Không gian màu YUV ( chuẩn PAL - PHASE ALTERNATIVE LINE )
Hệ tọa độ này có 3 thành phần: Y là độ chói (cường độ sáng), U là độ sắc màu cảm thụ và V là độ bão hòa Các thành phần của hệ tọa độ này được biểu diễn thông qua hệ tọa độ RGB như sau:
Y = 0.299 R + 0.587G + 0.114B
U = 0.493 (B-Y) = - 0.147R – 0.289G + 0.436B
V = 0.877 (R-Y) = 0.615R – 0.515G – 0.100B
* Không gian màu CMY
CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam, màu đỏ tươi, màu vàng), đó là ba màu chính tương ứng với ba màu mực in Do đó, tọa độ các màu trong không gian CMY trái ngược với không gian RGB Ví dụ : màu White có các thành phần là (0,0,0), màu Black (1,1,1), màu Cyan (1,0,0), Chúng được gọi là những màu gốc để trừ, mỗi màu trong không gian CMY được tạo ra thông qua sự hấp thụ độ sáng
* Không gian màu HSx
Các không gian màu HSI, HSV, HSB và HSL (quy ước gọi là HSx) là gần với nhận thức của người hơn không gian màu RGB, nhưng vẫn không là đồng nhất nhận thức
Các trục từ các không gian màu HSx biểu diễn các đặc trưng màu (hue), độ bão hòa (saturation), và độ sáng (lightness) (cũng được gọi là value, brightness và
Trang 27intensity) Sự khác biệt giữa các không gian màu trong HSx là cách chúng biến đổi
từ không gian màu RGB Chúng thường được biểu diễn bởi các hình thức khác nhau (ví dụ như hình nón, hình trụ) Trong hình 3 không gian màu HSV được trực quan hóa như hệ thống tọa độ có dạng hình trụ và tập màu thành phần của không gian bên trong mô hình màu được xác định là hình nón hoặc hình chóp sáu cạnh
như trong hình 1.5 Đỉnh hình chóp là sáu cạnh khi V= 1 chứa đựng mối quan hệ
giữa các màu sáng và những màu trên mặt phẳng với V= 1 đều có màu sáng Mô hình màu này còn được gọi là hệ HSB với B là Brightness (độ sáng) dựa trên cơ sở nền tảng trực giác về tông màu, sắc độ và sắc thái mỹ thuật
Hue có giá trị từ 00 → 3600
S, V có giá trị từ 0 → 1
Hình 1.5 Không gian màu HSV được trực quan hóa như một hình nón
Mô hình màu dạng hình chóp sáu cạnh này đường cao V với đỉnh là điểm gốc tọa độ (0,0) Điểm ở đỉnh là màu đen có giá trị tọa độ màu V= 0, tại các điểm này giá trị của H và S là không liên quan với nhau Khi điểm có
S= 0 và V= 1 là điểm màu trắng, những giá trị trung gian của V đối với S= 0 (trên đường thẳng qua tâm) là các màu xám Khi S=0 giá trị của H phụ thuộc được gọi bởi các quy ước không xác định, ngược lại khi S khác 0 giá trị của H sẽ là phụ thuộc
1.2.3 Phân tích ảnh
Trong phân tích ảnh việc trích chọn đặc điểm là một bước quan trọng Các đặc điểm của đối tượng được trích chọn tùy theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau đây:
Trang 28Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm
uốn …
Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực
hiện lọc vùng (zonal filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn …)
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và
do vậy rất hữu ích trong việc trích chọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán
tử la bàn, toán tử laplace, toán tử “chéo không” (zero crossing) …
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống
Phân tích ảnh là quá trình suy luận, tính toán dựa vào các đặc tính thể hiện trên hình ảnh để từ đó rút ra được các thông tin định lượng về hình ảnh Phân tích ảnh có thể tách biệt các vật thể trên ảnh, đo lường, phân loại, mô tả, so sánh chúng Mặt khác, từ việc phân tích ảnh cũng có thể suy ra các số liệu thống kê về hình ảnh Liên quan đến việc xác định các tọa độ đo định lượng của một ảnh để đưa ra một
mô tả đầy đủ về ảnh Có nhiều kỹ thuật khác nhau hỗ trợ phân tích ảnh như: các kỹ thuật lọc, các kỹ thuật tách, hợp dựa trên các tiêu chuẩn đánh giá về màu sặc, cường
độ, kết cấu … và các kỹ thuật phân lớp dựa theo cấu trúc Phân vùng ảnh là một hướng riêng của phân tích ảnh Phân vùng ảnh bao gồm các kỹ thuật phân tách các vùng của ảnh thành những vùng có những nét đặc trưng của nó hoặc tách biệt hoàn toàn giữa các vùng ảnh này với các vùng ảnh khác trên ảnh và nền Mục đích là giúp cho dễ quan sát và dễ xử lý và hỗ trợ cho các giai đoạn tiếp theo của hệ thống
xử lý ảnh
1.2.4.Tra cứu ảnh
Tra cứu ảnh có nhiệm vụ tìm được ảnh theo yêu cầu của người sử dụng Có hai kỹ thuật tra cứu ảnh thường được sử dụng đó là: tra cứu ảnh dựa trên từ khóa và tra cứu ảnh dựa trên nội dung Trong những năm gần đây đã có nhiều hệ thống tra
Trang 29cứu ảnh được nghiên cứu thành công và triển khai thành các hệ thống tra cứu ảnh thương mại như: tra cứu địa lý, tra cứu tem thư, tra cứu ảnh y học …
1.2.5 Nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc trưng chủ yếu của đối tượng Có hai kiểu mô tả đối tượng:
- Mô tả tham số ( nhận dạng theo tham số)
- Mô tả theo cấu trúc ( nhận dạng theo cấu trúc)
Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công với nhiều đối tượng khác nhau như: nhận dạng ảnh vân tay, nhận dạng chữ ( chữ cái, chữ số, chữ
1.3 Tra cứu thông tin
Tra cứu thông tin về ảnh là quá trình tìm kiếm trong một cơ sở dữ liệu ảnh những ảnh thỏa mãn một yêu cầu nào đó Tra cứu thông tin về ảnh thường dựa vào hai đặc trưng chính là văn bản mô tả đi kèm ảnh hoặc nội dung ảnh Một số công cụ tìm kiếm ảnh theo văn bản mô tả đi kèm như Google Image Search, Yahoo, MSN,…Một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl, Bing,…
Phương pháp tra cứu dựa theo nội dung ra đời đã khắc phục được nhược điểm
của phương pháp tìm kiếm ảnh dựa vào văn bản đi kèm Phương pháp "Tra cứu ảnh
dựa theo nội dung" (Content Based Image Retrieval) cho phép trích chọn các đặc
trưng dựa vào nội dung trực quan của ảnh như màu sắc, kết cấu, hình dạng và bố
cục không gian của ảnh để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ
liệu ảnh
Trang 301.4 Những thách thức trong thiết kế và thực thi hệ thống tìm kiếm ảnh tài liệu
Những tài liệu phức tạp đưa ra nhiều thách thách lớn trong lĩnh vực nhận dạng tài liệu và tìm kiếm ảnh Để thiết kế và thực thi thành công một cơ chế tìm kiếm trong lĩnh vực về ảnh, chúng ta cần đề cập những vấn đề sau:
1.4.1.Tốc độ tính toán
Thực hiện công việc tìm kiếm từ tập dữ liệu ảnh lớn thông qua nhiều bước như
xử lý ảnh sơ bộ, trích chọn đặc trưng, đối sánh và lấy tài liệu Mỗi bước có thể mất nhiều thời gian tính toán Do đó cần phải sử dụng những thao tác tối ưu trong suốt quá trình truy vấn
1.4.2.Các tài liệu kém chất lượng
Nguyên nhân dẫn đến chất lượng của ảnh tài liệu bị giảm thường là:
-Những vết mực lớn dính lên các chữ cái hoặc các thành phần khác
-Mực in tạo thành các đốm nhiễu tại các ký tự, mất nét chữ, dính chữ, chữ in
bị đậm hằn lên trang trước nguyên nhân do chất lượng kém của giấy và mực in Thiết kế một lược đồ biểu diễn phù hợp và thuật toán đối sánh để điều chỉnh hiệu quả đối với những ảnh tài liệu có chất lượng kém là vấn đề cần thiết
1.4.3.Ngôn ngữ trong tài liệu
Các ngôn ngữ khác nhau có cách thức biểu diễn và quy luật viết riêng Ngoài
ra lại có nhiều font chữ, phong cách viết khác nhau Cho nên cần phải tìm ra những đặc trưng nào là bất biến để đối sánh giữa các từ hoặc ký tự Thông thường việc thiết kế thuật toán tìm kiếm cho các ngôn ngữ châu á thường khó hơn so với các ngôn ngữ châu âu do những đặc trưng nêu trên Ngôn ngữ tiếng anh được đánh giá cao vì được sử dụng tiền tố và hậu tố cho mẫu từ, diễn đạt mối quan hệ ngữ pháp
1.5 Hệ thống đề xuất
Xuất phát từ kiến trúc chung về hệ thống tìm kiếm ảnh Trong luận văn này đề xuất hệ thống tìm kiếm từ trong ảnh tài liệu và đánh dấu hoặc làm nổi bật từ cần tìm Những kỹ thuật đưa ra bắt gặp trong vấn đề tìm kiếm ảnh tài liệu là sử dụng thủ tục đối sánh một từ Thủ tục này thực hiện đối sánh từ trực tiếp trong ảnh tài liệu mà
Trang 31không dùng phương pháp nhận dạng ký tự quang học (OCR - optical character recognition) và sử dụng ảnh của một từ như làm câu truy vấn Toàn bộ hệ thống bao gồm hai thủ tục chính là A và B như hình 1.6 bên dưới
Trong thủ tục B, tất cả ảnh tài liệu được phân tích để tìm số lượng từ tối đa bên trong chúng Sau đó các đặc trưng có thể được lấy ra ứng với hình dạng của từ
và bỏ qua những sự khác nhau chi tiết do nhiễu hoặc phông chữ Những đặc trưng này sau đó được lưu vào cơ sở dữ liệu
Hình 1.6 Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu
Trong thủ tục A, người sử dụng nhập một từ truy vấn và sau đó hệ thống sẽ tạo ra một bức ảnh ứng với từ đó Tiếp theo ảnh này cũng được xử lý để lấy ra các đặc trưng có thể Sau đó, những đặc trưng này được dùng để tìm những từ tương tự thông qua thủ tục đối sánh từ Cuối cùng, những ảnh tài liệu chứa những từ tương tự được hiện thị lên cho người dùng Kết quả thí nghiệm chỉ ra rằng hệ thống đề xuất đưa ra kết quả tìm kiếm có độ chính xác thông qua độ đo về tỉ lệ độ chính xác
(precision) và độ thu hồi (recall)
Trong các chương còn lại của luận văn sẽ đi chi tiết vào từng bước trong hệ thống và các kỹ thuật sử dụng trong từng bước
Trang 32Kết luận
Trong chương này, học viên đã đưa ra các khái niệm tổng quan về tra cứu ảnh tài liệu, giới thiệu các khái niệm cơ bản của xử lý ảnh và những thách thức trong thiết kế, thực thi hệ thống tìm kiếm ảnh tài liệu, tra cứu ảnh dựa vào nội dung bao gồm: các chức năng chính của hệ thống tra cứu ảnh theo nội dung và hệ thống đề xuất, đánh giá hiệu năng tra cứu
Trang 33CHƯƠNG 2:
MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU VÀ
PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG
2.1.Tiền xử lý ảnh
Tiền xử lý là một bước quan trọng trong xử lý ảnh Ở bước này ảnh được xử
lý để đưa về những dạng chuẩn trước khi đến những thao tác xử lý phức tạp
Đầu vào của quá trình xử lý ảnh là các ảnh gốc ban đầu, thu được qua scanner hay chụp Ảnh ban đầu thường có chất lượng thấp do ảnh hưởng của nhiễu, bị nghiêng, bị đứt nét nên chúng ta cần phải có một quá trình tiền xử lý ảnh
để nâng cao chất lượng ảnh đầu vào trước khi đưa vào nhận dạng Quá trình này bao gồm công đoạn khôi phục ảnh và tăng cường ảnh Khôi phục ảnh nhằm mục đích loại bỏ hay làm giảm tối thiểu các ảnh hưởng của môi trường bên ngoài lên ảnh thu nhận được Công đoạn khôi phục ảnh bao gồm các bước như lọc ảnh, khử nhiễu, quay ảnh, qua đó giảm bớt các biến dạng do quá trình quét ảnh gây ra và đưa ảnh về trang thái gần như ban đầu Tăng cường ảnh là một công đoạn quan trọng, tạo tiền
đề cho xử lý ảnh Tăng cường ảnh không phải làm tăng lượng thông tin trong ảnh
mà là làm nổi bật những đặc trưng của ảnh giúp cho công việc xử lý phía sau được hiệu quả hơn
Giai đoạn này góp phần làm tăng độ chính xác phân lớp của hệ thống nhận dạng, tuy nhiên nó cũng làm cho tốc độ nhận dạng của hệ thống chậm lại Vì vậy, tùy thuộc vào chất lượng ảnh quét vào của từng văn bản cụ thể để chọn một hoặc một vài chức năng trong khối này Khối tiền xử lý bao gồm một số chức năng: nhiễu ảnh và lọc nhiễu, chuẩn hóa kích thước ảnh, làm trơn biên chữ, làm đầy chữ, làm mảnh chữ và xoay văn bản
2.1.1.Nhiễu ảnh và lọc nhiễu
Trong xử lý ảnh các ảnh đầu vào thường được thu thập từ các nguồn ảnh khác nhau và các ảnh thu thập đươc thường có nhiễu và cần loại bỏ nhiễu hay ảnh thu được không sắc nét, bị mờ cần làm rõ các chi tiết trước khi đưa vào xử lý
Trang 34a)Nhiễu ảnh
Một số loại nhiễu ảnh thường gặp:
- Nhiễu cộng : nhiễu cộng thường phân bố khắp ảnh Nếu ta gọi ảnh quan sát ( ảnh thu được) là Xqs, ảnh gốc là Xgốc và nhiễu là , ảnh thu được có thể biểu diễn bởi: Xqs = Xgốc + .[2]
- Nhiễu nhân : Nhiễu nhân thường phân bố khắp ảnh và ảnh thu được sẽ biểu diễn với công thức: Xqs = Xgốc * .[2]
- Nhiễu xung : Nhiễu xung thường gây đột biến ở một số điểm của ảnh[2] Trong hầu hết các trường hợp thừa nhận nhiễu là tuần hoàn Các phương pháp lọc đề cập trong báo cáo xét với các trường hợp ảnh chỉ có sự xuất hiện của nhiễu
b)Lọc nhiễu
Nhiễu là một tập các điểm sáng thừa trên ảnh Khử nhiễu là một vấn
đề thường gặp trong nhận dạng, nhiễu có nhiều loại (nhiễu đốm, nhiễu vệt, nhiễu đứt nét )
Hình 2.1 Nhiễu đốm và nhiễu vệt
Để khử các nhiễu đốm ( các nhiễu với kích thước nhỏ ), có thể sử dụng các phương pháp lọc ( lọc trung bình, lọc trung vị ) Tuy nhiên, với các nhiễu vệt ( hoặc các nhiễu có kích thước lớn ) thì các phương pháp lọc tỏ ra kém hiệu quả, trong trường hợp này sử dụng phương pháp khử các vùng liên thông nhỏ tỏ ra có hiệu quả hơn
2.1.2.Chuẩn hóa kích thước ảnh
Việc chuẩn hóa kích thước ảnh dựa trên việc xác định trọng tâm ảnh, sau đó xác định khoảng cách lớn nhất từ tâm ảnh đến các cạnh trên, dưới, trái, phải của hình chữ nhật bao quanh ảnh Thông qua khoảng cách lớn nhất đó, có thể xác định
Trang 35được một tỷ lệ co, giãn của ảnh gốc so với kích thước đã xác định, từ đó hiệu chỉnh kích thước ảnh theo tỷ lệ co, giãn này Như vậy, thuật toán chuẩn hóa kích thước ảnh luôn luôn đảm bảo được tính cân bằng khi co giãn ảnh, ảnh sẽ không bị biến dạng hoặc bị lệch
Hình 2.2 Chuẩn hóa kích thước ảnh các ký tự “A” và “P”
2.1.3.Làm trơn biên chữ
Đôi khi do chất lượng quét ảnh quá xấu, các đường biên của chữ không còn giữ được dáng điệu trơn tru ban đầu mà hình thành các đường răng cưa giả tạo Trong các trường hợp này, phải dùng các thuật toán làm trơn biên để khắc phục
Hình 2.3 Làm mảnh chữ
Trang 362.1.6.Điều chỉnh độ nghiêng của văn bản
Do trang tài liệu quét vào không cẩn thận hoặc do sự cố in ấn, các hàng chữ
bị lệch so với lề chuẩn một góc a, điều này gây khó khăn cho công đoạn tách chữ,
đôi khi không thể tách được Trong những trường hợp như vậy, phải tính lại tọa độ điểm ảnh của các chữ bị sai lệch Có nhiều kỹ thuật để điều chỉnh độ nghiêng, kỹ thuật phổ biến nhất dựa trên cơ sở biểu đồ chiếu (projection profile) của ảnh tài liệu; một số kỹ thuật dựa trên cơ sở các phép biến đổi Hough và Fourier
Hình 2.4 Hiệu chỉnh độ nghiêng của văn bản
2.2.Các phương pháp trích chọn đặc trưng cơ bản cho ảnh tài liệu
Trích chọn đặc trưng là bài toán thu thập thông tin từ dữ liệu thô, trích chọn những thông tin hữu ích từ hình ảnh tài liệu Bộ nhớ được giảm tải chỉ cần lưu giữ thông tin cần thiết, tạo cho hệ thống trở nên nhanh hơn và tìm kiếm tài liệu hiệu quả hơn Khi một hoặc nhiều đặc trưng được trích chọn sẽ được lưu trong cơ sở dữ liệu
để sử dụng cho công việc sau này Số lượng thông tin hữu ích mà một máy tính lấy
ra từ hình ảnh là yếu tố rất quan trọng quyết định tính thông minh, cũng như hiệu quả của hệ thống truy tìm hình ảnh Nhiều đặc trưng khác nhau đã được sử dụng trong xử lý ảnh và nhận dạng mẫu (đại diện hình ảnh tài liệu) Trong trường hợp đơn giản nhất, ảnh đa cấp xám hoặc ảnh nhị phân được sử dụng cho việc nhận dạng Tuy nhiên, trong hầu hết các hệ nhận dạng, để giảm độ phức tạp và tăng độ chính xác của các thuật toán phân lớp thì đòi hỏi các đặc trưng được trích chọn phải rút gọn lại càng nhỏ càng tốt nhưng vẫn phải đảm bảo được thông tin của ký tự Với mục tiêu này, một tập các đặc trưng được trích chọn cho mỗi lớp sao cho có thể phân biệt được với các lớp khác
Trang 37Có hàng trăm phương pháp trích chọn đặc trưng cho ảnh văn bản, nhưng chung quy lại, các phương pháp này được gom lại thành ba nhóm chính sau:
a) Biến đổi toàn cục và khai triển chuỗi
Một tín hiệu liên tục thường chứa nhiều thông tin và chúng có thể sử dụng làm các đặc trưng cho mục đích phân lớp Các đặc trưng được trích chọn cũng có thể đúng đối với việc xấp xỉ các tín hiệu liên tục thành các tín hiệu rời rạc Một cách
để biểu diễn một tín hiệu là sử dụng một tổ hợp tuyến tính của một dãy các hàm đơn giản hơn Một số biến dạng khác như các phép dịch chuyển và phép quay là bất biến dưới các phép biến đổi toàn cục và khai triển chuỗi Sau đây là một số phương pháp biến đổi và khai triển chuỗi thường được áp dụng trong lĩnh vực nhận dạng chữ:
Biến đổi Fourier: Một trong những tính chất nổi bật nhất của phép biến đổi Fourier
là khả năng nhận dạng các ký tự có sự thay đổi về các tư thế khác nhau, các phép biến đổi này đã được áp dụng để nhận dạng ký tự theo nhiều cách khác nhau
Biến đổi Wavelet: Phép biến đổi này là một dãy các kỹ thuật khai triển cho phép
mô tả đặc trưng của ảnh ở các mức độ khác nhau Các công đoạn tách chữ thành các
ký tự hoặc từ được mô tả bằng các hệ số wavelet theo các mức độ khác nhau đối với từng giải pháp Sau đó các hệ số wavelet được chuyển qua một máy phân lớp để phục vụ cho việc nhận dạng
Phương pháp mô men: Theo phương pháp này, ảnh gốc sẽ được thay thế bằng một
tập các đặc trưng vừa đủ của để nhận dạng các đối tượng bất biến đối với các phép thay đổi tỷ lệ, tịnh tiến hoặc quay Các mô men được xét như các dãy khai triển đặc trưng vì ảnh gốc có thể xây dựng lại một cách đầy đủ từ các hệ số mô men
Khai triển Karhunent-Loeve: Việc khai triển này nhằm phân tích các véc tơ riêng
để rút gọn số chiều của tập đặc trưng bằng cách tạo ra các đặc trưng mới là tổ hợp tuyến tính của các đặc trưng gốc Đây chỉ là một phép biến đổi tối ưu trong một số giới hạn nào đó của việc nén thông tin Tuy nhiên, để tăng tốc độ tính toán cho các máy phân lớp, các đặc trưng này trở nên thiết thực hơn cho các hệ nhận dạng chữ trong những năm gần đây
b) Đặc trưng thống kê
Các đặc trưng thống kê của ảnh văn bản bảo toàn các kiểu biến đổi đa dạng về hình
Trang 38dáng của chữ Mặc dù các kiểu đặc trưng này không thể xây dựng lại ảnh gốc, nhưng nó được sử dụng để thu nhỏ số chiều của tập đặc trưng nhằm tăng tốc độ và giảm thiểu độ phức tạp tính toán Sau đây là một số đặc trưng thống kê thường dùng
để biểu diễn ảnh ký tự:
Phân vùng (zoning): Khung chứa ký tự được chia thành một vài vùng chồng nhau
hoặc không chồng nhau Mật độ của các điểm ảnh trong các vùng khác nhau được phân tích và tạo thành các đặc trưng
Các giao điểm và khoảng cách: Một đặc trưng thống kê phổ biến là số giao điểm
giữa chu tuyến của chữ với một đường thẳng theo một hướng đặc biệt nào đó Khung chứa ký tự được phân chia thành một tập các vùng theo các hướng khác nhau và sau đó các dãy đen trong mỗi vùng được mã hóa bởi các số lũy thừa của 2 Tương tự như vậy, khoảng cách từ biên của khung chứa ảnh tới điểm đen đầu tiên của chu tuyến chữ trên cùng một dòng quét cũng được sử dụng như những đặc trưng thống kê
Các phép chiếu: Các ký tự có thể được biểu diễn bằng cách chiếu các giá trị mức
xám của từng điểm lên trên các dòng theo các hướng khác nhau Các đặc trưng này tạo ra dãy tín hiệu một chiều từ ảnh hai chiều
Đặc trưng hướng: Các ký tự bao gồm các nét chữ, các nét này là các đoạn thẳng có
hướng, các cung hoặc các đường cong Hướng của các nét đóng vai trò quan trọng trong việc so sánh sự khác nhau giữa các ký tự Các ký tự được mô tả như các véc
tơ mà các phần tử của nó là các giá trị thống kê về hướng Để trích chọn các đặc trưng này, góc định hướng của nét chữ phải được phân chia thành một số vùng cố định và số các đoạn của nét chữ trong mỗi vùng góc được chọn như một giá trị đặc trưng Vì vậy, tập các số lượng của các đoạn định hướng sẽ tạo thành một biểu đồ được gọi là biểu đồ hướng và các đặc trưng về biểu đồ hướng có thể gọi chung là đặc trưng hướng Các ảnh ký tự được phân rã thành các mặt phẳng định hướng và một độ đo khoảng cách được tính giữa các mặt phẳng đó với mẫu của mỗi lớp Hướng nét chữ cục bộ của một ký tự có thể được xác định bằng nhiều cách khác nhau: hướng của xương, phân đoạn nét chữ, mã hóa chu tuyến, hướng đạo hàm
Trang 39Hiện nay, các đặc trưng mã hóa chu tuyến và hướng đạo hàm được áp dụng rộng rãi
vì chúng dễ cài đặt và xấp xỉ bất biến với sự biến đổi đa dạng của các chữ
c) Đặc trưng hình học và hình thái
Các tính chất cục bộ và toàn cục khác nhau của các ký tự có thể được biểu diễn bằng các đặc trưng hình học và hình thái Các kiểu đặc trưng này cũng có thể giải mã một số tri thức về cấu trúc của đối tượng ảnh hoặc có thể cung cấp một số tri thức như sắp xếp các thành phần để tạo ra đối tượng Các loại đặc trưng này có thể phân thành các nhóm sau:
Trích chọn và đếm các cấu trúc hình thái: trong nhóm đặc trưng này, một cấu
trúc đã xác định được tìm kiếm trong một ký tự hoặc một từ Số lượng vị trí hoặc quan hệ vị trí của các cấu trúc trong ký tự này tạo thành các đặc trưng biểu diễn ký
tự Thông thường, các cấu trúc nguyên thủy (các đoạn thẳng, các cung) là các nét tạo ra ký tự Các ký tự và các từ có thể được mô tả bằng cách trích chọn và đếm nhiều loại đặc trưng về hình thái như các điểm cực đại và cực tiểu, các điểm chóp trên và chóp dưới của một ngưỡng nào đó, mở rộng cho các điểm trái, phải, trên, dưới và các giao điểm, các điểm nhánh, điểm cuối đoạn thẳng, hướng của một nét
từ một điểm đặc biệt, các điểm cô lập đã tạo nên các ký tự
Đo và xấp xỉ các tính chất hình học: các ký tự được biểu diễn bằng độ đo của các
đại lượng hình học như tỷ số giữa chiều rộng và chiều cao của hộp chứa ký tự, quan
hệ khoảng cách giữa hai điểm, so sánh độ dài giữa hai nét, độ rộng của một nét, khối lượng chữ hoa và chữ thường của các từ, độ dài từ Một độ đo tiêu biểu rất quan trọng nữa là độ cong hoặc thay đổi độ cong Các đại lượng hình học đo được
có thể xấp xỉ bởi một tập các đặc trưng hình học vừa đủ và thuận tiện hơn Đồ thị và cây: Đầu tiên, các từ hoặc các ký tự được phân chia thành một tập các đối tượng nguyên thủy như các nét, các điểm chạc Sau đó, các thành phần nguyên thủy được thay thế bằng các thuộc tính hoặc các đồ thị liên quan Có hai loại đặc trưng ảnh được mô tả bằng đồ thị: Loại thứ nhất sử dụng các tọa độ của hình dáng ký tự Loại thứ hai là một đặc trưng trừu tượng, các nút của đồ thị tương ứng với các nét chữ và các cạnh của đồ thị tương ứng với các mối quan hệ giữa các nét chữ Cây cũng có thể dùng để biểu diễn các từ và các ký tự với một tập các đặc trưng theo một quan hệ
Trang 402.3.Trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu
Những đặc trưng phổ biển được sử dụng là những đặc trưng hình học, đặc trưng về hình dạng, đặc trưng về mật độ điểm ảnh ở mỗi vùng Tập hợp những đặc trưng đó tạo nên vectơ đặc trưng cho một từ Đầu vào của ảnh tài liệu đa số là ảnh màu, để giảm bớt các đặc trưng có thể tác động lên kết quả tìm kiếm thì ảnh đầu vào cần chuyển đổi thành ảnh nhị phân, quá trình chuyển ảnh đầu vào sang ảnh nhị phân được thực hiện gián tiếp sang ảnh xám
2.3.1.Chuyển ảnh xám
Thông thường việc lưu trữ các tài liệu văn bản dạng chữ thông qua các máy ảnh hoặc máy quét, ảnh được thu nhận thường là ảnh màu Để dễ dàng hơn trong việc xử lý, những ảnh màu thường được chuyển về những ảnh đơn giản hơn như là
ảnh xám, rồi sau đó chuyển thành ảnh nhị phân
Công thức để chuyển ảnh màu về ảnh xám được tính như sau:
Gray = Red* 0.298 + 0.588* Green + 0.114*Blue (2.3.1)
Hình 2.5 Ảnh màu được chuyển sang ảnh xám tính theo công thức trên