Nghiên cứu kỹ thuật SVM trong kiểm soát nội dung hình ảnh luận văn thạc sĩ

Nội dung thực hiện: - Tìm hiểu khái quát về xử lý ảnh và bài toán kiểm soát nội dung hình ảnh; - Nghiên cứu một số vấn đề về SVM Support vector machines và ứng dụng trong bài toán phát h

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG

Trang 3

Tôi chân thành cảm ơn PGS.TS Đỗ Năng Toàn, thầy đã tận tình hướng dẫn, giúp đỡ và đóng góp ý kiến cho tôi trong suốt quá trình thực hiện đề tài luận văn

Tôi chân thành cảm ơn các thầy, cô Khoa Công nghệ Thông tin - Trường Đại học Lạc Hồng và các thầy, cô khác đã tận tình giảng dạy, truyền đạt cho tôi những kiến thức quý báu trong quá trình học tập

Tôi chân thành cảm ơn các thầy cô phòng Sau đại học - Trường Đại học Lạc Hồng, các đồng nghiệp và các bạn học lớp Cao học Công nghệ thông tin khoá 2 - Trường Đại học Lạc Hồng đã hỗ trợ, tạo điều kiện thuận lợi cũng như đóng góp những ý kiến thiết thực cho tôi trong suốt quá trình học tập và đặc biệt

đã giúp luận văn của tôi được hoàn thiện hơn

Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình học tập và thực hiện đề tài luận văn này

Đồng Nai, ngày 21 tháng 9 năm 2012

Trần Minh Tân

Trang 4

Tôi xin cam đoan đây là công trình nghiên cứu độc lập của bản thân Các

số liệu, kết quả trình bày trong luận văn này là trung thực Những tƣ liệu đƣợc

sử dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ

Tác giả

Trần Minh Tân

Trang 5

Tên đề tài luận văn: NGHIÊN CỨU KỸ THUẬT SVM TRONG KIỂM SOÁT NỘI DUNG HÌNH ẢNH

Học viên thực hiện: Trần Minh Tân sinh ngày: 05/08/1980

Người hướng dẫn khoa học: PGS.TS Đỗ Năng Toàn

1 Mục tiêu của luận văn:

Hiểu rõ lý thuyết về xử lý ảnh và kỹ thuật SVM trong kiểm soát nội dung hình ảnh Xây dựng ứng dụng phát hiện ảnh nghi ngờ là ảnh đen (ảnh đồi trụy)

2 Nội dung thực hiện:

- Tìm hiểu khái quát về xử lý ảnh và bài toán kiểm soát nội dung hình ảnh;

- Nghiên cứu một số vấn đề về SVM (Support vector machines) và ứng dụng trong bài toán phát hiện, nhận dạng hình ảnh;

- Nghiên cứu một số đặc điểm của hình ảnh đen;

- Thiết kế, phát triển chương trình thử nghiệm;

- Xây dựng báo cáo sơ bộ và hoàn chỉnh báo cáo

 Giai đoạn huấn luyện: Các ảnh mẫu được véc tơ hóa x = {x1, ,x100} rồi dùng phương pháp PCA để rút trích đặc trưng thành véc tơ y = {y1, ,y100} rồi đưa vào bộ huấn luyện SVM

 Giai đoạn nhận dạng: Mẫu cần nhận dạng được cũng được véc tơ hóa và rút trích như trên sau đó đưa vào bộ nhận dạng SVM để xác định lớp cho mẫu

- Nghiên cứu những đặc điểm, đặc trưng của “ảnh đen”

- Thiết kế, phát triển và cài đặt thử nghiệm chương trình ứng dụng

Trang 6

- Hệ thống hóa một số vấn đề về ứng dụng kỹ thuật SVM trong nhận dạng hình ảnh

- Cài đặt thử nghiệm chương trình nhận dạng ảnh đen sử dụng kỹ thuật SVM

5 Hướng phát triển tiếp theo:

 Phát triển thành chương trình phát hiện ảnh “đen” trên máy tính cá nhân

 Tích hợp, phát triển thành ứng dụng phát hiện và lọc, chặn ảnh “đen” đối với các Website Đồng thời có thể thương mại hóa ứng dụng phục vụ công tác quản lý nhà nước cho ngành thông tin và truyền thông cũng như các lĩnh vực khác

 Phát hiện ảnh chuyển động (video, ảnh GIF, flash…)

 Mở rộng nghiên cứu một số lĩnh vực liên quan: nhận dạng ảnh bạo lực, nhận dạng vân tay, nhận dạng mống mắt,…

Trang 7

Trang phụ bìa

Lời cảm ơn

Lời cam đoan

Tóm tắt luận văn

Mục lục

Danh mục các từ viết tắt

Danh mục hình vẽ

PHẦN MỞ ĐẦU 01

Chương 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ KIỂM SOÁT HÌNH ẢNH 03

1.1 KHÁI QUÁT VỀ XỬ LÝ ẢNH 03

1.1.1 Các khái niệm cơ bản 03

1.1.1.1 Xử lý ảnh 03

1.1.1.2 Điểm ảnh 03

1.1.1.3 Ảnh 04

1.1.1.4 Mức xám của ảnh 04

1.1.1.5 Độ phân giải của ảnh 05

1.1.2 Các bước xử lý ảnh số 05

1.1.2.1 Thu nhận ảnh 06

1.1.2.2 Tiền xử lý 06

1.1.2.3 Phân vùng ảnh 13

1.1.2.4 Trích chọn đặc trưng 14

1.1.2.5 Nhận dạng và nội suy ảnh 15

1.1.2.6 Hậu xử lý 16

1.2 KIỂM SOÁT THÔNG TIN HÌNH ẢNH 19

1.2.1 Nhận dạng ảnh 19

1.2.1.1 Giới thiệu 19

1.2.1.2 Nhận dạng ảnh theo miền không gian 22

1.2.1.3 Nhận dạng dựa theo cấu trúc 26

1.2.2 Kiểm soát thông tin dựa trên hình ảnh 29

Chương 2: KỸ THUẬT SVM TRONG PHÁT HIỆN ẢNH ĐEN 30

2.1 Những khái niệm cơ bản về SVM 30

2.1.1 Bài toán phân lớp 31

2.1.2 Phân lớp tuyến tính 32

Trang 8

2.2 Cơ sở lý thuyết SVM 36

2.2.1 Bài toán phân 2 lớp với SVM 36

2.2.2 Bài toán phân nhiều lớp với SVM 41

2.2.3 Trường hợp dữ liệu không thể phân tách được 41

2.3 Kỹ thuật SVM trong bài toán phát hiện ảnh đen 44

2.3.1 Giai đoạn huấn luyện 44

2.3.2 Giai đoạn xử lý phát hiện ảnh đen 51

Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 52

3.1 BÀI TOÁN PHÁT HIỆN ẢNH “ĐEN” 52

3.2.1 Một số đặc điểm ảnh “đen” 52

3.2.2 Các vấn đề gây nhầm lẫn 52

3.2 KIỂM SOÁT ẢNH “ĐEN” SỬ DỤNG SVM 53

3.2.1 Thu thập, phân tích và xử lý dữ liệu 53

3.2.2 Cài đặt chương trình 54

3.2.2.1 Module tiền xử lý 54

3.2.2.2 Module trích chọn đặc trưng 54

3.2.2.3 Module huấn luyện SVM 56

3.2.3 Chương trình kiểm soát ảnh “đen” BreastSVM 57

3.2.3.1 Một số hình ảnh về chương trình 57

3.2.3.2 Môi trường thử nghiệm 61

3.2.3.3 Kết quả thực nghiệm 61

PHẦN KẾT LUẬN 63 TÀI LIỆU THAM KHẢO

Trang 9

Ảnh đen: Ảnh có nội dung đồi trụy

CGA: Color Graphic Adaptor

CNTT: Công nghệ Thông tin

DIB: Device Independent Bitmap

KKT: Karush-Kuhn-Tucker

PLD: Picture Language Description

SRM: Structural Risk Minimization

SVM: Support Vector Machines

Trang 10

Hình 1.1: Quá trình xử lý ảnh 03

Hình 1.2: Các bước cơ bản trong một hệ thống xử lý ảnh 05

Hình 1.3: Sơ đồ phân tích, xử lý ảnh và lưu đồ thông tin giữa các khối 06

Hình 1.4: Ảnh thu nhận và ảnh mong muốn 07

Hình 1.5: Dãn độ tương phản 12

Hình 1.6: Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB 18

Hình 1.7: Sự chuyển đổi giữa các mô hình biểu diễn ảnh 19

Hình 1.8: Mô hình cấu trúc của đối tượng nhà 21

Hình 1.9: Sơ đồ tổng quát hệ thống nhận dạng ảnh 22

Hình 1.10: Các phép toán trong ngôn ngữ PLD 28

Hình 2.1 Phân tách theo siêu phẳng (w,b) trong không gian 2 chiều của tập mẫu 33

Hình 2.2 Siêu Phẳng tối ưu 34

Hình 2.3 Ánh xạ Φ từ không gian dữ liệu X sang không gian đặc trưng F 36

Hình 2.4 Minh họa cho bài toán phân hai lớp 37

Hình 2.5 Minh họa bài toán phân hai lớp với phương pháp SVM 39

Hình 2.6 Bài toán SVM trong TH dữ liệu mẫu không phân tách tuyến tính 40

Hình 2.7 Mô phỏng phân lớp có quá nhiều đặc trưng hay biến động 47

Hình 3.1: Xử lý dữ liệu 53

Hình 3.2: Hình ảnh đầu vào và hình ảnh sau quá trình phát hiện da 55

Hình 3.3: Ảnh được trích chọn đặc trưng 56

Hình 3.4: Giao diện ban đầu khi chạy chương trình 58

Hình 3.5: Phân vùng bộ phận “đen” trên video 59

Hình 3.6: Phân 2 vùng bộ phận “đen” trên ảnh 60

Hình 3.7: Không phân vùng bộ phận “đen” trên ảnh 60

Hình 3.8: Phát hiện không chính xác ảnh đen 61

Trang 11

PHẦN MỞ ĐẦU

Trong thời đại hiện nay, sự phát triển của CNTT kéo theo sự phát triển của nhiều lĩnh vực khác, làm tăng số lượng giao dịch thông tin trên Internet Thông tin ngày một nhiều, tốc độ thay đổi của chúng cũng cực kỳ nhanh, hoạt động của các lĩnh vực cũng đặt ra nhu cầu xử lý một khối lượng thông tin đồ

sộ Một yêu cầu lớn đặt ra là làm thế nào để tổ chức, tìm kiếm thông tin một cách hiệu quả và phân loại thông tin là một trong những giải pháp hợp lý cho yêu cầu này Nếu xử lý và phân loại dữ liệu thủ công là điều không tưởng với

số lượng dữ liệu khổng lồ như vậy Giải pháp được đặt ra là sử dụng máy tính

để tự động phân loại các thông tin Kỹ thuật SVM được đánh giá là công cụ mạnh và tinh vi nhất hiện nay cho những bài toán phân lớp phi tuyến Nhiều ứng dụng đã và đang được xây dựng trên kỹ thuật SVM rất hiệu quả, trong đó

có những bài toán trong lĩnh vực xử lý ảnh

Ở Việt Nam, những nghiên cứu mang tính thực nghiệm cũng đang được định hướng và thu được một số kết quả ban đầu tuy còn hạn chế Vì vậy, việc cập nhật kiến thức và tiếp cận một lĩnh vực mũi nhọn của khoa học công nghệ trong việc giải quyết một bài toán cụ thể là rất cần thiết

Trước sự bùng nổ của các website với đủ loại nội dung sex, bạo lực, phản động các nhà quản lý bối rối vì khó kiểm soát, chuyên gia an ninh mạng cho rằng không thể tận diệt, còn phụ huynh thì lo lắng Để giải quyết bài toán trên, luận văn sẽ nghiên cứu giải pháp kiểm soát ảnh đen Từ đó có thể phát triển thành ứng dụng có khả năng lọc, chặn ảnh đen góp phần giúp các phụ huynh quản lý, bảo vệ con em mình khỏi những thông tin độc hại trên Internet Ngoài ra cũng giúp ngăn chặn những trang web xấu cho các đại lý Internet công cộng, hệ thống mạng máy tính của các công sở, trường học, các

tổ chức, doanh nghiệp có kết nối Internet Và đặc biệt góp phần phục vụ hiệu quả cho công tác quản lý nhà nước về thông tin điện tử trên địa bàn tỉnh Đồng Nai

Trang 12

Từ mục tiêu đó, luận văn tập trung nghiên cứu kỹ thuật SVM và áp dụng

kỹ thuật này cho bài toán phát hiện ảnh có nội dung đồi trụy (gọi tắt là ảnh

“đen”)

Cấu trúc luận văn gồm Phần mở đầu, Phần kết luận và ba chương nội dung cụ thể:

• Chương 1: Khái quát về xử lý ảnh và kiểm soát hình ảnh

• Chương 2: Kỹ thuật SVM trong phát hiện ảnh đen

• Chương 3: Xây dựng chương trình thử nghiệm phát hiện ảnh “đen” sử dụng SVM

Trang 13

Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ họa đã phát triển một cách mạnh mẽ và có nhiều ứng dụng được áp dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người - máy

Mục đích của xử lý ảnh là nâng cao chất lượng ảnh phục vụ con người

và xử lý ảnh dữ liệu dạng hình ảnh để máy tính có thể hiểu được từ đó đưa ra những quyết định cần thiết

Hình 1.1: Quá trình xử lý ảnh

Xử lý ảnh có nhiều ứng dụng trong đời sống như: nhận dạng ảnh vệ tinh,

dự báo thời tiết, viễn thám, ảnh y tế, khoa học hình sự, điện ảnh…

1.1.1.2 Điểm ảnh

Điểm ảnh (Pixel) là một phần tử của ảnh số tại tọa độ (x, y) với độ xám

hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi là một phần tử ảnh

Trang 14

1.1.1.3 Ảnh

Ảnh số là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh gần giống với ảnh thật

Ảnh được tạo nên từ hàng trăm ngàn cho đến hàng triệu ô vuông rất nhỏ

- được coi là những nhân tố của bức ảnh và thường được biết dưới tên gọi là điểm ảnh Máy tính hay máy in sử dụng những ô vuông nhỏ này để hiển thị hay in ra bức ảnh Để làm được điều đó máy tính hay máy in chia màn hình, trang giấy thành một mạng lưới chứa các ô vuông, sau đó sử dụng các giá trị chứa trong file ảnh để định ra màu sắc, độ sáng, tối của từng pixel trong mạng lưới đó, đó là cơ sở để ảnh số được hình thành Việc kiểm soát, định ra địa chỉ theo mạng lưới như trên được gọi là bit mapping và ảnh số còn được gọi là ảnh bitmap

1.1.1.4 Mức xám của ảnh

 Định nghĩa: Mức xám (grey level) của điểm ảnh là cường độ sáng của

nó được gán bằng giá trị số tại điểm đó

 Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức

256 là mức phổ dụng bởi vì trong kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức xám dùng một byte biểu diễn:

28=256 mức, tức là từ 0 đến 255)

 Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác)

với mức xám ở các điểm ảnh có thể khác nhau

 Ảnh nhị phân: ảnh chỉ có hai mức đen trắng phân biệt, tức dùng một

bit mô tả 2 mức khác nhau Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1

 Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo

nên thế giới màu, người ta thường dùng ba byte để mô tả mức màu, khi đó các giá trị màu: 28*3

= 224 ≈ 16,7 triệu màu

Trang 15

1.1.1.5 Độ phân giải của ảnh

Định nghĩa: Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được

ấn định trên một ảnh số được hiển thị

Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố

theo trục x và y trong không gian hai chiều

Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một lưới điểm theo chiều ngang màn hình: 320 điểm, chiều dọc ×

200 điểm ảnh (320×200) Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320×200 Lý do: cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn

1.1.2 Các bước xử lý ảnh số

Một hệ thống xử lý ảnh có sơ đồ tổng quát như sau:

Hình 1.2: Các bước cơ bản trong một hệ thống xử lý ảnh

Trang 16

Hình 1.3: Sơ đồ phân tích, xử lý ảnh và lưu đồ thông tin giữa các khối

Sau đây sẽ trình bày một số kỹ thuật xử lý ảnh cần thiết phục vụ cho việc cài đặt chương trình thử nghiệm (theo các bước trong hình 1.2), còn các thành phần khác sẽ được giới thiệu ở mức cơ bản

Nhìn chung các hệ thống thu nhận ảnh thực hiện 1 quá trình:

 Cảm biến: biến đổi năng lượng quang học thành năng lượng điện

 Tổng hợp năng lượng điện thành ảnh

1.1.2.2 Tiền xử lý

Sau bộ thu nhận, ảnh có thể nhiễu và độ tương phản thấp nên cần đưa

vào bộ tiền xử lý (Image Processing) để nâng cao chất lượng Chức năng

chính của bộ tiền xử lý là nắn chỉnh biến dạng, lọc nhiễu, chỉnh mức xám, nâng độ tương phản để làm ảnh rõ hơn, nét hơn

Trang 17

Các thuật toán triển khai việc nâng cao chất lượng ảnh hầu hết dựa trên các kỹ thuật trong miền điểm, không gian và tần số Toán tử điểm là phép biến đổi đối với từng điểm ảnh đang xét, không liên quan đến các điểm lân cận khác Trong khi đó, toán tử không gian sử dụng các điểm lân cận để quy chiếu tới điểm ảnh đang xét Một số phép biến đổi có tính toán phức tạp được chuyển sang miền tần số để thực hiện, kết quả cuối cùng được chuyển trở lại miền không gian nhờ các biến đổi ngược

a Nắn chỉnh biến dạng

Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử

Ảnh thu nhận Ảnh mong muốn

Hình 1.4: Ảnh thu nhận và ảnh mong muốn

Các nguyên nhân biến dạng do:

 Do camera, đầu thu ảnh chất lượng kém

 Do môi trường, ánh sáng, hiện trường (scene), khí quyển, nhiễu xung

Trang 18

Trước khi xem xét chi tiết các kỹ thuật áp dụng, cần phân biệt các loại nhiễu hay can thiệp trong quá trình xử lý ảnh Trên thực tế tồn tại nhiều loại nhiễu; tuy nhiên người ta thường xem xét ba loại nhiễu chính: nhiễu cộng, nhiễu nhân và nhiễu xung:

 Nhiễu cộng: Nhiễu cộng thường phân bố khắp ảnh Nếu gọi ảnh quan

sát (ảnh thu được) là Xqs, ảnh gốc là Xgốc, nhiễu là η, ảnh thu được có

thể biểu diễn bởi:

X qs = X gốc + η

 Nhiễu nhân: Nhiễu nhân thường phân bố khắp ảnh và ảnh thu được sẽ biểu diễn với công thức:

Trang 19

X qs = X gốc * η

 Nhiễu xung: Nhiễu xung thường gây đột biến tại một số điểm ảnh

Làm trơn nhiễu bằng lọc tuyến tính: lọc trung bình và lọc dải thông thấp

Do có nhiều loại nhiễu can thiệp vào quá trình xử lý ảnh nên cần có nhiều bộ lọc thích hợp Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc

thông thấp, trung bình và lọc đồng hình (Homomorphie); với nhiễu xung ta dùng lọc trung bị, giả trung vị, lọc ngoài (Outlier)

i Lọc trung bình không gian

Với lọc trung bình, mỗi điểm ảnh được thay thế bằng trung bình trọng số của các điểm lân cận và được định nghĩa như sau:

Nếu trong kỹ thuật lọc trên, ta dùng các trọng số như nhau, phương trình 1.3 trên sẽ trở thành:

với : y(m, n): ảnh đầu vào,

v(m, n): ảnh đầu ra, a(k, l) : là cửa sổ lọc

với và Nw là số điểm ảnh trong cửa sổ lọc W

Lọc trung bình có trọng số chính là thực hiện chập ảnh đầu vào với nhân

chập H Nhân chập H trong trường hợp này có dạng:

Trong lọc trung bình, thường người ta ưu tiên cho các hướng để bảo vệ biên của ảnh khỏi bị mờ khi làm trơn ảnh Các kiểu mặt nạ được sử dụng tùy

1.3

Trang 20

theo các trường hợp khác nhau Các bộ lọc trên là bộ lọc tuyến tính theo nghĩa

là điểm ảnh ở tâm cửa số sẽ được thay bởi tổ hợp các điểm lân cận chập với mặt nạ

Giả sử đầu vào biểu diễn bởi ma trận I:

Ảnh số thu được bởi lọc trung bình Y=H⊗ I có dạng:

Một bộ lọc trung bình không gian khác cũng hay được sử dụng Phương trình của bộ lọc đó có dạng:

Ở đây, nhân chập H có kích thuớc 2x2 và mỗi điểm ảnh kết quả có giá trị

bằng trung bình cộng của nó với trung bình cộng của bốn lân cận gần nhất

Lọc trung bình trọng số là một trường hợp riêng của lọc thông thấp

Trang 21

Ta dễ dàng nhận thấy khi b =1, H b chính là nhân chập H t1 (lọc trung

bình) Để hiểu rõ hơn bản chát khử nhiễu cộng của các bộ lọc này, ta viết lại phương trình thu nhận ảnh dưới dạng:

Trong đó η[m, n] là nhiễu cộng có phương sai σ 2

n Như vậy, theo cách tính của lọc trung bình ta có:

Như vậy, nhiễu cộng trong ảnh đã giảm đi N w lần

c Tăng độ tương phản

Trước tiên cần làm rõ khái niệm độ tương phản Ảnh số là tập hợp các điểm ảnh, mà mỗi điểm ảnh có giá trị độ sáng khác nhau Ở đây, độ sáng để mắt người dễ cảm nhận ảnh, song không phải là quyết định Thực tế chỉ ra rằng hai đối tượng có cùng độ sáng nhưng đặt trên hai nền khác nhau sẽ cho cảm nhận khác nhau Như vậy, độ tương phản biểu diễn sự thay đổi độ sáng của đối tượng so với nền Và cũng có thể hiểu rằng, độ tương phản là độ nổi của điểm ảnh hay vùng ảnh so với nền Với định nghĩa này, nếu ảnh có độ tương phản kém, ta có thể thay đổi tuỳ ý theo ý muốn

Ảnh với độ tương phản thấp có thể do điều kiện sáng không đủ hay không đều, hoặc do tính không tuyến tính hay biến động nhỏ của bộ cảm nhận ảnh Để điều chỉnh lại độ tương phản của ảnh, ta điều chỉnh lại biên độ trên

1.4

Trang 22

toàn dải hay trên dải có giới hạn bằng cách biến đổi tuyến tính biên độ đầu vào (dùng hàm biến đổi là hàm tuyến tính) hay phi tuyến (hàm mũ hay hàm lôgarít) Khi dùng hàm tuyến tính các độ dốc , ,  phải chọn lớn hơn một

trong miền cần dãn Các tham số a và b (các cận) có thể chọn khi xem xét

Giả sử ta có ảnh I có kích thước m × n và số nguyên c

Khi đó, kỹ thuật tăng, giảm độ sáng được thể hiện

Trang 23

d Chỉnh mức xám

Nhằm khắc phục tính không đồng đều của hệ thống gây ra Thông thường có hai hướng tiếp cận:

 Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau

thành một bó Trường hợp chỉ có hai mức xám thì chính là chuyển về ảnh đen trắng Ứng dụng: In ảnh màu ra máy in đen trắng

 Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng

kỹ thuật nội suy Kỹ thuật này nhằm tăng cường độ mịn cho ảnh 1.1.2.3 Phân vùng ảnh

Phân vùng ảnh là bước then chốt trong xử lý ảnh Giai đoạn này nhằm phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên thông Tiêu chuẩn để xác định các vùng liên thông có thể là cùng mức xám, cùng màu hay cùng độ nhám Trước hết cần làm rõ khái

niệm "vùng ảnh" (Segment) và đặc điểm vật lý của vùng

Vùng ảnh là một chi tiết, một thực thể trông toàn cảnh Nó là một tập hợp các điểm có cùng hoặc gần cùng một tính chất nào đó như: mức xám, mức màu, độ nhám… Vùng ảnh là một trong hai thuộc tính của ảnh Nói đến vùng ảnh là nói đến tính chất bề mặt Đường bao quanh một vùng ảnh

(Boundary) là biên ảnh Các điểm trong một vùng ảnh có độ biến thiên giá trị

mức xám tương đối đồng đều hay tính kết cấu tương đồng

Dựa vào đặc tính vật lý của ảnh, người ta có nhiều kỹ thuật phân vùng: phân vùng dựa theo miền liên thông gọi là phân vùng dựa theo miền đồng nhất hay miền kề; phân vùng dựa vào biên gọi là phân vùng biên Ngoài ra còn có các kỹ thuật phân vùng khác dựa vào biên độ, phân vùng dựa theo kết cấu

Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này

Trang 24

1.1.2.4 Trích chọn đặc trưng

Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn) cộng với mã liên kết với các vùng lận cận Việc biến đổi các số liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc trưng (hay trích chọn đặc

điểm - Feature Selection) gắn với việc tách các đặc tính của ảnh dưới dạng

các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này với đối tượng khác trong phạm vi ảnh nhận được Ví dụ: trong nhận dạng ký tự trên phong bì thư, chúng ta miêu tả các đặc trưng của từng ký tự giúp phân biệt ký tự này với ký tự khác

Các đặc điểm của đối tượng được trích chọn tùy theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau đây:

 Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ,

điểm uốn

 Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc

thực hiện lọc vùng (zonal filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask) thường là các khe hẹp với hình dạng khác

nhau (chữ nhật, tam giác, cung tròn )

 Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối

tượng và do vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace,

toán tử “chéo không” (zero crossing)

Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống

Trang 25

1.1.2.5 Nhận dạng và nội suy ảnh

Đây là giai đoạn cuối của các hệ thống xử lý ảnh Nhận dạng ảnh (Image

Recognition) là quá trình phân loại các đối tượng được biểu diễn theo một mô

hình nào đó và gán chúng một tên (gán cho đối tượng một tên gọi, tức là một dạng) dựa theo những quy luật và mẫu chuẩn Quá trình nhận dạng dựa vào

những mẫu chuẩn được học (hoặc lưu) từ trước gọi là nhận dạng có thầy hay học có thầy, trong những trường hợp ngược lại gọi là học không có thầy Nội suy (Interpretation) là phán đoán theo ý nghĩa trên cơ sở nhận dạng

Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì thư có thể được nội suy thành mã điện thoại

Có nhiều cách phân loại ảnh khác nhau Trong lý thuyết về nhận dạng nói chung và nhận dạng ảnh nói riêng, các mô hình toán học về ảnh được phân theo hai loại nhận dạng ảnh cơ bản:

 Nhận dạng theo tham số

 Nhận dạng theo cấu trúc

Hay có ba cách tiếp cận khác nhau:

 Nhận dạng dựa vào phân hoạch không gian

 Nhận dạng dựa vào cấu trúc

 Nhận dạng dựa vào kỹ thuật mạng nơron

Hai cách tiếp cận đầu là những cách tiếp cận kinh điển, đã được nghiên cứu và áp dụng rất nhiều trong thực tế Các đối tượng ảnh quan sát và thu nhận được phải trải qua giai đoạn tiền xử lý nhằm tăng cường chất lượng, làm nổi các chi tiết, tiếp theo là trích chọn và biểu diễn các đặc trưng, cuối cùng mới là giai đoạn nhận dạng

Cách tiếp cận thứ ba hoàn toàn khác Nó dựa vào cơ chế đoán nhận, lưu trữ và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh con người Do cơ chế đặc biệt, các đối tượng thu nhận bởi thị giác người không cần qua giai đoạn cải thiện mà chuyển ngay sang giai đoạn tổng hợp, đối sánh với các mẫu đã lưu trữ để nhận dạng

Trang 26

Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký

điện tử), nhận dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch,

nhận dạng đối tượng chuyển động, nhận dạng mặt người, nhận dạng nụ cười, nhận dạng mống mắt,…

Chi tiết các kỹ thuật nhận dạng ảnh sẽ được trình bày trong mục [1.2.1]

1.1.2.6 Hậu xử lý

a Nén ảnh

Ảnh dù ở dạng nào vẫn chiếm không gian nhớ rất lớn Nhằm giảm thiểu không gian lưu trữ, khi mô tả ảnh, người ta đã đưa kỹ thuật nén ảnh vào Thông thường được tiến hành theo cả hai cách khuynh hướng là nén có bảo toàn và nén không bảo toàn thông tin Nén không bảo toàn thì thường có khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn Trên cơ sở hai khuynh hướng, có bốn cách tiếp cận cơ bản trong nén ảnh:

 Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất

xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp Một ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF

 Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các

điểm ảnh để tiến hành mã hóa Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau Ví dụ cho kỹ thuật này là mã hóa *.PCX

 Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng

nén không bảo toàn và do vậy kỹ thuật này thường hiệu quả hơn

*.JPG tiếp cận theo kỹ thuật nén này

 Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh, thể

hiện sự lặp lại của các chi tiết Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal Các phương pháp nén ảnh:

 Nén thế hệ thứ nhất:

Trang 27

 Phương pháp mã hóa loạt dài RLC (Run Length Coding)

 Phương pháp mã hóa Huffman

 Phương pháp LZW (Lempel Ziv-Wench)

 Phương pháp mã hóa khối (Block Coding)

 Phương pháp thích nghi

 Nén thế hệ thứ hai:

– Phương pháp Kim tự tháp Laplace (Pyramide Laplace)

– Phương pháp mã hóa dựa vào biểu diễn ảnh

Hiện nay, các chuẩn nén ảnh theo định dạng MPEG được dùng và đang phát huy hiệu quả

b Biểu diễn ảnh

Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá được nhúng trong các thiết bị kỹ thuật khác nhau Quá trình lưu trữ ảnh nhằm hai mục đích:

 Tiết kiệm bộ nhớ

 Giảm thời gian xử lý

Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in ấn và xử lý ảnh được xem như là một tập hợp các điểm với cùng kích thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độ phân giải

Việc lựa chọn độ phân giải thích hợp tuỳ thuộc vào nhu cầu sử dụng và đặc trưng của mỗi ảnh cụ thể, trên cơ sở đó các ảnh thường được biểu diễn theo hai mô hình cơ bản

* Mô hình Raster

Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểu diễn dưới dạng ma trận các điểm (điểm ảnh) Thường thu nhận qua các thiết bị như camera, scanner Tùy theo yêu cầu thực thế mà mỗi điểm ảnh được biểu diễn

qua một hay nhiều bít

Trang 28

Mô hình Raster thuận lợi cho hiển thị và in ấn Ngày nay công nghệ phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh

và chất lượng cao cho cả đầu vào và đầu ra Một thuận lợi cho việc hiển thị

trong môi trường Windows là Microsoft đưa ra khuôn dạng ảnh DIB (Device

Independent Bitmap) làm trung gian Hình 1.6 thể hình quy trình chung để

hiển thị ảnh Raster thông qua DIB

Một trong những hướng nghiên cứu cơ bản trên mô hình biểu diễn này là

kỹ thuật nén ảnh, các kỹ thuật nén ảnh lại chia ra theo hai khuynh hướng là nén bảo toàn và không bảo toàn thông tin nén, bảo toàn có khả năng phục hồi hoàn toàn dữ liệu ban đầu còn, nếu không bảo toàn chỉ có khả năng phục hồi

độ sai số cho phép nào đó Theo cách tiếp cận này người ta đã đề ra nhiều quy cách khác nhau như BMP, TIF, GIF, PCX…

Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm cả trong đó các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén có khả năng phục hồi với độ sai số nhận được

Hình 1.6: Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB

* Mô hình Vector

Biểu diễn ảnh ngoài mục đích tiết kiệm không gian lưu trữ dễ dàng cho hiển thị và in ấn còn đảm bảo dễ dàng trong lựa chọn sao chép di chuyển tìm kiếm…Theo những yêu cầu này kỹ thuật biểu diễn vector tỏ ra ưu việt hơn Trong mô hình vector người ta sử dụng hướng giữa các vector của điểm ảnh lân cận để mã hóa và tái tạo hình ảnh ban đầu ảnh vector được thu nhận trực tiếp từ các thiết bị số hoá như Digital hoặc được chuyển đổi từ ảnh Raster thông qua các chương trình số hoá

Trang 29

Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh và chất lượng cho cả đầu vào và ra nhưng lại chỉ hỗ trợ cho ảnh Raster

Do vậy, những nghiên cứu về biểu diễn vectơ đều tập trung từ chuyển đổi từ ảnh Raster

Hình 1.7: Sự chuyển đổi giữa các mô hình biểu diễn ảnh

1.2 KIỂM SOÁT THÔNG TIN HÌNH ẢNH

1.2.1 Nhận dạng ảnh

1.2.1.1 Giới thiệu

a Không gian biểu diễn đối tượng, không gian diễn dịch

 Không gian biểu diễn đối tượng

Các đối tượng khi quan sát hay thu thập thường được biểu diễn bởi tập

các đặc trưng hay đặc tính Giả sử đối tượng ảnh X (ảnh, chữ viết, dấu vân tay,…) được biểu diễn bởi n thành phần (n đặc trưng): X={x 1 ,x 2 …x n }; mỗi x i

biểu diễn một đặc tính Không gian biểu diễn thường được gọi tắt là không

gian đối tượng được định nghĩa:

= { X 1 , X 2 ,…X m }

Trong đó mỗi X i biểu diễn một đối tượng Không gian này có thể là vô

hạn Để tiện xem xét chúng ta chỉ xét tập X là hữu hạn

 Không gian diễn dịch

Không gian diễn dịch là tập các tên gọi của đối tượng Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng Một cách hình thức gọi

Ω là tập tên đối tượng:

Ω={w 1 , w 2 ,… w k } với w i , i=1,2…k là tên các đối tượng

Quá trình nhận dạng đối tượng f là một ánh xạ f: X → Ω với f là tập các quy luật để định một phần tử trong X ứng với một phần tử trong Ω Nếu tập

các quy luật và tập tên các đối tượng là biết trước như trong nhận dạng chữ

Trang 30

viết (có 26 lớp từ A đến Z), người ta gọi là nhận dạng có thầy Trường hợp thứ

hai là nhận dạng không có thầy

b Mô hình và bản chất của quá trình nhận dạng

 Mô hình

Trong nhận dạng người ta chia thành hai họ lớn:

– Họ mô tả theo tham số

– Họ mô tả theo cấu trúc

Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng Như vậy,

chúng ta sẽ có hai loại mô hình: mô hình tham số và mô hình cấu trúc

Mô hình tham số: sử dụng một vectơ để đặc tả đối tượng Mỗi phần tử

của vectơ mô tả một đặc tính của đối tượng Thí dụ như trong các đặc trưng chức năng, người ta sử dụng các hàm cơ sở trực giao để biểu diễn

Việc lựa chọn phương pháp biểu diễn sẽ làm đơn giản cách xây dựng Tuy nhiên việc lựa chọn đặc trưng nào là hoàn toàn phụ thuộc vào ứng dụng Thí dụ, trong nhận dạng chữ, các tham số là các dấu hiệu:

– Số điểm chạc ba, chạc tư

– Số điểm chu trình

– Số điểm ngoặt

– Số điểm kết thúc

Mô hình cấu trúc: Cách tiếp cận trong mô hình này dựa vào việc mô tả

đối tượng nhờ một số khái niệm biểu thị các đối tượng cơ sở trong ngôn ngữ

tự nhiên Để mô tả đối tượng người ta dùng một số dạng nguyên thủy như đoạn thẳng, cung… Chẳng hạn một hình chữ nhật được định nghĩa gồm bốn đoạn thẳng vuông góc với nhau từng đôi một Trong mô hình này người ta sử

dụng một bộ ký hiệu kết thúc Vt, một bộ kí hiệu không kết thúc gọi là V n Ngoài ra có dùng một tập các luật sản xuất để mô tả cách xây dựng các đối tượng phù hợp dựa trên các đối tượng đơn giản hơn hoặc đối tượng nguyên

thủy (tập V t) Trong cách tiếp cận này, ta chấp nhận khẳng định là: cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo những nguyên tắc xác

Trang 31

định bắt đầu từ một dạng gốc ban đầu Một cách hình thức, ta có thể coi mô

hình này tương đương một văn phạm G=(V, V n , P, S) với:

Hình 1.8: Mô hình cấu trúc của đối tượng nhà

Quá trình nhận dạng gồm ba giai đoạn chính:

– Chọn mô hình biểu diễn đối tượng

– Chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn

– Học trong nhận dạng

Trong việc lựa chọn để biểu diễn đối tượng, đối tượng có thể được xác định theo cách định lượng (mô hình tham số) hay định tính (mô hình cấu trúc) Khi đối tượng đã được xác định, quá trình nhận dạng chuyển sang giai

đoạn thứ hai-giai đoạn học (Learning) Học là giai đoạn cung cấp tri thức cho

hệ thống Mục đích học nhằm cải thiện, điều chỉnh việc phân loại tập đối tượng thành các lớp Nhận dạng là tìm ra quy luật và các thuật toán để có thể gắn đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên

Trang 32

Học có thầy: kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có

thầy Đặc điểm cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn Mẫu cần nhận dạng sẽ được đem so sánh với mẫu chuẩn để xem nó thuộc loại nào Vấn đề chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng trong ảnh với mẫu chuẩn và quyết định gán cho chúng vào một lớp Việc đối sánh nhờ vào các thủ tục ra quyết định dựa trên một công cụ gọi là hàm phân lớp hay hàm ra quyết định

Học không có thầy: kỹ thuật này phải tự định ra các lớp khác nhau và

xác định các tham số đặc trưng cho từng lớp Học không có thầy đương nhiên

là gặp khó khăn hơn Một mặt, do số lớp không được biết trước, mặt khác những đặc trưng của lớp cũng không được biết trước Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm có thể và chọn lựa cách tốt nhất Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khác nhau nhằm phân lớp và nâng cấp dần để đạt được một phương án phân loại

Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ sau:

Hình 1.9: Sơ đồ tổng quát hệ thống nhận dạng ảnh

1.2.1.2 Nhận dạng ảnh theo miền không gian

Với kỹ thuật này, các đối tượng nhận dạng là các đối tượng định lượng Biểu diễn mỗi đối tượng được bởi một véctơ đa chiều Trước tiên, ta sẽ xem xét một số khái niệm: phân hoạch không gian, hàm phân biệt sau đó sẽ đi vào một số kỹ thuật cụ thể

Trang 33

a Phân hoạch không gian

Giả sử không gian đối tượng X được định nghĩa: X = {Xi, i=1,2, ,m}, Xi

là một véctơ Người ta nói D là một phân hoạch của không gian X thành các

lớp Ci, Ci X nếu:

C i C j = Φ với i j và Ci = Nói chung, đây là trường hợp lý tưởng: tập tách được hoàn toàn Trong thực tế, thường gặp không gian biểu diễn tách được từng phần Như

vậy phân loại là dựa vào việc xây dựng một ánh xạ f:  Công cụ xây

dựng ánh xạ này là các hàm phân biệt (descriminant functions)

b Hàm phân lớp hay hàm ra quyết định

Để phân đối tượng vào các lớp, ta phải xác định số lớp và ranh giới giữa các lớp đó Hàm phân lớp hay hàm phân biệt là một công cụ rất quan trọng

Gọi {g i} là lớp các hàm phân lớp Lớp hàm này được định nghĩa như sau:

Nếu i ≠ k, g k (X) > g i (X) thì ta quyết định X lớp k

Như vậy để phân biệt k lớp, ta cần k-1 hàm phân biệt Hàm phân biệt g

của một lớp nào đó thường dùng là hàm tuyến tính, có nghĩa là:

dựng dựa trên khái niệm khoảng cách hay dựa vào xác suất có điều kiện

Phân lớp dựa theo khoảng cách (Distance) là một công cụ tốt để xác

định đối tượng có “gần nhau” về một đặc trưng nào đó hay không Nếu khoảng cách nhỏ hơn một ngưỡng nào đấy ta coi hai đối tượng là giống

1.5

Trang 34

nhau và gộp chúng vào một lớp Ngược lại, nếu khoảng cách lớn hơn ngưỡng,

có nghĩa là chúng khác nhau và ta tách thành hai hoặc nhiều lớp phân biệt

Phân lớp dựa theo xác suất có điều kiện (Conditional Probability):

Trong một số trường hợp, người ta dựa vào xác suất có điều kiện để phân lớp cho đối tượng Lý thuyết xác suất có điều kiện được Bayes nghiên cứu khá kỹ lưỡng và được dùng để phân biệt đối tượng

c Nhận dạng theo phương pháp thống kê

Nếu các đối tượng nhận dạng tuân theo luật phân bố Gauss, mà hàm mật độ xác suất cho bởi:

trong đó m là kỳ vọng, σ là độ lệch chuẩn

Người ta có dùng phương pháp ra quyết định dựa vào lý thuyết Bayes

Lý thuyết Bayes thuộc loại lý thuyết thống kê nên phương pháp nhận dạng dựa trên lý thuyết Bayes có tên là phương pháp thống kê

* Quy tắc Bayes:

Giả sử cho:

 Cho không gian đối tượng = {X l , l=1, 2, , L}, với X l = {x 1 , x 2 , , x p }

 Cho không gian diễn dịch  = {C 1 , C 2 , , C r }, r là số lớp

Quy tắc Bayes phát biểu như sau:

:   sao cho X  C k nếu P(C k /X) > P(C l /X) l <> k, l=1, 2, , r

ở đây: P(C k /X) là xác suất của Ck trong điều kiện X xẩy ra Tương tự đối

với P(C l /X)

Trường hợp lý tưởng là nhận dạng đúng (không có sai số) Thực tế, luôn

tồn tại sai số ε trong quá trình nhận dạng Vấn đề chính ở đây là xây dựng quy tắc nhận dạng với sai số ε là nhỏ nhất

1.6

Trang 35

* Phương pháp ra quyết định với  tối thiểu:

Ta xác định X  C k nhờ xác suất P(C k /X) Vậy nếu có sai số, sai số sẽ

được tính bởi 1 - P(C k /X) Để đánh giá sai số trung bình, người ta xây dựng

một ma trận L(r,r) giả thiết là có n lớp

Ma trận L được định nghĩa như sau:

Như vậy, sai số trung bình của sự phân lớp sẽ là:

Để sai số là nhỏ nhất ta cần có rk là nhỏ nhất (min) Từ lý thuyết xác suất

ta có công thức tính xác suất có điều kiện (Công thức Bayes):

Từ 2 công thức 1.7 và 1.8 trên ta suy ra:

Vậy, quy tắc ra quyết định dựa trên lý thuyết Bayes có tính đến sai số được phát biểu như sau:

X ∈ C k nếu p k < p p với p <> k, p=1,2…r

với p k là r k (X) được xác định theo công thức trên Rõ ràng, từ điều kiện

p k < p p ta hoàn toàn xác định đối tượng X thuộc lớp C k nào Đây chính là nội

dung tư tưởng của phương pháp thống kê

d Thuật toán nhận dạng dựa vào khoảng cách

Có nhiều thuật toán nhận dạng học không có thầy Ở đây, chúng ta xét

thuật toán học (Learning Algorithm) căn cứ vào khoảng cách lớn nhất

 Nguyên tắc

Giả sử có tập gồm m đối tượng Xác định khoảng cách giữa các đối

tượng và khoảng cách lớn nhất ứng với phần tử xa nhất tạo nên lớp đối tượng

1.7

1.8

1.9

1.10

Trang 36

mới Việc phân lớp được tạo nên dần dần dựa vào thủ tục xác định khoảng cách giữa các đối tượng và các lớp Điều này có thể minh họa bằng thuật toán sau:

 Thuật toán

Bước 1:

 Chọn hạt nhân ban đầu Giả sử 1 1 X ∈C gọi là lớp g1

 Gọi Z1 là phần tử trung tâm của g1

 Tính tất cả các khoảng cách Dj1=D(Xj,Z1) với j=1,2…m

 Tìm Dk1=maxj Djk, trong đó Xk là phần tử xa nhất của nhóm g1

 Như vậy, Xk là phần tử trung tâm của lớp mới g2 Kí hiệu Z2

 Tính d1=D12=D(Z1,Z2)

Bước 2:

Tính các khoảng cách Dj1, Dj2 với Dj1=D(Xj,Z1); Dj2=D(Xj,Z2) Đặt k j j D(2) = max D Nguyên tắc chọn:

 Nếu k k D(2) <θd , với θ là ngưỡng cho trước

Kết thúc thuật toán Việc phân lớp kết thúc;

 Nếu không, tạo nhóm thứ ba Gọi X3 là phần tử trung tâm của g3,

kí hiệu Z3 ;

 Tính D3=(D12+D13+D23);

D13=D(Z1, Z3);

D23=D(Z2, Z3)

 Quá trình lặp lại cho đến khi phân xong

Kết quả thu được các lớp đại diện Z1, Z2,…,Zm

1.2.1.3 Nhận dạng dựa theo cấu trúc

a Biểu diễn định tính

Ngoài cách biễn diễn theo định lượng như đã mô tả ở trên, tồn tại nhiều kiểu đối tượng mang tính định tính Trong cách biểu diễn này, người ta quan tâm đến các dạng và mối quan hệ giữa chúng Giả thiết rằng mỗi đối tượng

Trang 37

được biểu diễn bởi một dãy ký tự Các đặc tính biểu diễn bởi cùng một số ký

tự Phương pháp nhận dạng ở đây là nhận dạng lô gíc, dựa vào hàm phân biệt

là hàm Bool Cách nhận dạng là nhận dạng các từ có cùng độ dài

Giả sử hàm phân biệt cho mọi ký hiệu là g a (x), g b (x), , tương ứng với

các ký hiệu a, b, Để dễ dàng hình dung, ta giả sử có từ "abc" được biểu diễn

bởi một dãy ký tự X = {x 1 , x 2 , x 3 , x 4 } Tính các hàm tương ứng với 4 ký tự và

có:

g a (x 1 ) + g b (x 2 ) + g c (x 3 ) + g c (x 4 )

Các phép cộng ở đây chỉ phép toán OR Trên cơ sở tính giá trị cực đại của hàm phân biệt, ta quyết định X có thuộc lớp các từ "abc" hay không Trong cách tiếp cận này, đối tượng tương đương với câu hay một mệnh đề

b Phương pháp ra quyết định dựa vào cấu trúc

Thủ tục phân loại và nhận dạng ở đây gồm hai giai đoạn:

 Giai đoạn 1: xác định các quy tắc xây dựng, tương đương với việc

nghiên cứu một văn phạm trong một ngôn ngữ chính thống

 Giai đoạn 2: xem xét tập các dạng có được sinh ra từ các dạng đó

không? Nếu nó thuộc tập đó coi như đã phân loại xong

Tuy nhiên, ở phương pháp này văn phạm là một vấn đề lớn, khá phức tạp

và khó có thể tìm được loại phù hợp một cách hoàn hảo với mọi đối tượng Vì vậy, trong nhận dạng dựa theo cấu trúc, ta mới chỉ sử dụng được một phần rất nhỏ

Như đã trình bày ở trên, mô hình cấu trúc tương đương một văn phạm G:

G = {V n ,V t ,P,S} Có rất nhiều kiểu văn phạm khác nhau từ chính tắc đến phi

ngữ cảnh Một văn phạm sẽ được sử dụng trong nhận dạng bởi một ngôn ngữ hình thức, trong đó có một ngôn ngữ điển hình cho nhận dạng cấu trúc là PLD

(Picture Language Description)

Tiêu đề	Nghiên cứu kỹ thuật SVM trong kiểm soát nội dung hình ảnh luận văn thạc sĩ
Tác giả	Trần Minh Tân
Người hướng dẫn	PGS.TS Đỗ Năng Toàn
Trường học	Trường Đại Học Lạc Hồng
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2012
Thành phố	Đồng Nai

Định dạng
Số trang	75
Dung lượng	1,79 MB