Nội dung thực hiện: - Tìm hiểu khái quát về xử lý ảnh và bài toán kiểm soát nội dung hình ảnh; - Nghiên cứu một số vấn đề về SVM Support vector machines và ứng dụng trong bài toán phát h
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG
Trang 3Tôi chân thành cảm ơn PGS.TS Đỗ Năng Toàn, thầy đã tận tình hướng dẫn, giúp đỡ và đóng góp ý kiến cho tôi trong suốt quá trình thực hiện đề tài luận văn
Tôi chân thành cảm ơn các thầy, cô Khoa Công nghệ Thông tin - Trường Đại học Lạc Hồng và các thầy, cô khác đã tận tình giảng dạy, truyền đạt cho tôi những kiến thức quý báu trong quá trình học tập
Tôi chân thành cảm ơn các thầy cô phòng Sau đại học - Trường Đại học Lạc Hồng, các đồng nghiệp và các bạn học lớp Cao học Công nghệ thông tin khoá 2 - Trường Đại học Lạc Hồng đã hỗ trợ, tạo điều kiện thuận lợi cũng như đóng góp những ý kiến thiết thực cho tôi trong suốt quá trình học tập và đặc biệt
đã giúp luận văn của tôi được hoàn thiện hơn
Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình học tập và thực hiện đề tài luận văn này
Đồng Nai, ngày 21 tháng 9 năm 2012
Trần Minh Tân
Trang 4Tôi xin cam đoan đây là công trình nghiên cứu độc lập của bản thân Các
số liệu, kết quả trình bày trong luận văn này là trung thực Những tƣ liệu đƣợc
sử dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ
Tác giả
Trần Minh Tân
Trang 5Tên đề tài luận văn: NGHIÊN CỨU KỸ THUẬT SVM TRONG KIỂM SOÁT NỘI DUNG HÌNH ẢNH
Học viên thực hiện: Trần Minh Tân sinh ngày: 05/08/1980
Người hướng dẫn khoa học: PGS.TS Đỗ Năng Toàn
1 Mục tiêu của luận văn:
Hiểu rõ lý thuyết về xử lý ảnh và kỹ thuật SVM trong kiểm soát nội dung hình ảnh Xây dựng ứng dụng phát hiện ảnh nghi ngờ là ảnh đen (ảnh đồi trụy)
2 Nội dung thực hiện:
- Tìm hiểu khái quát về xử lý ảnh và bài toán kiểm soát nội dung hình ảnh;
- Nghiên cứu một số vấn đề về SVM (Support vector machines) và ứng dụng trong bài toán phát hiện, nhận dạng hình ảnh;
- Nghiên cứu một số đặc điểm của hình ảnh đen;
- Thiết kế, phát triển chương trình thử nghiệm;
- Xây dựng báo cáo sơ bộ và hoàn chỉnh báo cáo
Giai đoạn huấn luyện: Các ảnh mẫu được véc tơ hóa x = {x1, ,x100} rồi dùng phương pháp PCA để rút trích đặc trưng thành véc tơ y = {y1, ,y100} rồi đưa vào bộ huấn luyện SVM
Giai đoạn nhận dạng: Mẫu cần nhận dạng được cũng được véc tơ hóa và rút trích như trên sau đó đưa vào bộ nhận dạng SVM để xác định lớp cho mẫu
- Nghiên cứu những đặc điểm, đặc trưng của “ảnh đen”
- Thiết kế, phát triển và cài đặt thử nghiệm chương trình ứng dụng
Trang 6- Hệ thống hóa một số vấn đề về ứng dụng kỹ thuật SVM trong nhận dạng hình ảnh
- Cài đặt thử nghiệm chương trình nhận dạng ảnh đen sử dụng kỹ thuật SVM
5 Hướng phát triển tiếp theo:
Phát triển thành chương trình phát hiện ảnh “đen” trên máy tính cá nhân
Tích hợp, phát triển thành ứng dụng phát hiện và lọc, chặn ảnh “đen” đối với các Website Đồng thời có thể thương mại hóa ứng dụng phục vụ công tác quản lý nhà nước cho ngành thông tin và truyền thông cũng như các lĩnh vực khác
Phát hiện ảnh chuyển động (video, ảnh GIF, flash…)
Mở rộng nghiên cứu một số lĩnh vực liên quan: nhận dạng ảnh bạo lực, nhận dạng vân tay, nhận dạng mống mắt,…
Trang 7Trang phụ bìa
Lời cảm ơn
Lời cam đoan
Tóm tắt luận văn
Mục lục
Danh mục các từ viết tắt
Danh mục hình vẽ
PHẦN MỞ ĐẦU 01
Chương 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ KIỂM SOÁT HÌNH ẢNH 03
1.1 KHÁI QUÁT VỀ XỬ LÝ ẢNH 03
1.1.1 Các khái niệm cơ bản 03
1.1.1.1 Xử lý ảnh 03
1.1.1.2 Điểm ảnh 03
1.1.1.3 Ảnh 04
1.1.1.4 Mức xám của ảnh 04
1.1.1.5 Độ phân giải của ảnh 05
1.1.2 Các bước xử lý ảnh số 05
1.1.2.1 Thu nhận ảnh 06
1.1.2.2 Tiền xử lý 06
1.1.2.3 Phân vùng ảnh 13
1.1.2.4 Trích chọn đặc trưng 14
1.1.2.5 Nhận dạng và nội suy ảnh 15
1.1.2.6 Hậu xử lý 16
1.2 KIỂM SOÁT THÔNG TIN HÌNH ẢNH 19
1.2.1 Nhận dạng ảnh 19
1.2.1.1 Giới thiệu 19
1.2.1.2 Nhận dạng ảnh theo miền không gian 22
1.2.1.3 Nhận dạng dựa theo cấu trúc 26
1.2.2 Kiểm soát thông tin dựa trên hình ảnh 29
Chương 2: KỸ THUẬT SVM TRONG PHÁT HIỆN ẢNH ĐEN 30
2.1 Những khái niệm cơ bản về SVM 30
2.1.1 Bài toán phân lớp 31
2.1.2 Phân lớp tuyến tính 32
Trang 82.2 Cơ sở lý thuyết SVM 36
2.2.1 Bài toán phân 2 lớp với SVM 36
2.2.2 Bài toán phân nhiều lớp với SVM 41
2.2.3 Trường hợp dữ liệu không thể phân tách được 41
2.3 Kỹ thuật SVM trong bài toán phát hiện ảnh đen 44
2.3.1 Giai đoạn huấn luyện 44
2.3.2 Giai đoạn xử lý phát hiện ảnh đen 51
Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 52
3.1 BÀI TOÁN PHÁT HIỆN ẢNH “ĐEN” 52
3.2.1 Một số đặc điểm ảnh “đen” 52
3.2.2 Các vấn đề gây nhầm lẫn 52
3.2 KIỂM SOÁT ẢNH “ĐEN” SỬ DỤNG SVM 53
3.2.1 Thu thập, phân tích và xử lý dữ liệu 53
3.2.2 Cài đặt chương trình 54
3.2.2.1 Module tiền xử lý 54
3.2.2.2 Module trích chọn đặc trưng 54
3.2.2.3 Module huấn luyện SVM 56
3.2.3 Chương trình kiểm soát ảnh “đen” BreastSVM 57
3.2.3.1 Một số hình ảnh về chương trình 57
3.2.3.2 Môi trường thử nghiệm 61
3.2.3.3 Kết quả thực nghiệm 61
PHẦN KẾT LUẬN 63 TÀI LIỆU THAM KHẢO
Trang 9Ảnh đen: Ảnh có nội dung đồi trụy
CGA: Color Graphic Adaptor
CNTT: Công nghệ Thông tin
DIB: Device Independent Bitmap
KKT: Karush-Kuhn-Tucker
PLD: Picture Language Description
SRM: Structural Risk Minimization
SVM: Support Vector Machines
Trang 10
Hình 1.1: Quá trình xử lý ảnh 03
Hình 1.2: Các bước cơ bản trong một hệ thống xử lý ảnh 05
Hình 1.3: Sơ đồ phân tích, xử lý ảnh và lưu đồ thông tin giữa các khối 06
Hình 1.4: Ảnh thu nhận và ảnh mong muốn 07
Hình 1.5: Dãn độ tương phản 12
Hình 1.6: Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB 18
Hình 1.7: Sự chuyển đổi giữa các mô hình biểu diễn ảnh 19
Hình 1.8: Mô hình cấu trúc của đối tượng nhà 21
Hình 1.9: Sơ đồ tổng quát hệ thống nhận dạng ảnh 22
Hình 1.10: Các phép toán trong ngôn ngữ PLD 28
Hình 2.1 Phân tách theo siêu phẳng (w,b) trong không gian 2 chiều của tập mẫu 33
Hình 2.2 Siêu Phẳng tối ưu 34
Hình 2.3 Ánh xạ Φ từ không gian dữ liệu X sang không gian đặc trưng F 36
Hình 2.4 Minh họa cho bài toán phân hai lớp 37
Hình 2.5 Minh họa bài toán phân hai lớp với phương pháp SVM 39
Hình 2.6 Bài toán SVM trong TH dữ liệu mẫu không phân tách tuyến tính 40
Hình 2.7 Mô phỏng phân lớp có quá nhiều đặc trưng hay biến động 47
Hình 3.1: Xử lý dữ liệu 53
Hình 3.2: Hình ảnh đầu vào và hình ảnh sau quá trình phát hiện da 55
Hình 3.3: Ảnh được trích chọn đặc trưng 56
Hình 3.4: Giao diện ban đầu khi chạy chương trình 58
Hình 3.5: Phân vùng bộ phận “đen” trên video 59
Hình 3.6: Phân 2 vùng bộ phận “đen” trên ảnh 60
Hình 3.7: Không phân vùng bộ phận “đen” trên ảnh 60
Hình 3.8: Phát hiện không chính xác ảnh đen 61
Trang 11PHẦN MỞ ĐẦU
Trong thời đại hiện nay, sự phát triển của CNTT kéo theo sự phát triển của nhiều lĩnh vực khác, làm tăng số lượng giao dịch thông tin trên Internet Thông tin ngày một nhiều, tốc độ thay đổi của chúng cũng cực kỳ nhanh, hoạt động của các lĩnh vực cũng đặt ra nhu cầu xử lý một khối lượng thông tin đồ
sộ Một yêu cầu lớn đặt ra là làm thế nào để tổ chức, tìm kiếm thông tin một cách hiệu quả và phân loại thông tin là một trong những giải pháp hợp lý cho yêu cầu này Nếu xử lý và phân loại dữ liệu thủ công là điều không tưởng với
số lượng dữ liệu khổng lồ như vậy Giải pháp được đặt ra là sử dụng máy tính
để tự động phân loại các thông tin Kỹ thuật SVM được đánh giá là công cụ mạnh và tinh vi nhất hiện nay cho những bài toán phân lớp phi tuyến Nhiều ứng dụng đã và đang được xây dựng trên kỹ thuật SVM rất hiệu quả, trong đó
có những bài toán trong lĩnh vực xử lý ảnh
Ở Việt Nam, những nghiên cứu mang tính thực nghiệm cũng đang được định hướng và thu được một số kết quả ban đầu tuy còn hạn chế Vì vậy, việc cập nhật kiến thức và tiếp cận một lĩnh vực mũi nhọn của khoa học công nghệ trong việc giải quyết một bài toán cụ thể là rất cần thiết
Trước sự bùng nổ của các website với đủ loại nội dung sex, bạo lực, phản động các nhà quản lý bối rối vì khó kiểm soát, chuyên gia an ninh mạng cho rằng không thể tận diệt, còn phụ huynh thì lo lắng Để giải quyết bài toán trên, luận văn sẽ nghiên cứu giải pháp kiểm soát ảnh đen Từ đó có thể phát triển thành ứng dụng có khả năng lọc, chặn ảnh đen góp phần giúp các phụ huynh quản lý, bảo vệ con em mình khỏi những thông tin độc hại trên Internet Ngoài ra cũng giúp ngăn chặn những trang web xấu cho các đại lý Internet công cộng, hệ thống mạng máy tính của các công sở, trường học, các
tổ chức, doanh nghiệp có kết nối Internet Và đặc biệt góp phần phục vụ hiệu quả cho công tác quản lý nhà nước về thông tin điện tử trên địa bàn tỉnh Đồng Nai
Trang 12Từ mục tiêu đó, luận văn tập trung nghiên cứu kỹ thuật SVM và áp dụng
kỹ thuật này cho bài toán phát hiện ảnh có nội dung đồi trụy (gọi tắt là ảnh
“đen”)
Cấu trúc luận văn gồm Phần mở đầu, Phần kết luận và ba chương nội dung cụ thể:
• Chương 1: Khái quát về xử lý ảnh và kiểm soát hình ảnh
• Chương 2: Kỹ thuật SVM trong phát hiện ảnh đen
• Chương 3: Xây dựng chương trình thử nghiệm phát hiện ảnh “đen” sử dụng SVM
Trang 13Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ họa đã phát triển một cách mạnh mẽ và có nhiều ứng dụng được áp dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người - máy
Mục đích của xử lý ảnh là nâng cao chất lượng ảnh phục vụ con người
và xử lý ảnh dữ liệu dạng hình ảnh để máy tính có thể hiểu được từ đó đưa ra những quyết định cần thiết
Hình 1.1: Quá trình xử lý ảnh
Xử lý ảnh có nhiều ứng dụng trong đời sống như: nhận dạng ảnh vệ tinh,
dự báo thời tiết, viễn thám, ảnh y tế, khoa học hình sự, điện ảnh…
1.1.1.2 Điểm ảnh
Điểm ảnh (Pixel) là một phần tử của ảnh số tại tọa độ (x, y) với độ xám
hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi là một phần tử ảnh
Trang 141.1.1.3 Ảnh
Ảnh số là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh gần giống với ảnh thật
Ảnh được tạo nên từ hàng trăm ngàn cho đến hàng triệu ô vuông rất nhỏ
- được coi là những nhân tố của bức ảnh và thường được biết dưới tên gọi là điểm ảnh Máy tính hay máy in sử dụng những ô vuông nhỏ này để hiển thị hay in ra bức ảnh Để làm được điều đó máy tính hay máy in chia màn hình, trang giấy thành một mạng lưới chứa các ô vuông, sau đó sử dụng các giá trị chứa trong file ảnh để định ra màu sắc, độ sáng, tối của từng pixel trong mạng lưới đó, đó là cơ sở để ảnh số được hình thành Việc kiểm soát, định ra địa chỉ theo mạng lưới như trên được gọi là bit mapping và ảnh số còn được gọi là ảnh bitmap
1.1.1.4 Mức xám của ảnh
Định nghĩa: Mức xám (grey level) của điểm ảnh là cường độ sáng của
nó được gán bằng giá trị số tại điểm đó
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức
256 là mức phổ dụng bởi vì trong kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức xám dùng một byte biểu diễn:
28=256 mức, tức là từ 0 đến 255)
Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác)
với mức xám ở các điểm ảnh có thể khác nhau
Ảnh nhị phân: ảnh chỉ có hai mức đen trắng phân biệt, tức dùng một
bit mô tả 2 mức khác nhau Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1
Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo
nên thế giới màu, người ta thường dùng ba byte để mô tả mức màu, khi đó các giá trị màu: 28*3
= 224 ≈ 16,7 triệu màu
Trang 151.1.1.5 Độ phân giải của ảnh
Định nghĩa: Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được
ấn định trên một ảnh số được hiển thị
Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố
theo trục x và y trong không gian hai chiều
Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một lưới điểm theo chiều ngang màn hình: 320 điểm, chiều dọc ×
200 điểm ảnh (320×200) Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320×200 Lý do: cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn
1.1.2 Các bước xử lý ảnh số
Một hệ thống xử lý ảnh có sơ đồ tổng quát như sau:
Hình 1.2: Các bước cơ bản trong một hệ thống xử lý ảnh
Trang 16Hình 1.3: Sơ đồ phân tích, xử lý ảnh và lưu đồ thông tin giữa các khối
Sau đây sẽ trình bày một số kỹ thuật xử lý ảnh cần thiết phục vụ cho việc cài đặt chương trình thử nghiệm (theo các bước trong hình 1.2), còn các thành phần khác sẽ được giới thiệu ở mức cơ bản
Nhìn chung các hệ thống thu nhận ảnh thực hiện 1 quá trình:
Cảm biến: biến đổi năng lượng quang học thành năng lượng điện
Tổng hợp năng lượng điện thành ảnh
1.1.2.2 Tiền xử lý
Sau bộ thu nhận, ảnh có thể nhiễu và độ tương phản thấp nên cần đưa
vào bộ tiền xử lý (Image Processing) để nâng cao chất lượng Chức năng
chính của bộ tiền xử lý là nắn chỉnh biến dạng, lọc nhiễu, chỉnh mức xám, nâng độ tương phản để làm ảnh rõ hơn, nét hơn
Trang 17Các thuật toán triển khai việc nâng cao chất lượng ảnh hầu hết dựa trên các kỹ thuật trong miền điểm, không gian và tần số Toán tử điểm là phép biến đổi đối với từng điểm ảnh đang xét, không liên quan đến các điểm lân cận khác Trong khi đó, toán tử không gian sử dụng các điểm lân cận để quy chiếu tới điểm ảnh đang xét Một số phép biến đổi có tính toán phức tạp được chuyển sang miền tần số để thực hiện, kết quả cuối cùng được chuyển trở lại miền không gian nhờ các biến đổi ngược
a Nắn chỉnh biến dạng
Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử
Ảnh thu nhận Ảnh mong muốn
Hình 1.4: Ảnh thu nhận và ảnh mong muốn
Các nguyên nhân biến dạng do:
Do camera, đầu thu ảnh chất lượng kém
Do môi trường, ánh sáng, hiện trường (scene), khí quyển, nhiễu xung
Trang 18Trước khi xem xét chi tiết các kỹ thuật áp dụng, cần phân biệt các loại nhiễu hay can thiệp trong quá trình xử lý ảnh Trên thực tế tồn tại nhiều loại nhiễu; tuy nhiên người ta thường xem xét ba loại nhiễu chính: nhiễu cộng, nhiễu nhân và nhiễu xung:
Nhiễu cộng: Nhiễu cộng thường phân bố khắp ảnh Nếu gọi ảnh quan
sát (ảnh thu được) là Xqs, ảnh gốc là Xgốc, nhiễu là η, ảnh thu được có
thể biểu diễn bởi:
X qs = X gốc + η
Nhiễu nhân: Nhiễu nhân thường phân bố khắp ảnh và ảnh thu được sẽ biểu diễn với công thức:
Trang 19X qs = X gốc * η
Nhiễu xung: Nhiễu xung thường gây đột biến tại một số điểm ảnh
Làm trơn nhiễu bằng lọc tuyến tính: lọc trung bình và lọc dải thông thấp
Do có nhiều loại nhiễu can thiệp vào quá trình xử lý ảnh nên cần có nhiều bộ lọc thích hợp Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc
thông thấp, trung bình và lọc đồng hình (Homomorphie); với nhiễu xung ta dùng lọc trung bị, giả trung vị, lọc ngoài (Outlier)
i Lọc trung bình không gian
Với lọc trung bình, mỗi điểm ảnh được thay thế bằng trung bình trọng số của các điểm lân cận và được định nghĩa như sau:
Nếu trong kỹ thuật lọc trên, ta dùng các trọng số như nhau, phương trình 1.3 trên sẽ trở thành:
với : y(m, n): ảnh đầu vào,
v(m, n): ảnh đầu ra, a(k, l) : là cửa sổ lọc
với và Nw là số điểm ảnh trong cửa sổ lọc W
Lọc trung bình có trọng số chính là thực hiện chập ảnh đầu vào với nhân
chập H Nhân chập H trong trường hợp này có dạng:
Trong lọc trung bình, thường người ta ưu tiên cho các hướng để bảo vệ biên của ảnh khỏi bị mờ khi làm trơn ảnh Các kiểu mặt nạ được sử dụng tùy
1.3
Trang 20theo các trường hợp khác nhau Các bộ lọc trên là bộ lọc tuyến tính theo nghĩa
là điểm ảnh ở tâm cửa số sẽ được thay bởi tổ hợp các điểm lân cận chập với mặt nạ
Giả sử đầu vào biểu diễn bởi ma trận I:
Ảnh số thu được bởi lọc trung bình Y=H⊗ I có dạng:
Một bộ lọc trung bình không gian khác cũng hay được sử dụng Phương trình của bộ lọc đó có dạng:
Ở đây, nhân chập H có kích thuớc 2x2 và mỗi điểm ảnh kết quả có giá trị
bằng trung bình cộng của nó với trung bình cộng của bốn lân cận gần nhất
Lọc trung bình trọng số là một trường hợp riêng của lọc thông thấp
Trang 21Ta dễ dàng nhận thấy khi b =1, H b chính là nhân chập H t1 (lọc trung
bình) Để hiểu rõ hơn bản chát khử nhiễu cộng của các bộ lọc này, ta viết lại phương trình thu nhận ảnh dưới dạng:
Trong đó η[m, n] là nhiễu cộng có phương sai σ 2
n Như vậy, theo cách tính của lọc trung bình ta có:
Như vậy, nhiễu cộng trong ảnh đã giảm đi N w lần
c Tăng độ tương phản
Trước tiên cần làm rõ khái niệm độ tương phản Ảnh số là tập hợp các điểm ảnh, mà mỗi điểm ảnh có giá trị độ sáng khác nhau Ở đây, độ sáng để mắt người dễ cảm nhận ảnh, song không phải là quyết định Thực tế chỉ ra rằng hai đối tượng có cùng độ sáng nhưng đặt trên hai nền khác nhau sẽ cho cảm nhận khác nhau Như vậy, độ tương phản biểu diễn sự thay đổi độ sáng của đối tượng so với nền Và cũng có thể hiểu rằng, độ tương phản là độ nổi của điểm ảnh hay vùng ảnh so với nền Với định nghĩa này, nếu ảnh có độ tương phản kém, ta có thể thay đổi tuỳ ý theo ý muốn
Ảnh với độ tương phản thấp có thể do điều kiện sáng không đủ hay không đều, hoặc do tính không tuyến tính hay biến động nhỏ của bộ cảm nhận ảnh Để điều chỉnh lại độ tương phản của ảnh, ta điều chỉnh lại biên độ trên
1.4
Trang 22toàn dải hay trên dải có giới hạn bằng cách biến đổi tuyến tính biên độ đầu vào (dùng hàm biến đổi là hàm tuyến tính) hay phi tuyến (hàm mũ hay hàm lôgarít) Khi dùng hàm tuyến tính các độ dốc , , phải chọn lớn hơn một
trong miền cần dãn Các tham số a và b (các cận) có thể chọn khi xem xét
Giả sử ta có ảnh I có kích thước m × n và số nguyên c
Khi đó, kỹ thuật tăng, giảm độ sáng được thể hiện
Trang 23d Chỉnh mức xám
Nhằm khắc phục tính không đồng đều của hệ thống gây ra Thông thường có hai hướng tiếp cận:
Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau
thành một bó Trường hợp chỉ có hai mức xám thì chính là chuyển về ảnh đen trắng Ứng dụng: In ảnh màu ra máy in đen trắng
Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng
kỹ thuật nội suy Kỹ thuật này nhằm tăng cường độ mịn cho ảnh 1.1.2.3 Phân vùng ảnh
Phân vùng ảnh là bước then chốt trong xử lý ảnh Giai đoạn này nhằm phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên thông Tiêu chuẩn để xác định các vùng liên thông có thể là cùng mức xám, cùng màu hay cùng độ nhám Trước hết cần làm rõ khái
niệm "vùng ảnh" (Segment) và đặc điểm vật lý của vùng
Vùng ảnh là một chi tiết, một thực thể trông toàn cảnh Nó là một tập hợp các điểm có cùng hoặc gần cùng một tính chất nào đó như: mức xám, mức màu, độ nhám… Vùng ảnh là một trong hai thuộc tính của ảnh Nói đến vùng ảnh là nói đến tính chất bề mặt Đường bao quanh một vùng ảnh
(Boundary) là biên ảnh Các điểm trong một vùng ảnh có độ biến thiên giá trị
mức xám tương đối đồng đều hay tính kết cấu tương đồng
Dựa vào đặc tính vật lý của ảnh, người ta có nhiều kỹ thuật phân vùng: phân vùng dựa theo miền liên thông gọi là phân vùng dựa theo miền đồng nhất hay miền kề; phân vùng dựa vào biên gọi là phân vùng biên Ngoài ra còn có các kỹ thuật phân vùng khác dựa vào biên độ, phân vùng dựa theo kết cấu
Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này
Trang 241.1.2.4 Trích chọn đặc trưng
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn) cộng với mã liên kết với các vùng lận cận Việc biến đổi các số liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc trưng (hay trích chọn đặc
điểm - Feature Selection) gắn với việc tách các đặc tính của ảnh dưới dạng
các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này với đối tượng khác trong phạm vi ảnh nhận được Ví dụ: trong nhận dạng ký tự trên phong bì thư, chúng ta miêu tả các đặc trưng của từng ký tự giúp phân biệt ký tự này với ký tự khác
Các đặc điểm của đối tượng được trích chọn tùy theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau đây:
Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ,
điểm uốn
Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc
thực hiện lọc vùng (zonal filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask) thường là các khe hẹp với hình dạng khác
nhau (chữ nhật, tam giác, cung tròn )
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối
tượng và do vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace,
toán tử “chéo không” (zero crossing)
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống
Trang 251.1.2.5 Nhận dạng và nội suy ảnh
Đây là giai đoạn cuối của các hệ thống xử lý ảnh Nhận dạng ảnh (Image
Recognition) là quá trình phân loại các đối tượng được biểu diễn theo một mô
hình nào đó và gán chúng một tên (gán cho đối tượng một tên gọi, tức là một dạng) dựa theo những quy luật và mẫu chuẩn Quá trình nhận dạng dựa vào
những mẫu chuẩn được học (hoặc lưu) từ trước gọi là nhận dạng có thầy hay học có thầy, trong những trường hợp ngược lại gọi là học không có thầy Nội suy (Interpretation) là phán đoán theo ý nghĩa trên cơ sở nhận dạng
Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì thư có thể được nội suy thành mã điện thoại
Có nhiều cách phân loại ảnh khác nhau Trong lý thuyết về nhận dạng nói chung và nhận dạng ảnh nói riêng, các mô hình toán học về ảnh được phân theo hai loại nhận dạng ảnh cơ bản:
Nhận dạng theo tham số
Nhận dạng theo cấu trúc
Hay có ba cách tiếp cận khác nhau:
Nhận dạng dựa vào phân hoạch không gian
Nhận dạng dựa vào cấu trúc
Nhận dạng dựa vào kỹ thuật mạng nơron
Hai cách tiếp cận đầu là những cách tiếp cận kinh điển, đã được nghiên cứu và áp dụng rất nhiều trong thực tế Các đối tượng ảnh quan sát và thu nhận được phải trải qua giai đoạn tiền xử lý nhằm tăng cường chất lượng, làm nổi các chi tiết, tiếp theo là trích chọn và biểu diễn các đặc trưng, cuối cùng mới là giai đoạn nhận dạng
Cách tiếp cận thứ ba hoàn toàn khác Nó dựa vào cơ chế đoán nhận, lưu trữ và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh con người Do cơ chế đặc biệt, các đối tượng thu nhận bởi thị giác người không cần qua giai đoạn cải thiện mà chuyển ngay sang giai đoạn tổng hợp, đối sánh với các mẫu đã lưu trữ để nhận dạng
Trang 26Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký
điện tử), nhận dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch,
nhận dạng đối tượng chuyển động, nhận dạng mặt người, nhận dạng nụ cười, nhận dạng mống mắt,…
Chi tiết các kỹ thuật nhận dạng ảnh sẽ được trình bày trong mục [1.2.1]
1.1.2.6 Hậu xử lý
a Nén ảnh
Ảnh dù ở dạng nào vẫn chiếm không gian nhớ rất lớn Nhằm giảm thiểu không gian lưu trữ, khi mô tả ảnh, người ta đã đưa kỹ thuật nén ảnh vào Thông thường được tiến hành theo cả hai cách khuynh hướng là nén có bảo toàn và nén không bảo toàn thông tin Nén không bảo toàn thì thường có khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn Trên cơ sở hai khuynh hướng, có bốn cách tiếp cận cơ bản trong nén ảnh:
Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất
xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp Một ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF
Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các
điểm ảnh để tiến hành mã hóa Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau Ví dụ cho kỹ thuật này là mã hóa *.PCX
Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng
nén không bảo toàn và do vậy kỹ thuật này thường hiệu quả hơn
*.JPG tiếp cận theo kỹ thuật nén này
Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh, thể
hiện sự lặp lại của các chi tiết Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal Các phương pháp nén ảnh:
Nén thế hệ thứ nhất:
Trang 27 Phương pháp mã hóa loạt dài RLC (Run Length Coding)
Phương pháp mã hóa Huffman
Phương pháp LZW (Lempel Ziv-Wench)
Phương pháp mã hóa khối (Block Coding)
Phương pháp thích nghi
Nén thế hệ thứ hai:
– Phương pháp Kim tự tháp Laplace (Pyramide Laplace)
– Phương pháp mã hóa dựa vào biểu diễn ảnh
Hiện nay, các chuẩn nén ảnh theo định dạng MPEG được dùng và đang phát huy hiệu quả
b Biểu diễn ảnh
Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá được nhúng trong các thiết bị kỹ thuật khác nhau Quá trình lưu trữ ảnh nhằm hai mục đích:
Tiết kiệm bộ nhớ
Giảm thời gian xử lý
Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in ấn và xử lý ảnh được xem như là một tập hợp các điểm với cùng kích thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độ phân giải
Việc lựa chọn độ phân giải thích hợp tuỳ thuộc vào nhu cầu sử dụng và đặc trưng của mỗi ảnh cụ thể, trên cơ sở đó các ảnh thường được biểu diễn theo hai mô hình cơ bản
* Mô hình Raster
Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểu diễn dưới dạng ma trận các điểm (điểm ảnh) Thường thu nhận qua các thiết bị như camera, scanner Tùy theo yêu cầu thực thế mà mỗi điểm ảnh được biểu diễn
qua một hay nhiều bít
Trang 28Mô hình Raster thuận lợi cho hiển thị và in ấn Ngày nay công nghệ phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh
và chất lượng cao cho cả đầu vào và đầu ra Một thuận lợi cho việc hiển thị
trong môi trường Windows là Microsoft đưa ra khuôn dạng ảnh DIB (Device
Independent Bitmap) làm trung gian Hình 1.6 thể hình quy trình chung để
hiển thị ảnh Raster thông qua DIB
Một trong những hướng nghiên cứu cơ bản trên mô hình biểu diễn này là
kỹ thuật nén ảnh, các kỹ thuật nén ảnh lại chia ra theo hai khuynh hướng là nén bảo toàn và không bảo toàn thông tin nén, bảo toàn có khả năng phục hồi hoàn toàn dữ liệu ban đầu còn, nếu không bảo toàn chỉ có khả năng phục hồi
độ sai số cho phép nào đó Theo cách tiếp cận này người ta đã đề ra nhiều quy cách khác nhau như BMP, TIF, GIF, PCX…
Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm cả trong đó các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén có khả năng phục hồi với độ sai số nhận được
Hình 1.6: Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB
* Mô hình Vector
Biểu diễn ảnh ngoài mục đích tiết kiệm không gian lưu trữ dễ dàng cho hiển thị và in ấn còn đảm bảo dễ dàng trong lựa chọn sao chép di chuyển tìm kiếm…Theo những yêu cầu này kỹ thuật biểu diễn vector tỏ ra ưu việt hơn Trong mô hình vector người ta sử dụng hướng giữa các vector của điểm ảnh lân cận để mã hóa và tái tạo hình ảnh ban đầu ảnh vector được thu nhận trực tiếp từ các thiết bị số hoá như Digital hoặc được chuyển đổi từ ảnh Raster thông qua các chương trình số hoá
Trang 29Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh và chất lượng cho cả đầu vào và ra nhưng lại chỉ hỗ trợ cho ảnh Raster
Do vậy, những nghiên cứu về biểu diễn vectơ đều tập trung từ chuyển đổi từ ảnh Raster
Hình 1.7: Sự chuyển đổi giữa các mô hình biểu diễn ảnh
1.2 KIỂM SOÁT THÔNG TIN HÌNH ẢNH
1.2.1 Nhận dạng ảnh
1.2.1.1 Giới thiệu
a Không gian biểu diễn đối tượng, không gian diễn dịch
Không gian biểu diễn đối tượng
Các đối tượng khi quan sát hay thu thập thường được biểu diễn bởi tập
các đặc trưng hay đặc tính Giả sử đối tượng ảnh X (ảnh, chữ viết, dấu vân tay,…) được biểu diễn bởi n thành phần (n đặc trưng): X={x 1 ,x 2 …x n }; mỗi x i
biểu diễn một đặc tính Không gian biểu diễn thường được gọi tắt là không
gian đối tượng được định nghĩa:
= { X 1 , X 2 ,…X m }
Trong đó mỗi X i biểu diễn một đối tượng Không gian này có thể là vô
hạn Để tiện xem xét chúng ta chỉ xét tập X là hữu hạn
Không gian diễn dịch
Không gian diễn dịch là tập các tên gọi của đối tượng Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng Một cách hình thức gọi
Ω là tập tên đối tượng:
Ω={w 1 , w 2 ,… w k } với w i , i=1,2…k là tên các đối tượng
Quá trình nhận dạng đối tượng f là một ánh xạ f: X → Ω với f là tập các quy luật để định một phần tử trong X ứng với một phần tử trong Ω Nếu tập
các quy luật và tập tên các đối tượng là biết trước như trong nhận dạng chữ
Trang 30viết (có 26 lớp từ A đến Z), người ta gọi là nhận dạng có thầy Trường hợp thứ
hai là nhận dạng không có thầy
b Mô hình và bản chất của quá trình nhận dạng
Mô hình
Trong nhận dạng người ta chia thành hai họ lớn:
– Họ mô tả theo tham số
– Họ mô tả theo cấu trúc
Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng Như vậy,
chúng ta sẽ có hai loại mô hình: mô hình tham số và mô hình cấu trúc
Mô hình tham số: sử dụng một vectơ để đặc tả đối tượng Mỗi phần tử
của vectơ mô tả một đặc tính của đối tượng Thí dụ như trong các đặc trưng chức năng, người ta sử dụng các hàm cơ sở trực giao để biểu diễn
Việc lựa chọn phương pháp biểu diễn sẽ làm đơn giản cách xây dựng Tuy nhiên việc lựa chọn đặc trưng nào là hoàn toàn phụ thuộc vào ứng dụng Thí dụ, trong nhận dạng chữ, các tham số là các dấu hiệu:
– Số điểm chạc ba, chạc tư
– Số điểm chu trình
– Số điểm ngoặt
– Số điểm kết thúc
Mô hình cấu trúc: Cách tiếp cận trong mô hình này dựa vào việc mô tả
đối tượng nhờ một số khái niệm biểu thị các đối tượng cơ sở trong ngôn ngữ
tự nhiên Để mô tả đối tượng người ta dùng một số dạng nguyên thủy như đoạn thẳng, cung… Chẳng hạn một hình chữ nhật được định nghĩa gồm bốn đoạn thẳng vuông góc với nhau từng đôi một Trong mô hình này người ta sử
dụng một bộ ký hiệu kết thúc Vt, một bộ kí hiệu không kết thúc gọi là V n Ngoài ra có dùng một tập các luật sản xuất để mô tả cách xây dựng các đối tượng phù hợp dựa trên các đối tượng đơn giản hơn hoặc đối tượng nguyên
thủy (tập V t) Trong cách tiếp cận này, ta chấp nhận khẳng định là: cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo những nguyên tắc xác
Trang 31định bắt đầu từ một dạng gốc ban đầu Một cách hình thức, ta có thể coi mô
hình này tương đương một văn phạm G=(V, V n , P, S) với:
Hình 1.8: Mô hình cấu trúc của đối tượng nhà
Quá trình nhận dạng gồm ba giai đoạn chính:
– Chọn mô hình biểu diễn đối tượng
– Chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn
– Học trong nhận dạng
Trong việc lựa chọn để biểu diễn đối tượng, đối tượng có thể được xác định theo cách định lượng (mô hình tham số) hay định tính (mô hình cấu trúc) Khi đối tượng đã được xác định, quá trình nhận dạng chuyển sang giai
đoạn thứ hai-giai đoạn học (Learning) Học là giai đoạn cung cấp tri thức cho
hệ thống Mục đích học nhằm cải thiện, điều chỉnh việc phân loại tập đối tượng thành các lớp Nhận dạng là tìm ra quy luật và các thuật toán để có thể gắn đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên
Trang 32Học có thầy: kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có
thầy Đặc điểm cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn Mẫu cần nhận dạng sẽ được đem so sánh với mẫu chuẩn để xem nó thuộc loại nào Vấn đề chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng trong ảnh với mẫu chuẩn và quyết định gán cho chúng vào một lớp Việc đối sánh nhờ vào các thủ tục ra quyết định dựa trên một công cụ gọi là hàm phân lớp hay hàm ra quyết định
Học không có thầy: kỹ thuật này phải tự định ra các lớp khác nhau và
xác định các tham số đặc trưng cho từng lớp Học không có thầy đương nhiên
là gặp khó khăn hơn Một mặt, do số lớp không được biết trước, mặt khác những đặc trưng của lớp cũng không được biết trước Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm có thể và chọn lựa cách tốt nhất Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khác nhau nhằm phân lớp và nâng cấp dần để đạt được một phương án phân loại
Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ sau:
Hình 1.9: Sơ đồ tổng quát hệ thống nhận dạng ảnh
1.2.1.2 Nhận dạng ảnh theo miền không gian
Với kỹ thuật này, các đối tượng nhận dạng là các đối tượng định lượng Biểu diễn mỗi đối tượng được bởi một véctơ đa chiều Trước tiên, ta sẽ xem xét một số khái niệm: phân hoạch không gian, hàm phân biệt sau đó sẽ đi vào một số kỹ thuật cụ thể
Trang 33a Phân hoạch không gian
Giả sử không gian đối tượng X được định nghĩa: X = {Xi, i=1,2, ,m}, Xi
là một véctơ Người ta nói D là một phân hoạch của không gian X thành các
lớp Ci, Ci X nếu:
C i C j = Φ với i j và Ci = Nói chung, đây là trường hợp lý tưởng: tập tách được hoàn toàn Trong thực tế, thường gặp không gian biểu diễn tách được từng phần Như
vậy phân loại là dựa vào việc xây dựng một ánh xạ f: Công cụ xây
dựng ánh xạ này là các hàm phân biệt (descriminant functions)
b Hàm phân lớp hay hàm ra quyết định
Để phân đối tượng vào các lớp, ta phải xác định số lớp và ranh giới giữa các lớp đó Hàm phân lớp hay hàm phân biệt là một công cụ rất quan trọng
Gọi {g i} là lớp các hàm phân lớp Lớp hàm này được định nghĩa như sau:
Nếu i ≠ k, g k (X) > g i (X) thì ta quyết định X lớp k
Như vậy để phân biệt k lớp, ta cần k-1 hàm phân biệt Hàm phân biệt g
của một lớp nào đó thường dùng là hàm tuyến tính, có nghĩa là:
dựng dựa trên khái niệm khoảng cách hay dựa vào xác suất có điều kiện
Phân lớp dựa theo khoảng cách (Distance) là một công cụ tốt để xác
định đối tượng có “gần nhau” về một đặc trưng nào đó hay không Nếu khoảng cách nhỏ hơn một ngưỡng nào đấy ta coi hai đối tượng là giống
1.5
Trang 34nhau và gộp chúng vào một lớp Ngược lại, nếu khoảng cách lớn hơn ngưỡng,
có nghĩa là chúng khác nhau và ta tách thành hai hoặc nhiều lớp phân biệt
Phân lớp dựa theo xác suất có điều kiện (Conditional Probability):
Trong một số trường hợp, người ta dựa vào xác suất có điều kiện để phân lớp cho đối tượng Lý thuyết xác suất có điều kiện được Bayes nghiên cứu khá kỹ lưỡng và được dùng để phân biệt đối tượng
c Nhận dạng theo phương pháp thống kê
Nếu các đối tượng nhận dạng tuân theo luật phân bố Gauss, mà hàm mật độ xác suất cho bởi:
trong đó m là kỳ vọng, σ là độ lệch chuẩn
Người ta có dùng phương pháp ra quyết định dựa vào lý thuyết Bayes
Lý thuyết Bayes thuộc loại lý thuyết thống kê nên phương pháp nhận dạng dựa trên lý thuyết Bayes có tên là phương pháp thống kê
* Quy tắc Bayes:
Giả sử cho:
Cho không gian đối tượng = {X l , l=1, 2, , L}, với X l = {x 1 , x 2 , , x p }
Cho không gian diễn dịch = {C 1 , C 2 , , C r }, r là số lớp
Quy tắc Bayes phát biểu như sau:
: sao cho X C k nếu P(C k /X) > P(C l /X) l <> k, l=1, 2, , r
ở đây: P(C k /X) là xác suất của Ck trong điều kiện X xẩy ra Tương tự đối
với P(C l /X)
Trường hợp lý tưởng là nhận dạng đúng (không có sai số) Thực tế, luôn
tồn tại sai số ε trong quá trình nhận dạng Vấn đề chính ở đây là xây dựng quy tắc nhận dạng với sai số ε là nhỏ nhất
1.6
Trang 35* Phương pháp ra quyết định với tối thiểu:
Ta xác định X C k nhờ xác suất P(C k /X) Vậy nếu có sai số, sai số sẽ
được tính bởi 1 - P(C k /X) Để đánh giá sai số trung bình, người ta xây dựng
một ma trận L(r,r) giả thiết là có n lớp
Ma trận L được định nghĩa như sau:
Như vậy, sai số trung bình của sự phân lớp sẽ là:
Để sai số là nhỏ nhất ta cần có rk là nhỏ nhất (min) Từ lý thuyết xác suất
ta có công thức tính xác suất có điều kiện (Công thức Bayes):
Từ 2 công thức 1.7 và 1.8 trên ta suy ra:
Vậy, quy tắc ra quyết định dựa trên lý thuyết Bayes có tính đến sai số được phát biểu như sau:
X ∈ C k nếu p k < p p với p <> k, p=1,2…r
với p k là r k (X) được xác định theo công thức trên Rõ ràng, từ điều kiện
p k < p p ta hoàn toàn xác định đối tượng X thuộc lớp C k nào Đây chính là nội
dung tư tưởng của phương pháp thống kê
d Thuật toán nhận dạng dựa vào khoảng cách
Có nhiều thuật toán nhận dạng học không có thầy Ở đây, chúng ta xét
thuật toán học (Learning Algorithm) căn cứ vào khoảng cách lớn nhất
Nguyên tắc
Giả sử có tập gồm m đối tượng Xác định khoảng cách giữa các đối
tượng và khoảng cách lớn nhất ứng với phần tử xa nhất tạo nên lớp đối tượng
1.7
1.8
1.9
1.10
Trang 36mới Việc phân lớp được tạo nên dần dần dựa vào thủ tục xác định khoảng cách giữa các đối tượng và các lớp Điều này có thể minh họa bằng thuật toán sau:
Thuật toán
Bước 1:
Chọn hạt nhân ban đầu Giả sử 1 1 X ∈C gọi là lớp g1
Gọi Z1 là phần tử trung tâm của g1
Tính tất cả các khoảng cách Dj1=D(Xj,Z1) với j=1,2…m
Tìm Dk1=maxj Djk, trong đó Xk là phần tử xa nhất của nhóm g1
Như vậy, Xk là phần tử trung tâm của lớp mới g2 Kí hiệu Z2
Tính d1=D12=D(Z1,Z2)
Bước 2:
Tính các khoảng cách Dj1, Dj2 với Dj1=D(Xj,Z1); Dj2=D(Xj,Z2) Đặt k j j D(2) = max D Nguyên tắc chọn:
Nếu k k D(2) <θd , với θ là ngưỡng cho trước
Kết thúc thuật toán Việc phân lớp kết thúc;
Nếu không, tạo nhóm thứ ba Gọi X3 là phần tử trung tâm của g3,
kí hiệu Z3 ;
Tính D3=(D12+D13+D23);
D13=D(Z1, Z3);
D23=D(Z2, Z3)
Quá trình lặp lại cho đến khi phân xong
Kết quả thu được các lớp đại diện Z1, Z2,…,Zm
1.2.1.3 Nhận dạng dựa theo cấu trúc
a Biểu diễn định tính
Ngoài cách biễn diễn theo định lượng như đã mô tả ở trên, tồn tại nhiều kiểu đối tượng mang tính định tính Trong cách biểu diễn này, người ta quan tâm đến các dạng và mối quan hệ giữa chúng Giả thiết rằng mỗi đối tượng
Trang 37được biểu diễn bởi một dãy ký tự Các đặc tính biểu diễn bởi cùng một số ký
tự Phương pháp nhận dạng ở đây là nhận dạng lô gíc, dựa vào hàm phân biệt
là hàm Bool Cách nhận dạng là nhận dạng các từ có cùng độ dài
Giả sử hàm phân biệt cho mọi ký hiệu là g a (x), g b (x), , tương ứng với
các ký hiệu a, b, Để dễ dàng hình dung, ta giả sử có từ "abc" được biểu diễn
bởi một dãy ký tự X = {x 1 , x 2 , x 3 , x 4 } Tính các hàm tương ứng với 4 ký tự và
có:
g a (x 1 ) + g b (x 2 ) + g c (x 3 ) + g c (x 4 )
Các phép cộng ở đây chỉ phép toán OR Trên cơ sở tính giá trị cực đại của hàm phân biệt, ta quyết định X có thuộc lớp các từ "abc" hay không Trong cách tiếp cận này, đối tượng tương đương với câu hay một mệnh đề
b Phương pháp ra quyết định dựa vào cấu trúc
Thủ tục phân loại và nhận dạng ở đây gồm hai giai đoạn:
Giai đoạn 1: xác định các quy tắc xây dựng, tương đương với việc
nghiên cứu một văn phạm trong một ngôn ngữ chính thống
Giai đoạn 2: xem xét tập các dạng có được sinh ra từ các dạng đó
không? Nếu nó thuộc tập đó coi như đã phân loại xong
Tuy nhiên, ở phương pháp này văn phạm là một vấn đề lớn, khá phức tạp
và khó có thể tìm được loại phù hợp một cách hoàn hảo với mọi đối tượng Vì vậy, trong nhận dạng dựa theo cấu trúc, ta mới chỉ sử dụng được một phần rất nhỏ
Như đã trình bày ở trên, mô hình cấu trúc tương đương một văn phạm G:
G = {V n ,V t ,P,S} Có rất nhiều kiểu văn phạm khác nhau từ chính tắc đến phi
ngữ cảnh Một văn phạm sẽ được sử dụng trong nhận dạng bởi một ngôn ngữ hình thức, trong đó có một ngôn ngữ điển hình cho nhận dạng cấu trúc là PLD
(Picture Language Description)