Giai đoạn tiếp theo là phát hiện các đặc tính như biên, phân vùng ảnh, trích chọn các đặc tính, v.v...Cuối cùng, tuỳ theo mục đích của ứng dụng, sẽ là giai đoạn nhận dạng, phân lớp hay c
Trang 2LỜI CẢM ƠN
Lời đầu tiên em gửi lời cảm ơn chân thành đến thầy Ths.Hoàng Mạnh Hà đã tận tình hướng dẫn gợi ý và bổ xung kiến thức cũng như động viên, và bỏ rất nhiều thời gian để hướng dẫn tụi em trong quá trình nghiên cứu đề tài này Em cũng cám ơn trường đã tạo điều kiện về tình thần cũng như vật chất cho các em học tập và nghiên cứu đề tài trong thời gian qua
Trong khi thực hiện đề tài, em đã cố gắng tổng hợp kiến thức mà mình đã học và tham khảo tài liều nhằm đạt được kết quả tốt.Tuy nhiên kiến thức và trình độ còn có nhiều hạn chế nên kết quả làm ra không như mong muốn và còn nhiều thiếu sót
Trang 3NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
TPHCM, Tháng 7 năm 2009 Giáo viên hướng dẫn
Trang 4NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
TPHCM, Tháng 7 năm 2009 Giáo viên phản biện
Trang 5MỤC LỤC
LỜI CẢM ƠN 1
MỤC LỤC 4
DANH MỤC HÌNH 8
LỜI MỞ ĐẦU 10
CHƯƠNG 1: LÝ THUYẾT XỬ LÝ ẢNH 11
1.1.Tổng quan về một hệ thống xử lý ảnh: 11
1.2.Các vấn đề cơ bản trong xử lý ảnh: 13
1.2.1.Pixel (picture element – phần tử ảnh): 13
1.2.2.Gray level (mức xám): 14
1.2.3.Tín hiệu số và biểu diễn ảnh số: 14
1.2.4.Khái quát về hệ thống xử lý tín hiệu số: 15
1.2.5.Các toán tử không gian (spatial operators): 16
1.2.5.1.Toán tử tuyến tính: 16
1.2.5.2.Tích chập: 16
1.2.6.Các phương pháp xử lý hình học: 20
1.2.6.1.Các định nghĩa cơ sở : 20
1.2.6.2.Các phép biến đổi trong không gian: 21
1.2.6.3.Lược đồ mức xám: 22
1.2.6.4.Một số kỹ thuật cải thiện ảnh nhị phân: 23
1.3.Các kỹ thuật phân đoạn ảnh: 24
1.3.1.Phân đoạn dựa trên đường biên : 25
1.3.2.Phân đoạn dựa trên miền : 27
1.3.3.Phân đoạn dựa trên ngưỡng : 29
1.3.4.Phân đoạn dựa vào chuyển động: 31
CHƯƠNG 2: TỔNG QUAN VỀ NHẬN DẠNG 33
2.1.Không gian biểu diễn đối tượng, không gian diễn dịch: 33
2.1.1.Không gian biểu diễn đối tượng : 33
2.1.2.Không gian diễn dịch: 33
2.2.Mô hình và bản chất của quá trình nhận dạng: 34
Trang 62.2.2.Bản chất của quá trình nhận dạng: 36
2.3.Nhận dạng dựa trên phân hoạch không gian: 37
2.3.1.Phân hoạch không gian: 37
2.3.2.Hàm phân lớp hay hàm ra quyết định 37
2.3.3.Nhận dạng thống kê: 38
2.3.4.Một số thuật toán nhận dạng tiêu biểu trong tự học 40
2.3.4.1.Thuật toán dựa vào khoảng cách lớn nhất: 40
2.3.4.2.Thuật toán k trung bình (giả sử có k lớp g): 41
2.3.4.3.Thuật toán isodata: 41
2.4.Nhận dạng theo cấu trúc: 42
2.4.1.Biểu diễn định tính: 42
2.4.2.Phương pháp ra quyết định dựa vào cấu trúc: 42
2.4.2.1.Một số khái niệm: 42
2.4.2.2.Phương pháp nhận dạng: 43
2.5.Tổng quan về mạng neural networks: 43
2.5.1.Bộ não và nơ ron sinh học: 43
2.5.2.Mô hình mạng nơ ron nhân tạo: 46
2.5.2.1.Mô hình nơ ron nhân tạo: 46
2.5.2.2.Mạng nơron: 49
2.5.2.2.1.Phân loại các mạng nơron: 49
2.5.2.2.2.Hai cách nhìn về mạng nơron: 50
2.5.2.2.3.Khả năng tính toán và biểu diễn phụ thuộc dữ liệu của mạng nơ ron: 52
2.5.2.2.4.Xác định cấu trúc mạng tối ưu: 52
2.5.3.Các mạng nơron một lớp: 53
2.5.3.1.Mạng hopfield: 53
2.5.3.2.Mạng kiểu bộ nhớ 2 chiều kết hợp thích nghi (adaptive idirectional associative memory neural network): 55
2.5.3.3.Mạng perceptron: 57
2.5.4.Các mạng nơ ron nhiều lớp (multi-layer neural network): 59
2.5.4.1.Mạng nơ ron nhiều lớp lan truyền ngược sai số (back-propagation neural network): 59
Trang 72.5.4.2.Mạng nơ ron nhiều lớp ngược hướng (counter-propagation neural
network): 64
2.5.5.Ứng dụng mạng nơ ron lan truyền ngược hướng cho nhận dạng ký tự: 65
2.5.5.1.Mở đầu: 65
2.5.5.2.Nhận dạng bằng mạng noron lan truyền ngược hướng: 65
CHƯƠNG 3: GIỚI THIỆU CHƯƠNG TRÌNH VÀ MÔ PHỎNG 68
3.1.Giới thiệu chương trình sử dụng: 68
3.1.1.Các kiểu ảnh trong matlab: 69
3.1.1.1.Ảnh chỉ số: 69
3.1.1.2.Ảnh biểu diễn theo độ sáng: 69
3.1.1.3.Ảnh nhị phân: 70
3.1.1.4.Ảnh rgb: 70
3.1.2.Hệ thống tọa độ : 71
3.1.2.1.Tọa độ pixel: 71
3.1.2.2.Tọa độ không gian: 71
3.1.3.Hiển thị ảnh : 72
3.1.4.Thay đổi kích thước ảnh: 73
3.1.5.Chuyển đổi giữa các kiểu ảnh: 74
3.1.6.Các phép toán số học cơ bản đối với dữ liệu ảnh: 75
3.1.7.Các kiểu dữ liệu ảnh: 76
3.1.8.Hàm imtransform: 76
3.2.Mô phỏng: 79
3.2.1.Thực hiện thu nhận ảnh từ webcam: 79
3.2.2.Chuẩn hoa webcam : 79
3.2.3.Lấy ảnh nền và biến đổi xám nền: 81
3.2.4.Lấy ảnh đối tượng và biến đổi mức xám 82
3.2.5.Lấy hình dạng bàn tay và loại bỏ nền đồng thời lấy nhị phân ảnh: 83
3.2.6.Loại bỏ điện tích ko cần thiết: 85
3.2.7.Tìm điểm cao nhất vào trọng tâm: 86
3.2.8.Chuẩn hóa điểm cao nhất 87
3.2.9.Kết quả nhận được: 88
Trang 83.2.10.Kết quả không mong muốn: 88
3.2.11.Nhận dạng : 88
3.2.12.Giao diện thể hiện: 90
TÀI LIỆU THAM KHẢO 91
Trang 9DANH MỤC HÌNH
Hình 1.1: Các giai đoạn chính trong xử lý ảnh 111
Hình1.2: Các thành phần chính của hệ thống xử lý ảnh 122
Hình 1.3: Tín hiệu rời rạc 144
Hình 1.4: Một biểu diễn của toán tử chập 177
Hình 1.5: Ví dụ về toán tử chập cuộn 188
Hình 1.6: Cải thiện ảnh nhị phân 233
Hình 1.7: Minh họa việc phân đoạn dựa trên biên 266
Hình 1.8: Minh họa phương pháp phân đoạn watershed 277
Hình 1.9: Minh họa việc phân tích quadtree 288
Hình 1.10: Minh họa phương pháp phân đoạn dựa trên ngưỡng 29
Hình 1.11: Minh họa việc phân đoạn với nhiều mức ngưỡng 300
Hình 1.12: Minh họa việc phát hiện chuyển động 322
Hình 2.1: Mô hình cấu trúc của một đối tượng nhà 355
Hình 2.2: Sơ đồ tổng quát một hệ nhận dạng 377
Hình 2.3: Cấu tạo nơ ron sinh học 466
Hình 2.4: Mô hình nơ ron nhân tạo 466
Hình 2.5: Minh họa neuron với một ngõ vào 477
Hình 2.6: Khả năng biểu diễn của nơron 49
Hình 2.7: Mạng nơron truyền thẳng và nhiều lớp 500
Hình 2.8: Mạng nơron hồi qui 500
Hình 2.9: Học tham số có giám sát 511
Hình 2.10: Mạng hopfield 533
Hình 2.11: Mạng abam 566
Hình 2.12: Mạng perceptron 588
Hình 2.13: Mạng nơron 2 lớp 60
Hình 3.1: Ảnh chỉ số 69
Hình 3.2: Ảnh biểu diễn theo dộ sáng 700
Hình 3.3: Ảnh nhị phân 700
Trang 10Hình 3.5: Tọa độ pixel 711
Hình 3.6: Ảnh kết nối giữa webcam và chương trinh matlab 79
Hình 3.7: 4 diểm tối 800
Hình 3.8: 4 diểm sang ở bốn góc 800
Hình 3.9: Tọa dộ 4 điểm được quy đổi trên webcam 811
Hình 3.10: 4 điểm biến đổi 81
Hình 3.11: Ảnh nền khi chưa lấy xám 822
Hình 3.12: Ảnh nền khi đã lấy xám 822
Hình 3.13: Ảnh đối tượng 833
Hình 3.14: Ảnh biến đổi xám của đối tượng 833
Hình 3.15: Ảnh lấy hình dạng bàn tay và loại bỏ nền 844
Hình 3.16: Ảnh nhị phân hình dạng bàn tay 844
Hình 3.17: Ảnh sau khi loại bỏ diện thích nhỏ không cần thiết 866
Hình 3.18: Ảnh xác định trọng tâm và điểm cao nhất 877
Hình 3.19: Ảnh thể hiên điểm cao nhất được chuẩn hóa nhưng bị mờ 877
Hình 3.20: Ảnh điểm chuẩn hóa đã được làm rõ 888
Hình 3.21: Việc trượt cửa sổ tìm đối tượng lên ảnh 89
Hình 3.22: Kết quả nhận dạng trên ảnh tĩnh 89
Hình 3.23: Chương trình mô phỏng tương tác 90
Trang 11LỜI MỞ ĐẦU
Trên thế giới công nghệ xử lý ảnh ngày càng phát triển mạnh và đạt nhiều
thành tựu to lớn Các lĩnh vực như: y tế, giáo dục, dự báo thời tiết, truyền hình,
thiên văn … đều sử dụng những thành quả của việc nghiên cứu lĩnh vực xử lý ảnh
Ngày nay xử lý ảnh là một môn học chuyên nghành không thể thiếu trong các giảng đường đại học, giành cho sinh viên các khối kỹ thuật và ứng dụng Các công ty và
tập đoàn trên thế giới đã bỏ ra rất nhiều tiền để đầu tư cho lĩnh vực này như: “Tập
đoàn Toshiba tại thành phố Cambridge (Anh) đã đầu tư phát triển một công nghệ cho phép con người điều khiển tivi bằng cử động của bàn tay Và họ rất tâm đắt về kết quả mà mình thu nhận được dù nó vẫn còn một số sai sót cần chỉnh sửa Bên cạnh đó là công ty NEC solutions Asia Pacific phối hợp với công ty Thái Nam cũng
đã giới thiệu những công nghệ nhận dạng sinh học tiên tiến nhất hiện nay của họ về
xử lý ảnh như: nhận dạng dấu vân tay, bàn tay, tròng mắt, khuôn mặt” Và đó chỉ là
một phần nhỏ mà ta nhìn thấy thông qua báo chí, thật ra xử lý ảnh đã rất phát triển
và lâu đời ở những nước khoa học và kỹ thuật phát triển Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính: nâng cao chất lượng ảnh và phân tích ảnh Ứng dụng đầu tiên được biết đến là nâng cao chất lượng ảnh báo được truyền qua cáp từ Luân đôn đến New York từ những năm 1920 Vấn đề nâng cao chất lượng ảnh có liên quan tới phân bố mức sáng và độ phân giải của ảnh Việc nâng cao chất lượng ảnh được phát triển vào khoảng những năm 1955 Điều này có thể giải thích được vì sau thế chiến thứ hai, máy tính phát triển nhanh tạo điều kiện cho quá trình xử lý ảnh số thuận lợi Năm 1964, máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh
Từ năm 1964 đến nay, các phương tiện xử lý, nâng cao chất lượng, nhận dạng ảnh phát triển không ngừng Các phương pháp tri thức nhân tạo như mạng nơ ron nhân tạo, các thuật toán xử lý hiện đại và cải tiến, các công cụ nén ảnh ngày càng được áp dụng rộng rãi và thu nhiều kết quả khả quan
Đề tài “ Nhận Dạng Cử Động Bàn Tay ” gồm những nội dung sau:
Chương 1: Lý thuyết xử lý ảnh
Chương 2: Tổng quan về nhận dạng
Chương 3: Giới thiệu chương trình và mô phỏng
Trong quá trình làm bài luận văn này không thể tránh những sai sót nên em rất mong nhận được những lời nhận xét, hướng dẫn và giúp đỡ của thầy cô trong khoa điện tử viễn thông
Trang 12CHƯƠNG 1: LÝ THUYẾT XỬ LÝ ẢNH
1.1 Tổng quan về một hệ thống xử lý ảnh:
Để có thể hình dung cấu hình một hệ thống xử lý ảnh chuyên dụng hay một hệ thống xử lý ảnh dùng trong nghiên cứu, đào tạo, trước hết chúng ta sẽ xem xét các bước cần thiết trong xử lý ảnh
Trước hết là quá trình thu nhận ảnh, có thể thu nhận qua camera Ảnh thu nhận qua camera là tín hiệu tương tự (loại camera ống kiểu CCIR), nhưng cũng có thể là tín hiệu số hóa (loại CCD - Charge Coupled Device)
Ảnh cũng có thể thu nhận từ vệ tinh qua các bộ cảm ứng (sensor), hay ảnh,
tranh được quét trên scanner Tiếp theo là quá trình số hoá (Digitalizer) để biến đổi
tín hiệu tương tự sang tín hiệu rời rạc (lấy mẫu) và số hoá bằng lượng hoá, trước khi chuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại
Quá trình phân tích ảnh thực chất bao gồm nhiều công đoạn nhỏ Trước hết là công việc tăng cường ảnh để nâng cao chất lượng ảnh Do những nguyên nhân khác nhau: có thể do chất lượng thiết bị thu nhận ảnh, do nguồn sáng hay do nhiễu, ảnh
có thể bị suy biến Do vậy cần phải tăng cường và khôi phục lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống nhất với trạng thái gốc - trạng thái trước khi ảnh bị biến dạng Giai đoạn tiếp theo là phát hiện các đặc tính như biên, phân vùng ảnh, trích chọn các đặc tính, v.v Cuối cùng, tuỳ theo mục đích của ứng dụng, sẽ là giai đoạn nhận dạng, phân lớp hay các quyết định khác.Các giai đoạn chính của quá trình xử lý ảnh có thể mô tả ở Hình 1.1
Hình 1.1: Các giai đoạn chính trong xử lý ảnh
Với các giai đoạn trên, một hệ thống xử lý ảnh (cấu trúc phần cứng theo chức năng) gồm các thành phần tối thiểu như Hình
Trang 13Hình1.2: Các thành phần chính của hệ thống xử lý ảnh
Đối với một hệ thống xử lý ảnh thu nhận qua camera -camera như là con mắt của hệ thống Có 2 loại camera: camera ống loại CCIR và camera CCD Loại camera ứng với chuẩn CCIR quét ảnh với tần số 1/25 và mỗi ảnh gồm 625 dòng Loại CCD gồm các photodiode và làm tương ứng một cường độ sáng tại một điểm ảnh ứng với một phần tử ảnh (pixel) Như vậy, ảnh là tập hợp các điểm ảnh Số pixel tạo nên một ảnh gọi là độ phân giải (resolution)
Bộ xử lý tương tự (analog processor), bộ phận này thực hiện các chức năng sau:
- Chọn camera thích hợp nếu hệ thống có nhiều camera
Máy chủ đóng vai trò điều khiển các thành phần miêu tả ở trên
Bộ nhớ ngoài: Dữ liệu ảnh cũng như các kiểu dữ liệu khác, để có thể chuyển giao cho các quá trình khác, nó cần được lưu trữ Để có một ước lượng, xét thí
Trang 14dụ sau: một ảnh đen trắng cỡ 512 x 512 với 256 mức xám chiếm 256K bytes Với một ảnh màu cùng kích thước dung lượng sẽ tăng gấp 3 lần
1.2 Các vấn đề cơ bản trong xử lý ảnh:
1.2.1 Pixel (picture element – phần tử ảnh):
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng Để
có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh Trong quá trình
số hoá, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hóa về không gian) và lượng hoá thành phần giá trị mà thể về nguyên tắc bằng mắt thường không phân biệt được hai điểm kề nhau Trong quá
trình này, người ta sử dụng khái niệm Picture element mà ta quen gọi hay viết là
Pixel - phần tử ảnh ở đây cũng cần phân biệt khái niệm pixel hay đề cập đến trong
các hệ thống đồ hoạ máy tính Để tránh nhầm lẫn ta tạm gọi khái niệm pixel này là pixel thiết bị Khái niệm pixel thiết bị có thể xem xét như sau: khi ta quan sát màn hình (trong chế độ đồ hoạ), màn hình không liên tục mà gồm nhiều điểm nhỏ, gọi là pixel Mỗi pixel gồm một cặp toạ độ x, y và màu
Cặp toạ độ x, y tạo nên độ phân giải (resolution) Như màn hình máy tính có
nhiều loại với độ phân giải khác nhau: màn hình CGA có độ phân giải là 320 x 200; màn hình VGA là 640 x 350,
Như vậy, một ảnh là một tập hợp các điểm ảnh Khi được số hoá, nó thường được biểu diễn bởi mảng hai chiều I (n,p): n dòng và p cột Ta nói ảnh gồm n x p pixels Người ta thường kí hiệu I(x,y) để chỉ một pixel Thường giá trị của n chọn bằng p và bằng 256 Một pixel có thể lưu trữ trên 1, 4, 8 hay 24 bit
Sau đây là một pixel và pixel lân cận của nó:
P1(x-1,y-1) P2(x-1,y) P3(x-1,y+1)
P6(x+1,y-1) P7(x+1,y) P8(x+1,y+1)
Một pixel p tại các tọa độ (x,y) có ô pixel lân cận theo chiều dọc và chiều ngang là: P2,P7,P4,P5 Tập các pixel này gọi là lân cận của P và ký hiệu là N4(p), mỗi pixel lân cận cách (x,y) một đơn vị và nếu (x,y) ở mép của màn hình thì sẽ có một số pixel lân cận của p nằm ở ngoài hình ảnh
Trang 15Ngoài 4 pixel lân cận của p theo chiều dọc và chiều ngang, xung quanh p còn
có 4 pixel chéo góc có các tọa độ tương ứng là: P1, P8, P3, P6(tập các pixel này được ký hiệu là ND(p)
Bốn pixel này cùng với 4 pixel ở trên tạo thành 8 pixel lân cận của p và được
ký hiệu là N8(p) Tập hợp này cũng sẽ có một số pixel ở bên ngoài hình ảnh nếu (x,y) nằm ở mép của hình ảnh
1.2.2 Gray level (mức xám):
Mức xám là kết quả sự mã hóa tương ứng một cường độ sáng của mỗi điểm ảnh với một giá trị số - kết quả của quá trình lượng hóa Cách mã hóa kinh điển thường dùng 16,32 hay 64 mức Mã hóa 256 mức là phổ dụng nhất do lý do kỹ thuật Vì 28 = 256 (0,1,…,255) nên với 256 mức, mỗi pixel sẽ được mã hóa bởi 8 bit
1.2.3 Tín hiệu số và biểu diễn ảnh số:
Một hàm hai biến thực hoặc phức có thể coi như một ảnh Một ảnh trong không gian 2 chiều có thể biểu diễn bởi một tập hợp các ma trận cơ sở gọi là ảnh cơ
sở Như vậy một tín hiệu 2 chiều liên tục trong không gian, theo khái niệm trên gọi
là ảnh liên tục trong không gian số thực và ký hiệu là f(x,y), giá trị của f(x,y) là liên tục trong khoảng (-∞,∞)
Các tín hiệu liên tục theo thời gian qua quá trình số hóa ta thu được tín hiệu rời rạc (gọi là tín hiệu số)
Hình 1.3: Tín hiệu rời rạc
Ảnh số chính là ảnh xử lý bằng máy tính thu được từ ảnh liên tục bởi quá trình
số hóa (lấy mẫu và lượng hóa), thường được ký hiệu là I[x,y] biểu diễn cường độ sáng được mã hóa của mỗi điểm ảnh (x,y) Giá trị đó còn gọi là mức xám (grey level) Vậy I[x,y] có giá trị rời rạc và để tiện xử lý, ta coi giá trị của I[x,y] là nguyên I[x,y] Є {0,1,…,L-1} với L là mức xám tối đa dùng để biểu diễn
Trang 16Để giảm độ phức tạp tính toán, các giá trị của (m,n) thường chọn là hữu hạn và thường chọn là 512; còn L chọn là 256 Ảnh có nhiều mức xám gọi là ảnh đa mức xám Ảnh có 2 giá trị mức xám 0 và 1 gọi là ảnh nhị phân
Với cách biểu diễn trên, ảnh số chính là một phần của của tín hiệu số trong không gian 2 chiều Và cách biểu diễn ảnh số thông dụng nhất là dùng bảng 2 chiều
mà thuật ngữ thường gọi là ma trận ảnh hay bản đồ ảnh
1.2.4 Khái quát về hệ thống xử lý tín hiệu số:
Hệ thống số là một hệ thống tiếp nhận tín hiệu số ở đầu vào, xử lý tín hiệu theo một qui trình nào đấy và đưa ra cũng là một tín hiệu số Vì ảnh số là một phần của tín hiệu số, nên hệ thống xử lý ảnh số có đặc thù như hệ thống số cộng thêm một số tính chất riêng
Nếu gọi tín hiệu số đầu vào là X(m,n), tín hiệu số đầu ra là Y(m,n), đặc trưng của hệ thống là H, ta có thể biểu diễn hệ thống số một cách hình thức như sau:
đó tiến hành xử lý trên miền tần số Cuối cùng dùng biến đổi ngược để đưa tín hiệu
Hai cách tiếp cận trên cho ta 2 kỹ thuật cơ bản được dùng trong xử lý ảnh :
- Tác động trực tiếp lên điểm ảnh: tích chập, lọc số và các toán tử điểm
- Biểu diễn ảnh sang một không gian khác bằng các biến đổi, xử lý và biến đổi ngược lại
Trang 171.2.5 Các toán tử không gian (spatial operators):
Các toán tử không gian thường dùng là các toán tử tuyến tính, tích chập và lọc Mục đích chính của các toán tử này là làm cho ảnh tốt hơn và thuận tiện cho việc biến đổi và xử lỹ ảnh về sau như tăng cường và nâng cao chất lượng ảnh, dò biên, trích chọn đặc tính v.v
1.2.5.1 Toán tử tuyến tính:
Phần lớn các hệ thống xử lý ảnh có thể mô hình hóa như một hệ thống tuyến tính hai chiều Giả sử x(m,n) và y(m,n) biểu diễn các tín hiệu vào và ra tương ứng của hệ thống Hệ thống hai chiều được biểu diễn bởi:
y(m,n) = H|x(m, n)| (1.1)
Hệ thống này gọi là tuyến tính khi và chỉ khi: tổ hợp tuyến tính của 2 tín hiệu vào x1(m,n), x2(m,n) cũng tạo nên chính tổ hợp tuyến tính tương ứng của đầu ra y1(m,n), y2(m,n), nghĩa là : với 2 hằng số bất kì α và β, ta có:
H[αx1(m,n)+βx2(m,n)] = αH[x1(m,n)]+βH[x2(m,n)] = [αy1(m,n)]+[βy2(m,n)] (1.2) Phương trình (1.2) gọi là chồng tuyến tính của 2 tín hiệu Ý nghĩa quan trọng của hệ tuyến tính là: khi có nhiều tín hiệu vào, hệ thống có thể xử lý độc lập từng tín hiệu sau đó tổ hợp kết quả lại
Khi tín hiệu vào là hàm denta Kronnecker 2 chiều δ(xung đơn vị) tại vị trí (m’,n’), tín hiệu ra ở vị trí (m,n) được định nghĩa:
H[δ(m,n)] = h[m,n;0,0)] (1.4)
⇒ h(m,n;m’,n’) = h(m-m’;n-n’) (1.5) Theo định nghĩa này tín hiệu ra có dạng:
Y(m,n) = ∑∞ h(m − m′; n − n′)x(m′, n′)
Phương trình (1.6) gọi là chập của đầu vào x(m′, n′) với đáp ứng xung (impluse response) h(m,n)
Trang 18Hình 1.4 minh họa toán tử chập Ma trận đáp ứng xung quanh gốc 180o và trượt một khoảng (m,n) rồi chồng lên ma trận tín hiệu vào x(m′, n′)
Toán tử tích chập được định nghĩa như sau:
Hình 1.4: Một biểu diễn của toán tử chập
Để tiện theo dõi ta xét ví dụ sau:
ở trên Các số gạch dưới là điểm bắt đầu thực hiện qua mỗi bước
Theo công thức (1.8), tích chập H⊗X có độ phức tạp tính toán rất cao Để giảm độ phức tạp tính toán người ta thường dùng nhân chập HKxL có kích thước hữu hạn và nhỏ Nhân chập này thường chọn có kích thước lẻ và các giá hay dùng là: K=L=3,5,7 Trong các phần sau, ta thấy đa số các nhân chập được sử dụng trong tích chập, lọc số là nhân chập vuông, đôi khi là nhân chập chữ nhật Thực ra nhân
Trang 19chập chữ nhật là nhân chập vuông, song một phần tử của nó có giá trị 0 nên ta coi như không có
m-Với m Є [1,M] và n Є [1,N] Các chỉ số được viết theo ký pháp toán cho dễ quan sát
Như vậy, việc tính Y(m,n) như được thực hiện bởi xoay nhân chập H 90o rồi xếp chồng với lân cận của điểm (m,n) sao cho H00 trùng với điểm lấy ra Điều này
lý giải cho tên gọi của phương pháp “xếp chồng tại biên”
- Xếp chồng tại trung tâm:
Y(m,n)= ∑ ∑ H(k, l) ∗ X(m − k + Lc, n − l + Lc) với Lc = (L+1)/2 (1.10) Theo công thức này nếu K=L=3 nhân chập H có thể viết:
Trang 20m-Với m Є [1,M] và n Є [1,N] Các chỉ số được viết theo ký pháp toán cho dễ quan sát
Như vậy, việc tính Y(m,n) như được thực hiện bởi xoay nhân chập H 90o rồi xếp chồng với lân cận của điểm (m,n) sao cho H22 trùng với điểm lấy ra (điểm lấy ra trùng với tâm nhân chập) Điều này lý giải cho tên gọi của phương pháp “xếp chồng tại trung tâm”
Thực tế, công thức này có thể áp dụng cho cả 2 trường hợp Nếu áp dụng để tính cho điểm ở biên, ta coi các điểm ngoài biên có giá trị 0 Thí dụ, cho ảnh số I sau:
55
3624
Trang 21Tích chập là một khái niệm rất quan trọng trong xử lý ảnh, đặc biệt là tính chất của nó có liên quan đến biến đổi Fourier; biến đổi Fourier của một một tích chập bằng tích đơn giản các biến đổi Fourier của các tín hiệu đó:
Trang 221.2.6.2 Các phép biến đổi trong không gian:
Các phép biến đổi là cách tiếp cận thứ 2 được áp dụng trong tín hiệu số nói chung và trong xử lý ảnh số nói riêng.Phép biến đổi(transform) là thuật ngữ dùng chỉ việc chuyển đổi sự biểu diễn của một đối tượng từ không gian này sang một không gian khác.Thí dụ x là một đối tượng trong không gian X,phép biểu diễn bởi
ma trận A sẽ chuyển biểu diễn x sang y trong không gian Y như sau:
Như vậy biến đổi ảnh(image transform) nhằm chuyển đổi sự biểu diễn ảnh từ một không gian ban đầu sang một không gian khác sao cho việc xử lý ảnh được tiên lợi hơn
Để theo dõi một cách có hệ thống,trước tiên ta phải xem xét khái niệm chung
về biến đổi ảnh trong ngữ cảnh của xử lý ảnh.Ta nói khai triển chuỗi trực giao tổng quát của một ảnh số u(m,n),kích thước NxN là một cặp biến đổi có dạng:
( , ) = ( , ) ,( , ) ớ , = 0,1, … , − 1
( , ) = ( , )a∗,( , ) ớ , = 0,1, … , − 1
Trong đó ,( , ) gọi là một biến đổi ảnh.Đó chính là tập các hàm cơ
sở(trong xử lý ảnh gọi là hàm cơ sở)
Theo định nghĩa,một biến đổi tương tự ứng với A là unita và tách được nếu:
A ∗ = ∗ = với A là một ma trận biến đổi , ∗ là ma trận chuyển vị của A Nhìn chung,trong xử lý ảnh số ta hay dùng biến đổi đơn vị trực giao và tách được.Trong ngữ cảnh này,viết dưới dạng ma trận ta có:
Trang 23- Lược đồ xám được biểu diễn trong một hệ tọa độ vuông góc x,y.Trong hệ tọa
độ này, trục hoành biểu diễn số mức xám từ 0 đến N(256 mức xám trong trường hợp chúng ta xét).Trục tung biểu diễn số điểm ảnh cho một một mức xám(số điểm ảnh có cùng mức xám).Cũng có thể biểu diễn sát một chút: trục tung là tỉ lệ số điểm ảnh có cùng mức xám trên tổng số điểm ảnh
- Lược đồ xám cũng cung cấp nhieeufthoong tin về phân bố mức xám của ảnh.Theo thuật ngữ của xử lý ảnh gọi là tính động của ảnh.Tính động của ảnh cho phép phân tích trong khoăng nào đó phân bố phần lớn các mức xám của ảnh:ảnh này rất sáng hay ảnh này rất đậm
- Theo định nghĩa của lược đồ mức xám,thuật toán xây dựng lược đò mức xám
có thể mô tả như sau:
Trang 24Với mỗi điểm ảnh I(x,y) tính H[i(x,y)]= H[i(x,y)]+1
c Tính giá trị max của bảng H,sau đó hiện bảng trong khoảng từ 0 đên max Kết thúc
Lược đồ xám là một công cụ hữu hiệu dùng trong nhiều công đoạn của xử lý ảnh
1.2.6.4 Một số kỹ thuật cải thiện ảnh nhị phân:
Với ảnh nhị phân mức xám chỉ có 2 giá trị 0 và 1.Do vậy ta coi một phần tử ảnh như một phần tử logic và có thể áp dụng các toán tử hình học(morphology operator) dựa trên khái niệm biến đổi hình hocjcuawr một ảnh bởi một phần tử cấu trúc(structural element)
Phần tử cấu trúc là một mặt nạ dạng bất kỳ mà các phần tử của nó tạo nên tip.Người ta tiến hành rê mặt nạ đi khắp ảnh và tính giá trị ảnh bởi các điểm lân cận với motip của mặt nạ theo cách lấy hội hay lấy tuyển
mô-Hình 1.6: Cải thiện ảnh nhị phân
Dựa vào nguyên tắc trên, người ta sử dụng 2 kỹ thuật dãn ảnh (dilatation) và
co ảnh (erosion)
Dãn ảnh:
Trang 25Dãn ảnh nhằm loại bỏ điểm đen bị vây bởi các điểm trắng Trong kỹ thuật này, một cửa sổ N+1 x N+1 được rê đi khắp ảnh và thực hiện đối sánh một pixel của ảnh với (N+1)2 -1 điểm lân cận (không tính điểm ở tâm) Phép đối sánh ở đây thực hiện bởi phép tuyển logic Thuật toán được tóm tắt như sau:
For all pixels I(x,y) do
Begin
-Tính FOR (x, y) {tính OR logic}
-if FOR (x, y) then ImaOut (x,y)< 1
Else ImaOut (x,y) < -ImaIn(x,y)
End
Co ảnh:
Là thao tác đơi ngẫu của giản ảnh nhằm loại bỏ điểm trắng bị vây bởi các điểm den Trong kỹ thuật này, một cửa sổ (N+1) x( N+1) được rê đi khắp ảnh và thực hiện sánh một pixel của ảnh với (N+1)2 -1 điểm lân cận Sánh ở đây thực hiện bởi phép hội logic Thuật toán được tóm tắt như sau:
For all pixels I(x, y) do
Begin
-Tính FAND (x, y) {tính AND logic}
-If FAND (x, y) then ImaOut (x,y)< 1
Else ImaOut (x,y) < -ImaIn(x,y)
End
Áp dụng: người ta thương vận dụng kỹ thuật này cho các ảnh nhị phân như vân tay , chử viết Để không làm ảnh hưởng tới kích thước của đối tượng trong ảnh, người ta tiến hành n lần dãn và n lần co
1.3 Các kỹ thuật phân đoạn ảnh:
Bước đầu tiên trong quá trình phân tích ảnh là việc phân đoạn ảnh Việc phân đoạn ảnh nhằm tách biệt các thành phần cấu thành bức ảnh hoặc tách các đối tượng cần quan tâm ra khỏi bức ảnh Đây là một trong những công việc khó nhất trong việc xử lý ảnh và nó có vai trò rất lớn đến sự thành công của việc phân tích ảnh Việc phân đoạn ảnh tĩnh cơ bản dựa vào một trong hai đặc tính của các miền
đó là sự không liên tục hoặc sự tương đồng Loại thứ nhất dựa trên sự không liên tục của các miền hay nói cách khác là dựa trên sự thay đổi đột ngột về đặc tính của miền, từ đó biên của các miền được thiết lập, và dựa vào biên giữa các miền từng miền sẽ được phân tách Loại thứ hai cơ bản dựa vào tính tương đồng hoặc không tương đồng về một đặc tính nào đó của các miền để thực hiện việc mở rộng miền,
Trang 26hợp nhất hoặc phân chia miền Ngoài ra, còn có một kỹ thuật phân đoạn khác được
sử dụng khá phổ biến đó là kỹ thuật phân đoạn dựa vào giá trị mức xám (hay còn được gọi là phân đoạn dựa vào ngưỡng)
Đối với ảnh động, đặc tính chuyển động của đối tượng được sử dụng rất hiệu quả cho việc phân đoạn
Một số phương pháp phân đoạn ảnh sẽ được trình bày trong phần dưới đây:
1.3.1 Phân đoạn dựa trên đường biên :
Một phương pháp phân đoạn điển hình dựa vào biên bao gồm các bước: Trước tiên, biên của các miền được tìm, chẳng hạn như bằng cách chập ảnh với mặt nạ tìm biên (prewitt, sobel, ) rồi lấy ngưỡng Sau đó, các đường biên này được xử lý để loại bỏ các các đường biên không mong muốn cũng như nối liền các đoạn biên bị đứt Một số các phương pháp chẳng hạn như phép biến đổi Hough, tìm lân cận… được sử dụng để nối liền các đoạn biên bị đứt Cuối cùng, các miền trong đường biên được lấp đầy để có được các miền được phân tách
Ngoài ra, còn có các phương pháp phân đoạn ảnh dựa trên biên khác được áp dụng như: phương pháp Watershed, phương pháp Sneke,…
(a) (b)
Trang 27để có được các đường biên kín Còn quá trình hậu xử lý phải loại bỏ các đường biên thừa, do nhược điểm của phương pháp này là nó thường phân quá nhiều đoạn (oversegmentation) so với số đối tượng trong ảnh Một trong những phương pháp thường được sử dụng để loại các biên dư thừa là phương pháp hợp nhất các miền tương đồng Một đặc điểm của phương pháp watershed là không làm xuất hiện những lỗ trong mỗi đoạn
(a): ảnh gốc (b): những đập ngăn nước và thung lũng tương ứng
Trang 28(c): kết quả việc phân đoạn
Hình 1.8: Minh họa phương pháp phân đoạn watershed
1.3.2 Phân đoạn dựa trên miền :
Theo phương pháp phân đoạn này, sự tương đồng hoặc không tương đồng của một số đặc tính nào đó của các miền kề nhau hay các pixel kề nhau được sử dụng cho việc mở rộng miền, hợp nhất hoặc phân chia miền
- Mở rộng miền:
Theo phương pháp này, từ các pixel ban đầu (miền hạt nhân) trong một miền cần xem xét, các pixel lân cận với miền hạt nhân này sẽ được hợp nhất với miền hạt nhân này nếu chúng có sự tương đồng với miền hạt nhân Cứ như thế miền sẽ được
mở rộng cho đến khi không còn các pixel lân cận nào tương đồng với miền hạt nhân
- Hợp nhất miền:
Theo phương pháp này, hai miền kề nhau sẽ được hợp nhất khi chúng thỏa một trong hai điều kiện: đặc tính hai miền kề nhau là tương đồng, hoặc đường biên giới giữa chúng không rõ ràng (quá mờ nhạt, nhiều đoạn đứt,…)
- Phân chia miền:
Phương pháp này ngược lại với phương pháp hợp nhất miền, tức là một miền
sẽ được chia thành các miền khác nhau khi chúng có đặc tính không tương đồng với nhau Một phương pháp khá phổ biến hiện nay thường được dùng là phân tích quadtree Với phương pháp này một miền sẽ được chia làm 4 nếu có sự khác biệt về mức xám trong 4 miền con này, và các miền con tiếp tục được chia làm 4 nếu vẫn
Trang 29có sự không tương đồng về mức xám… và cứ như thế cho đến khi các miền con có
sự tương đồng thì dừng lại
Hình 1.9: Minh họa việc phân tích quadtree
Trang 301.3.3 Phân Đoạn Dựa Trên Ngưỡng :
Phương pháp phân đoạn dựa trên ngưỡng là kỹ thuật được dùng khá phổ biến
Với phương pháp này, một toán tử lấy ngưỡng g ánh xạ thang giá trị mức xám vào
một giá trị nhị phân 0, 1 được định nghĩa:
( ) = 1 <
0 ≥ với v là giá trị mức xám, t là ngưỡng
Hình dưới đây minh họa phương pháp phân đoạn này
(a) (b)
(a): ảnh gốc (b): histogram (c): ảnh nhị phân
(c)
Hình 1.10: Minh họa phương pháp phân đoạn dựa trên ngưỡng
Đối với những ảnh chứa các đối tượng với giá trị mức xám khác so với nền thì phương pháp phân đoạn dựa trên ngưỡng rất hiệu quả Hơn nữa nếu các đối tượng không chồng chập lên nhau thì các đối tượng có thể được phân tách dễ dàng
Đối với ảnh có nhiều đối tượng với mức xám khác nhau thì quá trình phân đoạn có thể dùng nhiều ngưỡng để phân đoạn: các pixel có giá trị mức xám nhỏ hơn ngưỡng thứ nhất thì thì thuộc vào đoạn 0, các pixel có giá trị mức xám ở giữa
ngưỡng thứ 1 và thứ 2 thì thuộc đoạn 1… Nếu dùng n ngưỡng thì toán tử lấy
ngưỡng được định nghĩa như sau:
Trang 31Như vậy sau khi lấy ngưỡng, ảnh được phân thành n+1 đoạn
(a) (b)
(c)
Hình 1.11: Minh họa việc phân đoạn với nhiều mức ngưỡng
(a): ảnh gốc, (b): histogram và 3 ngưỡng được chọn (c): kết quả phân đoạn theo 3 khoảng giá trị mức xám
Trang 32Histogram thường được sử dụng cho việc chọn các giá trị ngưỡng.Giá trị ngưỡng có thể được tính bằng với trị trung bình mức xám giữa hai đỉnh liên tiếp, hoặc bằng giá trị mức xám có histogram nhỏ nhất giữa hai đỉnh liên tiếp
1.3.4 Phân Đoạn Dựa Vào Chuyển Động:
Phương pháp phân đoạn dựa vào sự chuyển động của đối tượng áp dụng rất hiệu quả trong việc phân đoạn ảnh động
Việc phát hiện sự khác biệt giữa 2 frame và tại thời điểm và được thực hiện
bằng cách so sánh từng pixel giữa hai frame
( , ) = 1 ( , , ) − , , >
0 ( , , ) − , , ≤ Ở đây θ là mức ngưỡng
Việc so sánh này sẽ cho sự sai biệt tại miền ở cạnh trước và sau của đối tượng chuyển động, còn các miền khác thì sẽ không có sự khác biệt Ở đây sự ảnh hưởng của nhiễu đã không được xét đến Nếu có nhiễu xuất hiện thì mỗi frame trước khi đưa vào khâu này cần phải được lọc loại bỏ nhiễu
(a)
(b)
Trang 33Thiết lập ảnh tham chiếu: như đã đề cập ở trên, sự sai biệt giữa 2 frame trong chuỗi ảnh động có khuynh hướng loại bỏ tất cả những thành phần tĩnh, chỉ để lại những thành phần tương ứng với nhiễu và đối tượng chuyển động Vấn đề nhiễu có thể được giải quyết bởi các bộ lọc nhiễu Một ảnh tham chiếu chỉ chứa các thành phần tĩnh có thể được xây dựng như sau: frame đầu tiên trong chuỗi ảnh được xem như ảnh tham chiếu Khi một thành phần không phải là thành phần tĩnh di chuyển ra khỏi vị trí của nó trong ảnh tham chiếu, phần background trong frame hiện tại được sao lại vào đúng vị trí đó cho ảnh tham chiếu Khi tất cả các đối tượng di chuyển ra khỏi vị trí ban đầu của chúng thì ảnh tham chiếu chỉ còn lại thành phần tĩnh (background)
Trang 34CHƯƠNG 2: TỔNG QUAN VỀ NHẬN DẠNG
Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng một tên gọi) dựa theo những quy luật và các mẫu chuẩn Quá trình nhận dạng dựa vào những mẫu học biết
trước gọi là nhận dạng có giám sát hay học có giám sát (supervised learning); trong trường hợp ngược lại gọi là học không có giám sát (non supervised learning)
Chúng ta sẽ lần lượt giới thiệu các khái niệm này
2.1 Không gian biểu diễn đối tượng, không gian diễn dịch:
2.1.1 Không gian biểu diễn đối tượng :
Các đối tượng khi quan sát hay thu thập được, thường được biểu diễn bởi tập các đặc trưng hay đặc tính Như trong trường hợp xử lý ảnh, ảnh sau khi được tăng cường để nâng cao chất lượng, phân vùng và trích chọn đặc tính được biểu diễn bởi các đặc trưng như biên, miền đồng nhất, v , v Người ta thường phân các đặc trưng này theo các loại như: đặc trưng tô pô, đặc trưng hình học và đặc trưng chức năng Việc biểu diễn ảnh theo đặc trưng nào là phụ thuộc vào ứng dụng tiếp theo
Ở đây ta đưa ra một cách hình thức việc biểu diễn các đối tượng Giả sử đối tượng
X (ảnh, chữ viết, dấu vân tay, v ,v) được biểu diễn bởi n thành phần (n đặc trưng):
X = {x1, x2, , xn}; mỗi xi biểu diễn một đặc tính Không gian biểu diễn đối tượng thường gọi tắt là không gian đối tượng X được định nghĩa:
X = {X1, X2, , Xm}
trong đó mỗi Xi biểu diễn một đối tượng Không gian này có thể là vô hạn Để tiện xem xét chúng ta chỉ xét tập X là hữu hạn
2.1.2 Không gian diễn dịch:
Không gian diễn dịch là tập các tên gọi của đối tượng Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng trong tập không gian đối tượng hay nói là đã nhận dạng được đối tượng Một cách hình thức gọi là tập tên đối tượng:
= {w1, w2, ,wk} với wi, i = 1, 2, , k là tên các đối tượng
Quá trình nhận dạng đối tượng f là một ánh xạ f: X -> với f là tập các quy
luật để định một phần tử trong X ứng với một phần tử trong Nếu tập các quy luật
và tập tên các đối tượng là biết trước như trong nhận dạng chữ viết (có 26 lớp từ A đến Z), người ta gọi là nhận dạng có giám sát Trường hợp thứ hai là nhận dạng không có giám sát Đương nhiên trong trường hợp này việc nhận dạng có khó khăn hơn
Trang 352.2 Mô hình và bản chất của quá trình nhận dạng:
2.2.1 Mô hình:
Việc chọn lựa một quá trình nhận dạng có liên quan mật thiết đến kiểu mô tả
mà người ta sử dụng để đặc tả đối tượng Trong nhận dạng, người ta phân chia làm
2 họ lớn:
Họ mô tả theo tham số
Họ mô tả theo cấu trúc
Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng Như vậy, chúng
ta sẽ có 2 loại mô hình: mô hình theo tham số và mô hình cấu trúc
Mô hình tham số:
Là mô hình sử dụng một véctơ để đặc tả đối tượng Mỗi phần tử của véctơ mô
tả một đặc tính của đối tượng Thí dụ như trong các đặc trưng chức năng, người ta
sử dụng các hàm cơ sở trực giao để biểu diễn Và như vậy ảnh sẽ được biểu diễn bởi một chuỗi các hàm trực giao Giả sử C là đường bao của ảnh và C (i,j) là điểm thứ i trên đường bao, i = 1, 2, , N (đường bao gồm N điểm)
i - x ) (y - y ) (x
1
Véctơ tham số trong trường hợp này chính là các moment ij với i =1, 2, , p
và j=1, 2, , q Còn trong số các đặc trưng hình học, người ta hay sử dụng chu tuyến, đường bao, diện tích và tỉ lệ T = 4S/p2, với S là
diện tích, p là chu tuyến
Việc lựa chọn phương pháp biểu diễn sẽ làm đơn giản cách xây dựng Tuy nhiên, việc lựa chọn đặc trưng nào là hoàn toàn phụ thuộc vào ứng dụng Thí dụ, trong nhận dạng chữ, các tham số là các dấu hiệu:
- số điểm chạc ba, chạc tư,
Trang 36
Mô hình cấu trúc:
Cách tiếp cận của mô hình này dựa vào việc mô tả đối tượng nhờ một số khái niệm biểu thị các đối tượng cơ sở trong ngôn ngữ tự nhiên Để mô tả đối tượng, người ta dùng một số dạng nguyên thuỷ như đoạn thẳng, cung, v, , v Chẳng hạn một hình chữ nhật được định nghĩa gồm 4 đoạn thẳng vuông góc với nhau từng đôi một Trong mô hình này người ta sử dụng một bộ kí hiệu kết thúc Vt, một bộ kí hiệu không kết thúc gọi là Vn Ngoài ra có dùng một tập các luật sản xuất để mô tả cách xây dựng các đối tượng phù hợp dựa trên các đối tượng đơn giản hơn hoặc đối tượng nguyên thuỷ (tập Vt) Trong cách tiếp cận này, ta chấp nhận một khẳng đinh là: cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo theo những nguyên tắc xác định bắt đầu từ một dạng gốc bắt đầu Một cách hình thức, ta có thể coi mô hình này tương đương một văn phạm G = (Vt, Vn, P, S) với:
Hình 2.1: Mô hình cấu trúc của một đối tượng nhà
Trang 372.2.2 Bản chất của quá trình nhận dạng:
Quá trình nhận dạng gồm 3 giai đoạn chính:
Lựa chọn mô hình biểu diễn đối tượng
Lựa chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn quá trình học
Học nhận dạng
Khi mô hình biểu diễn đối tượng đã được xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học Học là giai đoạn rất quan trọng Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp
Việc nhận dạng chính là tìm ra quy luật và các thuật toán để có thể gán đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên
Học có giám sát (supervised learning):
Kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có giám sát Đặc điểm
cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn Mẫu cần nhận dạng sẽ được đem sánh với mẫu chuẩn để xem nó thuộc loại nào Thí dụ như trong một ảnh viễn thám, người ta muốn phân biệt một cánh đồng lúa, một cánh rừng hay một vùng đất hoang mà đã có các miêu tả về các đối tượng đó Vấn đề chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng trong ảnh với mẫu chuẩn và quyết định gán cho chúng vào một lớp Việc đối sánh nhờ vào các thủ tục ra quyết
định dựa trên một công cụ gọi là hàm phân lớp hay hàm ra quyết định Hàm này sẽ
được đề cập trong phần sau
Học không có giám sát (unsupervised learning):
Kỹ thuật học này phải tự định ra các lớp khác nhau và xác định các tham số đặc trưng cho từng lớp Học không có giám sát đương nhiên là khó khăn hơn Một mặt, do số lớp không được biết trước, mặt khác những đặc trưng của các lớp cũng không biết trước Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm có thể và chọn lựa cách tốt nhất Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khác nhau nhằm phân lớp và nâng cấp dần để đạt được một phương án phân loại
Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ sau:
Trang 38Hình 2.2: Sơ đồ tổng quát một hệ nhận dạng
2.3 Nhận dạng dựa trên phân hoạch không gian:
Trong kỹ thuật này, các đối tượng nhận dạng là các đối tượng định lượng Mỗi đối tượng được biểu diễn bởi một véctơ nhiều chiều Trớc tiên, ta xem xét một số khái niệm nh: phân hoạch không gian, hàm phân biệt sau đó sẽ đi vào một số kỹ
thuật cụ thể
2.3.1 Phân hoạch không gian:
Giả sử không gian đối tượng X được định nghĩa: X = {Xi, i=1, 2, ,m}, Xi là một véctơ Người ta nói P là một phân hoạch của không gian X thành các lớp Ci, Ci
X nếu:
Ci Cj = với i j và Ci = X
Nói c hung, đây là trường hợp lý tưởng: tập X tách được hoàn toàn Trong thực tế, thường gặp không gian biểu diễn tách được từng phần Như vậy phân loại là dựa vào việc xây dựng một ánh xạ f: X → P Công cụ xây dựng ánh xạ này là các hàm phân biệt (Descriminant functions)
2.3.2 Hàm phân lớp hay hàm ra quyết định
Để phân đối tượng vào các lớp, ta phải xác định số lớp và ranh giới giữa các lớp đó Hàm phân lớp hay hàm phân biệt là một công cụ rất quan trọng Gọi {gi} là lớp các hàm phân lớp Lớp hàm này được định nghĩa như sau:
Nếu i k, gk(X) > gi(X) thì ta quyết định X lớp k
Như vậy để phân biệt k lớp, ta cần k -1 hàm phân biệt Hàm phân biệt g của một lớp nào đó thường dùng là hàm tuyến tính, có nghĩa là:
Trang 39Lẽ tự nhiên, khoảng cách là một công cụ rất tốt để xác định xem đối tượng có
"gần nhau" hay không Nếu khoảng cách nhỏ hơn một ngưỡng nào đấy ta coi 2
đối tượng là giống nhau và gộp chúng vào một lớp Ngược lại, nếu khoảng cách lớn hơn ngưỡng, có nghĩa là chúng khác nhau và ta tách thành 2 lớp
Trong một số trường hợp, người ta dựa vào xác suất có điều kiện để phân lớp cho đối tượng Lý thuyết xác suất có điều kiện được Bayes nghiên cứu khá kỹ và chúng ta có thể áp dụng lý thuyết này để phân biệt đối tượng
Gọi: P(X/Ci) là xác suất để có X biết rằng có xuất hiện lớp Ci
P(Ci /X) là xác suất có điều kiện để X thuộc lớp Ci
với X là đối tượng nhận dạng, Ci là các lớp đối tượng
Quá trình học cho phép ta xác định P (X/Ci) và nhờ công thức Bayes về sác xuất có điều kiện áp dụng trong điều kiện nhiều biến, chúng ta sẽ tính được P (Ci/X) theo công thức:
P (Ci /X) =
) (
) ( ) / (
1 ( / ) ( )
) ( ) / (
X P
C P C X P n
C P C X
i i
i i
Trang 40Quy tắc Bayes
- Cho không gian đối tượng X = {Xl, l=1, 2, , L}, với Xl= {x1, x2, , xp}
- Cho không gian diễn dịch = {C1, C2, , Cr}, r là số lớp
Quy tắc Bayes phát biểu như sau:
: X -> sao cho X Ck nếu P (Ck /X) > P (Cl /X) l <> k, l=1, 2, ,r Trường hợp lý tưởng là nhận dạng luôn đúng, có nghĩa là không có sai số Thực tế, luôn tồn tại sai số trong quá trình nhận dạng Vấn đề ở đây là xây dựng quy tắc nhận dạng với sai số là nhỏ nhất
Phương pháp ra quyết định với tối thiểu
Ta xác định X Ck nhờ xác suất P (Ck/X) Vậy nếu có sai số, sai số sẽ được tính bởi 1 - P(Ck/X) Để đánh giá sai số trung bình, người ta xây dựng một ma trận
1 ( / )
, P(Cj) (2.3) Vậy, quy tắc ra quyết định dựa trên lý thuyết Bayes có tính đến sai số được phát biểu như sau:
) (
2 1
C P l l
l l
Giả sử thêm rằng xác suất phân bố là đều (P (C1) = P (C2), sai số là như nhau ta có:
X C1 nếu P (X/C1) > P(X/C2)