1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại sản phẩm dùng neural network

125 67 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân loại sản phẩm dùng neural network
Tác giả Trần Quốc Bình
Người hướng dẫn PGS. TSKH Nguyễn Kim Sách
Trường học Đại Học Bách Khoa - Đại Học Quốc Gia TP.Hồ Chí Minh
Chuyên ngành Kỹ thuật điện tử
Thể loại Luận văn thạc sĩ
Năm xuất bản 2004
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 125
Dung lượng 2,03 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tóm tắt Các nội dung thực hiện trong đề tài này: Nghiên cứu các phương pháp phân tích và nhận dạng đối tượng như: việc phân đoạn đối tượng ảnh, việc mô tả đối tượng ảnh, lý thuyết về nhậ

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, Tháng 12 Năm 2004

-

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán bộ hướng dẫn khoa học: PGS TSKH Nguyễn Kim Sách

Cán bộ chấm nhận xét 1: PGS TS Lê Tiến Thường

Cán bộ chấm nhận xét 2: TS Phạm Hồng Liên

Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA , ngày 30 tháng 12 năm 2004

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên: Trần Quốc Bình Phái: nam

Ngày, tháng, năm sinh: 24-12-1976 Nơi sinh: Đồng Tháp

Chuyên ngành: Kỹ thuật điện tử Mã số: 2.07.01

I.TÊN ĐỀ TÀI: Phân Loại Sản Phẩm Dùng Neural Network

II NHIỆM VỤ VÀ NỘI DUNG:

- Nghiên cứu kỹ thuật nhận dạng đối tượng

- Nghiên cứu huấn luyện Neural Network để phân loại các đối tượng

- Xây dựng chương trình tự động phân loại sản phẩm

- Đánh giá kết quả và nêu hướng phát triển của đề tài

III NGÀY GIAO NHIỆM VỤ: 01/07/2004

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 01/12/2004

V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TSKH Nguyễn Kim Sách

VI HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 1:

VII HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 2:

Cán Bộ Hướng Dẫn Cán Bộ Nhận Xét1 Cán Bộ Nhận Xét2

Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua

Ngày 30 tháng 12 năm2004 TRƯỞNG PHÒNG QLKH-SĐH CHỦ NHIỆM NGÀNH

Trang 4

LỜI CẢM ƠN !

Tôi xin gởi lời biết ơn sâu sắc đến các Thầy Cô Trường Đại Học Bách Khoa TP Hồ Chí Minh đã tận tình giảng dạy tôi trong thời gian học tập và thực hiện luận văn

Đặc biệt, tôi xin chân thành cảm ơn PGS.TSKH Ngưyễn Kim Sách đã

tận tình hướng dẫn và giúp đỡ tôi trong thời gian nghiên cứu đề tài

Xin chân thành cảm ơn bạn bè, đồng nghiệp và những người thân trong gia đình đã động viên và hỗ trợ tôi trong suốt khóa học

TP HCM, ngày 30 tháng 12 năm 2004

Trần Quốc Bình

Trang 5

Tóm tắt

Các nội dung thực hiện trong đề tài này:

Nghiên cứu các phương pháp phân tích và nhận dạng đối tượng như: việc phân đoạn đối tượng ảnh, việc mô tả đối tượng ảnh, lý thuyết về nhận dạng, lý thuyết về mạng neuron nhân tạo

Triển khai thực hiện chương trình ứng dụng mạng neuron nhân tạo vào việc phân loại đối tượng trong chuỗi ảnh động

Quá trình hoạt động của hệ thống được tóm tắt như sau: chuỗi ảnh với các đối tượng chuyển động được đưa vào hệ thống Hệ thống thực hiện việc phân đoạn để lấy được đối tượng ảnh cần quan tâm Sau khi thực hiện một số các phép biến đổi hình học, chuẩn hóa, các đặc tính của đối tượng ảnh được trích ra đưa vào mạng neuron đã được huấn luyện trước để nhận dạng và phân loại và cho kết quả cuối cùng

Trang 6

Abstract

The content of this include of:

Research on image object analytics methods and image object recognition: image segmentation, morphology, image object description, theory of recognition and neural network

Perform a application program: use neural network to recognize and categorize object from moving image sequence

Performance process of recognition system:

At first, the system extracts image objects in each image by segmentation Next, morphology of the image is corrected Then, position, size and orientation of the object are normalized Then, signature anh color characteristic are extracted They are the input data of the trained neural network to recognize and categorize object

Trang 7

trang

Lời Nói Đầu 1

Chương 1 PHÂN ĐOẠN ẢNH 6

1.1 Phân Đoạn Ảnh 6

1.2 Các Phương Pháp Phân Đoạn Ảnh 6

1.2.1 Phân Đoạn Dựa Trên Đường Biên 6

Phương pháp watershed 7

1.2.2 Phân Đoạn Dựa Trên Miền 8

Mở Rộng miền 8

Hợp nhất miền 9

Phân chia miền 9

1.2.3 Phân Đoạn Dựa Trên Ngưỡng 9

1.2.4 Phân Đoạn Dựa Vào Chuyển Động 13

Chương 2 NHẬN DẠNG ẢNH 17

2.1 Giới Thiệu Chung 17

2.2 Các Khái Niệm Cơ Bản 17

2.3 Mô Tả Đối Tượng Ảnh 20

2.3.1 Mô Tả Đường Nét 20

Signature 20

Mô tả bằng chuỗi Fourier 21

Mã chuỗi xích (chain code) 23

2.3.2 Mô Tả Miền 24

Texture 24

Moment 26

2.4 Nhận Dạng 27

2.4.1 Phương Pháp Số Nhận Dạng 27

2.4.1.1 Phân lớp kiểu tìm kiếm khối 29

2.4.1.2 Phân lớp dựa vào khoảng cách tối thiểu 31

2.4.1.3 Phân lớp bằng 1ý thuyết thống kê 36

2.4.1.4 Phân lớp sử dụng mạng neuron 36

2.4.2 Nhận Dạng Theo Cấu Trúc 36

Phương pháp sử dụng các mẫu tượng trưng 37

Phương pháp phân tích cú pháp 38

Chương 3 MẠNG NEURON NHÂN TẠO 39

Trang 8

3.1.1 Bộ Não Con Người Và Neuron Sinh Học 40

3.1.2 So Sánh Khả Năng Làm Việc Của Bộ Não Người Và Máy Tính 42

3.2 Mạng Neuron Nhân Tạo 43

3.2.1 Mô Hình Neuron Nhân Tạo 43

3.2.2 Mạng Neuron Nhân Tạo 46

3.3 Mạng Perceptron 49

3.4 Mạng Perceptron Đa Lớp 54

3.5 Mạng Kết Hợp Tuyến Tính 64

3.6 Mạng Kohonen 66

3.7 Quy Trình Thiết Kế Mạng Neuron Ứng Dụng 70

3.8 Một Số Vấn Đề Liên Quan Đến Mạng Neuron Nhân Tạo 75

3.8.1.Khả năng tính toán và biểu diễn dữ liệu của mạng neuron 75

3.8.2.Việc xác định cấu trúc mạng tối ưu 75

3.8.3.Số lượng mẫu huấn luyện mạng 76

3.8.4.Quá khớp 76

Chương 4 THỰC HIỆN CHƯƠNG TRÌNH 77

4.1 Thu nhận Ảnh 78

4.2 Phân Đoạn Ảnh 78

4.3 Trích Đặc Tính Hình Dạng 79

4.4 Trích Đặc Tính Màu Sắc 90

4.5 Mạng Neuron 92

• Cấu trúc mạng neuron 93

• Huấn luyện mạng neuron 94

4.6 Quyết Định Kết Quả, Thống Kê Số Lượng Đối Tượng 96

Chương 5 KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 97

5.1 Kết Quả Và Nhận Xét 97

5.2 Hướng Phát Triển Đề Tài 101

Trang 9

-

Lời nói đầu

Một mong muốn của các nhà kỹ thuật hiện nay là làm thế nào để tạo ra được các máy móc có các khả năng nhận thức của con người, như khả năng nghe hiểu tiếng nói hay nhìn và nhận định được các vật thể xung quanh Và mục tiêu này là một yêu cầu quan trọng trong lĩnh vực chế tạo người máy (Robot) Ngày nay sự bùng nổ của công nghiệp máy tính cùng với sự phát triển của những cơ sở lý thuyết trong lĩnh vực xử lý thông tin đã là những nhân tố quan trọng để giúp chúng ta đi dần tới mục tiêu”người máy hóa”

Chúng ta biết rằng con người nhận thức thế giới xung quanh bằng các giác quan và năng lực tư duy của mình Hiện nay chúng ta đã có nhiều cảm biến (Sensor) có khả năng thu nhận thông tin của môi trường xung quanh giống với chức năng của các giác quan của con người Đơn giản như một chiếc micro có thể thu nhận âm thanh, cho đến những chiếc camera có khả năng thu nhận hình ảnh Vấn đề tiếp đó là xử lý các thông tin thu được như thế nào

Đối với con người thì quá trình xử lý thông tin là quá trình tư duy dựa trên

cơ chế hoạt động của bộ não Đây là một quá trình rất phức tạp mà cho đến ngày nay chúng ta mới nắm bắt được một phần nhỏ cơ chế hoạt động của nó Có lẽ sẽ còn lâu “máy móc” mới đạt được đến khả năng tư duy của con người Nhưng trong sự nỗ lực từng bước của mình, các nhà kỹ thuật đã phân tách các mảng thông tin ra từng phần nhất định và thực hiện xử lý riêng trong khuôn khổ phân định đó Chính sự xử lý riêng biệt này đã tạo ra được những thành công nhất định trong việc chế tạo ra các hệ thống kỹ thuật có một năng lực tư duy của con người

Việc tạo ra các hệ thống có khả năng nhận định thông tin là một trong những hướng nghiên cứu đã có những thành công nhất định Trong các hệ thống này, từ một dạng thông tin thu nhận được, hệ thống sẽ phân tách ra

Trang 10

-

thành các mẫu thông tin nhất định, sau đó biểu diễn các mẫu thông tin này,

sắp xếp và phân loại chúng cuối cùng là tìm ra ý nghĩa của các mẫu thông tin

này Việc phân tách thông tin thu được, biểu diễn và nhận định ý nghĩa của

chúng chính là nội dung chính của bài toán “Nhận dạng mẫu” (Pattern

Recognition)

Phạm vi ứng dụng lý thuyết nhận dạng mẫu đã được áp dụng cho các lĩnh

vực như nhận dạng tín hiệu, nhận dạng tiếng nói, nhận dạng ảnh Nhận dạng

ảnh có thể nói là bước cuối cùng của quá trình xử lý ảnh Rất nhiều lý thuyết

về kỹ thuật xử lý ảnh đã được phát triển để đạt được mục đích nhận dạng được

các đối tượng trong bức ảnh thu được Và có thể nói cơ sở để phát triển lý

thuyết về kỹ thuật xử lý ảnh chính là việc số hóa các bức ảnh

Kỹ thuật nhận dạng cơ bản dựa vào việc phân tích và biến đổi các mẫu để

rút ra được các đặc trưng của đối tượng cần nhận dạng Với những đặc trưng

này, người ta có thể phân lớp các mẫu Việc gán ý nghĩa cho các lớp mẫu cũng

chính là việc nhận dạng được các mẫu sẽ xếp vào lớp đó

Song song với kỹ thuật nhận dạng ảnh bằng phân tích và biến đổi ảnh là

một kỹ thuật nhận dạng đang được phát triển mạnh và ngày càng thể hiện tính

ưu việt của nó Đó là nhận dạng ảnh đối tượng bằng mạng neuron Mạng

neuron cũng chính là một trong những nỗ lực nghiên cứu của nhiều nhà khoa

học nhằm đạt được mục tiêu tạo ra máy móc có năng lực hoạt động của bộ não

người Những thành công của mạng neuron không chỉ trong bài toán nhận

dạng ảnh mà còn trong nhiều lĩnh vực khác nhau Và điều này là động lực cho

các nghiên cứu mới về mạng neuron vẫn tiếp tục phát triển hàng ngày

Ngày nay, nhiều lĩnh vực đòi hỏi việc tự động hoá quá trình xử lý công việc Có những công việc không thể thực hiện được bằng các phương pháp thủ

công thì với sự hỗ trợ của máy móc có thể thực hiện được Ngoài ra, nó còn

Trang 11

-

giúp giải phóng con người khỏi các công việc nguy hiểm, đòi hỏi tính lặp đi lặp lại nhàm chán, và thêm nữa, tính chính xác và khách quan trong quá trình xử lý công việc được gia tăng Công cuộc tự động hoá đòi hỏi sự phát triển của nhiều lĩnh vực khoa học và một mảng rất quan trọng đó là vấn đề tự động nhận dạng, nó là cơ sở cho các khâu xử lý tiếp theo trong hệ thống tự động Vấn đề tự động nhận dạng đang được nhiều nhà khoa học nghiên cứu và đưa vào ứng dụng trong các lĩnh vực như : robot, y sinh học, quân sự, an ninh, bảo mật, giải trí…

Một số ứng dụng

• Giao thông: hệ thống tự động nhận biết các vi phạm về tốc độ, kích

thước của các phương tiện giao thông, tự động điều khiển phương tiện giao thông

• An ninh: tự động hóa việc nhận dạng các đối tượng bị truy nã thông qua

các camera quan sát tại các điểm công cộng, hệ thống bảo mật các thông tin mật, thông tin cá nhân

• Y sinh học: tự động hoá việc thống kê số lượng tế bào, vi trùng, vi

khuẩn…, theo dõi sự di chuyển của các tế bào, vi trùng, vi khuẩn…, chọn lọc giống cây trồng vật nuôi

• Quân sự: tự động hoá việc phát hiện và tiêu diệt mục tiêu

• Robot: robot tự hành, tự động xác định vị trí các đối tượng cần thao tác

Nhận dạng sản phẩm và phân loại sản phẩm là một vấn đề nằm trong lĩnh vực nhận dạng ảnh Qua quá trình này, ta vừa phân loại được sản phẩm theo yêu cầu đặt ra trước (về kích cỡ hình dạng), vừa phát hiện được các phế phẩm (về hình dạng bên ngoài như: bị móp méo, bị sứt mẻ, bị răng cưa các cạnh ) Và đồng thời giúp ta có thể kịp thời kiểm tra lại hệ thống dây chuyền sản xuất để sao cho sản phẩm sản xuất ra được tốt hơn Xuất phát từ ý tưởng này và dựa

Trang 12

-

trên sự định hướng của Thầy hướng dẫn, PGS.TSKH Nguyễn Kim Sách và với

sự cố gắng của bản thân, tác giả đã hoàn thành luận văn với đề tài:

“Phân Loại Sản Phẩm Dùng Neural Network”

Đề tài này nghiên cứu và triển khai thực hiện một chương trình ứng dụng

vào tự động hóa quá trình sản xuất Đó là tự động phân loại sản phẩm dựa trên Kỹ thuật nhận dạng đối tượng dùng Neural Network

Một hệ thống tự động phân tích và nhận dạng ảnh cần phải thực hiện các công đoạn: thu thập ảnh, xử lý nâng cao chất lượng ảnh, phân đoạn tách các đối tượng ảnh, mô tả đối tượng ảnh bằng các đặc tính, và cuối cùng là việc nhận dạng đối tượng ảnh Mỗi công đoạn có một vai trò nhất định, nhưng các công đoạn có tính quyết định đến thành công của hệ thống phân tích ảnh đó là: công đoạn phân đoạn tách các đối tượng ảnh; mô tả đối tượng ảnh bằng các đặc tính; và nhận dạng đối tượng ảnh Ba tiêu chí thường được dùng để đánh giá năng lực của một hệ thống tự động phân tích và nhận dạng ảnh là: (1) khả năng tách biệt đối tượng ảnh cần quan tâm; (2) khả năng học và xây dựng

cơ sở tri thức từ những mẫu, áp dụng cơ sở tri thức này vào những hoàn cảnh mới; (3) khả năng suy luậân từ những thông tin không đầy đủ Một hệ thống tự động phân tích ảnh được xem là “tinh tế” khi quá trình phân đoạn tách đối tượng ảnh phải có độ chính xác cao, các đặc tính mô tả đối tượng ảnh phải thể hiện chính xác và đầy đủ về đối tượng ảnh, quá trình nhận dạng phải chính xác và mang tính “thông minh”

Luận văn chia làm 5 chương:

Chương 1 : Phân Đoạn Ảnh

Chương này trình bày một số phương pháp phân đoạn ảnh

Trang 13

-

Chương 2 : Nhận Dạng Ảnh

Chương này trình bày các đặc trưng của đối tượng và các phương pháp nhận dạng đối tượng

Chương 3 : Mạng Neuron Và Nhận Dạng Ảnh

Chương này trình bày cấu trúc và luật học của một số mạng neuron và ứng dụng của các mạng đó trong nhận dạng ảnh Và quy trình thiết kế mạng neuron ứng dụng và một số vấn đề liên quan đến mạng neuron như khả năng tính toán và biểu diễn dữ liệu của mạng neuron, việc xác định cấu trúc mạng tối ưu, số lượng mẫu huấn luyện mạng và vấn đề quá khớp

Chương 4 : Thiết Kế Chương Trình Phân Loại Sản Phẩm

Chương này trình bày các bước giải quyết vấn đề và phân tích các dữ liệu

Chương 5 : Đánh Giá Kết Quả Và Hướng Phát Triển Của Đề Tài Chương này trình bày các kết quả nhận được và những nhận xét, phân

tích từ các kết quả này, đồng thời đề xuất hướng phát triển của đề tài

Trang 14

-

1.1 PHÂN ĐOẠN ẢNH

Bước đầu tiên trong quá trình phân tích ảnh là việc phân đoạn ảnh Việc phân đoạn ảnh nhằm tách biệt các thành phần cấu thành bức ảnh hoặc tách các đối tượng cần quan tâm ra khỏi bức ảnh Đây là một trong những công việc khó nhất trong việc xử lý ảnh và nó có vai trò rất lớn đến sự thành công của việc phân tích ảnh

Việc phân đoạn ảnh tĩnh cơ bản dựa vào một trong hai đặc tính của các miền đó là sự không liên tục hoặc sự tương đồng Loại thứ nhất dựa trên sự không liên tục của các miền hay nói cách khác là dựa trên sự thay đổi đột ngột về đặc tính của miền, từ đó biên của các miền được thiết lập, và dựa vào biên giữa các miền, từng miền sẽ được phân tách Loại thứ hai cơ bản dựa vào tính tương đồng hoặc không tương đồng về một đặc tính nào đó của các miền để thực hiện việc mở rộng miền, hợp nhất hoặc phân chia miền Ngoài ra, còn có một kỹ thuật phân đoạn khác được sử dụng khá phổ biến đó là kỹ thuật phân đoạn dựa vào giá trị mức xám (hay còn được gọi là phân đoạn dựa vào ngưỡng)

Đối với ảnh động, đặc tính chuyển động của đối tượng được sử dụng rất hiệu quả cho việc phân đoạn

1.2 MỘT SỐ PHƯƠNG PHÁP PHÂN ĐOẠN ẢNH

1.2.1 Phân Đoạn Dựa Trên Đường Biên [6],[20]

Một phương pháp phân đoạn điển hình dựa vào biên bao gồm các bước sau Trước tiên, biên của các miền được tìm, chẳng hạn như bằng cách chập ảnh với mặt nạ tìm biên (Prewitt, Sobel, ) rồi lấy ngưỡng Sau đó, các đường biên này được xử lý để loại bỏ các các đường biên không mong muốn cũng

Trang 15

như nối liền các đoạn biên bị đứt Một số các phương pháp chẳng hạn như

phép biến đổi Hough, tìm lân cận… được sử dụng để nối liền các đoạn biên bị

đứt Cuối cùng, các miền trong đường biên được lấp đầy để có được các miền

được phân tách

Ngoài ra, còn có các phương pháp phân đoạn ảnh dựa trên biên khác được

áp dụng như: phương pháp Watershed, phương pháp Sneke,…

• Phương pháp Watershed

Watershed hiểu một cách đơn giản như sau: biên của các đối tượng có thể

xem như là những đập ngăn nước và nước được chứa trong những vùng trũng

với mực nước dâng cao dần đến mức cao nhất có thể từ đó hình thành các

miền, tương ứng với các “hồ chứa nước” Thường thì cần phải có thêm khâu

tiền xử lý và hậu xử lý cho việc phân đoạn watershed Quá trình tiền xử lý

Hình 1.1 Minh họa việc phân đoạn dựa trên biên

(a) ảnh gốc (b): ảnh sau khi tách biên (c) ảnh với đối tượng cần quan tâm đã được lấp đầy

(a) (b)

(c)

Trang 16

-

thường là những thủ tục nối biên để có được các đường biên kín Còn quá trình hậu xử lý phải loại bỏ các đường biên thừa, do nhược điểm của phương pháp này là nó thường phân quá nhiều đoạn (oversegmentation) so với số đối tượng trong ảnh Một trong những phương pháp thường được sử dụng để loại các biên dư thừa là phương pháp hợp nhất các miền tương đồng Một đặc điểm của phương pháp watershed là không làm xuất hiện những lỗ trong mỗi đoạn

1.2.2 Phân Đoạn Dựa Trên Miền [6],[9],[20]

Theo phương pháp phân đoạn này, sự tương đồng hoặc không tương đồng của một số đặc tính nào đó của các miền kề nhau hay các pixel kề nhau được sử dụng cho việc mở rộng miền, hợp nhất hoặc phân chia miền

• Mở rộng miền

Hình 1.2 Minh họa phương pháp phân đoạn watershed

(a) ảnh gốc (b) những đập ngăn nước và thung lũng tương ứng

(c) kết quả việc phân đoạn

(c)

Trang 17

Theo phương pháp này, từ các pixel ban đầu (miền hạt nhân) trong một miền cần xem xét, các pixel lân cận với miền hạt nhân này sẽ được hợp nhất với miền hạt nhân này nếu chúng có sự tương đồng với miền hạt nhân Cứ như thế miền sẽ được mở rộng cho đến khi không còn các pixel lân cận nào tương đồng với miền hạt nhân

• Hợp nhất miền

Theo phương pháp này, hai miền kề nhau sẽ được hợp nhất khi chúng thỏa một trong hai điều kiện: đặc tính hai miền kề nhau là tương đồng, hoặc đường biên giới giữa chúng không rõ ràng (quá mờ nhạt, nhiều đoạn đứt,…)

• Phân chia miền

Phương pháp này ngược lại với phương pháp hợp nhất miền, tức là một miền sẽ được chia thành các miền khác nhau khi chúng có đặc tính không tương đồng với nhau Một phương pháp khá phổ biến hiện nay thường được dùng là phân tích quadtree Với phương pháp này một miền sẽ được chia làm

4 nếu có sự khác biệt về mức xám trong 4 miền con này, và các miền con tiếp tục được chia làm 4 nếu vẫn có sự không tương đồng về mức xám… và cứ như thế cho đến khi các miền con có sự tương đồng thì dừng lại

1.2.3 Phân Đoạn Dựa Trên Ngưỡng [6],[9]

Hình 1.3 Minh họa việc phân tích quadtree

Trang 18

-

Phương pháp phân đoạn dựa trên ngưỡng là kỹ thuật được dùng khá phổ biến Với phương pháp này, một toán tử lấy ngưỡng g ánh xạ thang giá trị mức xám vào một giá trị nhị phân 0, 1 được định nghĩa:

t v v

g

1

0 )

với v là giá trị mức xám, t là ngưỡng

Hình dưới đây minh họa phương pháp phân đoạn này

Đối với những ảnh chứa các đối tượng với giá trị mức xám khác so với nền thì phương pháp phân đoạn dựa trên ngưỡng rất hiệu quả Hơn nữa nếu các đối tượng không chồng chập lên nhau thì các đối tượng có thể được phân tách dễ dàng

(a)

(c)

(a) ảnh gốc (b) histogram (c) ảnh nhị phân

Hình 1.4 Minh họa phương pháp phân đoạn dựa trên ngưỡng

0 500 1000 1500

(b)

Ngưỡng t

Trang 19

Đối với ảnh có nhiều đối tượng với mức xám khác nhau thì quá trình phân

đoạn có thể dùng nhiều ngưỡng để phân đoạn: các pixel có giá trị mức xám

nhỏ hơn ngưỡng thứ nhất thì thuộc vào đoạn 0, các pixel có giá trị mức xám ở

giữa ngưỡng thứ 1 và thứ 2 thì thuộc đoạn 1… Nếu dùng n ngưỡng (t1,t2, K ,t n)

thì toán tử lấy ngưỡng được định nghĩa như sau:

t v t

t v t

t v

v g

n

M M

3 2

2 1

1

2 1 0

)

Như vậy sau khi lấy ngưỡng ảnh được phân thành n+ 1 đoạn

Histogram thường được sử dụng cho việc chọn các giá trị ngưỡng Phần

dưới đây trình bày một số phương pháp thường được sử dụng trong việc chọn

t1≤ < 2; 2 ≤ < 3; 3 ≤

Trang 20

-

Giá trị ngưỡng có thể được tính: bằng với trị trung bình mức xám giữa hai

đỉnh liên tiếp; hoặc bằng giá trị mức xám có histogram nhỏ nhất giữa hai đỉnh

liên tiếp

• Dùng cực tiểu variance

Ngưỡng được tính dựa vào cực tiểu variance giữa đối tượng và nền Phần

này chỉ xét tới trường hợp đơn giản: ảnh chỉ có 2 đoạn, tức là chỉ cần tìm 1

là giá trị mức xám trung bình của ảnh

Ảnh có 2 đoạn 0 và 1 Khi đó, variance mức xám của mỗi đoạn là:

v h

v h

v vh

h ( )

1

0 0

v vh

h ( )

1

1 1

ở đây, µ0, µ1 là giá trị mức xám trung bình của đoạn 0 và đoạn 1, h0, h1 là

xác suất được tính bằng biểu thức:

Trang 21

<

=

t v

v h

v h

1.2.4 Phân Đoạn Dựa Vào Chuyển Động [9]

Phương pháp phân đoạn dựa vào sự chuyển động của đối tượng áp dụng rất hiệu quả trong việc phân đoạn ảnh động

Việc phát hiện sự khác biệt giữa 2 frame f(x,y,t i) và f(x,y,t j) tại thời điểm t i và t j được thực hiện bằng cách so sánh từng pixel giữa hai frame

) , , ( ) , , ( 1

) , (

j i

j i

ij

t y x f t y x f if

t y x f t y x f if y

x

Ở đây θ là mức ngưỡng

Việc so sánh này sẽ cho sự sai biệt tại miền ở cạnh trước và sau của đối tượng chuyển động, còn các miền khác thì sẽ không có sự khác biệt Ở đây sự ảnh hưởng của nhiễu đã không được xét đến Nếu có nhiễu xuất hiện thì mỗi frame trước khi đưa vào khâu này cần phải được lọc loại bỏ nhiễu

Trang 22

-

• Tích lũy sai biệt

Xét chuỗi ảnh f(x,y,t1),f(x,y,t2), ,f(x,y,t n), với f(x,y,t1) được chọn làm frame tham chiếu Một ảnh tích lũy sai biệt được thiết lập bằng cách so sánh frame tham chiếu f(x,y,t1) với từng frame trong chuỗi ảnh Tại vị trí của mỗi pixel trong ảnh tích lũy sai biệt chứa một biến đếm số lần khác biệt giữa frame tham chiếu với từng frame trong chuỗi ảnh Như vậy khi frame thứ k

trong chuỗi ảnh được so sánh với frame tham chiếu, các pixel trong ảnh tích lũy sai biệt cho biết số lần mức xám tại vị trí đó khác biệt với giá trị mức xám tại pixel tương ứng trong frame tham chiếu

Hình 1.6 Minh họa việc phát hiện chuyển động (a) Frame tại thời điểm t i

(b) Frame tại thời điểm t j

(c) Ảnh sai biệt

(a)

(b)

(c)

Trang 23

Hình trên minh họa việc thiết lập ảnh tích lũy sai biệt Hình (a) đến (e) biểu diễn đối tượng hình chữ nhật di chuyển sang phải với tốc độ đều 1 pixel/frame Hình (a) là frame tham chiếu, hình (b) đến (d) là các frame từ 2 đến 4, hình (e) là frame thứ 11 Hình (f) đến (i) là ảnh tích lũy sai biệt tương ứng tại các thời điểm khác nhau Ở hình (f), cột các giá trị 1 bên trái là kết quả của sự khác nhau giữa đối tượng trong hình (a) và background trong hình (b) Cột các giá trị 1 bên phải được hình thành bởi sự khác nhau giữa background trong frame tham chiếu (a) và cạnh trước của đối tượng chuyển động Tại thời điểm của frame thứ 4, cột khác 0 đầu tiên của ảnh tích lũy sai biệt biểu thị số đếm là 3 có nghĩa là, tổng số đã có 3 lần xảy ra sự khác biệt trong cột này trong frame tham chiếu (a) và cột tương ứng trong chuỗi frame Cuối cùng, hình (i) cho thấy tổng số có 10 (biểu thị là A) sự thay đổi tại vị trí này

00000000 321 321

00000000 321 321

00000000 321 321

00000000 A98765438887654321

00000000 A98765438887654321 (e) 00000000 A98765438887654321 (i)

Trang 24

-

Trong thực tế, 3 loại ảnh tích lũy sai biệt thường được sử dụng đó là: AADI (Absolute Accumulative Differences Image), PADI (Positive ADI) và NADI (Negative ADI) Loại AADI ta đã xét qua ở trên, còn loại PADI và NADI được thiết lập bằng cách sử dụng công thức (1.14) nhưng không có dấu trị tuyệt đối và frame tham chiếu là f(x,y,t i) Nếu mức xám của đối tượng lớn hơn background và trị sai biệt là dương thì ngưỡng dương được dùng để so sánh Nếu trị sai biệt là âm thì ngưỡng âm được dùng để so sánh Điều ngược lại được thực hiện nếu mức xám của đối tượng nhỏ hơn background

• Thiết Lập Ảnh Tham Chiếu

Như đã đề cập ở trên, sự sai biệt giữa 2 frame trong chuỗi ảnh động có khuynh hướng loại bỏ tất cả những thành phần tĩnh, chỉ để lại những thành phần tương ứng với nhiễu và đối tượng chuyển động Vấn đề nhiễu có thể được giải quyết bởi các bộ lọc nhiễu Một ảnh tham chiếu chỉ chứa các thành phần tĩnh có thể được xây dựng như sau: frame đầu tiên trong chuỗi ảnh được xem như ảnh tham chiếu Khi một thành phần không phải là thành phần tĩnh di chuyển ra khỏi vị trí của nó trong ảnh tham chiếu, phần background trong frame hiện tại được sao lại vào đúng vị trí đó cho ảnh tham chiếu Khi tất cả các đối tượng di chuyển ra khỏi vị trí ban đầu của chúng thì ảnh tham chiếu chỉ còn lại thành phần tĩnh (background)

Trang 25

CHƯƠNG 2 : NHẬN DẠNG ẢNH

2.1 GIỚI THIỆU CHUNG

Khi quan sát một bức ảnh, ngoài sự cảm nhận về kích thước và màu sắc thì các đối tượng trong bức ảnh đó sẽ mang lại những ý nghĩa nhận thức nào đó cho người quan sát Vì thế quá trình xử lí ảnh không dừng lại ở việc nâng cao chất lượng ảnh, lưu trữ ảnh hay phân tích kết cấu của nó mà còn thêm một bước nữa là tự động nhận dạng các đối tượng trong ảnh để rút ra được các thông tin mà chúng chứa đựng

Nhận dạng ảnh (image recognition) có thể xem là công đoạn cuối của quá trình xử lý ảnh Ta có thể nhìn nhận về hoạt động của công đoạn này một cách đơn giản là việc gán tên cho các đối tượng trong ảnh

Nhận dạng ảnh chỉ là một bài toán nằm trong lĩnh vực nhận dạng mẫu (pattern recognition) Trong chương này sẽ trình bày các nguyên lý trong lý thuyết nhận dạng mẫu được áp dụng trong bài toán nhận dạng ảnh

2.2 CÁC KHÁI NIỆM CƠ BẢN

• Mẫu và mô tả mẫu

Người ta mô tả tất cả những kích thước vật lý có thể thu nhận được trong thế giới xung quanh ta bằng các mẫu (pattern) Nhận dạng mẫu chính là việc xử lý, mô tả và diễn dịch các mẫu Như vậy mẫu là các phần tử thuộc về phạm vi bài toán nhận dạng

Các mẫu thường được mô tả bằng tập các thuộc tính đặc trưng của đối tượng Đối với các đối tượng ảnh, các đối tượng đó có thể là đặc trưng sóng -mét, đặc trưng về topo, đặc trưng hình học Ta có thể ký hiệu một mẫu là với các biểu diễn các đặc trưng của đối tượng

Để mô tả mẫu từ các đặc trưng của đối tượng, người ta có thể sử dụng hai

Trang 26

+ Phương pháp số (Numerical)

+ Phương pháp cấu trúc (Structural )

Các phương pháp này sẽ đề cập chi tiết ở mục 2.4.1 và 2.4.2

• Không gian mẫu và không gian diễn dịch

Các đối tượng phải được trích chọn các đặc trưng cần thiết để tạo nên các thành phần biểu diễn mẫu, và mẫu của các đối tượng đó sẽ tập hợp nên không gian mẫu Còn không gian diễn dịch là tên gọi của các đối tượng

Nếu ký hiệu không gian mẫu là tập Π ={p1,p2, ,p M} gồm M mẫu và không gian diễn dịch là Ω ={n1,n2, ,n S} gồm S tên đối tượng thì có thể nói quá trình nhận dạng là tìm ra ánh xạ từ tập Π sang tập Ω

• Lớp mẫu và phân lớp mẫu

Không gian mẫu là một tập các mẫu trộn lẫn nhau Nhờ vào quá trình phân lớp (classification) của bài toán nhận dạng mà các mẫu được nhóm họp lại thành các lớp mẫu (class) riêng biệt Các lớp mẫu phân biệt chứa các mẫu đồng dạng với nhau Tính đồng dạng ở đây là xét trên tập các đặc tính biểu diễn mẫu và nó thường được đánh giá bằng “khoảng cách mẫu” Mỗi lớp mẫu sẽ được gán một tên Như vậy, khi mẫu của một đối tượng được quá trình phân lớp sắp xếp vào một lớp nào đó thì điều này cũng có nghĩa là đối tượng đó được nhận dạng

• Khoảng cách mẫu và hàm phân biệt

Khoảng cách là một công cụ tốt để đánh giá các đối tượng có ở “gần nhau” hay không Khi khoảng cách nhỏ hơn một ngưỡng nào đó thì có thể coi 2 đối tượng là đồng dạng với nhau, tức là xếp được vào cùng 1 lớp Trường hợp lớn hơn ngưỡng thì 2 đối tượng thuộc về 2 lớp phân biệt Với khái niệm khoảng cách mẫu, người ta xây dựng hàm phân biệt

Hàm phân biệt là hàm của đối số là mẫu, được dùng để phân lớp các mẫu Để phân lớp mẫu, ta sẽ tìm ra lớp các hàm phân biệt {gi} sao cho mỗi hàm sẽ ứng

Trang 27

với một lớp và hàm đó luôn luôn đạt giá trị lớn hơn ứng với các mẫu thuộc lớp của nó Tức là nếu:

jk,g k( )p >g i( )p, với g k,g i∈{ }g i thì quyết định mẫu p∈ lớp k ( 2.1) Hàm gi thường là hàm tuyến tính có nghĩa là ứng với mỗi đặc trưng p isẽ có một trọng số riêng và hàm phân biệt sẽ được biểu diễn như sau:

g( )p =w0 +w1p1+w2p2+ +w R p R (2.2) Trọng số wo dùng để rút gọn hàm

Phân lớp bằng hàm tuyến tính được gọi là phân lớp bằng siêu phẳng (hyperplane)

Hàm phân biệt có thể được xây dựng từ lý thuyết xác suất có điều kiện Một lý thuyết xác suất có điều kiện quan trọng được áp dụng để xây dựng hàm phân biệt cho việc phân lớp mẫu là lý thuyết Bayes

• Nhận dạng được giám sát và không được giám sát

Theo ví dụ về nhận dạng sản phẩm, thì trường hợp này ta đã biết trước được tập tên sẽ gán cho các đối tượng cần nhận dạng, tức là không gian diễn dịch đã được xác định Loại nhận dạng này gọi là nhận dạng được giám sát (supervised) Trong nhận dạng được giám sát, ta sẽ dùng một thư viện các mẫu chuẩn để “huấn luyện“ cho hệ thống nhận dạng trước khi đưa vào sử dụng Quá trình huấn luyện này sẽ tạo ra các lớp mẫu chuẩn Việc nhận dạng các mẫu thực tế chính là việc

so sánh (giám sát) với các mẫu chuẩn để sắp xếp các đối tượng vào các phân lớp chuẩn đã tạo ra Việc so sánh này được thực hiện bằng các hàm phân biệt

Các trường hợp nhận dạng mà không gian diễn dịch chưa xác định cụ thể thì là nhận dạng không được giám sát (unsupervised) Loại nhận dạng này khó hơn

vì phải tự định ra các lớp và các tham số đặc trưng riêng của từng lớp Bản chất hoạt động phân lớp là sự nhóm họp các mẫu theo những nguyên tắc định trước

Trang 28

2.3 MÔ TẢ ĐỐI TƯỢNG ẢNH

Đây chính là việc biểu diễn đối tượng ảnh thông qua các đặc tính Trong quá trình này, dữ liệu của ảnh đối tượng được thu gọn lại Điều này là cần thiết nhằm giảm thiểu dung lương bộ nhớ cũng như thời gian tính toán trong quá trình nhận dạng Một đặc tính tốt nếu như nó duy trì và làm nổi bật đặc trưng của đối tượng mà đặc trưng này giúp cho việc phân lớp mẫu dễ dàng Đồng thời, các đặc tính mô tả đối tượng càng ít phụ thuộc vào các yếu tố như kích thước, chiều hướng, vị trí của đối tượng, điều kiện chiếu sáng càng tốt

Cơ bản hai loại đặc tính của đối tượng ảnh thường được quan tâm là các đặc tính mô tả đường nét, và các đặc tính mô tả miền

2.3.1 MÔ TẢ ĐƯỜNG NÉT

Signatures [9]

Signature là hàm một biến mô tả hình dạng của đối tượng ảnh, hay nói rõ hơn là nó mô tả đường bao của đối tượng Signature có thể được thiết lập bằng nhiều phương pháp khác nhau và một trong những phương pháp đó là dựa vào quan hệ giữa góc và khoảng cách tính từ trọng tâm đến đường bao đối tượng:

r=r(θ) Theo cách thiết lập này, Signature không phụ thuộc vào vị trí của đối

tượng Tuy nhiên, nó vẫn còn phụ thuộc vào chiều hướng cũng như kích thước của đối tượng

Trang 29

Việc tìm điểm bắt đầu trong quá trình thiết lập signature có thể được thực hiện bằng cách chuẩn hoá về chiều hướng đối tượng sẽ được đề cập ở phần sau Việc chuẩn hoá về kích thước đối tượng có thể thực hiện đơn giản bằng cách đưa giá trị của hàm signature về đoạn [0 1], hoặc cũng có thể chia cho variance của hàm signature

• Mô tả bằng chuỗi Fourier [9]

Đường bao của đối tượng có thể được mô tả dưới dạng một chuỗi các điểm liên tiếp nhau: (x0,y0), (x1,y1), K , (x N−1,y N−1)

Khi đó, mỗi điểm có thể được xem như một điểm trong mặt phẳng phức:

1 , , 2 , 1 , 0 , ) ( )

(

)

Trục x tương ứng với trục thực, trục y tương ứng với trục ảo Khi đó, biến đổi

Fourier của chuỗi s là:

1 , , 2 , 1 , 0 , )

N u

e k s

Trang 30

Biến đổi Fourier ngược chuỗi a (u)sẽ phục hồi lại được chuỗi s (k):

1

0

] / 2

=∑−

=

N k

e u a k

s

N

u

N uk

j π (2.4)

Tuy nhiên, thay vì toàn bộ chuỗi a (u) được dùng để mô tả đường bao đối

tượng, chỉ cần dùng M hệ số đầu Khi đó, việc thực hiện biến đổi ngược chuỗi

=∑−

=

N k

e u a k

s

M

u

N uk

Với M nhỏ, nhiều chi tiết của đường bao bị mất khi phục hồi chuỗi s (k) từ M

hệ số Fourier a (u) Hình dưới đây minh họa điều này

Khi đối tượng thay đổi kích thước với hệ số α tương ứng với việc nhân s (k)với α Khi đó, chuỗi Fourier mô tả đường bao đối tượng:

Trang 31

a s(u) = αa(u) (2.6) Khi đối tượng xoay một góc θ , tương ứng với việc nhân chuỗi s (k) với hệ số

N

k

N uk j j

N u

u= 0 , 1 , 2 , K ,N− 1

Khi đối tượng bị dịch một lượng ∆ ,xy trong hệ trục xy, tương ứng với việc

cộng thêm lượng ∆xy = ∆x+ jy vào chuỗi s (k):

s t(k) = [x(k) + ∆x] + j[y(k) + ∆y] =s(k) + ∆xy (2.8) Như vậy, chuỗi Fourier mô tả đường bao đối tượng là:

a t(u) =a(u) + ∆xyδ (u) ,u= 0 , 1 , ,N− 1 (2.9)

Ở đây, δ(u) là hàm xung đơn vị

• Mã chuỗi xích (chain codes) [9]

Chain code là một chuỗi mô tả một đường nào đó của đối tượng ảnh với mỗi thành viên chỉ ra hướng kết nối của 2 điểm liên tiếp Có 2 loại chain code là: chain code 4 hướng và chain code 8 hướng

Hình dưới đây minh họa việc thiết lập chain code 4 hướng và chain code 8 hướng cho một đường khép kín

Hình 2.4 Hướng của Chain code 4 hướng và 8 hướng

Trang 32

Trước tiên ảnh của đường được áp đặt một lưới lấy mẫu lên như minh họa

trong hình (a) Xét sự cắt ngang của đường qua mỗi cạnh của các mắt lưới, từ đó suy ra sự xấp xỉ của đường bằng các điểm chấm trên hình (b) Với một điểm bắt

đầu cho trước và một hướng bắt đầu cho trước, chain code 4 hướng hoặc chain

code 8 hướng có thể được thiết lập như trong hình (c) và (d)

2.3.2 MÔ TẢ MIỀN

Hình 2.5 Minh họa việc thiết lập chain code 4 hướng và 8 hướng

(a) ảnh của 1 đường kín với lưới lấy mẫu chồng lên (b) kết quả sau khi lấy mẫu

(c) chain code 4 hướng, (d) chain code 8 hướng

Trang 33

Với phương pháp thống kê thì nhiều thông số của miền được tính riêng rẽ Chẳng hạn như giá trị trung bình của mức xám, chu vi, diện tích, số lượng lỗ, moment của histogram mức xám của miền… Các thông số đó chính là các đặc tính mô tả miền

Với phương pháp dựa trên cấu trúc thì một số luật được đặt ra Chẳng hạn như luật:SaS , có nghĩa là S có thể viết lại dưới dạng aS Nếu a đại diện cho một hình tròn (hình (a)) và có ý nghĩa là hình tròn dịch sang phải thì một chuỗi ký tự aaa… có nghĩa là một dãy hình tròn với các hình tròn lần lượt được dịch sang phải như hình (b) được sinh ra Nếu một số luật khác được đặt ra như

SbS,AcA,Ac,AbS,Sa

Ở đây, b có nghĩa là hình tròn dịch xuống, và c có nghĩa là hình tròn dịch sang trái, thì với chuỗi ký tự aaabccbaa sẽ tạo ra một ma trận 3x3 hình tròn hình

(c) Các mẫu khác có thể được hình thành bằng cách tương tự

Phổ Fourier rất phù hợp cho việc mô tả những ảnh có tính có chu kỳ Ba đặc tính hửu dụng của phổ Fourier cho việc mô tả texture: (1) những đỉnh nổi bật trong ảnh phổ cho biết những hướng mang năng lượng chính trong ảnh (2) vị trí những đỉnh phổ cho biết những chu kỳ cơ bản của ảnh (3) ngoại trừ những thành phần có chu kỳ, những thành phần không có chu kỳ sẽ có xu hướng bị lọc loại bỏ Việc phân tích ảnh phổ thường được thực hiện bằng cách chuyển sang tọa độ cực

Trang 34

,

(rθ

S là hàm của ảnh phổ phụ thuộc vào 2 biến r và θ trong tọa độ cực Hàm

2-D S(r, θ ) có thể được chuyển thành hai hàm 1-D: S (r) và S( θ )

S S

0

) ( )

S là hàm S(r, θ ) với r không đổi

R là bán kính đường tròn có tâm ở gốc tọa độ Với ảnh phổ kích thước N×N thì R

được chọn là N/ 2

y= là tọa độ trọng tâm

Đối với ảnh số các biểu thức trên có thể được viết dưới dạng:

x y

q p

pq (x x) (y y) f(x,y)

Trang 35

Các moment tại trọng tâm bậc từ 0 đến 3:

µ00 =m00 µ11 =m11−y m10

10 20 30

30 =m − 3x m + 2m x

µ

02 11 12

12 =m − 2y mx m + 2y m

µ

20 11 21

21 =m − 2x my m + 2x m

µ

01 02 03

2.4.1 PHƯƠNG PHÁP SỐ NHẬN DẠNG

Trong phương pháp số (numerical method), mẫu sẽ được biểu diễn dưới dạng các giá trị số và thủ tục phân lớp chính là việc sắp xếp các giá trị số này thành các lớp Phân lớp mẫu của đối tượng (sản phẩm) là loại phân lớp được giám sát vì ta đã biết không gian diễn dịch của nó, hơn nữa việc nhận dạng (phân loại) lại dựa trên sự so sánh với các mẫu chuẩn (sản phẩm chuẩn) Với phương pháp số nhận dạng mẫu ta sẽ đi sâu vào kỹ thuật phân lớp được giám sát này

Như đã trình bày ở phần trước, các đặc tính của đối tượng được biểu diễn bởi tập giá trị Từng giá trị này được xem là một thành phần của vector mô tả

Trang 36

mẫu Khi hệ thống được huấn luyện với một tập các mẫu chuẩn thì các mẫu này được phân bố trong không gian mẫu và chúng được phân thành các lớp mẫu chuẩn

Khi các mẫu chưa xác định (mẫu cần nhận dạng) vào hệ thống thì việc nhận dạng mẫu chính là tìm ra một quy tắc để sắp xếp một vectơ biểu diễn mẫu vào một lớp chuẩn Để thực hiện được nhiệm vụ này, trước hết cần có một sự phân định rõ ràng giữa các lớp chuẩn, tức là xác định một phân hoạch của không gian mẫu Vì các mẫu cùng tên sẽ có những đặc trưng tương tự nhau cho nên trong không gian mẫu, các vectơ của chúng sẽ nằm gần nhau Một lớp thực sự sẽ chiếm một vùng nào đó trong không gian mẫu, thường được gọi là cluster Với việc biểu diễn mẫu bằng các giá trị số, ta có thể dễ dàng xác định các cluster này Hình 2.7 diễn tả nguyên lý phân lớp trình bày này

Thực tế không gian mẫu không phải bao giờ cũng phân tách hoàn toàn mà các cluster có thể có vùng chồng lên nhau Lý do là vì bộ đặc trưng của mẫu mà

ta trích chọn chưa tối ưu để phân tách các đối tượng Trong trường hợp một vectơ rơi vào vùng này thì mẫu đó có thể không nhận dạng được Điều này rất có ý nghĩa trong việc xây dựng thư viện mẫu chuẩn và việc tìm ra thêm các đặc trưng phân biệt các đối tượng Qúa trình xây dựng các lớp chuẩn này gọi là quá trình học, và thư viện mẫu có vai trò rất quan trọng cho khả năng nhận dạng của hệ thống

Trang 37

Hình 2.7 Nguyên lý phân mẫu được giám sát

Từ nguyên lý phân lớp theo phương pháp số trên, ngưới ta có đưa ra một số

phương pháp phân lớp

2.4.1.1 PHÂN LỚP KIỂU TÌM KIẾM KHỐI [11]

Mỗi cluster của lớp chuẩn được xấp xỉ bằng một khối bao bọc xung quanh

Sau đó việc phân lớp một mẫu sẽ chỉ là việc so sánh các thành phần của vectơ

mẫu với các tọa độ của khối này Khi các đặc trưng của đối tượng trực giao nhau

thì việc xấp xỉ này có thể thực hiện tốt, nhưng khi có các đặc trưng tương quan thì

việc xấp xỉ lại tồi và sẽ dẫn đến việc các khối có phần chồng lên nhau

Phương pháp phân lớp này tốc độ rất nhanh, nhưng đòi hỏi các khối phải

tách biệt

Hình 2.8 mô tả hoạt động của phương pháp này

Thư viện mẫu chuẩn Đối tượng

nhận dạng

Trích chọn đặc trưng

Phân lớp mẫu

Kết quả nhận dạng

8

Khơng gian phân hoạch

Phân lớp mẫu chuẩn

(xây dựng các lớp)

Khơng gian mẫu

Cluster Quá trình học (hay huấn luyện)

Trang 38

2.4.1.2 PHÂN LỚP THEO KHOẢNG CÁCH TỐI THIỂU [1],[11]

Giả sử, có M lớp mẫu ϖ1, ϖ2 , L , ϖM Xét mẫu T

n

x x

x, , , ) ( 1 2 K

vector mẫu n chiều Việc nhận dạng mẫu x được thực hiện bằng cách thiết lập M

hàm ra quyết định d1( ),d2( ), L ,d M( ) Khi đó, mẫu x thuộc vào lớp mẫu ϖi

khi:

d i( ) >d j( ) j= 1 , 2 , L ,M; ij (2.14) Đường biên giới giữa hai lớp mẫu ϖi và ϖj được tìm qua phương trình:

Phương pháp phân lớp dựa vào khoảng cách nhỏ nhất này được thực hiện như sau:

Tìm vector trung bình của mỗi lớp mẫu :

Hình 2.8 Phân Lớp Theo Kiểu Tìm Kiếm Khối

(a) Trường hợp các cluster không chồng lấp (b) Trường hợp các cluster chồng lấp lên nhau

Trang 39

j M

N m

Ở đây N j là số vector mẫu của lớp mẫu ϖj

Xét khoảng cách Euclidean từ vextor T

n

x x

x, , , ) ( 1 2 K

= đến vector m j:

D j( ) = −m j j= 1 , 2 , K ,M (2.17) Vector x được xem như thuộc vào lớp mẫu ϖi nếu khoảng cách D i( ) là nhỏ nhất

Đường biên giới phân cách giữa hai lớp mẫu ϖi và ϖj được tính qua phương trình:

0 ) (

) (

2

1 ) (

) ( ) ( )

i T

j i

ij

m m m m m

m

d d

d

(2.18)

2.4.1.3 PHÂN LỚP BẰNG LÝ THUYẾT THỐNG KÊ [10]

Nguyên lý của phương pháp này là ta sẽ chuyển đổi không gian mẫu sang một không gian S chiều bằng một hàm xác suất trực giao S chiều (S chính là số lớp mẫu) Hàm xác suất này có vai trò như hàm phân biệt (xem mục 2.2) Tiếp đó đối với mỗi lớp mẫu chúng ta sẽ tính toán xác suất để cho một đặc trưng đã cho thuộc về lớp đó, và sẽ chọn ra lớp có xác suất lớn nhất đối với đặc trưng này Phương pháp này vì thế còn gọi là phương pháp xác suất tối đa

Phương pháp này được xây dựng trên lý thuyết xác suất có điều kiện của Bayers để đưa ra quyết định phân lớp mẫu Có 3 loại thủ tục ra quyết định

o Thủ tục ra quyết định với chi phí tối thiểu

Bộ phân loại mẫu có thể xem như là một hộp đen với một đầu vào và một đầu ra Khi đặt một vectơ biểu diễn mẫu tại đầu vào thì ta thu được một tên ở

Trang 40

đầu ra (với Ρi∈ Π={p1,p2, ,p M} và n k∈ Ω={n1,n2, ,n s}) Vì là tên của lớp k nên ta có thể coi k chính là đầu ra của hộp đen

Bây giờ ta coi sự xuất hiện của pi và k là hai sự kiện ngẫu nhiên tuân theo luật phân bố Gauss Rõ ràng các sự kiện xuất hiện pi và k (với i=1 M và k=1 S) là xung khắc đôi một

Ta định nghĩa các xác suất sau:

( )p i

Ρ : xác suất xuất hiện p i (xác xuất không điều kiện)

( )k

Ρ : xác suất xuất hiện k (xác xuất không điều kiện)

p( p i k): xác suất xuất hiện khi đầu ra là k (xác suất có điều kiện)

p( k p i):xác suất xuất hiện k khi đầu vào là p i(xác suất có điều kiện) Việc xuất hiện k ở đầu ra khi đầu vào là p i thì có nghĩa p i được sắp xếp vào lớp k Như vậy p(k p i) cũng chính là xác suất của mẫu p i được xếp vào lớp

k theo công thức Bayes về xác suất có điều kiện Ta có:

) (

) ( ) / ( )

( ) / (

) ( ) / ( )

j

j

i i

p p

k p k p p

k p p k p

k p k p p p

Hàm p( )p i được tính theo công thức như sau (công thức với các ma trận):

Ngày đăng: 16/04/2021, 04:28

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[13] Representation And Detection Of Shapes In Images Pedro F. Felzenszwalb Khác
[15] Object Recognition In Robot Foodball Using A One Dimen Tional Image Hatice Kose and Levent Akin Khác
[16] Real Time Object Recognition For Teaching Neural Networks Fitratullah Khan and Alberto Cervanta Khác
[17] Object Extraction From Infrared Images Anupam Gerg Khác
[18] Learning To Recognize Human Action Sequences Chen Yu and Dana H. Ballard Khác
[19] Discovering and Learning To Recognize Objects Paul Fitzpatrick Khác
[20] Matlab Image Processing Toolbox [21] Matlab Neural Network Toolbox Khác
[22] Cooperation of Multilayer Perceptron Classifiers Bernard Gosselin Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w