Tóm tắt Các nội dung thực hiện trong đề tài này: Nghiên cứu các phương pháp phân tích và nhận dạng đối tượng như: việc phân đoạn đối tượng ảnh, việc mô tả đối tượng ảnh, lý thuyết về nhậ
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
LUẬN VĂN THẠC SĨ
THÀNH PHỐ HỒ CHÍ MINH, Tháng 12 Năm 2004
-
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán bộ hướng dẫn khoa học: PGS TSKH Nguyễn Kim Sách
Cán bộ chấm nhận xét 1: PGS TS Lê Tiến Thường
Cán bộ chấm nhận xét 2: TS Phạm Hồng Liên
Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA , ngày 30 tháng 12 năm 2004
Trang 3
NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên: Trần Quốc Bình Phái: nam
Ngày, tháng, năm sinh: 24-12-1976 Nơi sinh: Đồng Tháp
Chuyên ngành: Kỹ thuật điện tử Mã số: 2.07.01
I.TÊN ĐỀ TÀI: Phân Loại Sản Phẩm Dùng Neural Network
II NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu kỹ thuật nhận dạng đối tượng
- Nghiên cứu huấn luyện Neural Network để phân loại các đối tượng
- Xây dựng chương trình tự động phân loại sản phẩm
- Đánh giá kết quả và nêu hướng phát triển của đề tài
III NGÀY GIAO NHIỆM VỤ: 01/07/2004
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 01/12/2004
V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TSKH Nguyễn Kim Sách
VI HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 1:
VII HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 2:
Cán Bộ Hướng Dẫn Cán Bộ Nhận Xét1 Cán Bộ Nhận Xét2
Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua
Ngày 30 tháng 12 năm2004 TRƯỞNG PHÒNG QLKH-SĐH CHỦ NHIỆM NGÀNH
Trang 4LỜI CẢM ƠN !
Tôi xin gởi lời biết ơn sâu sắc đến các Thầy Cô Trường Đại Học Bách Khoa TP Hồ Chí Minh đã tận tình giảng dạy tôi trong thời gian học tập và thực hiện luận văn
Đặc biệt, tôi xin chân thành cảm ơn PGS.TSKH Ngưyễn Kim Sách đã
tận tình hướng dẫn và giúp đỡ tôi trong thời gian nghiên cứu đề tài
Xin chân thành cảm ơn bạn bè, đồng nghiệp và những người thân trong gia đình đã động viên và hỗ trợ tôi trong suốt khóa học
TP HCM, ngày 30 tháng 12 năm 2004
Trần Quốc Bình
Trang 5Tóm tắt
Các nội dung thực hiện trong đề tài này:
Nghiên cứu các phương pháp phân tích và nhận dạng đối tượng như: việc phân đoạn đối tượng ảnh, việc mô tả đối tượng ảnh, lý thuyết về nhận dạng, lý thuyết về mạng neuron nhân tạo
Triển khai thực hiện chương trình ứng dụng mạng neuron nhân tạo vào việc phân loại đối tượng trong chuỗi ảnh động
Quá trình hoạt động của hệ thống được tóm tắt như sau: chuỗi ảnh với các đối tượng chuyển động được đưa vào hệ thống Hệ thống thực hiện việc phân đoạn để lấy được đối tượng ảnh cần quan tâm Sau khi thực hiện một số các phép biến đổi hình học, chuẩn hóa, các đặc tính của đối tượng ảnh được trích ra đưa vào mạng neuron đã được huấn luyện trước để nhận dạng và phân loại và cho kết quả cuối cùng
Trang 6Abstract
The content of this include of:
Research on image object analytics methods and image object recognition: image segmentation, morphology, image object description, theory of recognition and neural network
Perform a application program: use neural network to recognize and categorize object from moving image sequence
Performance process of recognition system:
At first, the system extracts image objects in each image by segmentation Next, morphology of the image is corrected Then, position, size and orientation of the object are normalized Then, signature anh color characteristic are extracted They are the input data of the trained neural network to recognize and categorize object
Trang 7trang
Lời Nói Đầu 1
Chương 1 PHÂN ĐOẠN ẢNH 6
1.1 Phân Đoạn Ảnh 6
1.2 Các Phương Pháp Phân Đoạn Ảnh 6
1.2.1 Phân Đoạn Dựa Trên Đường Biên 6
Phương pháp watershed 7
1.2.2 Phân Đoạn Dựa Trên Miền 8
Mở Rộng miền 8
Hợp nhất miền 9
Phân chia miền 9
1.2.3 Phân Đoạn Dựa Trên Ngưỡng 9
1.2.4 Phân Đoạn Dựa Vào Chuyển Động 13
Chương 2 NHẬN DẠNG ẢNH 17
2.1 Giới Thiệu Chung 17
2.2 Các Khái Niệm Cơ Bản 17
2.3 Mô Tả Đối Tượng Ảnh 20
2.3.1 Mô Tả Đường Nét 20
Signature 20
Mô tả bằng chuỗi Fourier 21
Mã chuỗi xích (chain code) 23
2.3.2 Mô Tả Miền 24
Texture 24
Moment 26
2.4 Nhận Dạng 27
2.4.1 Phương Pháp Số Nhận Dạng 27
2.4.1.1 Phân lớp kiểu tìm kiếm khối 29
2.4.1.2 Phân lớp dựa vào khoảng cách tối thiểu 31
2.4.1.3 Phân lớp bằng 1ý thuyết thống kê 36
2.4.1.4 Phân lớp sử dụng mạng neuron 36
2.4.2 Nhận Dạng Theo Cấu Trúc 36
Phương pháp sử dụng các mẫu tượng trưng 37
Phương pháp phân tích cú pháp 38
Chương 3 MẠNG NEURON NHÂN TẠO 39
Trang 83.1.1 Bộ Não Con Người Và Neuron Sinh Học 40
3.1.2 So Sánh Khả Năng Làm Việc Của Bộ Não Người Và Máy Tính 42
3.2 Mạng Neuron Nhân Tạo 43
3.2.1 Mô Hình Neuron Nhân Tạo 43
3.2.2 Mạng Neuron Nhân Tạo 46
3.3 Mạng Perceptron 49
3.4 Mạng Perceptron Đa Lớp 54
3.5 Mạng Kết Hợp Tuyến Tính 64
3.6 Mạng Kohonen 66
3.7 Quy Trình Thiết Kế Mạng Neuron Ứng Dụng 70
3.8 Một Số Vấn Đề Liên Quan Đến Mạng Neuron Nhân Tạo 75
3.8.1.Khả năng tính toán và biểu diễn dữ liệu của mạng neuron 75
3.8.2.Việc xác định cấu trúc mạng tối ưu 75
3.8.3.Số lượng mẫu huấn luyện mạng 76
3.8.4.Quá khớp 76
Chương 4 THỰC HIỆN CHƯƠNG TRÌNH 77
4.1 Thu nhận Ảnh 78
4.2 Phân Đoạn Ảnh 78
4.3 Trích Đặc Tính Hình Dạng 79
4.4 Trích Đặc Tính Màu Sắc 90
4.5 Mạng Neuron 92
• Cấu trúc mạng neuron 93
• Huấn luyện mạng neuron 94
4.6 Quyết Định Kết Quả, Thống Kê Số Lượng Đối Tượng 96
Chương 5 KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 97
5.1 Kết Quả Và Nhận Xét 97
5.2 Hướng Phát Triển Đề Tài 101
Trang 9-
Lời nói đầu
Một mong muốn của các nhà kỹ thuật hiện nay là làm thế nào để tạo ra được các máy móc có các khả năng nhận thức của con người, như khả năng nghe hiểu tiếng nói hay nhìn và nhận định được các vật thể xung quanh Và mục tiêu này là một yêu cầu quan trọng trong lĩnh vực chế tạo người máy (Robot) Ngày nay sự bùng nổ của công nghiệp máy tính cùng với sự phát triển của những cơ sở lý thuyết trong lĩnh vực xử lý thông tin đã là những nhân tố quan trọng để giúp chúng ta đi dần tới mục tiêu”người máy hóa”
Chúng ta biết rằng con người nhận thức thế giới xung quanh bằng các giác quan và năng lực tư duy của mình Hiện nay chúng ta đã có nhiều cảm biến (Sensor) có khả năng thu nhận thông tin của môi trường xung quanh giống với chức năng của các giác quan của con người Đơn giản như một chiếc micro có thể thu nhận âm thanh, cho đến những chiếc camera có khả năng thu nhận hình ảnh Vấn đề tiếp đó là xử lý các thông tin thu được như thế nào
Đối với con người thì quá trình xử lý thông tin là quá trình tư duy dựa trên
cơ chế hoạt động của bộ não Đây là một quá trình rất phức tạp mà cho đến ngày nay chúng ta mới nắm bắt được một phần nhỏ cơ chế hoạt động của nó Có lẽ sẽ còn lâu “máy móc” mới đạt được đến khả năng tư duy của con người Nhưng trong sự nỗ lực từng bước của mình, các nhà kỹ thuật đã phân tách các mảng thông tin ra từng phần nhất định và thực hiện xử lý riêng trong khuôn khổ phân định đó Chính sự xử lý riêng biệt này đã tạo ra được những thành công nhất định trong việc chế tạo ra các hệ thống kỹ thuật có một năng lực tư duy của con người
Việc tạo ra các hệ thống có khả năng nhận định thông tin là một trong những hướng nghiên cứu đã có những thành công nhất định Trong các hệ thống này, từ một dạng thông tin thu nhận được, hệ thống sẽ phân tách ra
Trang 10-
thành các mẫu thông tin nhất định, sau đó biểu diễn các mẫu thông tin này,
sắp xếp và phân loại chúng cuối cùng là tìm ra ý nghĩa của các mẫu thông tin
này Việc phân tách thông tin thu được, biểu diễn và nhận định ý nghĩa của
chúng chính là nội dung chính của bài toán “Nhận dạng mẫu” (Pattern
Recognition)
Phạm vi ứng dụng lý thuyết nhận dạng mẫu đã được áp dụng cho các lĩnh
vực như nhận dạng tín hiệu, nhận dạng tiếng nói, nhận dạng ảnh Nhận dạng
ảnh có thể nói là bước cuối cùng của quá trình xử lý ảnh Rất nhiều lý thuyết
về kỹ thuật xử lý ảnh đã được phát triển để đạt được mục đích nhận dạng được
các đối tượng trong bức ảnh thu được Và có thể nói cơ sở để phát triển lý
thuyết về kỹ thuật xử lý ảnh chính là việc số hóa các bức ảnh
Kỹ thuật nhận dạng cơ bản dựa vào việc phân tích và biến đổi các mẫu để
rút ra được các đặc trưng của đối tượng cần nhận dạng Với những đặc trưng
này, người ta có thể phân lớp các mẫu Việc gán ý nghĩa cho các lớp mẫu cũng
chính là việc nhận dạng được các mẫu sẽ xếp vào lớp đó
Song song với kỹ thuật nhận dạng ảnh bằng phân tích và biến đổi ảnh là
một kỹ thuật nhận dạng đang được phát triển mạnh và ngày càng thể hiện tính
ưu việt của nó Đó là nhận dạng ảnh đối tượng bằng mạng neuron Mạng
neuron cũng chính là một trong những nỗ lực nghiên cứu của nhiều nhà khoa
học nhằm đạt được mục tiêu tạo ra máy móc có năng lực hoạt động của bộ não
người Những thành công của mạng neuron không chỉ trong bài toán nhận
dạng ảnh mà còn trong nhiều lĩnh vực khác nhau Và điều này là động lực cho
các nghiên cứu mới về mạng neuron vẫn tiếp tục phát triển hàng ngày
Ngày nay, nhiều lĩnh vực đòi hỏi việc tự động hoá quá trình xử lý công việc Có những công việc không thể thực hiện được bằng các phương pháp thủ
công thì với sự hỗ trợ của máy móc có thể thực hiện được Ngoài ra, nó còn
Trang 11-
giúp giải phóng con người khỏi các công việc nguy hiểm, đòi hỏi tính lặp đi lặp lại nhàm chán, và thêm nữa, tính chính xác và khách quan trong quá trình xử lý công việc được gia tăng Công cuộc tự động hoá đòi hỏi sự phát triển của nhiều lĩnh vực khoa học và một mảng rất quan trọng đó là vấn đề tự động nhận dạng, nó là cơ sở cho các khâu xử lý tiếp theo trong hệ thống tự động Vấn đề tự động nhận dạng đang được nhiều nhà khoa học nghiên cứu và đưa vào ứng dụng trong các lĩnh vực như : robot, y sinh học, quân sự, an ninh, bảo mật, giải trí…
Một số ứng dụng
• Giao thông: hệ thống tự động nhận biết các vi phạm về tốc độ, kích
thước của các phương tiện giao thông, tự động điều khiển phương tiện giao thông
• An ninh: tự động hóa việc nhận dạng các đối tượng bị truy nã thông qua
các camera quan sát tại các điểm công cộng, hệ thống bảo mật các thông tin mật, thông tin cá nhân
• Y sinh học: tự động hoá việc thống kê số lượng tế bào, vi trùng, vi
khuẩn…, theo dõi sự di chuyển của các tế bào, vi trùng, vi khuẩn…, chọn lọc giống cây trồng vật nuôi
• Quân sự: tự động hoá việc phát hiện và tiêu diệt mục tiêu
• Robot: robot tự hành, tự động xác định vị trí các đối tượng cần thao tác
Nhận dạng sản phẩm và phân loại sản phẩm là một vấn đề nằm trong lĩnh vực nhận dạng ảnh Qua quá trình này, ta vừa phân loại được sản phẩm theo yêu cầu đặt ra trước (về kích cỡ hình dạng), vừa phát hiện được các phế phẩm (về hình dạng bên ngoài như: bị móp méo, bị sứt mẻ, bị răng cưa các cạnh ) Và đồng thời giúp ta có thể kịp thời kiểm tra lại hệ thống dây chuyền sản xuất để sao cho sản phẩm sản xuất ra được tốt hơn Xuất phát từ ý tưởng này và dựa
Trang 12-
trên sự định hướng của Thầy hướng dẫn, PGS.TSKH Nguyễn Kim Sách và với
sự cố gắng của bản thân, tác giả đã hoàn thành luận văn với đề tài:
“Phân Loại Sản Phẩm Dùng Neural Network”
Đề tài này nghiên cứu và triển khai thực hiện một chương trình ứng dụng
vào tự động hóa quá trình sản xuất Đó là tự động phân loại sản phẩm dựa trên Kỹ thuật nhận dạng đối tượng dùng Neural Network
Một hệ thống tự động phân tích và nhận dạng ảnh cần phải thực hiện các công đoạn: thu thập ảnh, xử lý nâng cao chất lượng ảnh, phân đoạn tách các đối tượng ảnh, mô tả đối tượng ảnh bằng các đặc tính, và cuối cùng là việc nhận dạng đối tượng ảnh Mỗi công đoạn có một vai trò nhất định, nhưng các công đoạn có tính quyết định đến thành công của hệ thống phân tích ảnh đó là: công đoạn phân đoạn tách các đối tượng ảnh; mô tả đối tượng ảnh bằng các đặc tính; và nhận dạng đối tượng ảnh Ba tiêu chí thường được dùng để đánh giá năng lực của một hệ thống tự động phân tích và nhận dạng ảnh là: (1) khả năng tách biệt đối tượng ảnh cần quan tâm; (2) khả năng học và xây dựng
cơ sở tri thức từ những mẫu, áp dụng cơ sở tri thức này vào những hoàn cảnh mới; (3) khả năng suy luậân từ những thông tin không đầy đủ Một hệ thống tự động phân tích ảnh được xem là “tinh tế” khi quá trình phân đoạn tách đối tượng ảnh phải có độ chính xác cao, các đặc tính mô tả đối tượng ảnh phải thể hiện chính xác và đầy đủ về đối tượng ảnh, quá trình nhận dạng phải chính xác và mang tính “thông minh”
Luận văn chia làm 5 chương:
Chương 1 : Phân Đoạn Ảnh
Chương này trình bày một số phương pháp phân đoạn ảnh
Trang 13-
Chương 2 : Nhận Dạng Ảnh
Chương này trình bày các đặc trưng của đối tượng và các phương pháp nhận dạng đối tượng
Chương 3 : Mạng Neuron Và Nhận Dạng Ảnh
Chương này trình bày cấu trúc và luật học của một số mạng neuron và ứng dụng của các mạng đó trong nhận dạng ảnh Và quy trình thiết kế mạng neuron ứng dụng và một số vấn đề liên quan đến mạng neuron như khả năng tính toán và biểu diễn dữ liệu của mạng neuron, việc xác định cấu trúc mạng tối ưu, số lượng mẫu huấn luyện mạng và vấn đề quá khớp
Chương 4 : Thiết Kế Chương Trình Phân Loại Sản Phẩm
Chương này trình bày các bước giải quyết vấn đề và phân tích các dữ liệu
Chương 5 : Đánh Giá Kết Quả Và Hướng Phát Triển Của Đề Tài Chương này trình bày các kết quả nhận được và những nhận xét, phân
tích từ các kết quả này, đồng thời đề xuất hướng phát triển của đề tài
Trang 14-
1.1 PHÂN ĐOẠN ẢNH
Bước đầu tiên trong quá trình phân tích ảnh là việc phân đoạn ảnh Việc phân đoạn ảnh nhằm tách biệt các thành phần cấu thành bức ảnh hoặc tách các đối tượng cần quan tâm ra khỏi bức ảnh Đây là một trong những công việc khó nhất trong việc xử lý ảnh và nó có vai trò rất lớn đến sự thành công của việc phân tích ảnh
Việc phân đoạn ảnh tĩnh cơ bản dựa vào một trong hai đặc tính của các miền đó là sự không liên tục hoặc sự tương đồng Loại thứ nhất dựa trên sự không liên tục của các miền hay nói cách khác là dựa trên sự thay đổi đột ngột về đặc tính của miền, từ đó biên của các miền được thiết lập, và dựa vào biên giữa các miền, từng miền sẽ được phân tách Loại thứ hai cơ bản dựa vào tính tương đồng hoặc không tương đồng về một đặc tính nào đó của các miền để thực hiện việc mở rộng miền, hợp nhất hoặc phân chia miền Ngoài ra, còn có một kỹ thuật phân đoạn khác được sử dụng khá phổ biến đó là kỹ thuật phân đoạn dựa vào giá trị mức xám (hay còn được gọi là phân đoạn dựa vào ngưỡng)
Đối với ảnh động, đặc tính chuyển động của đối tượng được sử dụng rất hiệu quả cho việc phân đoạn
1.2 MỘT SỐ PHƯƠNG PHÁP PHÂN ĐOẠN ẢNH
1.2.1 Phân Đoạn Dựa Trên Đường Biên [6],[20]
Một phương pháp phân đoạn điển hình dựa vào biên bao gồm các bước sau Trước tiên, biên của các miền được tìm, chẳng hạn như bằng cách chập ảnh với mặt nạ tìm biên (Prewitt, Sobel, ) rồi lấy ngưỡng Sau đó, các đường biên này được xử lý để loại bỏ các các đường biên không mong muốn cũng
Trang 15như nối liền các đoạn biên bị đứt Một số các phương pháp chẳng hạn như
phép biến đổi Hough, tìm lân cận… được sử dụng để nối liền các đoạn biên bị
đứt Cuối cùng, các miền trong đường biên được lấp đầy để có được các miền
được phân tách
Ngoài ra, còn có các phương pháp phân đoạn ảnh dựa trên biên khác được
áp dụng như: phương pháp Watershed, phương pháp Sneke,…
• Phương pháp Watershed
Watershed hiểu một cách đơn giản như sau: biên của các đối tượng có thể
xem như là những đập ngăn nước và nước được chứa trong những vùng trũng
với mực nước dâng cao dần đến mức cao nhất có thể từ đó hình thành các
miền, tương ứng với các “hồ chứa nước” Thường thì cần phải có thêm khâu
tiền xử lý và hậu xử lý cho việc phân đoạn watershed Quá trình tiền xử lý
Hình 1.1 Minh họa việc phân đoạn dựa trên biên
(a) ảnh gốc (b): ảnh sau khi tách biên (c) ảnh với đối tượng cần quan tâm đã được lấp đầy
(a) (b)
(c)
Trang 16-
thường là những thủ tục nối biên để có được các đường biên kín Còn quá trình hậu xử lý phải loại bỏ các đường biên thừa, do nhược điểm của phương pháp này là nó thường phân quá nhiều đoạn (oversegmentation) so với số đối tượng trong ảnh Một trong những phương pháp thường được sử dụng để loại các biên dư thừa là phương pháp hợp nhất các miền tương đồng Một đặc điểm của phương pháp watershed là không làm xuất hiện những lỗ trong mỗi đoạn
1.2.2 Phân Đoạn Dựa Trên Miền [6],[9],[20]
Theo phương pháp phân đoạn này, sự tương đồng hoặc không tương đồng của một số đặc tính nào đó của các miền kề nhau hay các pixel kề nhau được sử dụng cho việc mở rộng miền, hợp nhất hoặc phân chia miền
• Mở rộng miền
Hình 1.2 Minh họa phương pháp phân đoạn watershed
(a) ảnh gốc (b) những đập ngăn nước và thung lũng tương ứng
(c) kết quả việc phân đoạn
(c)
Trang 17Theo phương pháp này, từ các pixel ban đầu (miền hạt nhân) trong một miền cần xem xét, các pixel lân cận với miền hạt nhân này sẽ được hợp nhất với miền hạt nhân này nếu chúng có sự tương đồng với miền hạt nhân Cứ như thế miền sẽ được mở rộng cho đến khi không còn các pixel lân cận nào tương đồng với miền hạt nhân
• Hợp nhất miền
Theo phương pháp này, hai miền kề nhau sẽ được hợp nhất khi chúng thỏa một trong hai điều kiện: đặc tính hai miền kề nhau là tương đồng, hoặc đường biên giới giữa chúng không rõ ràng (quá mờ nhạt, nhiều đoạn đứt,…)
• Phân chia miền
Phương pháp này ngược lại với phương pháp hợp nhất miền, tức là một miền sẽ được chia thành các miền khác nhau khi chúng có đặc tính không tương đồng với nhau Một phương pháp khá phổ biến hiện nay thường được dùng là phân tích quadtree Với phương pháp này một miền sẽ được chia làm
4 nếu có sự khác biệt về mức xám trong 4 miền con này, và các miền con tiếp tục được chia làm 4 nếu vẫn có sự không tương đồng về mức xám… và cứ như thế cho đến khi các miền con có sự tương đồng thì dừng lại
1.2.3 Phân Đoạn Dựa Trên Ngưỡng [6],[9]
Hình 1.3 Minh họa việc phân tích quadtree
Trang 18-
Phương pháp phân đoạn dựa trên ngưỡng là kỹ thuật được dùng khá phổ biến Với phương pháp này, một toán tử lấy ngưỡng g ánh xạ thang giá trị mức xám vào một giá trị nhị phân 0, 1 được định nghĩa:
t v v
g
1
0 )
với v là giá trị mức xám, t là ngưỡng
Hình dưới đây minh họa phương pháp phân đoạn này
Đối với những ảnh chứa các đối tượng với giá trị mức xám khác so với nền thì phương pháp phân đoạn dựa trên ngưỡng rất hiệu quả Hơn nữa nếu các đối tượng không chồng chập lên nhau thì các đối tượng có thể được phân tách dễ dàng
(a)
(c)
(a) ảnh gốc (b) histogram (c) ảnh nhị phân
Hình 1.4 Minh họa phương pháp phân đoạn dựa trên ngưỡng
0 500 1000 1500
(b)
Ngưỡng t
Trang 19Đối với ảnh có nhiều đối tượng với mức xám khác nhau thì quá trình phân
đoạn có thể dùng nhiều ngưỡng để phân đoạn: các pixel có giá trị mức xám
nhỏ hơn ngưỡng thứ nhất thì thuộc vào đoạn 0, các pixel có giá trị mức xám ở
giữa ngưỡng thứ 1 và thứ 2 thì thuộc đoạn 1… Nếu dùng n ngưỡng (t1,t2, K ,t n)
thì toán tử lấy ngưỡng được định nghĩa như sau:
t v t
t v t
t v
v g
n
M M
3 2
2 1
1
2 1 0
)
Như vậy sau khi lấy ngưỡng ảnh được phân thành n+ 1 đoạn
Histogram thường được sử dụng cho việc chọn các giá trị ngưỡng Phần
dưới đây trình bày một số phương pháp thường được sử dụng trong việc chọn
t1≤ < 2; 2 ≤ < 3; 3 ≤
Trang 20-
Giá trị ngưỡng có thể được tính: bằng với trị trung bình mức xám giữa hai
đỉnh liên tiếp; hoặc bằng giá trị mức xám có histogram nhỏ nhất giữa hai đỉnh
liên tiếp
• Dùng cực tiểu variance
Ngưỡng được tính dựa vào cực tiểu variance giữa đối tượng và nền Phần
này chỉ xét tới trường hợp đơn giản: ảnh chỉ có 2 đoạn, tức là chỉ cần tìm 1
là giá trị mức xám trung bình của ảnh
Ảnh có 2 đoạn 0 và 1 Khi đó, variance mức xám của mỗi đoạn là:
v h
v h
v vh
h ( )
1
0 0
v vh
h ( )
1
1 1
ở đây, µ0, µ1 là giá trị mức xám trung bình của đoạn 0 và đoạn 1, h0, h1 là
xác suất được tính bằng biểu thức:
Trang 21∑
<
=
t v
v h
v h
1.2.4 Phân Đoạn Dựa Vào Chuyển Động [9]
Phương pháp phân đoạn dựa vào sự chuyển động của đối tượng áp dụng rất hiệu quả trong việc phân đoạn ảnh động
Việc phát hiện sự khác biệt giữa 2 frame f(x,y,t i) và f(x,y,t j) tại thời điểm t i và t j được thực hiện bằng cách so sánh từng pixel giữa hai frame
) , , ( ) , , ( 1
) , (
j i
j i
ij
t y x f t y x f if
t y x f t y x f if y
x
Ở đây θ là mức ngưỡng
Việc so sánh này sẽ cho sự sai biệt tại miền ở cạnh trước và sau của đối tượng chuyển động, còn các miền khác thì sẽ không có sự khác biệt Ở đây sự ảnh hưởng của nhiễu đã không được xét đến Nếu có nhiễu xuất hiện thì mỗi frame trước khi đưa vào khâu này cần phải được lọc loại bỏ nhiễu
Trang 22-
• Tích lũy sai biệt
Xét chuỗi ảnh f(x,y,t1),f(x,y,t2), ,f(x,y,t n), với f(x,y,t1) được chọn làm frame tham chiếu Một ảnh tích lũy sai biệt được thiết lập bằng cách so sánh frame tham chiếu f(x,y,t1) với từng frame trong chuỗi ảnh Tại vị trí của mỗi pixel trong ảnh tích lũy sai biệt chứa một biến đếm số lần khác biệt giữa frame tham chiếu với từng frame trong chuỗi ảnh Như vậy khi frame thứ k
trong chuỗi ảnh được so sánh với frame tham chiếu, các pixel trong ảnh tích lũy sai biệt cho biết số lần mức xám tại vị trí đó khác biệt với giá trị mức xám tại pixel tương ứng trong frame tham chiếu
Hình 1.6 Minh họa việc phát hiện chuyển động (a) Frame tại thời điểm t i
(b) Frame tại thời điểm t j
(c) Ảnh sai biệt
(a)
(b)
(c)
Trang 23
Hình trên minh họa việc thiết lập ảnh tích lũy sai biệt Hình (a) đến (e) biểu diễn đối tượng hình chữ nhật di chuyển sang phải với tốc độ đều 1 pixel/frame Hình (a) là frame tham chiếu, hình (b) đến (d) là các frame từ 2 đến 4, hình (e) là frame thứ 11 Hình (f) đến (i) là ảnh tích lũy sai biệt tương ứng tại các thời điểm khác nhau Ở hình (f), cột các giá trị 1 bên trái là kết quả của sự khác nhau giữa đối tượng trong hình (a) và background trong hình (b) Cột các giá trị 1 bên phải được hình thành bởi sự khác nhau giữa background trong frame tham chiếu (a) và cạnh trước của đối tượng chuyển động Tại thời điểm của frame thứ 4, cột khác 0 đầu tiên của ảnh tích lũy sai biệt biểu thị số đếm là 3 có nghĩa là, tổng số đã có 3 lần xảy ra sự khác biệt trong cột này trong frame tham chiếu (a) và cột tương ứng trong chuỗi frame Cuối cùng, hình (i) cho thấy tổng số có 10 (biểu thị là A) sự thay đổi tại vị trí này
00000000 321 321
00000000 321 321
00000000 321 321
00000000 A98765438887654321
00000000 A98765438887654321 (e) 00000000 A98765438887654321 (i)
Trang 24-
Trong thực tế, 3 loại ảnh tích lũy sai biệt thường được sử dụng đó là: AADI (Absolute Accumulative Differences Image), PADI (Positive ADI) và NADI (Negative ADI) Loại AADI ta đã xét qua ở trên, còn loại PADI và NADI được thiết lập bằng cách sử dụng công thức (1.14) nhưng không có dấu trị tuyệt đối và frame tham chiếu là f(x,y,t i) Nếu mức xám của đối tượng lớn hơn background và trị sai biệt là dương thì ngưỡng dương được dùng để so sánh Nếu trị sai biệt là âm thì ngưỡng âm được dùng để so sánh Điều ngược lại được thực hiện nếu mức xám của đối tượng nhỏ hơn background
• Thiết Lập Ảnh Tham Chiếu
Như đã đề cập ở trên, sự sai biệt giữa 2 frame trong chuỗi ảnh động có khuynh hướng loại bỏ tất cả những thành phần tĩnh, chỉ để lại những thành phần tương ứng với nhiễu và đối tượng chuyển động Vấn đề nhiễu có thể được giải quyết bởi các bộ lọc nhiễu Một ảnh tham chiếu chỉ chứa các thành phần tĩnh có thể được xây dựng như sau: frame đầu tiên trong chuỗi ảnh được xem như ảnh tham chiếu Khi một thành phần không phải là thành phần tĩnh di chuyển ra khỏi vị trí của nó trong ảnh tham chiếu, phần background trong frame hiện tại được sao lại vào đúng vị trí đó cho ảnh tham chiếu Khi tất cả các đối tượng di chuyển ra khỏi vị trí ban đầu của chúng thì ảnh tham chiếu chỉ còn lại thành phần tĩnh (background)
Trang 25CHƯƠNG 2 : NHẬN DẠNG ẢNH
2.1 GIỚI THIỆU CHUNG
Khi quan sát một bức ảnh, ngoài sự cảm nhận về kích thước và màu sắc thì các đối tượng trong bức ảnh đó sẽ mang lại những ý nghĩa nhận thức nào đó cho người quan sát Vì thế quá trình xử lí ảnh không dừng lại ở việc nâng cao chất lượng ảnh, lưu trữ ảnh hay phân tích kết cấu của nó mà còn thêm một bước nữa là tự động nhận dạng các đối tượng trong ảnh để rút ra được các thông tin mà chúng chứa đựng
Nhận dạng ảnh (image recognition) có thể xem là công đoạn cuối của quá trình xử lý ảnh Ta có thể nhìn nhận về hoạt động của công đoạn này một cách đơn giản là việc gán tên cho các đối tượng trong ảnh
Nhận dạng ảnh chỉ là một bài toán nằm trong lĩnh vực nhận dạng mẫu (pattern recognition) Trong chương này sẽ trình bày các nguyên lý trong lý thuyết nhận dạng mẫu được áp dụng trong bài toán nhận dạng ảnh
2.2 CÁC KHÁI NIỆM CƠ BẢN
• Mẫu và mô tả mẫu
Người ta mô tả tất cả những kích thước vật lý có thể thu nhận được trong thế giới xung quanh ta bằng các mẫu (pattern) Nhận dạng mẫu chính là việc xử lý, mô tả và diễn dịch các mẫu Như vậy mẫu là các phần tử thuộc về phạm vi bài toán nhận dạng
Các mẫu thường được mô tả bằng tập các thuộc tính đặc trưng của đối tượng Đối với các đối tượng ảnh, các đối tượng đó có thể là đặc trưng sóng -mét, đặc trưng về topo, đặc trưng hình học Ta có thể ký hiệu một mẫu là với các biểu diễn các đặc trưng của đối tượng
Để mô tả mẫu từ các đặc trưng của đối tượng, người ta có thể sử dụng hai
Trang 26+ Phương pháp số (Numerical)
+ Phương pháp cấu trúc (Structural )
Các phương pháp này sẽ đề cập chi tiết ở mục 2.4.1 và 2.4.2
• Không gian mẫu và không gian diễn dịch
Các đối tượng phải được trích chọn các đặc trưng cần thiết để tạo nên các thành phần biểu diễn mẫu, và mẫu của các đối tượng đó sẽ tập hợp nên không gian mẫu Còn không gian diễn dịch là tên gọi của các đối tượng
Nếu ký hiệu không gian mẫu là tập Π ={p1,p2, ,p M} gồm M mẫu và không gian diễn dịch là Ω ={n1,n2, ,n S} gồm S tên đối tượng thì có thể nói quá trình nhận dạng là tìm ra ánh xạ từ tập Π sang tập Ω
• Lớp mẫu và phân lớp mẫu
Không gian mẫu là một tập các mẫu trộn lẫn nhau Nhờ vào quá trình phân lớp (classification) của bài toán nhận dạng mà các mẫu được nhóm họp lại thành các lớp mẫu (class) riêng biệt Các lớp mẫu phân biệt chứa các mẫu đồng dạng với nhau Tính đồng dạng ở đây là xét trên tập các đặc tính biểu diễn mẫu và nó thường được đánh giá bằng “khoảng cách mẫu” Mỗi lớp mẫu sẽ được gán một tên Như vậy, khi mẫu của một đối tượng được quá trình phân lớp sắp xếp vào một lớp nào đó thì điều này cũng có nghĩa là đối tượng đó được nhận dạng
• Khoảng cách mẫu và hàm phân biệt
Khoảng cách là một công cụ tốt để đánh giá các đối tượng có ở “gần nhau” hay không Khi khoảng cách nhỏ hơn một ngưỡng nào đó thì có thể coi 2 đối tượng là đồng dạng với nhau, tức là xếp được vào cùng 1 lớp Trường hợp lớn hơn ngưỡng thì 2 đối tượng thuộc về 2 lớp phân biệt Với khái niệm khoảng cách mẫu, người ta xây dựng hàm phân biệt
Hàm phân biệt là hàm của đối số là mẫu, được dùng để phân lớp các mẫu Để phân lớp mẫu, ta sẽ tìm ra lớp các hàm phân biệt {gi} sao cho mỗi hàm sẽ ứng
Trang 27với một lớp và hàm đó luôn luôn đạt giá trị lớn hơn ứng với các mẫu thuộc lớp của nó Tức là nếu:
∀j≠ k,g k( )p >g i( )p, với g k,g i∈{ }g i thì quyết định mẫu p∈ lớp k ( 2.1) Hàm gi thường là hàm tuyến tính có nghĩa là ứng với mỗi đặc trưng p isẽ có một trọng số riêng và hàm phân biệt sẽ được biểu diễn như sau:
g( )p =w0 +w1p1+w2p2+ +w R p R (2.2) Trọng số wo dùng để rút gọn hàm
Phân lớp bằng hàm tuyến tính được gọi là phân lớp bằng siêu phẳng (hyperplane)
Hàm phân biệt có thể được xây dựng từ lý thuyết xác suất có điều kiện Một lý thuyết xác suất có điều kiện quan trọng được áp dụng để xây dựng hàm phân biệt cho việc phân lớp mẫu là lý thuyết Bayes
• Nhận dạng được giám sát và không được giám sát
Theo ví dụ về nhận dạng sản phẩm, thì trường hợp này ta đã biết trước được tập tên sẽ gán cho các đối tượng cần nhận dạng, tức là không gian diễn dịch đã được xác định Loại nhận dạng này gọi là nhận dạng được giám sát (supervised) Trong nhận dạng được giám sát, ta sẽ dùng một thư viện các mẫu chuẩn để “huấn luyện“ cho hệ thống nhận dạng trước khi đưa vào sử dụng Quá trình huấn luyện này sẽ tạo ra các lớp mẫu chuẩn Việc nhận dạng các mẫu thực tế chính là việc
so sánh (giám sát) với các mẫu chuẩn để sắp xếp các đối tượng vào các phân lớp chuẩn đã tạo ra Việc so sánh này được thực hiện bằng các hàm phân biệt
Các trường hợp nhận dạng mà không gian diễn dịch chưa xác định cụ thể thì là nhận dạng không được giám sát (unsupervised) Loại nhận dạng này khó hơn
vì phải tự định ra các lớp và các tham số đặc trưng riêng của từng lớp Bản chất hoạt động phân lớp là sự nhóm họp các mẫu theo những nguyên tắc định trước
Trang 282.3 MÔ TẢ ĐỐI TƯỢNG ẢNH
Đây chính là việc biểu diễn đối tượng ảnh thông qua các đặc tính Trong quá trình này, dữ liệu của ảnh đối tượng được thu gọn lại Điều này là cần thiết nhằm giảm thiểu dung lương bộ nhớ cũng như thời gian tính toán trong quá trình nhận dạng Một đặc tính tốt nếu như nó duy trì và làm nổi bật đặc trưng của đối tượng mà đặc trưng này giúp cho việc phân lớp mẫu dễ dàng Đồng thời, các đặc tính mô tả đối tượng càng ít phụ thuộc vào các yếu tố như kích thước, chiều hướng, vị trí của đối tượng, điều kiện chiếu sáng càng tốt
Cơ bản hai loại đặc tính của đối tượng ảnh thường được quan tâm là các đặc tính mô tả đường nét, và các đặc tính mô tả miền
2.3.1 MÔ TẢ ĐƯỜNG NÉT
• Signatures [9]
Signature là hàm một biến mô tả hình dạng của đối tượng ảnh, hay nói rõ hơn là nó mô tả đường bao của đối tượng Signature có thể được thiết lập bằng nhiều phương pháp khác nhau và một trong những phương pháp đó là dựa vào quan hệ giữa góc và khoảng cách tính từ trọng tâm đến đường bao đối tượng:
r=r(θ) Theo cách thiết lập này, Signature không phụ thuộc vào vị trí của đối
tượng Tuy nhiên, nó vẫn còn phụ thuộc vào chiều hướng cũng như kích thước của đối tượng
Trang 29
Việc tìm điểm bắt đầu trong quá trình thiết lập signature có thể được thực hiện bằng cách chuẩn hoá về chiều hướng đối tượng sẽ được đề cập ở phần sau Việc chuẩn hoá về kích thước đối tượng có thể thực hiện đơn giản bằng cách đưa giá trị của hàm signature về đoạn [0 1], hoặc cũng có thể chia cho variance của hàm signature
• Mô tả bằng chuỗi Fourier [9]
Đường bao của đối tượng có thể được mô tả dưới dạng một chuỗi các điểm liên tiếp nhau: (x0,y0), (x1,y1), K , (x N−1,y N−1)
Khi đó, mỗi điểm có thể được xem như một điểm trong mặt phẳng phức:
1 , , 2 , 1 , 0 , ) ( )
(
)
Trục x tương ứng với trục thực, trục y tương ứng với trục ảo Khi đó, biến đổi
Fourier của chuỗi s là:
1 , , 2 , 1 , 0 , )
N u
e k s
Trang 30Biến đổi Fourier ngược chuỗi a (u)sẽ phục hồi lại được chuỗi s (k):
1
0
] / 2
=∑−
=
N k
e u a k
s
N
u
N uk
j π (2.4)
Tuy nhiên, thay vì toàn bộ chuỗi a (u) được dùng để mô tả đường bao đối
tượng, chỉ cần dùng M hệ số đầu Khi đó, việc thực hiện biến đổi ngược chuỗi
=∑−
=
N k
e u a k
s
M
u
N uk
Với M nhỏ, nhiều chi tiết của đường bao bị mất khi phục hồi chuỗi s (k) từ M
hệ số Fourier a (u) Hình dưới đây minh họa điều này
Khi đối tượng thay đổi kích thước với hệ số α tương ứng với việc nhân s (k)với α Khi đó, chuỗi Fourier mô tả đường bao đối tượng:
Trang 31a s(u) = αa(u) (2.6) Khi đối tượng xoay một góc θ , tương ứng với việc nhân chuỗi s (k) với hệ số
N
k
N uk j j
N u
u= 0 , 1 , 2 , K ,N− 1
Khi đối tượng bị dịch một lượng ∆ ,x ∆y trong hệ trục xy, tương ứng với việc
cộng thêm lượng ∆xy = ∆x+ j∆y vào chuỗi s (k):
s t(k) = [x(k) + ∆x] + j[y(k) + ∆y] =s(k) + ∆xy (2.8) Như vậy, chuỗi Fourier mô tả đường bao đối tượng là:
a t(u) =a(u) + ∆xyδ (u) ,u= 0 , 1 , ,N− 1 (2.9)
Ở đây, δ(u) là hàm xung đơn vị
• Mã chuỗi xích (chain codes) [9]
Chain code là một chuỗi mô tả một đường nào đó của đối tượng ảnh với mỗi thành viên chỉ ra hướng kết nối của 2 điểm liên tiếp Có 2 loại chain code là: chain code 4 hướng và chain code 8 hướng
Hình dưới đây minh họa việc thiết lập chain code 4 hướng và chain code 8 hướng cho một đường khép kín
Hình 2.4 Hướng của Chain code 4 hướng và 8 hướng
Trang 32Trước tiên ảnh của đường được áp đặt một lưới lấy mẫu lên như minh họa
trong hình (a) Xét sự cắt ngang của đường qua mỗi cạnh của các mắt lưới, từ đó suy ra sự xấp xỉ của đường bằng các điểm chấm trên hình (b) Với một điểm bắt
đầu cho trước và một hướng bắt đầu cho trước, chain code 4 hướng hoặc chain
code 8 hướng có thể được thiết lập như trong hình (c) và (d)
2.3.2 MÔ TẢ MIỀN
Hình 2.5 Minh họa việc thiết lập chain code 4 hướng và 8 hướng
(a) ảnh của 1 đường kín với lưới lấy mẫu chồng lên (b) kết quả sau khi lấy mẫu
(c) chain code 4 hướng, (d) chain code 8 hướng
Trang 33Với phương pháp thống kê thì nhiều thông số của miền được tính riêng rẽ Chẳng hạn như giá trị trung bình của mức xám, chu vi, diện tích, số lượng lỗ, moment của histogram mức xám của miền… Các thông số đó chính là các đặc tính mô tả miền
Với phương pháp dựa trên cấu trúc thì một số luật được đặt ra Chẳng hạn như luật:S →aS , có nghĩa là S có thể viết lại dưới dạng aS Nếu a đại diện cho một hình tròn (hình (a)) và có ý nghĩa là hình tròn dịch sang phải thì một chuỗi ký tự aaa… có nghĩa là một dãy hình tròn với các hình tròn lần lượt được dịch sang phải như hình (b) được sinh ra Nếu một số luật khác được đặt ra như
S →bS,A→cA,A→c,A→bS,S →a
Ở đây, b có nghĩa là hình tròn dịch xuống, và c có nghĩa là hình tròn dịch sang trái, thì với chuỗi ký tự aaabccbaa sẽ tạo ra một ma trận 3x3 hình tròn hình
(c) Các mẫu khác có thể được hình thành bằng cách tương tự
Phổ Fourier rất phù hợp cho việc mô tả những ảnh có tính có chu kỳ Ba đặc tính hửu dụng của phổ Fourier cho việc mô tả texture: (1) những đỉnh nổi bật trong ảnh phổ cho biết những hướng mang năng lượng chính trong ảnh (2) vị trí những đỉnh phổ cho biết những chu kỳ cơ bản của ảnh (3) ngoại trừ những thành phần có chu kỳ, những thành phần không có chu kỳ sẽ có xu hướng bị lọc loại bỏ Việc phân tích ảnh phổ thường được thực hiện bằng cách chuyển sang tọa độ cực
Trang 34,
(rθ
S là hàm của ảnh phổ phụ thuộc vào 2 biến r và θ trong tọa độ cực Hàm
2-D S(r, θ ) có thể được chuyển thành hai hàm 1-D: S (r) và S( θ )
S S
0
) ( )
S là hàm S(r, θ ) với r không đổi
R là bán kính đường tròn có tâm ở gốc tọa độ Với ảnh phổ kích thước N×N thì R
được chọn là N/ 2
y= là tọa độ trọng tâm
Đối với ảnh số các biểu thức trên có thể được viết dưới dạng:
x y
q p
pq (x x) (y y) f(x,y)
Trang 35Các moment tại trọng tâm bậc từ 0 đến 3:
µ00 =m00 µ11 =m11−y m10
10 20 30
30 =m − 3x m + 2m x
µ
02 11 12
12 =m − 2y m −x m + 2y m
µ
20 11 21
21 =m − 2x m −y m + 2x m
µ
01 02 03
2.4.1 PHƯƠNG PHÁP SỐ NHẬN DẠNG
Trong phương pháp số (numerical method), mẫu sẽ được biểu diễn dưới dạng các giá trị số và thủ tục phân lớp chính là việc sắp xếp các giá trị số này thành các lớp Phân lớp mẫu của đối tượng (sản phẩm) là loại phân lớp được giám sát vì ta đã biết không gian diễn dịch của nó, hơn nữa việc nhận dạng (phân loại) lại dựa trên sự so sánh với các mẫu chuẩn (sản phẩm chuẩn) Với phương pháp số nhận dạng mẫu ta sẽ đi sâu vào kỹ thuật phân lớp được giám sát này
Như đã trình bày ở phần trước, các đặc tính của đối tượng được biểu diễn bởi tập giá trị Từng giá trị này được xem là một thành phần của vector mô tả
Trang 36mẫu Khi hệ thống được huấn luyện với một tập các mẫu chuẩn thì các mẫu này được phân bố trong không gian mẫu và chúng được phân thành các lớp mẫu chuẩn
Khi các mẫu chưa xác định (mẫu cần nhận dạng) vào hệ thống thì việc nhận dạng mẫu chính là tìm ra một quy tắc để sắp xếp một vectơ biểu diễn mẫu vào một lớp chuẩn Để thực hiện được nhiệm vụ này, trước hết cần có một sự phân định rõ ràng giữa các lớp chuẩn, tức là xác định một phân hoạch của không gian mẫu Vì các mẫu cùng tên sẽ có những đặc trưng tương tự nhau cho nên trong không gian mẫu, các vectơ của chúng sẽ nằm gần nhau Một lớp thực sự sẽ chiếm một vùng nào đó trong không gian mẫu, thường được gọi là cluster Với việc biểu diễn mẫu bằng các giá trị số, ta có thể dễ dàng xác định các cluster này Hình 2.7 diễn tả nguyên lý phân lớp trình bày này
Thực tế không gian mẫu không phải bao giờ cũng phân tách hoàn toàn mà các cluster có thể có vùng chồng lên nhau Lý do là vì bộ đặc trưng của mẫu mà
ta trích chọn chưa tối ưu để phân tách các đối tượng Trong trường hợp một vectơ rơi vào vùng này thì mẫu đó có thể không nhận dạng được Điều này rất có ý nghĩa trong việc xây dựng thư viện mẫu chuẩn và việc tìm ra thêm các đặc trưng phân biệt các đối tượng Qúa trình xây dựng các lớp chuẩn này gọi là quá trình học, và thư viện mẫu có vai trò rất quan trọng cho khả năng nhận dạng của hệ thống
Trang 37Hình 2.7 Nguyên lý phân mẫu được giám sát
Từ nguyên lý phân lớp theo phương pháp số trên, ngưới ta có đưa ra một số
phương pháp phân lớp
2.4.1.1 PHÂN LỚP KIỂU TÌM KIẾM KHỐI [11]
Mỗi cluster của lớp chuẩn được xấp xỉ bằng một khối bao bọc xung quanh
Sau đó việc phân lớp một mẫu sẽ chỉ là việc so sánh các thành phần của vectơ
mẫu với các tọa độ của khối này Khi các đặc trưng của đối tượng trực giao nhau
thì việc xấp xỉ này có thể thực hiện tốt, nhưng khi có các đặc trưng tương quan thì
việc xấp xỉ lại tồi và sẽ dẫn đến việc các khối có phần chồng lên nhau
Phương pháp phân lớp này tốc độ rất nhanh, nhưng đòi hỏi các khối phải
tách biệt
Hình 2.8 mô tả hoạt động của phương pháp này
Thư viện mẫu chuẩn Đối tượng
nhận dạng
Trích chọn đặc trưng
Phân lớp mẫu
Kết quả nhận dạng
8
Khơng gian phân hoạch
Phân lớp mẫu chuẩn
(xây dựng các lớp)
Khơng gian mẫu
Cluster Quá trình học (hay huấn luyện)
Trang 382.4.1.2 PHÂN LỚP THEO KHOẢNG CÁCH TỐI THIỂU [1],[11]
Giả sử, có M lớp mẫu ϖ1, ϖ2 , L , ϖM Xét mẫu T
n
x x
x, , , ) ( 1 2 K
vector mẫu n chiều Việc nhận dạng mẫu x được thực hiện bằng cách thiết lập M
hàm ra quyết định d1( ),d2( ), L ,d M( ) Khi đó, mẫu x thuộc vào lớp mẫu ϖi
khi:
d i( ) >d j( ) j= 1 , 2 , L ,M; i≠ j (2.14) Đường biên giới giữa hai lớp mẫu ϖi và ϖj được tìm qua phương trình:
Phương pháp phân lớp dựa vào khoảng cách nhỏ nhất này được thực hiện như sau:
Tìm vector trung bình của mỗi lớp mẫu :
Hình 2.8 Phân Lớp Theo Kiểu Tìm Kiếm Khối
(a) Trường hợp các cluster không chồng lấp (b) Trường hợp các cluster chồng lấp lên nhau
Trang 39j M
N m
Ở đây N j là số vector mẫu của lớp mẫu ϖj
Xét khoảng cách Euclidean từ vextor T
n
x x
x, , , ) ( 1 2 K
= đến vector m j:
D j( ) = −m j j= 1 , 2 , K ,M (2.17) Vector x được xem như thuộc vào lớp mẫu ϖi nếu khoảng cách D i( ) là nhỏ nhất
Đường biên giới phân cách giữa hai lớp mẫu ϖi và ϖj được tính qua phương trình:
0 ) (
) (
2
1 ) (
) ( ) ( )
i T
j i
ij
m m m m m
m
d d
d
(2.18)
2.4.1.3 PHÂN LỚP BẰNG LÝ THUYẾT THỐNG KÊ [10]
Nguyên lý của phương pháp này là ta sẽ chuyển đổi không gian mẫu sang một không gian S chiều bằng một hàm xác suất trực giao S chiều (S chính là số lớp mẫu) Hàm xác suất này có vai trò như hàm phân biệt (xem mục 2.2) Tiếp đó đối với mỗi lớp mẫu chúng ta sẽ tính toán xác suất để cho một đặc trưng đã cho thuộc về lớp đó, và sẽ chọn ra lớp có xác suất lớn nhất đối với đặc trưng này Phương pháp này vì thế còn gọi là phương pháp xác suất tối đa
Phương pháp này được xây dựng trên lý thuyết xác suất có điều kiện của Bayers để đưa ra quyết định phân lớp mẫu Có 3 loại thủ tục ra quyết định
o Thủ tục ra quyết định với chi phí tối thiểu
Bộ phân loại mẫu có thể xem như là một hộp đen với một đầu vào và một đầu ra Khi đặt một vectơ biểu diễn mẫu tại đầu vào thì ta thu được một tên ở
Trang 40đầu ra (với Ρi∈ Π={p1,p2, ,p M} và n k∈ Ω={n1,n2, ,n s}) Vì là tên của lớp k nên ta có thể coi k chính là đầu ra của hộp đen
Bây giờ ta coi sự xuất hiện của pi và k là hai sự kiện ngẫu nhiên tuân theo luật phân bố Gauss Rõ ràng các sự kiện xuất hiện pi và k (với i=1 M và k=1 S) là xung khắc đôi một
Ta định nghĩa các xác suất sau:
( )p i
Ρ : xác suất xuất hiện p i (xác xuất không điều kiện)
( )k
Ρ : xác suất xuất hiện k (xác xuất không điều kiện)
p( p i k): xác suất xuất hiện khi đầu ra là k (xác suất có điều kiện)
p( k p i):xác suất xuất hiện k khi đầu vào là p i(xác suất có điều kiện) Việc xuất hiện k ở đầu ra khi đầu vào là p i thì có nghĩa p i được sắp xếp vào lớp k Như vậy p(k p i) cũng chính là xác suất của mẫu p i được xếp vào lớp
k theo công thức Bayes về xác suất có điều kiện Ta có:
) (
) ( ) / ( )
( ) / (
) ( ) / ( )
j
j
i i
p p
k p k p p
k p p k p
k p k p p p
Hàm p( )p i được tính theo công thức như sau (công thức với các ma trận):