1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu ứng dụng các phương pháp nhận dạng ảnh trong điều khiển robot

114 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 114
Dung lượng 1,18 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trên thế giới, công nghệ xử lý – nhận dạng ảnh đã và đang được phát triển rất mạnh mẽ vì nó có rất nhiều ứng dụng trong hầu hết các lĩnh vực của con người.. Quyển luận văn này sẽ như một

Trang 1

trường đại học bách khoa hà nội -

luận văn thạc sĩ khoa học

Nghiên cứu ứng dụng các phương pháp nhận dạng ảnh trong điều khiển Robot

ngành : tự động hoá xncn mã số :

nguyễn minh sơn

Người hướng dẫn khoa học : TS Nguyễn Văn khang

hà nội - 2008

Trang 2

Lời cam đoan

Tôi xin cam đoan bản luận văn này được thực hiện bởi chính bản thân tôi dưới sự hướng dẫn của TS Nguyễn Văn Khang cùng với các tài liệu đã được trích dẫn trong phần tài liệu tham khảo ở phần cuối bản luận văn

Nguyễn Minh Sơn

Trang 3

Mục Lục

Trang 1

Trang phụ bìa

pháp nhận dạng ảnh trong điều khiển Robot”

1.1.2 Cơ sở khoa học của ứng dụng các phương pháp nhận dạng

1

1

1.1.4 Tình hình nghiên cứu ứng dụng nhận dạng ảnh trong điều

1

1.1.5 Tình hình nghiên cứu, ứng dụng trong nước 27 2

1.2 Các bước chính trong hệ thống nhận dạng 29 2

Trang 7

Danh mục ký hiệu và chữ viết tắt

ξx, ξy Tọa độ của đối tượng trong ảnh

ϕ Góc của camera theo phương ngang

ψ Góc của camera theo phương đứng

e Vector sai lệch vị trí

Trang 8

Lời Mở đầu

Sự phát triển của kỹ thuật điện tử và công nghệ thông tin đã kéo theo sự phát triển của một loạt các ngành liên quan Một trong những ngành đó là ngành xử lý – nhận dạng ảnh số Trên thế giới, công nghệ xử lý – nhận dạng ảnh đã và đang được phát triển rất mạnh mẽ vì nó có rất nhiều ứng dụng trong hầu hết các lĩnh vực của con người Và hiện nay, nếu sản phẩm nào có ứng dụng công nghệ này thì đều được coi là sản phẩm thông minh, có sức cạnh tranh lớn Một trong những lĩnh vực rất cần được trang bị công nghệ nhận dạng ảnh đó là công nghiệp chế tạo Robot Việc ứng dụng công nghệ này trong điều khiển Robot sẽ làm tăng khả năng nhận thức cho Robot, làm cho nó ngày càng hoàn thiện và giống con người

ở trong nước, môn xử lý ảnh mới chỉ được giảng dạy ở một số trường trọng điểm về khoa học kỹ thuật như Đại học Bách khoa Hà nội, Đại học Quốc gia Hà nội, Đại học Bách khoa thành phố Hồ Chí Minh… Và mới chỉ giới hạn trong các ngành như công nghệ thông tin, điện tử viễn thông Hiện, chưa có nhiều nghiên cứu để đưa công nghệ này vào ứng dụng thực tiễn trong các ngành, các lĩnh vực khác

Hiện nay, công nghệ xử lý – nhận dạng ảnh số đang được rất nhiều bạn trẻ quan tâm Đặc biệt là các bạn sinh viên đang hoặc có ý định tham gia trò chơi Robocon quốc tế Bởi vì hầu hết các Robot tự động hiện nay chủ yếu

rò đường theo vạch kẻ sân và không phân biệt được cấu kiện của mình hay của

đội bạn Việc trang bị kỹ thuật nhận dạng ảnh cho Robot tự động sẽ làm giảm bớt các nhược điểm trên, đồng thời làm tăng khả năng điều khiển linh hoạt cho Robot

Xuất phát từ nhu cầu thực tiễn trên, Tôi đã chọn đề tài Nghiên cứu ứng dụng các phương pháp nhận dạng ảnh trong điều khiển Robot

Trang 9

Quyển luận văn này sẽ như một tài liệu tham khảo, giúp người đọc có hình dung về khái niệm nhận dạng ảnh, các phương pháp nhận dạng ảnh và biết cách ứng dụng công nghệ này trong điều khiển Robot Cụ thể ở đây tôi xây dựng phương pháp nhận dạng ảnh để điều khiển Robot trong việc tìm và

đuổi bắt mục tiêu đang di động có phương và vận tốc chưa biết

Trong khuôn khổ của một đề tài với quỹ thời gian không cho phép và có một số khó khăn trong việc cập nhập tài liệu cũng như do hạn chế của bản thân, nên chắc chắn quyển luận văn này không tránh khỏi những thiếu sót Vậy kính mong các thầy cô cùng các bạn yêu thích công nghệ này đóng góp chỉ bảo, phê bình để đề tài này ngày càng hoàn thiện

Em xin chân thành cảm ơn thầy giáo TS Nguyễn Văn Khang đã tận tình hướng dẫn chỉ bảo em trong thời gian thực hiện đề tài này!

Hà nội, 18/ 11/ 2008

Tác giả

Nguyễn Minh Sơn

Trang 10

chương I Tổng quan về “ ứng dụng các phương pháp nhận dạng ảnh trong điều khiển Robot” và nội dung

cần nghiên cứu

1.1 Tổng quan về ứng dụng các phương pháp nhận dạng ảnh trong điều khiển Robot

1.1.1 Tính thời sự

Ngày nay, trước sự phát triển vượt bậc của khoa học kỹ thuật, các thiết

bị máy móc thay thế hoặc hỗ trợ cho con người trong lao động sản xuất, trong sinh hoạt, đòi hỏi ngày càng phải hoàn thiện hơn Trong những năm gần đây

do kỹ thuật vi điện tử phát triển rất mạnh, đã khiến cho tốc độ của các bộ vi xử

lý ngày càng cao, chất lượng của các camera kỹ thuật số ngày càng hoàn thiện Vì vậy, việc ứng dụng công nghệ xử lý ảnh, nhận dạng ảnh ngày càng sâu rộng trong tất cả các lĩnh vực như trong công nghiệp, quân sự, an ninh, vũ trụ, y học, giao thông…vv và cả trong cuộc sống hàng ngày

Từ khi xuất hiện cho tới nay, không ai có thể phủ nhận được vai trò của Robot trong sản xuất công nghiệp lẫn trong sinh hoạt gia đình Chúng sẽ thực hiện những công việc rất nhàm chán hoặc nguy hiểm, và những công việc mà tốc độ và độ chính xác vượt quá khả năng của con người Khi người máy trở nên tinh vi hơn, thị giác máy tính sẽ đóng vai trò ngày càng quan trọng Người

ta sẽ đòi hỏi người máy không những phát hiện và nhận dạng các bộ phận công nghiệp mà còn hiểu được những gì chúng thấy và đưa ra những hành

động phù hợp Việc phát triển, hoàn thiện các tính năng giúp cho người máy ngày càng giống với con người đã khiến các nhà khoa học trên thế giới phải tốn nhiều công sức Ngày nay, cùng với sự phát triển tột bậc của khoa học kỹ

Trang 11

thuật, người ta đã tạo ra được nhiều Robot có khả năng quan sát, làm được nhiều việc với độ chính xác cao…vv Trong những con Robot này, người ta sử dụng một hay nhiều camera để ghi lại hình ảnh xung quanh Robot Và bằng công nghệ nhận dạng ảnh, xử lý ảnh, máy tính sẽ phân tích và đưa ra quyết

định Như vậy camera, công nghệ nhận dạng ảnh đóng một vai trò rất quan trọng, nó giống như mắt của con người

Việc tìm hiểu, nghiên cứu các kỹ thuật xử lý ảnh, nhận dạng ảnh đã và

đang được sự quan tâm của rất nhiều nhà nghiên cứu vì đây là lĩnh vực còn rất mới Bên cạnh đó việc nghiên cứu các kỹ thuật này, sẽ giúp chúng ta bắt nhịp

được với sự phát triển công nghệ của thế giới Từ đó, ta có thể nắm được nguyên lý để ứng dụng vào các ngành công nghệ khác đồng thời làm chủ được các thiết bị hiện có trên thị trường đang ứng dụng công nghệ này

1.1.2 Cơ sở khoa học của ứng dụng các phương pháp nhận dạng ảnh trong điều khiển Robot

ý tưởng sử dụng camera làm mắt cho robot đã có từ lâu, từ khi camera mới xuất hiện Nhưng điều đó rất khó có thể thực hiện bởi vì tín hiệu ra của camera là tương tự và được lưu trong các băng từ gây khó khăn cho việc truy xuất, xử lý dữ liệu Đồng thời, tốc độ xử lý của các chíp điện tử còn rất chậm nên phải mất rất nhiều thời gian để phân tích các khối dữ liệu lớn Lý thuyết

về xử lý, nhận dạng ảnh còn chưa phát triển

Ngày nay, với sự phát triển vược bậc của kỹ thuật vi điện tử đã tạo ra các bộ vi xử lý có tốc độ rất cao lên đến hàng GHz Cùng với sự xuất hiện của các camera kỹ thuật số, việc truyền và xử lý dữ liệu trở nên dễ dàng hơn Một hướng phát triển mới của các hãng sản xuất chíp điện tử là phát triển các chíp FPGA chạy các ứng dụng xử lý ảnh một cách độc lập (Nhúng các thuật toán

xử lý ảnh vào các chip)

Cơ sở của nhận dạng ảnh chính là lý thuyết xử lý ảnh số Nhận dạng

ảnh là giai đoạn cuối của các hệ thống xử lý ảnh Nhận dạng ảnh dựa trên lý

Trang 12

thuyết nhận dạng (Pattern Recognition) đã được đề cập trong nhiều sách về nhận dạng Trong lý thuyết về nhận dạng nói chung và nhận dạng ảnh nói riêng có ba cách tiếp cận khác nhau:

- Nhận dạng dựa vào phân hoạch không gian

- Nhận dạng dựa vào cấu trúc

- Nhận dạng dựa vào kỹ thuật mạng nơron

Hai cách tiếp cận đầu là cách tiếp cận kinh điển Các đối tượng ảnh quan sát và thu nhận được phải trải qua giai đoạn tiền xử lý nhằm tăng cường chất lượng, làm nổi các chi tiết, tiếp theo là trích chọn và biểu diễn các đặc trưng, cuối cùng mới là giai đoạn nhận dạng Cách tiếp cận thứ ba hoàn toàn khác Nó dựa vào cơ chế đoán nhận, lưu trữ và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh con người Do cơ chế đặc biệt, các đối tượng thu nhận bởi thị giác người không cần qua giai đoạn cải thiện mà chuyển ngay sang giai đoạn tổng hợp, đối sánh với các mẫu đã lưu trữ để nhận dạng

1.1.3 Tính ứng dụng

Việc ứng dụng công nghệ nhận dạng ảnh trong điều khiển Robot mở ra một triển vọng phát triển rất lớn cho ngành nghiên cứu và chế tạo Robot Việc ứng dụng này giúp cho Robot có thể quan sát được vật thể, từ đó mà nó có thể

có thêm nhiều tính năng mới giống ở con người Có thể ứng dụng công nghệ này trên Robot trong rất nhiều lĩnh vực khác nhau như:

Trong y học: chế tạo ra các Robot dẫn đường giúp người già, người khuyết tật

Trong ngành vũ trụ: chế tạo ra các Robot thăm dò, có khả năng tự di chuyển và phân tích các mẫu đất, đá

Trong lĩnh vực quân sự: chế tạo ra Robot trinh sát có khả năng dẫn

đường và tự tìm mục tiêu

Trong lĩnh vực giao thông: đó là các xe ôtô thông minh có khả năng tự lái, tự di chuyển vào bãi đỗ

Trang 13

Trong công nghiệp: chế tạo ra các Robot phân loại sản phẩm, xe tự hành …vv

Trong đời sống: chế tạo ra các Robot bảo mẫu chông trẻ, Robot nội trợ, Robot văn phòng …vv

1.1.4 Tình hình nghiên cứu ứng dụng nhận dạng

ảnh trong điều khiển Robot trên thế giới

Việc ứng dụng Robot trong y học nhằm giúp những người tàn tật có thể hội nhập với cộng đồng Với sản phẩm EagleEyes của trường đại học Boston

sử dụng thiết bị cảm biến và qua một màn hình máy tính, EagleEyes có thể tránh các vật cản trên đường đi hoặc có thể rẽ trái hoặc phải tùy ý theo tín hiệu của đôi mắt, các tín hiệu từ đôi mắt sẽ được một bộ cảm nhận tín hiệu chuyển thành các tín hiệu điện mà EagleEyes Robot có thể hiểu được

Trong công nghiệp có các sản phẩm như:

- Hệ thống 3 cánh tay máy, sản phẩm của công ty Fanuc, vừa đoạt giải thưởng robot Nhật Bản 2007 với khả năng gắp 120 chi tiết trong 1 phút từ băng chuyền Nó có thể di chuyển nhanh chóng nhưng chính xác dựa trên các dữ liệu hình ảnh từ camera Các cánh tay hoạt động phối hợp nhịp nhàng với nhau và nhặtđồvật bằng giác hút chân không

HOAP-3 là một robot dạng người thu nhỏ của công ty Fujitsu cao 60

cm, có thể di chuyển trên 2 chân Với 2 camera, 1 microphone, các đèn LED biểu thị cảm xúc và khá nhiều cảm biến gắn trên thân, HOAP-3 có thể nhận dạng hình ảnh, điều khiển 28 bậc tự do Người sử dụng có thể điều khiển HOAP-3 thông qua mạng LAN không dây và lập trình để thay đổi nhiệm vụ cho robot

Trong sinh hoạt gia đình: iRobo Roomba, có thể lau chùi phòng ăn sạch bóng, di chuyển với một robot “xe jeep” nhỏ gắn máy quay phim “Xe jeep” báo cho Roomba biết các chướng ngại để tránh

Trang 14

1.1.5 Tình hình nghiên cứu, ứng dụng trong nước

ở trong nước, môn xử lý ảnh mới chỉ được giảng dạy ở một số trường trọng điểm về khoa học kỹ thuật như Đại học Bách khoa Hà nội, Đại học Quốc gia Hà nội, Đại học Bách khoa thành phố Hồ Chí Minh… Và mới chỉ giới hạn trong các ngành như công nghệ thông tin, điện tử viễn thông Số lượng sách tham khảo về xử lý ảnh bằng tiếng việt còn rất hạn chế, chủ yếu vẫn là sách viết bằng tiếng Anh nên đã gây khó khăn cho những người mới học hoặc đang muốn tìm hiểu Tuy nhiên, do sự phát triển của khoa học kỹ thuật nên công nghệ xử lý ảnh đang được rất nhiều nhà khoa học trẻ quan tâm nghiên cứu Các đề tài nghiên cứu khoa học cấp trường, cấp nhà nước đã và

đang được triển khai hàng năm Trong đó có một số đề tài cho kết quả khả quan và đang đựơc ứng dụng rộng rãi như đề tài ứng dụng công nghệ nhận dạng ảnh trong việc giải quyết bài toán dò đường cho robot, phần mềm nhận dạng ảnh biển số xe, phần mềm nén và xử lý ảnh, phần mềm nhận dạng chữ viết …vv Tuy nhiên các ứng dụng của công nghệ xử lý ảnh trong công nghiệp vẫn còn rất hạn chế

Sản phẩm của nhóm nghiên cứu: Nguyễn Đức Thành, Nguyễn Đức Minh, bộ môn điều khiển tự động, Đại học Bách khoa TP Hồ Chí Minh Nhóm nghiên cứu đã sử dụng camera kết hợp mạng nơ ron và giải thuật xử lý

ảnh để nhận dạng, xác định vị trí và hướng của vật Kết quả nghiên cứu được dùng để điều khiển robot Scorbot gắp vật và di chuyển đến vị trí định trước Robot có năm bậc tự do, được điều khiển bằng máy tính qua cổng RS232 và phần mềm ACL Nó sử dụng một camera quan sát nhìn từ trên xuống, bao quát vùng hoạt động của cánh tay robot

Đề tài "Chế tạo hệ thống điều khiển Robot Scara" của Đỗ Văn Dũng, thực hiện việc nghiên cứu thiết kế công nghệ, chế tạo thiết bị và phần mềm bộ

điều khiển robot có giao tiếp máy tính bằng hệ Servo DC Digital Trong lĩnh vực này Robot Scara có thể nhận lệnh từ bất kỳ máy vi tính nào và điều khiển

Trang 15

tay Robot di chuyển đến vị trí mong muốn, được áp dụng trong việc di chuyển sản phẩm từ máy gia công sang băng tải Đề tài này đã được mở rộng bằng cách đưa hình ảnh từ Camera vào máy vi tính và sau đó điều khiển di chuyển tay máy dựa trên hình ảnh thu nhận được từ Camera

Trong sân chơi quốc tế như Robocon, trong mấy năm đầu sinh viên Việt Nam luôn đạt thứ hạng cao nhờ trí tuệ và sức sáng tạo của mình Nhưng hiện nay, do các bạn sinh viên các nước có công nghệ phát triển cao như Nhật Bản, Trung Quốc đã bắt đầu ứng dụng công nghệ nhận dạng ảnh trong việc điều khiển Robot tự động có thể tự tìm đường đi, tránh chướng ngại vật để tiếp cận mục tiêu Trong khi đó, Robot tự động của các đội sinh viên Việt Nam hoạt

động chủ yếu bằng cách được lập trình để dò đường dựa trên các vạch trắng trên sân thi đấu Robot dò đường hoạt động không ổn định nên việc dò đường nhầm, chạy nhầm không phải là hiếm; có trường hợp lúc chạy thử thì rất tốt, nhưng khi thi đấu chính thức lại chạy sai

ở Việt Nam, công nghệ xử lý ảnh không phải là một công nghệ mới Công nghệ này đã được nhắc đến rất nhiều trong cộng đồng Robocon suốt những năm qua nhưng chưa từng được đem vào ứng dụng trong cuộc thi vì công nghệ tương đối phức tạp Các thí sinh tham gia Robocon chưa đủ khả năng, tài chính và thời gian để chiếm lĩnh công nghệ này, mặc dù những ứng dụng của nó là vô cùng hiệu quả và là niềm mơ ước của bất cứ đội nào

Khi chưa có công nghệ xử lý ảnh, thì việc để cho robot chạy được giống như việc để một người “mù” lái xe ô tô theo sự chỉ dẫn của một người sáng mắt nhưng lại hoàn toàn không biết điều khiển phương tiện này Hiện nay, với việc áp dụng công nghệ xử lý ảnh, người ta đã lắp thêm cho người mù đôi mắt, làm tăng độ chuẩn xác trong các quyết định điều khiển robot lên rất nhiều

Hiện nay, trên các diễn đàn trao đổi khoa học công nghệ có uy tín như

dientuvietnam.net, dientuvienthong.net…, đang diễn ra các cuộc thảo luận rất

sôi nổi xung quanh việc ứng dụng công nghệ xử lý ảnh, nhận dạng ảnh trong

Trang 16

điều khiển Robot, nhận dạng chữ viết, mặt người… Đây chính là nơi cung cấp tài liệu, kinh nghiệm, giúp cho các bạn sinh viên có thể thực hiện được ý tưởng sáng tạo của mình

1.2 Các bước chính trong hệ thống nhận dạng

1.2.1 Thu NHận ảnh

Việc thu nhận ảnh được thực hiện thông qua việc chụp ảnh từ camera Chất lượng của ảnh thu được từ bước này phụ thuộc nhiều vào chất lượng camera, tốc độ di chuyển khi chụp, góc nhìn và độ sáng

1.2.2 Tiền xử lí (lấy mẫu, lọc nhiễu, tương phản, )

Sau bộ thu nhận, ảnh có thể nhiễu và độ tương phản thấp nên cần đưa vào bộ tiền xử lý để nâng cao chất lượng Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn

Trước khi áp dụng các phương pháp nhận dạng ảnh, chúng ta cần xử lý

ảnh để đảm bảo rằng ảnh sẽ thoả mãn một vài giả thiết nào đó Ví dụ như sau: Lấy mẫu lại để đảm bảo hệ thống tọa độ là đúng Nếu 2 ảnh lấy liên tiếp nhau có sự sai khác quá nhiều thì chúng ta có thể loại bỏ ảnh đó vì tư thế của robot lúc chụp không được ổn định

Loại bỏ nhiễu để giảm thiểu khả năng xuất hiện các thông tin sai

Tăng độ tương phản để đảm bảo sẽ xác định được các thông tin cần thiết

1.2.3 Phân vùng (Segmentation)

Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu diễn phân tích, nhận dạng ảnh Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên phong bì thư cho mục đích phân loại bưu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên người thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng Đây là phần phức tạp khó khăn nhất trong xử lý ảnh

và cũng dễ gây lỗi, làm mất độ chính xác của ảnh Kết quả nhận dạng ảnh

Trang 17

phụ thuộc rất nhiều vào công đoạn này

1.2.4 Phân tích hình ảnh (xác định đường, góc, cạnh, khối, )

Đầu ra ảnh sau phân vùng chứa các điểm ảnh của vùng ảnh (ảnh đã phân vùng) cộng với mã liên kết với các vùng lân cận Việc biến đổi các số liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc trưng (Feature Selection) gắn với việc tách các đặc tính của ảnh dưới dạng các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này với đối tượng khác trong phạm vi ảnh nhận được Ví dụ: trong nhận dạng ký tự trên phong bì thư, chúng

ta miêu tả các đặc trưng của từng ký tự giúp phân biệt ký tự này với ký tự khác

1.2.5 Nhận dạng

Nhận dạng ảnh là quá trình xác định ảnh Quá trình này thường thu

được bằng cách so sánh với mẫu chuẩn đã được học (hoặc lưu) từ trước Nội suy là phán đoán theo ý nghĩa trên cơ sở nhận dạng Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì thư có thể được nội suy thành mã điện thoại Có nhiều cách phân loai ảnh khác nhau về ảnh Theo lý thuyết về nhận dạng, các mô hình toán học về ảnh được phân theo hai loại nhận dạng ảnh cơ bản:

Trang 18

Đến bước này thì dữ liệu đầu vào chỉ là một phần của dữ liệu ban đầu,

đó có thể là tập các điểm ảnh hoặc một vùng ảnh có khả năng chứa một đối tượng đặc biệt nào đó Quá trình xử lý sẽ qua các bước sau:

- Thẩm định lại dữ liệu có phù hợp với các yêu cầu cơ bản và đặc biệt

- Ước lượng các tham số đặc biệt

- Phân lớp đối tượng xác định được

1.3 Nội dung nghiên cứu

Do lĩnh vực điều khiển Robot là rất rộng lớn, tùy từng ứng dụng khác nhau mà Robot có những tính năng riêng Từ đó mà công việc nhận dạng ảnh cho từng loại Robot cũng có sự khác biệt Trong khuôn khổ của Đồ án này tôi xin trình bày về các phương pháp nhận dạng và mô phỏng quá trình nhận dạng một đối tượng cụ thể, từ đó sẽ ứng dụng để điều khiển Robot và tính toán các tham số cần thiết cho bộ điều khiển

Trang 19

3) Robot có thể di chuyển trên ba bánh: hai bánh phát lực ở đằng sau và

1 bánh lái theo nhiều hướng ở phía trước

4) Robot được trang bị thêm một camera được gắn trên trục của bánh lái Camera có thể quay trên mặt phẳng ngang và mặt phẳng đứng Mỗi trục quay của camera đều có một encorder tuyệt đối để đo góc quay

5) Để giảm bớt khối lượng tính toán trong xử lý ảnh, giả thiết quả bóng

có màu sẫm còn mặt phẳng chuyển động là màu trắng

Mô hình robot này được ứng dụng trong trò chơi robot đá bóng, trong

đó quả bóng thay đổi tốc độ và hướng thường xuyên, hay Robot tự động trong cuộc thi Robocon

Với giả thiết số 5 và chất lượng hình ảnh từ camera là rất tốt, ta có thể

bỏ qua khâu tiền xử lý ảnh Vì vậy, trong các chương sau, tôi sẽ trình bày về phân vùng, nhận dạng ảnh, sau đó ứng dụng nhận dạng ảnh cho bài toán điều khiển robot trên

1.4 mục tiêu và Nội dung của luận văn

1.4.1 Mục tiêu

Do nhận dạng ảnh là giai đoạn cuối cùng của xử lý ảnh vì vậy để trình bày chi tiết các bước của một quá trình nhận dạng ảnh sẽ làm cho nội dung của luận văn rất lớn Hơn nữa mục tiêu chính của luận văn là Nghiên cứu ứng dụng các phương pháp nhận dạng ảnh trong điều khiển Robot Vì vậy ở trong

phần nhận dạng tôi chỉ trình bày hai bước chính đó là phân vùng ảnh và nhận dạng ảnh Mục tiêu nghiên cứu của luận văn này là:

- Nghiên cứu các bước chính của quá trình nhận dạng ảnh số

- ứng dụng nhận dạng ảnh để điều khiển chuyển động của Robot

- Tính toán được các tham số cần thiết cho bộ điều khiển Robot

- Mô phỏng được quá trình nhận dạng và quá trình điều khiển

1.4.2 Nội dung

Trang 20

Từ mục tiêu trên, nội dung của luận văn gồm các phần sau:

Chương 1: Tổng quan về “ ứng dụng các phương pháp nhận dạng ảnh trong điều khiển Robot” và nội dung cần nghiên cứu

Chương 2: Phân vùng ảnh

Chương 3: Nhận dạng ảnh

Chương 4: ứng dụng nhận dạng ảnh trong điều khiển Robot

Chương 5: Mô phỏng

Trang 21

Chương II phân vùng ảnh

Để phân tích các đối tượng trong ảnh, chúng ta cần phải phân biệt được các đối tượng cần quan tâm với phần còn lại của ảnh Những đối tượng này có thể tìm ra được nhờ các kỹ thuật phân vùng ảnh, theo nghĩa tách phần tiền cảnh ra khỏi hậu cảnh trong ảnh

Vùng ảnh là một chi tiết, một thực thể trong toàn cảnh Nó là một tập hợp các điểm có cùng hoặc gần cùng một tính chất nào đó: mức xám, mức màu, độ nhám… Vùng ảnh là một trong hai thuộc tính của ảnh Nói

đến vùng ảnh là nói đến tính chất bề mặt Đường bao quanh một vùng ảnh (Boundary) là biên ảnh Các điểm trong một vùng ảnh có độ biến thiên giá trị mức xám tương đối đồng đều hay tính kết cấu tương đồng

Dựa vào đặc tính vật lý của ảnh, người ta có nhiều kỹ thuật phân vùng: phân vùng dựa theo miền liên thông gọi là phân vùng dựa theo miền

đồng nhất hay miền kề; phân vùng dựa vào biên gọi là phân vùng biên Ngoài ra còn có các kỹ thuật phân vùng khác dựa vào biên độ, phân vùng dựa theo kết cấu

2.1 PHÂN vùng ảNH THEO NGƯỡNG BIÊN Độ

Kỹ thuật này dựa trên một ý tưởng hết sức đơn giản Một tham số θ, gọi là ngưỡng độ sáng, sẽ được chọn để áp dụng cho một ảnh a[m,n] theo cách sau:

Nếu a[m,n] ≥ θ thì a[m,n] = object =1

Ngược lại a[m,n] = background =0

Thuật toán trên giả định rằng chúng ta đang quan tâm đến các đối tượng sáng (object) hay nền ảnh (background) bằng các giá trị “1” hoặc “0” Câu hỏi trung tâm trong kỹ thuật lấy ngưỡng khi đó sẽ là: Chúng ta nên chọn ngưỡng θ

Trang 22

như thế nào? Mặc dù không có thuật toán chọn ngưỡng vạn năng nào có thể áp dụng cho mọi loại ảnh Chúng ta cũng có nhiều phương pháp đưa ra dưới đây:

2.1.1 Ngưỡng cố định

Phương pháp đầu tiên là chọn một ngưỡng độc lập với dữ liệu ảnh Nếu chúng ta biết trước là chương trình ứng dụng sẽ làm việc với những ảnh có độ tương phản rất cao, trong đó các đối tuợng quan tâm rất tối còn nền gần như

đồng nhất và rất sáng, thì giá trị ngưỡng không đổi 128 trên thang độ sáng từ 0

đến 255 sẽ là một giá trị chọn khá chính xác Chính xác ở đây nên được hiểu

theo nghĩa là số lượng các điểm ảnh bị phân lớp sai là cực tiểu

2.1.2 Ngưỡng dựa trên lược đồ

Trong hầu hết các trường hợp, ngưỡng được chọn từ lược đồ độ xám của vùng hay ảnh cần được phân vùng Hình 2.1 cho chúng ta một ví dụ về ảnh và lược đồ độ xám liên kết với nó

Trang 23

b h

N

N i

2 / 1

1

mang lại, nhằm loại bỏ những dao động nhỏ về độ sáng Tuy nhiên các thuật

toán làm trơn cần phải cẩn trọng không được làm dịch chuyển các vị trí đỉnh

của lược đồ Nhận xét này dẫn đến thuật toán làm trơn lược đồ dưới dây, với

độ rộng của cửa sổ W là N, thông dụng là N=3 hoặc N=5 (bộ lọc trung bình

1-chiều):

(2-1)

2.1.2.1 Tuật toán đẳng liệu (Isodata)

Kỹ thuật chọn ngưỡng theo kiểu lặp này do Ridler và Calvard đưa ra

Thuật toán như sau:

- Chia lược đồ thành 2 đoạn bằng một giá trị ngưỡng khởi động θ0 =2B-1

,

tức là bằng phần nửa thang độ xám động của ảnh

- Sau đó tính toán độ sáng trung bình của 2 vùng:

+

=

θ Quá trình này cứ thế sẽ được tiếp tục với các ngưỡng mới cho đến khi

nào giá trị ngưỡng không thay đổi nữa thì dừng lại Biểu diễn dưới dạng công

θ cho tới khi θk = θk-1

2.1.2.2 Thuật toán tam giác

Thuật toán này do Zack đưa ra và được minh họa trong hình 2.2 Trong

hình này, chúng ta có thể quan sát thấy một đường thẳng đã được xây dựng

bằng cách nối từ giá trị lớn nhất của lược đồ tại độ sáng bmax đến giá trị nhỏ

nhất của lược đồ tại độ sáng bmin .Với mỗi độ sáng b trong khoảng [bmax, bmin],

Trang 24

chúng ta đi tính khoảng cách d từ giá trị lược đồ tại b là h[b] đến đường thẳng

đã có Giá trị b0 ứng với khoảng cách lớn nhất sẽ được chọn làm giá trị ngưỡng

θ

Hình 2.2 Xác định ngưỡng theo thuật toán tam giác

Kỹ thuật lấy ngưỡng không nhất thiết phải được áp dụng cho toàn bộ

ảnh, mà có thể áp dụng cho từng vùng ảnh một Hai tác giả Chow và Kaneko

đã phát triển một biến thể của kỹ thuật lấy ngưỡng bằng cách chia một ảnh có kích thước MxN ra thành nhiều vùng không chồng chất lên nhau Các giá trị ngưỡng được tính riêng biệt cho từng vùng một và sau đó được kết hợp lại thông qua phép nội suy để hình thành nên một mặt ngưỡng cho toàn bộ ảnh Trong thuật toán mới này, kích thước của các vùng cần được chọn một cách thích hợp sao cho có một lượng đáng kể các điểm ảnh ở trong một vùng, nhằm phục vụ cho việc tính lược đồ và xác định ngưỡng tương ứng Tính hữu ích của thuật toán này, cũng như nhiêu thuật toán khác, sẽ phụ thuộc vào từng ứng dụng cụ thể

2.2 Thuật toán gán nhãn thành phần liên thông

Kỹ thuật này gán cho mỗi thành phần liên thông của ảnh nhị phân một nhãn riêng biệt Nhãn thường là các số tự nhiên bắt đầu từ một đến tổng số các thành phần liên thông có trong ảnh Giải thuật quét ảnh từ trái sang phải và từ

Trang 25

trên xuống dưới Trong dòng thứ nhất của các pixel đen, một nhãn duy nhất

được gán cho mỗi đường chạy liên tục của pixel đen Với mỗi pixel đen của các dòng tiếp theo, các pixel lân cận trên dòng trước và pixel bên trái được xem xét Nếu bất kì pixel lân cận nào được gán nhãn, nhãn tương tự được gán cho pixel đen hiện thời; ngược lại nhãn tiếp theo chưa được sử dụng được chọn Thủ tục này được tiếp tục cho tới dòng cuối của ảnh

Lúc kết thúc tiến trình này, một thành phần liên thông có thể chứa các pixel có các nhãn khác nhau vì khi chúng ta xem xét lân cận của pixel đen, chẳng hạn pixel “?” trong hình vẽ 2.3 a Pixel đối với lân cận trái và những lân cận trong dòng trước có thể được gán nhãn một cách riêng biệt Một tình huống như vậy phải được xác định và ghi lại Sau tiến trình quét ảnh, việc gán nhãn được hoàn tất bằng cách thống nhất các mâu thuẫn các nhãn và gán lại các nhãn chưa sử dụng

Để minh hoạ ta có hình biểu diễn sau :

Hình a Trường hợp Pixel ? không gán được nhãn

(P: lân cận trước, L lân cân trái )

Trang 26

Hình 2.3 Hình minh họa phương pháp gán nhãn

2.3 PHÂN VùNG ảNH THEO MIềN ĐồNG NHấT

Kỹ thuật phân vùng ảnh thành các miền đồng nhất dựa vào các tính chất quan trọng nào đó của miền ảnh Việc lựa chọn các tính chất của miền

sẽ xác định tiêu chuẩn phân vùng Tính đồng nhất của một miền ảnh là điểm chủ yếu xác định tính hiệu quả của việc phân vùng Các tiêu chuẩn hay được dùng là sự thuần nhất về mức xám, màu sắc đối với ảnh màu, kết cấu sợi

Về nguyên tắc, phương pháp này kiểm tra tính đúng đắn của tiêu chuẩn

đề ra một cách tổng thể trên miền lớn của ảnh Nếu tiêu chuẩn được thỏa mãn, việc phân vùng coi như kết thúc

Trong trường hợp ngược lại, chia miền đang xét thành 4 miền nhỏ hơn Với mỗi miền nhỏ, áp dụng một cách đệ quy phương pháp trên cho đến khi tất cả các miền đều thỏa mãn điều kiện

Trang 27

Phương pháp này có thể mô tả bằng thuật toán sau :

Procedure PhanDoan(Mien)

Begin

If miền đang xét không thỏa Then

Begin

Chia miền đang xét thành 4 miền : Z1, Z2, Z3, Z4

Fori=1 to 4 do PhanDoan (Zi)

End

Else exit

End

Tiêu chuẩn xét miền đồng nhất ở đây có thể dựa vào mức xám Ngoài

ra, có thể dựa vào độ lệch chuẩn hay độ chênh giữa giá trị mức xám lớn nhất

và giá trị mức xám nhỏ nhất Giả sử Max và Min là giá trị mức xám lớn nhất

và nhỏ nhất trong miền đang xét Nếu :

|Max – Min| < T (ngưỡng)

ta coi miền đang xét là đồng nhất Trường hợp ngược lại, miền đang xét không

là miền đồng nhất và sẽ được chia làm 4 phần

Thuật toán kiểm tra tiêu chuẩn dựa vào độ chênh lệch max, min được viết :

Function Examin_Criteria(I, N1, M1, N2, M2, T)

/* Giả thiết ảnh có tối đa 255 mức xám (N1, M1), (N2, M2) là tọa độ

điểm đầu và điểm cuối của miền; T là ngưỡng */

Trang 28

Tổng giá trị mức xám / tổng số điểm ảnh trong vùng

Thuật toán này tạo nên một cây mà mỗi nút cha có 4 nút con ở mọi mức trừ mức ngoài cùng Vì thế, cây này có tên là cây tứ phân Cây cho ta hình ảnh rõ nét về cấu trúc phân cấp của các vùng tương ứng với tiêu chuẩn Một vùng thỏa mãn điều kiện sẽ tạo nên một nút lá; nếu không nó sẽ tạo nên một nút trong và có 4 nút con tương ứng Tiếp tục như vậy cho đến khi phân chia xong để đạt các vùng đồng nhất

2.3.2 Phương pháp cục bộ

ý tưởng của phương pháp là xét ảnh từ các miền nhỏ nhất rồi nối chúng lại nếu thỏa mãn tiêu chuẩn để được một miền đồng nhất lớn hơn Tiếp tục với các miền thu được cho đến khi không thể nối thêm được nữa

Số miền còn lại cho ta kết quả phân vùng Như vậy, miền nhỏ nhất của bước xuất phát là điểm ảnh

Phương pháp này hoàn toàn ngược với phương pháp tách Song điều quan trọng ở đây là nguyên lý nối 2 vùng Việc nối 2 vùng được thực hiện theo nguyên tắc sau :

- Hai vùng phải đáp ứng tiêu chuẩn, thí dụ như cùng màu hay cùng mức xám

- Hai vùng phải kế cận nhau

Trang 29

Khái niệm kế cận: trong xử lý ảnh, người ta dùng khái niệm liên thông để xác định tính chất kế cận Có hai khái niệm về liên thông là 4 liên thông và 8 liên thông Với 4 liên thông một điểm ảnh I(x,y) sẽ có 4 kế cận

theo 2 hướng x và y ; trong khi đó với 8 liên thông, điểm I(x,y) sẽ có 4 liên

thông theo 2 hướng x, y và 4 liên thông khác theo hướng chéo 45o

a) 4 liên thông b) 8 liên thông

Hình 2.4 Khái niệm 4 liên thông và 8 liên thông

Dựa theo nguyên lý của phương pháp nối, ta có 2 thuật toán :

- Thuật toán tô màu (Blob Coloring) : sử dụng khái niệm 4 liên thông, dùng một cửa sổ di chuyển trên ảnh để so sánh với tiêu chuẩn nối

- Thuật toán đệ quy cực bộ: sử dụng phương pháp tìm kiếm trong một cây để làm tăng kích thước vùng

2.3.3 Phương pháp tổng hợp

Hai phương pháp nối (hợp) và tách đều có nhược điểm Phương pháp tách sẽ tạo nên một cấu trúc phân cấp và thiết lập mối quan hệ giữa các vùng Tuy nhiên, nó thực hiện việc chia quá chi tiết Phương pháp hợp cho phép làm giảm số miền liên thông xuống tối thiểu, nhưng cấu trúc hàng ngang dàn trải, không cho ta thấy rõ mối liên hệ giữa các miền

Vì nhược điểm này, người ta nghĩ đến phối hợp cả 2 phương pháp Trước tiên, dùng phương pháp tách để tạo nên cây tứ phân, phân vùng theo hướng từ gốc đến lá Tiếp theo, tiến hành duyệt cây theo chiều ngược lại và

Trang 30

hợp các vùng có cùng tiêu chuẩn Với phương pháp này ta thu được một cấu trúc ảnh với các miền liên thông có kích thước tối đa

Giải thuật tách hợp gồm một số bước chính sau:

1 Kiểm tra tiêu chuẩn đồng nhất

a) Nếu không thỏa mãn tiêu chuẩn đồng nhất và số điểm trong một vùng nhiều hơn 1, tách vùng ảnh làm 4 miền (trên, dưới, phải, trái) bằng cách đệ quy Nếu kết quả tách xong và không tách được nữa chuyển sang bước 2

b) Nếu tiêu chuẩn đồng nhất thỏa mãn thì tiến hành hợp vùng và cập nhật lại giá trị trung bình của vùng cho vùng này

2.4.1 Phương pháp thống kê

Tính kết cấu ngẫu nhiên rất phù hợp với các đặc trưng thống kê Vì vậy, người ta có thể dùng các đặc trưng ngẫu nhiên để đo nó như: Hàm tự tương quan (AutoCorrelation Function- ACF), các biến đổi mật độ gờ, ma trận tương tranh,… Theo cách tiếp cận bằng hàm tự tương quan, độ thô của kết cấu sợi tỉ lệ với độ rộng của ACF, được biểu diễn bởi khoảng cách x0,

yo sao cho r(x 0 ,0) = r(0, y 0 ) = 1 Người ta cũng dùng cách đo nhánh của

ACF nhờ hàm khởi sinh moment :

Trang 31

M(k,l) (m )k(n 2) (m,n)

à

−à

ước lượng nhờ các biến đổi ảnh bằng kỹ thuật lọc tuyến tính Một mô hình

đơn giản trong trường hợp ngẫu nhiên cho việc phân tích tính kết cấu đựoc mô tả trong hình dưới đây :

Hình 2.5 Phân tích kết cấu sợi bằng dải tương quan

Trong mô hình này, trường kết cấu sợi trước tiên được giải chập bởi bộ lọc lấy từ đầu ra của ACF Như vậy, nếu r(m,n) là ACF thì :

u(m, n) ⊗ a(m, n) = ε (m, n) (2-3)

là trường ngẫu nhiên không tương quan

Lưu ý rằng, bộ lọc là không duy nhất, có thể là nhân quả, bán nhân quả hay không nhân quả Các ACF hay dùng như M(0,2), M(2,0), M(1,1), M(2,2) Các đặc trưng của lược đồ bậc một của ε (m, n) chẳng hạn như trung

bình à1, độ phân tán à2 cũng hay được sử dụng

Ngoài các đặc trưng trên, có thể đưa thêm một số khái niệm và định nghĩa các đại lượng dựa trên đó như: lược đồ mức xám (Histogram Grey Level Difference), ma trận xuất hiện mức xám (Grey Level Occurrence Matrices)

ACF

Trích chọn đặc tính

Lọc dải tương quan Phân tích lược đồ

Đặc tính sợi u(m,n)

Trang 32

với hàm f(k, l) cho giá trị mức xám tại tọa độ (k, l) Gọi hg(g, d) là lược đồ

của hiệu mức xám khoảng cách d Với mỗi khoảng cách d ta có một lược đồ

mức xám riêng

Với một miền ảnh có kết cấu thô, lược đồ hg(g, d) có khuynh hướng tập

trung xung quanh g=0 với khoảng cách d nhỏ Trái lại, với một miền ảnh có

kết cấu mịn, hg(g, d) sẽ phân nhánh dù với vecto dịch chuyển d khá nhỏ Dựa

trên lược đồ này, người ta định nghĩa lại một số đại lượng :

2 k

=

= (2-7) Phương sai đo độ tản mát của hiệu mức xám tại một khoảng cách d

nào đấy Kết cấu tất định thường có phương sai σ d tương đối nhỏ Độ tương phản cd chính là mômen của lược đồ hg(g,d) xung quanh g=0 và đo độ

Trang 33

Ma trận xuất hiện liên hiệp mức xám

Giả sử P(k,l,d) là xác suất liên hiệp của hai điểm ảnh f k và f 1 với các

mức xám k,l tương ứng cách nhau một khoảng d Xác suất này dễ dàng tính

được nhờ việc tính số lần xuất hiện n k,l của cặp điểm ảnh (f k , f 1 ) có mức xám

k và l với khoảng cách d Gọi n là tổng số cặp liên hiệp có thể với khoảng

cách d trong ảnh Các phần tử c k,l của ma trận xuất hiện liên hiệp mức xám cd

được tính như sau : c d = (c k,l )

Và ck, l = P(k,l,d)= nnkl (2-9)

Ma trận xuất hiện liên hiệp mức xám C d là ma trận vuông NxN phần

tử (N là số mức xám của ảnh) Ma trận này chứa các thông tin hữu ích về tổ

chức kết cấu không gian Nếu kết cấu tương đối thô thì các phần tử của ma trận tập trung xung quanh đường chéo chính Ngược lại, nếu kết cấu bề mặt mịn, giá trị các phần tử của c d sẽ phân rải tương đối rõ

Dựa trên khái niệm này người ta định nghĩa về một số độ đo :

- Xác suất cực đại : Pd = max(k,l) Ck,l (2-10)

Entropy : Hd =-∑∑

= =

N 1 k

N 1

)Cln(

C (2-11)

Dễ dàng thấy được entropy cực đại khi xác suất liên hiệp P(k,l,d) có

phân phối đều Mô men bậc m :

Id = ∑∑

= =

−N

1 k

N 1

mCl

k (2-12)

I d cực tiểu khi các phân tử của ma trận C tập trung trên đường chéo

chính vì khoảng cách |k-l|m rất nhỏ, Id nhỏ có nghĩa là kết cấu khá thô

Người ta cũng còn đưa vào một số độ đo khác như hàm tự tương quan, phổ năng lượng Để áp dụng cách tiếp cận này, cần cài đặt các giải thuật tính các

đại lượng đo trên

Trang 34

2.4.2 Phương pháp cấu trúc

Kết cấu sợi có cấu trúc thuần nhất là những texels xác định, mà sự xuất hiện lặp đi lặp lại tuân theo một luật tất định hay ngẫu nhiên nào đấy Một texel về thực tế là một nhóm các điểm ảnh có cùng một số tính chất bất biến lặp trên ảnh Một texel cũng có định nghĩa theo mức xám, theo bề mặt hay tính đồng nhất đối với một số các tính chất như kích thước, hướng, lược đồ bậc hai (ma trận tương tranh)

Với các texel được phân bố ngẫu nhiên, tính kết cấu sợi tương ứng của

nó được coi là yếu (Weak) ngược với qui luật phân bố tất định gọi là khỏe (Strong) Khi tính kết cấu sợi là yếu, luật phân bố có thể đo bởi:

- Mật độ gờ

- Các loạt dài của các texel liên thông tối đa

- Mật độ cực trị tương đối; số pixel trên một đơn vị diện tích có mức xám cực trị địa phương so với các lân cận

Ngoài hai cách tiếp cận trên, người ta còn dùng cách tiếp cận khác bằng cách lấy tổ hợp 2 cách trên và gọi là kỹ thuật mosaic Mô hình này

biểu diễn các quá trình học ngẫu nhiên, thí dụ như khảm ngẫu nhiên hay đều của một mặt phẳng vào các đường cong lồi sẽ làm nổi lên tính kết cấu tế bào

2.4.3 Tiếp cận theo tính kết cấu

Khi đối tượng xuất hiện trên một nền có tính kết cấu cao, việc phân vùng dựa vào tính kết cấu trở nên quan trọng Nguyên nhân là kết cấu sợi thường chứa mật độ cao các gờ (edge) làm cho phân vùng theo biên kém hiệu quả, trừ phi ta loại tính kết cấu Việc phân vùng dựa vào miền đồng nhất cũng

có thể áp dụng cho các đặc trưng kết cấu và có thể dùng để phân vùng các miền có tính kết cấu

Nhìn chung, việc phân loại và phân vùng dựa vào kết cấu là một vấn đề phức tạp ở đây, tài liệu chỉ mang tính chất giới thiệu Có thể giải quyết vấn đề này trong thực tế nếu ta biết trước các loại kết cấu (dựa vào quy luật hay các phân bố của nó)

Trang 35

Chương III Các phương pháp nhận dạng ảnh

3.1 Khái quát về nhận dạng

Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng một tên gọi) dựa theo những quy luật và các mẫu chuẩn Quá trình nhận dạng dựa vào

những mẫu học biết trước gọi là nhận dạng có thày hay học có thày (supervised learning); trong trường hợp ngược lại gọi là học không có thày

(non supervised learning) Chúng ta sẽ lần lượt giới thiệu các khái niệm này

3.1.1 Không gian biểu diễn đối tượng, không gian diễn dịch

Không gian biểu diễn đối tượng

Các đối tượng khi quan sát hay thu thập được, thường được biểu diễn bởi tập các đặc trưng hay đặc tính Như trong trường hợp xử lý ảnh, ảnh sau khi được tăng cường để nâng cao chất lượng, phân vùng và trích chọn đặc tính,

được biểu diễn bởi các đặc trưng như biên, miền đồng nhất, v ,v Người ta thường phân các đặc trưng này theo các loại như: đặc trưng tô pô, đặc trưng hình học và đặc trưng chức năng Việc biểu diễn ảnh theo đặc trưng nào là phụ thuộc vào ứng dụng tiếp theo

ở đây ta đưa ra một cách hình thức việc biểu diễn các đối tượng Giả sử

đối tượng X (ảnh, chữ viết, dấu vân tay, v ,v) được biểu diễn bởi n thành phần (n đặc trưng): X = {x1, x2, , xn}; mỗi xi biểu diễn một đặc tính Không gian biểu diễn đối tượng thường gọi tắt là không gian đối tượng X được định nghĩa:

X = {X1, X2, , Xm}

trong đó mỗi Xi biểu diễn một đối tượng Không gian này có thể là vô hạn Để tiện xem xét chúng ta chỉ xét tập X là hữu hạn

Không gian diễn dịch

Trang 36

Không gian diễn dịch là tập các tên gọi của đối tượng Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng trong tập không gian đối tượng hay nói là đã nhận dạng được đối tượng Một cách hình thức gọi

Ω là tập tên đối tượng:

= {w1, w2, ,wk} với wi, i = 1, 2, , k là tên các đối tượng

Quá trình nhận dạng đối tượng f là một ánh xạ f: X -> Ω với f là

tập các quy luật để định một phần tử trong X ứng với một phần tử trong Ω Nếu tập các quy luật và tập tên các đối tượng là biết trước như trong nhận dạng chữ viết (có 26 lớp từ A đến Z), người ta gọi là nhận dạng có thày Trường hợp thứ hai là nhận dạng không có thày Đương nhiên trong trường hợp này việc nhận dạng có khó khăn hơn

3.1.2 Mô hình và bản chất của quá trình nhận dạng 3.1.2.1 Mô hình

Việc chọn lựa một quá trình nhận dạng có liên quan mật thiết đến kiểu mô tả mà người ta sử dụng để đặc tả đối tượng Trong nhận dạng, người ta phân chia làm 2 họ lớn:

- Họ mô tả theo tham số

- Họ mô tả theo cấu trúc

Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng Như vậy, chúng

ta sẽ có 2 loại mô hình: mô hình theo tham số và mô hình cấu trúc

• Mô hình tham số: sử dụng một véctơ để đặc tả đối tượng Mỗi phần tử

của véctơ mô tả một đặc tính của đối tượng Thí dụ như trong các đặc trưng chức năng, người ta sử dụng các hàm cơ sở trực giao để biểu diễn Và như vậy ảnh sẽ được biểu diễn bởi một chuỗi các hàm trực giao Giả sử C là

đường bao của ảnh và C(i,j) là điểm thứ i trên đường bao, i = 1, 2, , N (đường bao gồm N điểm)

Giả sử tiếp :

Trang 37

diện tích, p là chu tuyến

Việc lựa chọn phương pháp biểu diễn sẽ làm đơn giản cách xây dựng Tuy nhiên, việc lựa chọn đặc trưng nào là hoàn toàn phụ thuộc vào ứng dụng Thí dụ , trong nhận dạng chữ (sẽ trình bày sau), các tham số là các dấu hiệu:

• Mô hình cấu trúc: Cách tiếp cận của mô hình này dựa vào việc mô tả đối

tượng nhờ một số khái niệm biểu thị các đối tượng cơ sở trong ngôn ngữ tự nhiên Để mô tả đối tượng, người ta dùng một số dạng nguyên thuỷ như

đoạn thẳng, cung, v, ,v Chẳng hạn một hình chữ nhật được định nghĩa gồm 4 đoạn thẳng vuông góc với nhau từng đôi một Trong mô hình này người ta sử dụng một bộ kí hiệu kết thúc Vt, một bộ kí hiệu không kết thúc gọi là Vn Ngoài ra có dùng một tập các luật sản xuất để mô tả cách xây

Trang 38

dựng các đối tượng phù hợp dựa trên các đối tượng đơn giản hơn hoặc đối tượng nguyên thuỷ (tập Vt) Trong cách tiếp cận này, ta chấp nhận một khẳng đinh là: cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo theo những nguyên tắc xác định bắt đầu từ một dạng gốc bắt đầu Một cách hình thức, ta có thể coi mô hình này tương đương một văn phạm G = (Vt, Vn, P, S) với:

Hình 3.1 Mô hình cấu trúc của một đối tượng nhà

3.1.2.2 Bản chất của quá trình nhận dạng

Quá trình nhận dạng gồm 3 giai đoạn chính:

- Lựa chọn mô hình biểu diễn đối tượng

- Lựa chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn quá trình học

Trang 39

Khi mô hình biểu diễn đối tượng đã được xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học Học là giai đoạn rất quan trọng Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp

Việc nhận dạng chính là tìm ra quy luật và các thuật toán để có thể gán

đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên

Học có thày (supervised learning)

Kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có thày Đặc

điểm cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn Mẫu cần nhận dạng sẽ được đem sánh với mẫu chuẩn để xem nó thuộc loại nào Thí dụ như trong một ảnh viễn thám, người ta muốn phân biệt một cánh đồng lúa, một cánh rừng hay một vùng đất hoang mà đã có các miêu tả về các đối tượng đó Vấn đề chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng trong ảnh với mẫu chuẩn và quyết định gán cho chúng vào một lớp Việc đối sánh nhờ vào các thủ tục ra quyết định dựa trên một công cụ gọi là

hàm phân lớp hay hàm ra quyết định Hàm này sẽ được đề cập trong phần sau

Học không có thày(unsupervised learning)

Kỹ thuật học này phải tự định ra các lớp khác nhau và xác định các tham số

đặc trưng cho từng lớp Học không có thày đương nhiên là khó khăn hơn Một mặt, do số lớp không được biết trước, mặt khác những đặc trưng của các lớp cũng không biết trước Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm có thể và chọn lựa cách tốt nhất Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khác nhau nhằm phân lớp và nâng cấp dần để đạt được một phương án phân loại

Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ sau:

Trang 40

Hình 3.2 Sơ đồ tổng quát một hệ nhận dạng

3.2 nhận dạng dựa trên phân hoạch không gian

Trong kỹ thuật này, các đối tượng nhận dạng là các đối tượng định lượng Mỗi đối tượng được biểu diễn bởi một véctơ nhiều chiều Trước tiên, ta xem xét một số khái niệm như: phân hoạch không gian, hàm phân biệt sau đó

sẽ đi vào một số kỹ thuật cụ thể

3.2.1 Phân hoạch không gian

Giả sử không gian đối tượng X được định nghĩa : X = {Xi, i=1, 2, ,m},

Xi là một véctơ Người ta nói p là một phân hoạch của không gian X thành các lớp Ci, Ci ⊂ X nếu:

Ci ∩ Cj = Φ với i ≠ j và ∪ Ci = X

Nói chung, đây là trường hợp lý tưởng: tập X tách được hoàn toàn Trong thực tế, thường gặp không gian biểu diễn tách được từng phần Như vậy phân loại là dựa vào việc xây dựng một ánh xạ f: X -> p Công cụ xây dựng ánh xạ này là các hàm phân biệt (Descriminant functions)

3.2.2 Hàm phân lớp hay hàm ra quyết định

Đánh giá

Trả lời Phân lớp

Ngày đăng: 26/02/2021, 07:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w