1. Trang chủ
  2. » Giáo án - Bài giảng

Nhận dạng cử chỉ tay trong tương tác người máy

67 241 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 2,52 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xuất phát từ tình hình thực tế và xu hướng phát triển không ngừng của ngành công nghệ thông tin nói chung và lĩnh vực tương tác người máy Human computer Interaction-HCI nói riêng, học vi

Trang 1

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã đƣợc cảm ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc

Hải Phòng, ngày 15 tháng 8 năm 2015

Học viên thực hiện Luận văn

Nguyễn Thị Giang

Trang 2

LỜI CẢM ƠN

Không có thành công nào mà không gắn liền với sự giúp đỡ của người khác

dù ít hay nhiều dù trực tiếp hay gián tiếp, thực tế đã chứng minh Trong suốt thời gian học tập và nghiên cứu tôi đã nhận được rất nhiều sự giúp đỡ của quý thầy cô, bạn bè và gia đình

Với lòng biết ơn sâu sắc nhất, tôi xin gửi lời cảm ơn đến các thầy cô khoa Công nghệ thông tin – Trường Đại học Hàng Hải đã giảng dạy và hướng dẫn tôi trong quá trình học tập tại trường Đặc biệt là TS Hồ Thị Hương Thơm đã tận tâm hướng dẫn và giúp đỡ tôi trong suốt quá trình thực hiện đề tài:

“NHẬN DẠNG CỬ CHỈ TAY TRONG TƯƠNG TÁC NGƯỜI MÁY”

Tôi xin chân thành cảm ơn các thầy cô trong Viện đào tạo sau Đại học- Đại học Hàng Hải đã tạo điều kiện tốt nhất cho chúng tôi được học tập và nghiên cứu tại trường

Cuối cùng, tôi muốn gửi lời cảm ơn vô hạn tới gia đình, bạn bè và những người thân yêu luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện Luận văn tốt nghiệp

Tôi kính chúc các thầy cô khoa Công Nghệ Thông Tin cùng toàn thể thầy cô Viện đào tạo sau đại học và TS Hồ Thị Hương Thơm luôn luôn mạnh khỏe để tiếp tục thực hiện sứ mệnh cao đẹp truyền đạt kiến thức cho thế hệ mai sau

Xin chân thành cảm ơn!

Học viên

Nguyễn Thị Giang

Trang 3

MỤC LỤC

Lời cam đoan i

Lời cảm ơn ii

Mục lục iii

Dang mục các chữ viết tắt và ký hiệu iv

Danh mục các hình v

Mở đầu 1

Chương 1 KHÁI NIỆM TỔNG QUAN 3

1.1.Tương tác người máy là gì? 3

1.2.Các phương pháp nghiên cứu HCI 4

1.3.Tương tác người máy bằng cử chỉ tay 8

CHƯƠNG 2 LÝ THUYẾT CƠ SỞ 15

2.1.Nguyên tắc hoạt động của các hệ thống nhận dạng cử chỉ tay 15

2.2.Phân đoạn ảnh dựa vào màu da 16

2.3.Các phương pháp trích chọn đặc trưng 18

2.4.Phương pháp đặc trưng bất biến cục bộ theo tỉ lệ SIFT 21

2.5.Kĩ thuật đối sánh 30

CHƯƠNG 3 MỘT SỐ KỸ THUẬT NHẬN DẠNG CỬ CHỈ TAY VÀ ỨNG DỤNG 34

3.1.Nhận dạng cử chỉ tay dựa trên màu da học 34

3.2.Nhận dạng cử chỉ tay dựa trên tập hợp các cử chỉ mẫu 36

3.3.Ứng dụng cử chỉ tay trong tương tác người máy 41

CHƯƠNG 4 CÀI ĐẶT, THỬ NGHIỆM VÀ ĐỀ MÔ CHƯƠNG TRÌNH 44

4.1 Môi trường cài đặt 44

4.2 Giới thiệu và đề mô chương trình 44

4.3 Thử nghiệm và đánh giá 52

KẾT LUẬN 57

TÀI LIỆU THAM KHẢO 59

Trang 4

DANG MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU

COG Trọng tâm của lực hấp dẫn

MkD Thuật toán tìm ngƣỡng MK-RoD Algorithm

Trang 5

1.9 Hệ thống dịch ngôn ngữ ký hiệu Kinect Translator 11

1.13 Mô hình Virtual reality tại Viện Fraunhofer 13 2.1 Mô hình nguyên tắc hoạt động của hệ thống nhận dạng cử

chỉ tay

15

2.2 Quá trình tính không gian đo (L) và hàm sai khác D –Trích

dẫn trong Lowe, D “Distinctive image features from

scale-invariant keypoints” International Journal of Computer

Vision, 60, 2 (2004)

23

2.3 Cực đại và cực tiểu của các hình ảnh khác biệt-of-Gaussian

đƣợc phát hiện bằng cách so sánh một pixel (đánh dấu X)

với 26 điểm láng giềng trong khu vực 3x3 ở tỉ lệ hiện tại và

Trang 6

2.5 (a) là ảnh gốc (b) mô tả các điểm hấp dẫn tìm được, các

điểm keypoints được vẽ ở dạng một vector thể hiện 3 thông tin: vị trí, hướng và độ dài (c) là ảnh sau khi loại bỏ các

điểm hấp dẫn có độ tương phản thấp (d) là ảnh sau khi loại

bỏ các điểm hấp dẫn dọc theo cạnh

27

2.7

Đối sánh hai ảnh quy về đối sánh hai tập hợp điểm đặc trưng 30

3.1 Các bàn tay sau khi phân ngưỡng bị nhiễu 35

3.6 Hệ thống nhận dạng cử chỉ với thuật toán SIFT và thuật toán

đối sánh mẫu điểm

37

3.8 (a) Hình ảnh từ Cơ sở dữ liệu đào tạo

(b) Hình ảnh đầu vào kiểm tra với những điểm chính

40

3.9 Khởi động ứng dụng office (Cử chỉ hai ngón tay => Khởi

động Microsoft Excel)

42

4.2 Cử chỉ một ngón tay =>Khởi động Microsoft office 45 4.3 Cử chỉ hai ngón tay=>Khởi động Microsoft Excel 46 4.4 Cử chỉ ba ngón tay=>Khởi động Microsoft Access 46 4.5 Cử chỉ bốn ngón tay =>Khởi động Microsoft PowerPoint 47

Trang 7

4.6 Cử chỉ năm ngón tay =>Khởi động Microsoft Outlook 47 4.7 Điều khiển Game (Cử chỉ một ngón tay=>Hình cần xếp

đang đi xuống)

Trang 8

MỞ ĐẦU

Nhận dạng cử chỉ của tay người là cách tự nhiên khi tương tác người – máy (Human computer Interaction-HCI) Nhiều nhà nghiên cứu trong các học viện và ngành công nghiệp đang quan tâm đến hướng nghiên cứu này Nó cho phép con người tương tác với máy tính rất dễ dàng mà không phải sử dụng các phương pháp tương tác thông thường như bàn phím hay chuột

Với sự ra đời của các thiết bị thông minh, nhiều hoạt động đời thường cũng

sử dụng kỹ thuật điều khiển bằng cử chỉ, ví dụ: Người dùng có thể dùng tay ra lệnh bật/tắt tivi, thay đổi kênh, tăng/giảm âm lượng và làm nhiều thứ khác Kỹ thuật này cũng đã được sử dụng cho các thiết bị chơi game thế hệ mới như Microsoft XBox, Sony PS3,…Người chơi thường điều khiển bằng cách thực hiện các chuyển động

mà họ muốn nhân vật trong trò chơi thể hiện, điều này giúp người chơi được hóa thân vào nhân vật XBox thế hệ mới sử dụng camera để giám sát các chuyển động

và xử lý sao cho nhân vật thực hiện giống y như vậy Điều khiển dựa trên cử chỉ cũng giúp ích rất nhiều cho những người khuyết tật trong việc điều khiển xe lăn Bên cạnh đó, kỹ thuật điều khiển bằng cử chỉ còn được sử dụng trong các lĩnh vực đặc biệt như điều khiển cần cẩu, huấn luyện trong thể thao, phẫu thuật trong y tế,…

Ngày nay, việc điều khiển bằng cử chỉ chưa hẳn sẽ thay thế hoàn toàn các

“thiết bị nhập” như: bàn phím hay màn hình cảm ứng, và không phải lúc nào cũng

có đủ điều kiện để sử dụng Nhưng trong tương tác người máy việc kết hợp nhiều

“kênh giao tiếp” sẽ tạo ra sự “uyển chuyển” và hiệu quả hơn

Xuất phát từ tình hình thực tế và xu hướng phát triển không ngừng của ngành công nghệ thông tin nói chung và lĩnh vực tương tác người máy (Human computer Interaction-HCI) nói riêng, học viên đã lựa chọn hướng nghiên cứu một

số phương pháp nhận dạng cử chỉ tay từ ảnh tĩnh hoặc video dựa trên một số cử chỉ đặc trưng như giơ một ngón tay, hai ngón tay, , cả năm ngón tay Từ đó ứng dụng để điều khiển các phần mềm Microsoft Office hoặc các chương trình Game

Luận văn gồm bốn chương các chương có những nội dung sơ bộ như sau:

Trang 9

Chương 1 Khái niệm tổng quan

Trong chương này Luận văn trình bày về khái niệm tương tác người máy (HCI), các phương pháp nghiên cứu trong HCI, trong đó có phương pháp nhận dạng cử chỉ tay người và một số khó khăn gặp phải khi nghiên cứu theo phương pháp này

Chương 2 Lý thuyết cơ sở

Luận văn tìm hiểu về nguyên tắc hoạt động của hệ thống nhận dạng cử chỉ tay, phân đoạn ảnh dựa vào da và các phương pháp trích chọn điểm đặc trưng của ảnh

Chương 3 Một số kỹ thuật nhận dạng cử chỉ tay và ứng dụng

Luận văn tiếp tục đi sâu tìm hiểu một số kỹ thuật nhận dạng cử chỉ tay như: Nhận dạng cử chỉ tay dựa trên màu da học; nhận dạng cử chỉ tay dựa trên tập hợp các cử chỉ mẫu và các ứng dụng thực tế của các kỹ thuật trên

Chương 4 Cài đặt thử nghiệm và đề mô chương trình

Dựa trên cơ sở lý thuyết tìm hiểu được từ các chương trước học viên sử dụng phần mềm MATLAB R2008B để cài đặt thử nghiệm và đề mô chương trình Sau đó đã đưa ra một số đánh giá nhận xét về kết quả tìm được

Cuối cùng là kết luận, Phần này tổng kết các kết quả chính của Luận văn và phương hướng nghiên cứu tiếp theo

Do đây là một vấn đề rất mới và kiến thức của học viên còn hạn chế nên trong quá trình thực hiện đề tài không thể tránh khỏi những thiếu sót Kính mong thầy cô và các bạn đóng góp ý kiến để đề tài được hoàn thiện hơn

Xin chân thành cảm ơn!

Trang 10

CHƯƠNG 1 KHÁI NIỆM TỔNG QUAN

Trong chương này Luận văn trình bày về khái niệm tương tác người máy (Human computer Interaction-HCI), các phương pháp nghiên cứu trong HCI, trong

đó có phương pháp nhận dạng cử chỉ tay người và một số khó khăn gặp phải khi

nghiên cứu theo phương pháp này

1.1 Tương tác người máy là gì?

Tương tác người máy (Human computer Interaction-HCI) nói đơn giản là việc nghiên cứu các tác động qua lại giữa con người và công nghệ máy tính HCI

là một lĩnh vực được quan tâm từ khi máy tính ra đời

Tuy nhiên những năm 50-80 của thế kỷ 20: HCI chưa được quan tâm Lý do là vì người sử dụng chủ yếu là các kỹ sư máy tính và khi tương tác để lấy dữ liệu là các chuyên viên máy tính Hầu như người dùng không đối thoại trực tiếp với chương trình Dữ liệu sau khi đánh giá người dùng mang về phân tích đánh giá theo cách riêng của mình

Từ những năm 80: Khoa học và công nghệ phát triển, máy vi tính ngày càng có nhiều khả năng mạnh hơn: bộ nhớ dung lượng lớn hơn, tốc độ xử lý nhanh hơn và các thiết bị ngoại vi cũng đa dạng hơn Xuất hiện mạng Internet toàn cầu và nhiều phần mềm ứng dụng phong phú đáp ứng nhu cầu ngày càng cao của người dùng

Từ những năm 90: Nhu cầu đào tạo và học gia tăng dẫn đến nhu cầu đào tạo

từ xa qua mạng (Elearning), liên quốc gia

 Thành lập hiệp hội Công nghệ phần mềm về HCI: SIGHCI (Special Interest Group on Computer Human Interaction)

 SIGHCI năm 1992 tại New York đã đề xuất khung đào tạo HCI

HCI là một lĩnh vực đa ngành Người thiết kế một hệ thống tương tác phải

có kiến thức đa ngành: Hiểu được sự cảm nhận thông tin, nhận thức, giải quyết vấn

đề, áp dụng khoa học máy tính và công nghệ để có thể xây dựng các công nghệ cần thiết, kỹ năng đồ họa để thiết kế các giao tiếp

Trang 11

HCI liên quan đến:

 Nghiên cứu việc con người sử dụng các giao diện

 Phát triển các ứng dụng mới cho người dùng

 Phát triển các thiết bị, công cụ mới cho người dùng

1.2 Các phương pháp nghiên cứu HCI

Tương tác của con người và thế giới bên ngoài xảy ra khi thông tin được tiếp nhận và được gửi qua: đầu vào và đầu ra

Tương tác của máy tính và con người cũng tương tự như vậy, người sử dụng gửi yêu cầu đến đầu vào của máy tính và nhận thông tin từ đầu ra của máy tính Như vậy đầu ra của người trở thành đầu vào của máy tính Đầu vào trong con người chủ yếu xuất hiện thông qua các giác quan, đầu ra xuất hiện thông qua sự điều khiển vận động của các cơ quan phản ứng kích thích

Con người có năm giác quan chính: thị giác, thính giác, xúc giác, vị giác, khứu giác Trong số đó, ba giác quan đầu tiên là những giác quan quan trọng nhất trong tương tác giữa người và máy tính

Hiện tại, vị giác và khứu giác không có vai trò quan trọng trong các hệ thống máy tính thông thường cũng như trong tương tác người máy, mặc dù chúng có thể

có vai trò trong các hệ thống chuyên dụng như: dùng mùi vị để đưa ra các cảnh báo

về những hỏng hóc hay các hoạt động bất thường xẩy ra

Khi tương tác với máy tính, bạn nhận thông tin chủ yếu qua việc nhìn từ những gì đang xuất hiện trên màn hình Bên cạnh đó, bạn cũng có thể nhận thông tin bằng tai: ví dụ, máy tính có thể phát ra tiếng kêu bíp khi mắc lỗi Xúc giác cũng tham gia vào quá trình để bạn có được cảm nhận về những gì bạn đang làm và hiện nay việc gửi thông tin cho máy tính phổ biến nhất vẫn là việc dùng các ngón tay, thông qua việc đánh máy hay điều khiển con chuột Chúng ta sẽ tìm hiểu vai trò và hạn chế của 3 giác quan chính sau đó sẽ xem xét đến sự điều khiển vận động bằng

cử chỉ tay

Trang 12

1.2.1 Thị giác

Đối với một người bình thường thị lực là nguồn tiếp nhận thông tin chủ yếu Tuy nhiên nó vẫn còn một số hạn chế:

 Thứ nhất khả năng thu nhận màu sắc của con người có hạn

 Thứ hai nếu góc nhìn của một đối tượng quá nhỏ, chúng ta sẽ không

có khả năng thu nhận nó

 Cuối cùng là sử dụng độ tương phản trong hiển thị: một độ tương phản có các đối tượng đen trên nền màn hình trắng hay còn gọi là độ tương phản âm, sẽ tạo ra độ chói cao hơn và do đó làm tăng tính sắc nét hơn, so với độ tương phản dương (các đối tượng có màu sắc gần giống màu nền) Điều này cũng sẽ làm tăng tính dễ đọc Tuy nhiên, độ tương phản âm cũng có thể sẽ xẩy ra sự lập loè, không ổn định

HCI với thị giác:

Ứng dụng trong màn hình 3D phim 3D

 Thu hai hình ảnh dành cho 2 mắt

(camera có len đôi)

 Hai hình ảnh được chiếu đồng thời

Tai chúng ta có thể nghe được các tần số từ khoảng 20 Hz đến 15 kHz Nó phân biệt được các thay đổi tần số trong phạm vi nhỏ hơn 1.5 Hz đối với các tần số

Hình 1.1 Phim 3D

Trang 13

thấp Các tần số khác nhau kích thích các nơ ron thần kinh ở các phần khác nhau trong hệ thống thính giác và tạo ra các tỷ lệ khác nhau của các nơron thần kinh

Tuy nhiên, nếu âm thanh quá ồn, hoặc tần số của nó quá nhỏ, chúng ta sẽ không có khả năng phân biệt được các âm thanh khác nhau

HCI với thính giác:

Các âm thanh hiện tại vẫn được sử dụng chính vào việc thông báo:

 Thông báo khi gõ bàn phím

 Thông báo khi vào windows

 Thông báo khi máy sắp hết pin, …

Hiện nay âm thanh đang được nghiên cứu:

 Tổng hợp tiếng nói để con người có thể nghe đọc tài liệu thay vì nhìn tài liệu, ứng dụng này được dùng để phục vụ người khiếm thị

Dùng âm nhạc để tạo ra các hiệu ứng trong trình diễn nội dung

1.2.3 Xúc giác

Mặc dù trong cuộc sống của con người xúc giác ít quan trọng hơn so với thị giác và thính giác, nhưng chúng ta lại không thể thiếu nó Nếu như thị giác và thính giác giúp ta nhìn và nghe được thông tin thì xúc giác cho chúng ta cảm nhận được những thông tin đó Xúc giác đem lại cho mỗi người cảm giác về môi trường xung quanh mỗi khi cầm nắm vào một vật nào đó và do đó nó đóng vai trò như một cảnh báo

Ví dụ: Khi ta chạm tay vào cốc nước nóng thì ta có cảm giác nóng rát ở tay Hoặc với những người chơi Game họ muốn hóa thân vào nhân vật, muốn có được cảm giác tự nhiên về việc cầm nắm hoặc tiếp xúc trực tiếp với các đối tượng một cách thực sự

Trang 14

Đây cũng chính là những yêu cầu đặt ra cho các nhà thiết kế đồ hoạ, thiết kế giao diện Do đó, xúc giác là phương tiện quan trọng để phản hồi và trong máy tính việc sử dụng các thông tin phản hồi là tương đối nhiều

Như chúng ta biết, trong cuộc sống hàng ngày đối với một người bình thường thì xúc giác chỉ là nguồn thông tin đứng thứ hai, nhưng đối với những người mà thị giác hoặc thính giác của họ bị hỏng thì xúc giác lại trở nên rất quan trọng Với những người dùng như vậy, các giao diện như là: hệ thống chữ nổi, nhận dạng cử chỉ tay,… sẽ trở thành nguồn thông tin cơ bản cho tương tác

Bộ máy xúc giác có 3 loại cơ quan thụ cảm:

 Cơ quan thụ cảm nhiệt: phản ứng lại với nóng, lạnh,…

 Cơ quan thụ cảm thần kinh: phản ứng lại với sự nóng giận, buồn, vui,…

 Cơ quan thụ cảm cơ: phản ứng lại với áp lực, độ nhạy cảm của các ngón tay,

Trong đề tài này tương tác giữa người và máy được thể hiện thông qua cử chỉ tay nên chúng ta chỉ quan tâm đến cơ quan thụ cảm cơ

Chẳng hạn trong quá trình đánh máy: Tốc độ đánh máy phụ thuộc vào việc cảm nhận vị trí tương đối của các ngón tay và thông tin phản hồi từ bàn phím Hoặc nhận dạng cử chỉ tay từ đó đưa ra các tín hiệu yêu cầu máy tính sẽ thực hiện theo

ý bạn mà không cần dùng chuột hay bàn phím

HCI trong xúc giác:

Năm 2014 là năm của công nghệ “chạm” Nhờ các thiết bị cảm ứng thông minh, người ta có thể chạm tay để chụp ảnh, chạm tay để ghi âm hoặc để gõ vài

dòng chia sẻ cảm xúc… Tuy nhiên vẫn còn hạn chế với khả năng mô phỏng cảm giác khi chạm, tức là xúc giác

Xuất phát từ thực tế đó công nghệ “Haptic” ra đời từ thập niên 90 Haptic

không chỉ là công nghệ “chạm”, haptic là “chạm và cảm nhận” Máy tính dễ

Trang 15

truyền đạt tín hiệu giúp người dùng xem được hình ảnh, gõ chữ bằng bàn phím, nghe âm thanh ở loa, nhưng không thể cảm nhận những gì đang xảy ra bên trong

bộ máy bằng xúc giác Sau nhiều nghiên cứu, thách thức được giải quyết nhờ phân

tích thành phần của cảm giác “chạm”

1.3 Tương tác người máy bằng cử chỉ tay

Chúng ta đã quen làm việc với máy tính thông qua các công cụ như: chuột, bàn phím nhưng càng ngày khoa học công nghệ càng tiến bộ đã xuất hiện những phương pháp tương tác giữa người và máy đáng kinh ngạc như: màn hình chạm (iPhone, iPad) rồi đến công nghệ điều khiển bằng giọng nói (như Siri) Ngày nay một số thiết bị còn cho phép người dùng “nhập” văn bản trực tiếp bằng cách đọc (nhờ phần mềm nhận dạng giọng nói) Để việc tương tác giữa người và máy tính ngày càng thận thiện người ta đã phát hiện công nghệ cho phép sử dụng cử chỉ tay

để điều khiển máy tính và các thiết bị số khác

1.3.1 Thông điệp cử chỉ

Việc công nhận cử chỉ tay là rất khó khăn vì mỗi cử chỉ tay được biến đổi theo mỗi người Mỗi ký hiệu được sử dụng để giao tiếp theo một quy tắc khác nhau cung cấp “Dữ liệu đầu vào” cho thiết bị

Ví dụ :

 "một" có thể có nghĩa là "tiến lên phía trước"

 "Năm" có thể có nghĩa là "dừng lại"

 "hai", "ba" và "bốn" có thể được hiểu là "đảo ngược", "rẽ phải" và " rẽ trái"

Hình 1.2 Một số sản phẩm nổi bật dùng trong Haptic hiện nay

Trang 16

Hình 1.3 Các ký hiệu về cử chỉ tay tương ứng với số ngón tay

Với máy tính “hiệu lệnh” của cử chỉ được nhận dạng theo các kiểu sau:

 Định trước: Xác định rõ một cử chỉ để đưa ra các cách điều khiển Ví dụ: Trong điều khiển bật tắt đèn Khi tay tiến về phía công tắc, đèn sẽ

tự bật lên, nếu phát hiện tay tiến về phía công tắc lần nữa thì đèn sẽ được tắt,…

 Liên hệ chức năng: Liên hệ các chức năng điều khiển của các thiết bị với một số bộ phận trên cơ thể để đưa ra các tập lệnh tương ứng Ví dụ: Xoay cánh tay đề ra lệnh cho Robot quay,…

 Trao đổi tự nhiên: Sử dụng cử chỉ giao tiếp giữa người với người để gửi tín hiệu lệnh điều khiển thiết bị Ví dụ: Quạt tay trước mặt để ra hiệu nóng, điều hòa sẽ hạ thấp nhiệt độ,…

1.3.2 Phương pháp nghiên cứu nhận dạng cử chỉ tay

Có rất nhiều hướng nghiên cứu việc nhận dạng cử chỉ tay như:

 Găng tay có cảm biến

Các cảm biến được sử dụng để cung cấp

thông tin về vị trí, hướng của bàn tay và cử động

của các ngón tay Găng tay điều khiển thương mại

đầu tiên của hãng DataGlove có gắn các sợi cáp Hình 1.4 Găng tay cảm biến [17]

Trang 17

Hình 1.5 Touchpad

quang mỏng chạy phía sau lưng bàn tay, mỗi sợi có một khe nhỏ Ánh sáng được chiếu trong sợi cáp, khi các ngón tay co lại sẽ làm rò rỉ ánh sáng qua khe và thông tin này được ghi nhận để xác định tư thế của tay

 Bàn di cảm ứng (touchpad)

Có chức năng giống như chuột trên máy tính

xách tay ghi nhận các di chuyển của tay bằng cảm

ứng Ngày nay công nghệ này đã được áp dụng rất

nhiều trên các thiết bị điện thoại thông minh

 Bộ phát siêu âm và bộ thu

Là những thiết bị có khả năng theo dõi vị trí của bộ phát, gắn trên thiết bị cần điều khiển Bộ phận nghiên cứu của hãng phần mềm Microsoft vừa giới thiệu công nghệ SoundWave, đó là việc sử dụng loa và micro thông thường (hoặc tích hợp sẵn trên máy tính xách tay) để nhận dạng cử chỉ dựa trên hiệu ứng Droppler

Hình 1.6 NailO – bàn rê nhỏ có thể đeo

trên ngón tay-Dùng để điều khiển

Smartphone

Hình 1.7 Soundwave- Công nghệ cảm biến nhận dạng cử chỉ bằng sóng

âm(Droppler)

Trang 18

 Kỹ thuật quan sát dùng camera: Kỹ thuật này có 2 cách

 Một là: dựa trên mô hình: lập mô hình tập hợp các cử chỉ mẫu và nhận dạng khi có cử chỉ trùng

 Hai là: dựa trên hình ảnh: ghi nhận hình ảnh chuyển động trong suốt quá trình của cử chỉ để nhận dạng

Luận văn nghiên cứu theo phương pháp kỹ thuật quan sát dùng camera dựa trên mô hình tập hợp mẫu: Phân loại hình ảnh dựa trên các tính năng triết xuất bằng thuật toán SIFT Phương pháp này đã được thử nghiệm và đem lại một số ghi nhận đáng kể cho công nhận cử chỉ tay tĩnh

1.3.3 Những ứng dụng dựa trên cử chỉ tay người

Ngôn ngữ ký hiệu

Ngôn ngữ ký hiệu bắt đầu trước khi có sự

xuất hiện của con người Ngôn ngữ ký hiệu là hình

thức thô nhất và tự nhiên của ngôn ngữ đánh dấu,

Ngày nay ngôn ngữ kí hiệu vẫn được sử dụng trong

Hình 1.8 Màn hình cảm ứng chạm

Trang 19

Hình 1.12 Điều khiển Robot bằng cử chỉ tay

các thiết bị nhận diện cử chỉ, ký hiệu cho người khiếm thính

Thiết kế 3D

Việc thao tác đầu vào 3 chiều với chuột của máy tính là rất phước tạp và tốn nhiều thời gian Các công nghệ 3DRAW có khả năng theo dõi vị trí và định hướng trong 3D

Ví dụ:

 Công ty SensoMotoric Instruments (SMI) có trụ sở tại Đức SMI đã cho ra thị trường chiếc kính 3D

độc đáo chiếc kính 3D này có khả năng theo

dõi mắt người đeo Người đại diện công ty SMI

nói rằng họ đã sử dụng công nghệ ActiveEye

Khi người dùng đeo kính thì hình ảnh xung

quang sẽ tự hiệu chỉnh theo môi trường 3D

 Intel phát triển camera 3D

Camera này có thể nhận biết cảm xúc, từ

đó biết được các chuyển động của người dùng,

theo dõi cảm xúc và thậm chí là ghi nhớ thói

quen của họ, ví dụ: ghi nhớ thói quen đọc sách

của trẻ em Hãng cho biết loại camera mới sẽ

được tích hợp vào các Laptop

Điều khiển từ xa

Điều khiển từ xa là một lĩnh

vực trí tuệ nhân tạo nhằm mục đích

hỗ trợ con người điều khiển các thiết

bị mà không cần tiếp cận gần máy

móc Ví dụ: Thông qua các cử chỉ của

cơ thể để điều khiển Robot thực hiện

Hình 1.11. Webcam Senz3D của

Creative Hình 1.10 Kính 3D theo rõi mắt

người

Trang 20

Hình 1.13 Mô hìn Virtual reality tại Viện Fraunhofer (CHLB Đức)

nhiệm vụ cần thiết, điều khiển xe lăn cho người khuyết tật,…

Virtual reality

Virtual reality là một hệ thống mô phỏng trong đó đồ họa máy tính được sử dụng để tạo ra một thế giới "ảo" Thế giới này như thật nhưng không tĩnh mà thay đổi liên tục theo ý muốn (tín hiệu vào) của người sử dụng (nhờ hành động, lời nói, ) Virtual reality có đặc tính chính là khả năng tương tác thời gian thực time interactivity) Thực tế ảo được áp dụng để nâng cao hệ thống xúc giác tiên tiến hiện nay, ứng dụng trong y tế hoặc chơi Game

1.3.4 Những khó khăn trong nhận dạng cử chỉ tay

Tuy có một tương lai rất hứa hẹn nhưng việc xây dựng các hệ thống tương

tác người máy dựa trên cử chỉ tay vẫn còn gặp phải một số vấn đề khó khăn như:

 Tốc độ nhận dạng: Để nhận dạng cử chỉ bàn tay trong thực tế ta phải

có thời gian cho thiết bị cảm n h ậ n ( camera hoặc webcam) thu thập các quan sát cần cho việc phân loại hay miêu tả đó là thời gian thực, tức là tốc độ xử lý phải nhanh

 Độ chính xác: Môi trường của người điều khiển là động và phức tạp,

bị chi phối bởi nhiều yếu tố như: điều kiện ánh sáng, phông nền,…Vì vậy việc tách đối tượng quan tâm ra khỏi nền hay còn gọi là trừ nền để có thể phân tích chuyển

Trang 21

động một cách chính xác hơn hoặc nhận diện vùng da (Skin detection), nhận dạng hình dáng của bàn tay,… vẫn còn là một thách thức đối với nhiều nhà nghiên cứu

Trang 22

CHƯƠNG 2 LÝ THUYẾT CƠ SỞ

Trong chương này Luận văn tìm hiểu về nguyên tắc hoạt động của hệ thống nhận dạng cử chỉ tay, phương pháp phân đoạn ảnh dựa vào màu da và các phương pháp trích chọn điểm đặc trưng của ảnh

2.1 Nguyên tắc hoạt động của các hệ thống nhận dạng cử chỉ tay

Trong thế giới thực, chúng ta có thể cầm, thả, di chuyển… các đối tượng bằng các cử chỉ của bàn tay Ngày nay, với sự tiến bộ của khoa học và công nghệ khi c o n n g ư ờ i tương tác với các thiết bị như máy tính, tivi, ôtô… chỉ với vài

cử chỉ của bàn tay là ta có thể điều khiển được hoạt động của nó Để làm được điều này, bộ điều khiển của các thiết bị phải được gắn một thiết bị cảm nhận là camera hoặc webcam, thiết bị này sẽ thu nhận hình ảnh của bàn tay, nhận dạng cử chỉ tay để từ đó đưa ra các tập lệnh tương ứng với các ứng dụng cụ thể

Để nhận dạng cử chỉ tay, trước tiên hệ thống sử dụng các thiết bị thu như Camera hoặc Webcam để thu hình ảnh; Sau đó xử lý hình ảnh bằng cách trích chọn ra các đặc trưng để tính toán dưới dạng số hay biểu tượng; cuối cùng dựa vào các đặc tính đẵ được trích chọn để phân loại và nhận dạng cử chỉ tay

Dưới đây là nguyên tắc hoạt động của bài toán nhận dạng cử chỉ tay

Hình 2.1 Mô hình nguyên tắc hoạt động của hệ thống nhận dạng cử chỉ tay [17]

Trang 23

2.2 Phân đoạn ảnh dựa vào màu da

Phát hiện màu da là một bước xử lý tìm kiếm trong ảnh các vùng và điểm ảnh có màu da sau đó đưa ra kết quả ảnh vùng bàn tay là vùng các điểm ảnh có màu da, việc tìm các điểm ảnh có màu da bước đầu khá dễ dàng, nhưng do phương pháp này chỉ dựa vào thông tin về màu sắc nên các vùng ảnh, các đối tượng khác

có màu giống với màu da cũng bị nhận diện trùng với màu da, tạo ra sự nhập nhằng

Do đó, việc phát hiện bàn tay dựa trên màu da đạt hiệu quả cao nếu ảnh có màu nền phân biệt rõ với màu da và ngoài vùng bàn tay thì không chứa thêm các đối tượng khác có màu trùng với màu da “Skin Detection using Color Pixel Classification with Application” [6]

Phân loại da dựa vào các lớp vùng da

Thuật toán này dựa trên việc xây dựng mô hình phân bố màu da có tham số

Ví dụ: Ảnh gốc có màu (RGB) được chuyển đổi sang không gian màu

YCrCb Các mẫu màu da được lấy ra từ các ảnh màu để xác định phân bố màu da trong không gian màu YCrCb Sau đó áp dụng phân bố Gaussian Để loại bỏ nhiễu của ảnh thì trước đó áp dụng bộ lọc thông thấp cho các mẫu màu da Từ tập hợp các mẫu màu da đầu vào thu được ở trên, các tham số của mô hình được xây dựng trên cơ sở tính các tham số thống kê sau:

𝜇𝑠 = 1𝑛 𝑛𝑗 =1𝑐𝑗 ; = 𝑛−11 𝑛 (𝑐𝑗 − 𝜇𝑠)(𝑐𝑗 − 𝜇𝑠)𝑇

𝑗 =1

Trong đó:

𝑐𝑗 = (𝑐𝑟𝑐𝑏)𝑇: là các vectơ mẫu màu da trích chọn

n : tổng số các mẫu màu da

: vectơ trung bình của phân bố

ma trận phân bố

Trang 24

Để xác định một điểm ảnh có là màu da hay không, ta tính toán hàm mật độ xác suất của điểm ảnh đó trong phân bố Gaussian theo công thức (2.2)

2.2.1 Phân loại da dựa vào ngưỡng trên mỗi kênh màu

Để phát hiện điểm ảnh có màu da, ta cần xác định ngưỡng cho các thành phần của không gian màu Ngưỡng này không phải là một giá trị mà có thể là một miền giá trị, các điểm ảnh được coi là màu da phải có giá trị thuộc phạm vi ngưỡng xác định trước của tất cả các thành phần trong không gian màu

Karin Sobottka và Loannis Pitas [5], sử dụng các ngưỡng cố định trong không gian màu HS để xác định màu da

Trang 25

Yanjiang Wang và Baozong Yuan [7], thì sử dụng các giá trị ngưỡng trong không gian màu rgb( R+G+B= 1) và HSV, để xác định màu da

Tuy nhiên, sau một số thực nghiệm, đề tài sử dụng bảng dò màu da (lookup table) trong không gian màu RGB của tác giả Mathias Kolsh[8] thu được kết quả cao hơn

2.3 Các phương pháp trích chọn đặc trưng

2.3.1 Đặt vấn đề

Trong hệ thống nhận dạng ảnh nói chung và nhận dạng cử chỉ bàn tay nói riêng, chúng ta phải đưa ra các trích chọn đặc trưng từ hình ảnh bàn tay trước khi đưa vào tìm kiếm ảnh

Trong tìm kiếm ảnh, việc trích chọn các điểm đặc trưng thích hợp với từng loại truy vấn là quan trọng

Việc lựa chọn các đặc trưng và độ đo thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác của các hệ thống

Trang 26

Lựa chọn các điểm đặc trưng sẽ cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu số lượng các đặc trưng quá nhiều sẽ làm che khuất hoặc giảm các tín hiệu (đồng nghĩa với việc tăng nhiễu), mặt khác, nếu số lượng các đặc trưng quá ít sẽ gây ra khó khăn trong việc phân biệt được ảnh để tìm kiếm

Trong đó N là số lượng điểm có trong ảnh

Để tính lược đồ màu của một ảnh, trước tiên ta đi rời rạc hóa từng màu trong ảnh; sau đó đếm số điểm ảnh của mỗi màu Với điều kiện số điểm màu có hạn Để thuận tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị duy nhất Một cách khác để tính lược đồ màu của ảnh RGB ta phân ra làm 3 lượt đồ

riêng biệt h R [], h G [], h B[] Khi đó, mỗi lược đồ được tính bằng cách đếm kênh màu

tương ứng trong mỗi điểm ảnh

2.3.3 Đặc trưng kết cấu

Kết cấu được đặc trưng bởi sự phân bổ không gian của những mức cường độ trong một khu vực gần với nhau Kết cấu gồm các kết cấu gốc hay nhiều kết cấu gộp lại đôi khi gọi là texel

Các phương pháp dùng để trích xuất các đặc trưng kết cấu như:

• Kim tự tháp "có thể lái được" (the steerable pyramid)

• Thay đổi đường viền (the cotourlet transform)

• Biến đổi sóng Gabor (The Gabor Wavelet transform)

• Biểu diễn ma trận đồng hiện (co-occurrence matrix)

Trang 27

• Hệ thống bộ lọc định hướng phức tạp (The complex directional fillter bank)

2.3.4 Đặc trưng hình dạng

Trong một ảnh thì màu sắc và kết cấu là những thuộc tính có khái niệm toàn cục Hình dạng của ảnh ở đây không phải là hình tròn, đa giác hay elip,…Những hình dạng mà ta nhìn thấy đó không phải là một thuộc tính của ảnh Mà hình dạng ảnh ở đây đang là một khu vực đặc biệt trong ảnh Chẳng hạn như đường biên của một đối tượng nào đó trong

Trong việc tìm kiếm ảnh theo nội dung, hình dạng được đánh giá là ở cấp cao hơn hơn màu sắc và kết cấu Bởi vì cần có sự phân biệt giữa các vùng để tiến hành xử lý về độ đo của hình dạng Trong các hệ thống tìm kiếm ảnh theo nội dung người ta thường khai thác hai nhóm biểu diễn hình dạng sau:

 Hình dạng đối tượng được biểu diễn hình theo đường biên based descriptor): Biểu diễn các đường biên bao xung quanh đối tượng

(cotour- Hình dạng đối tượng được biểu diễn theo vùng (region-based descriptor): Biểu diễn một vùng toàn vẹn

2.3.5 Đặc trưng cục bộ bất biến - SIFT

Đặc trưng cục bộ bất biến là đặc trưng không biến đổi khi ta quay ảnh, thay đổi tỉ lệ ảnh, đôi khi là cả thay đổi góc nhìn và thêm nhiễu ảnh hay thay đổi cường

độ chiếu sáng của ảnh.Thể hiện rõ nét trong việc đối sánh một vùng con của ảnh với phép biến đổi affine Phương pháp chiết xuất các thuộc tính bất biến đặc trưng

từ các hình ảnh được lựa chọn có tên là Scale-Invariant Feature Transform (SIFT) Đặc trưng trích rút đựợc gọi là đặc trưng SIFT (SIFT Feature) Đây là một phương pháp đáng tin cậy dùng để thực hiện đối sánh giữa các khung nhìn khác nhau của một đối tượng hay cảnh Bên cạnh đó SIFT cũng là phương pháp để nhận dạng các đối tượng

Trang 28

2.4 Phương pháp đặc trưng bất biến cục bộ theo tỉ lệ SIFT

Như đã phân tích ở trên việc tìm ra các điểm đặc trưng cục bộ bất biến đưa

ra hiệu quả khá cao trong việc tìm kiếm ảnh Từ những năm 2004, David Love đã đưa ra một thuật toán tiêu biểu dựa theo đặc trưng cục bộ bất biến trong ảnh đó là: SIFT (Scale-invariant Feature Transform) và đến nay thuật toán này ngày càng có nhiều cải tiến Đặc trưng được trích chọn trong SIFT là các điểm đặc biệt hay còn gọi là keypoint, các điểm này kèm theo các mô tả về nó và một véc tơ đặc trưng lấy keypoint làm điểm gốc

Một khía cạnh quan trọng của phương pháp này là nó tạo ra một số lượng lớn các thuộc tính mà tỉ lệ bao phủ toàn bức ảnh ở mọi tỉ lệ và địa điểm Một hình ảnh tiêu biểu của kích thước 500x500 pixel có tới 2000 thuộc tính ổn định (mặc dù con số này phụ thuộc vào cả nội dung hình ảnh và sự lựa chọn cho các thông số khác nhau) Số lượng các thuộc tính đặc biệt quan trọng đối với sự nhận dạng đối tượng, vì khả năng phát hiện những vật thể nhỏ trong nền lộn xộn đòi hỏi ít nhất là

3 thuộc tính được được đối sánh đúngvới mỗi đối tượng cần nhận dạng

Có bốn giai đoạn chính được thực hiện trong thuật toán để tìm ra các điểm đặc biệt và các đặc trưng của nó bao gồm:

Phát hiện các điểm đặc trưng (Scale-Space): Bước đầu tiên là tìm kiếm tất

cả các điểm có khả năng là các điểm đặc trưng tiềm năng (candidate keypoints) bằng cách áp dụng hàm sai khác Gaussian (DoG - Deffirence of Gaussisan), đó là những điểm bất biến khi thu phóng ảnh hoặc xoay ảnh

Định vị các điểm đặc trưng (Keypoint localization): Từ những điểm đặc

trưng tiềm năng thu được ở trên sẽ áp dụng các bộ lọc và lấy ra tập các điểm đặc trưng tốt nhất (keypoints)

Xác định hướng cho các điểm đặc trưng(Oriented Assignment): Mỗi điểm

đặc trưng sẽ được gán cho một hoặc nhiều hướng dựa trên hướng gradient của ảnh Tất cả các hoạt động trong tương lai được thực hiện trên dữ liệu hình ảnh đã được

Trang 29

chuyển đổi liên quan đến phép gán hướng, kích cỡ và vị trí của mỗi điểm đặc trưng Từ đó, tạo ra một sự bất biến trong các phép xử lý

Mô tả các điểm đặc trưng (Keypoint Description): Các điểm hấp dẫn sau

khi được xác định hướng sẽ được mô tả dưới dạng các vector đặc trưng nhiều chiều Các gradient hình ảnh được chọn lựa trong các vùng xung quanh điểm đặc trưng Chúng được chuyển đổi thành đại diện quan trọng khi làm méo hình dạng và thay đổi trong chiếu sáng

2.4.1 Phát hiện các điểm đặc trưng Scale-Space

Theo các công bố của Koenderink (1984) và Lindeberg (1994) thì hàm tốt nhất để biễu diễn không gian đo của ảnh 2 chiều là hàm Gaussian Vì vậy, không gian đo của một ảnh sẽ được định nghĩa như là một hàm L(x,y,) được tạo ra bằng cách nhân chập ảnh đầu vào I(x,y) với môt hàm Gaussian G(x,y,) có tham số về

số đo  thay đổi

Trong đó : * là phép nhân chập các ma trận 2 chiều x,y Và G(x,y,) hàm Gaussian :

Để phát hiện điểm đặc trưng (keypoint) ổn định và hiệu quả trong không gian

tỉ lệ, ta tìm cực trị cục bộ của hàm sai khác DoG (Difference-of-Gaussian), kí hiệu

là D(x,y, ) Hàm này chúng có thể được tính toán từ sự khác biệt của hai không gian đo lân cận cách nhau bởi một số hằng số k không đổi

D(x,y,) = L(x,y,k) – L(x,y,) = (G(x,y,k) – G(x,y, )) * I(x,y) (2.3)

Lý do lựa chọn hàm Gaussian là đặc biệt và rất hiệu quả để tính toán L (cũng

như làm tăng độ mịn của ảnh), mà L thì luôn phải được tính rất nhiều trong bất kì

bộ mô tả thuộc tính không gian tỉ lệ nào, vào do đó D sẽ được tính một cách đơn

giản chỉ với phép trừ ma trận điểm ảnh

Trang 30

Hình 2.2 Quá trình tính không gian đo (L) và hàm sai khác D – Trích dẫn trong Lowe, D “Distinctive image features from scale-invariant keypoints” International

Journal of Computer Vision, 60, 2 (2004)

Hàm sai khác DoG có thể được sử dụng để tạo ra một sự xấp xỉ gần với đạo hàm bậc hai Laplace có kích thước chuẩn của hàm Gaussian (ó22G) do tác giả

Lindeberg đề xuất năm 1994 (Theo tài liệu Lowe, D “Distinctive image features from scale-invariant keypoints” International Journal of Computer Vision, 60, 2 (2004)) Ông đã chỉ ra rằng việc chuẩn hóa đạo hàm bậc hai với hệ số ó2 là cần thiết cho bất biến đo trở nên đúng Cụ thể, ông đã công bố rằng các giá trị cực đại

và cực tiểu của ó22G chính là những giá trị có tính ổn định nhất (bất biến cao) so với một loạt các hàm đánh giá khác như: Gradient, Hessian hay Harris

Mối quan hệ giữa D và ó22G được biễu diễn như sau :

Trang 31

Khi hàm sai khác DoG được tính toán tại các tham số đo lệch nhau một hằng

số k, thì ta có thể sử dụng DoG để xấp xỉ đạo hàm bậc hai Laplace của Gaussian

Vì hệ số (k-1) trong phương trình trên là hằng số trong mọi không gian đo nên nó

sẽ không ảnh hưởng đến việc tìm các vị trí cực trị Xấp xỉ đạo hàm bậc 2 có sai số tiến về 0 khi k gần với 1 Quá trình xấp xỉ đạo hàm không ảnh hưởng đến việc dò tìm các vị trí cực trị thậm chí ngay cả khi chọn k khá xa, ví dụ k=

Một cách tiếp cận hiệu quả để xây dựng D (x, y, σ) là từng bước kết hợp với Gaussian để tạo ra hình ảnh riêng biệt bởi hằng số k trong không gian tỉ lệ Sau khi

áp dụng hàm DoG ta thu được các lớp kết quả khác nhau (scale) từ ảnh gốc, bước tiếp theo là tìm các điểm đặc trưng Các điểm đặc trưng được xác định là các cực đại hoặc cực tiểu của các ảnh DoG qua các tỉ lệ Mỗi điểm ảnh trong DoG được so sánh với 8 điểm ảnh lân cận (láng giềng) của nó ở cùng tỉ lệ đó và 9 điểm láng giềng kề ở các tỉ lệ ngay trước và sau nó Nếu điểm ảnh mang đi so sánh đạt giá trị cực tiểu hoặc cực đại thì sẽ được chọn làm các điểm hấp dẫn ứng viên (hình dưới)

Hình 2.3 Cực đại và cực tiểu của các hình ảnh khác biệt-of-Gaussian được phát hiện bằng cách so sánh một pixel (đánh dấu X) với 26 điểm láng giềng trong khu vực 3x3 ở tỉ

lệ hiện tại và liền kề (đánh dấu bằng vòng tròn)

Điểm đánh dấu x sẽ được so sánh với 26 điểm lân cận, các điểm lân cận được đánh dấu vòng tròn xanh Điểm x sẽ được lấy làm điểm tiềm năng (điểm có

2

Trang 32

thể làm điểm đặc biệt – candidate keypoint) Nó được chọn khi và chỉ khi nó lớn hơn tất cả các điểm láng giềng hoặc nhỏ hơn tất cả Giải pháp cho việc tìm các

điểm tiềm năng này là sử dụng thuật toán dò tìm điểm (blob detection) do

Lindeberg đề xuất

Một vấn đề quan trọng là phải xác định tần số lấy mẫu trong ảnh và tỉ lệ miền để việc phát hiện các cực trị đáng tin cậy Thật không may, nó chỉ ra rằng không có khoảng cách tối thiểu của mẫu để phát hiện tất cả các cực trị Điều này có thể thấy được bằng cách xem xét một vòng tròn màu trắng trên nền đen, trong đó

sẽ có một không gian tỉ lệ lớn nhất, nơi các khu vực trung tâm vùng có hàm DOG phù hợp về kích thước và vị trí của hình tròn Đối với một hình elip rất dài, sẽ có hai cực đại gần nhau ở cuối của elip Tại các vị trí của cực đại là một hàm liên tục của ảnh, đối với một số hình elip với vùng trung tâm kéo dài sẽ có một quá trình chuyển đổi từ một cực trị đơn thành 2 cực trị, và đạt cực đại gần sự chuyển đổi khác gần nhau trong quá trình chuyển đổi

2.4.2 Định vị điểm đặc trưng

Khi một ứng viên keypoint (điểm hấp dẫn) đã được tìm thấy bằng cách so sánh một pixel với hàng xóm của mình, bước tiếp theo ta sẽ loại bỏ các điểm có độ tương phản kém (nhạy cảm với nhiễu) hoặc loại bỏ một số điểm hấp dẫn dọc theo các cạnh, không giữ được tính ổn định khi bị nhiễu

Việc thực hiện ban đầu của phương pháp này (Lowe, 1999) chỉ đơn giản là định vị keypoint vào vị trí và tỉ lệ của các điểm mẫu trung tâm Tuy nhiên, thời gian gần đây Brown đã phát triển một phương pháp (Brown và Lowe, 2002) cho một hàm bậc hai 3D vừa khít với các điểm lấy địa phương để xác định vị trí nội suy tối đa, và thí nghiệm của ông cho thấy rằng điều này cung cấp một sự cải thiện đáng kể phù hợp và ổn định Cách tiếp cận của ông sử dụng các mở rộng Taylor lên đến các phương trình bậc hai) của hàm tỉ lệ không gian, D (x, y, σ), dịch chuyển sao mà nguồn gốc là ở vị trí mẫu:

Trang 33

2.4.2.1 Phép nội suy lân cận cho vị trí đúng của điểm hấp dẫn

Phép nội suy lân cận sử dụng mở rộng Taylor (Taylor expansion) cho hàm Difference-of-Gaussian D(x,y,) :

𝐷 𝑥 = 𝐷 +𝜕𝐷𝜕𝑥𝑇 𝑥 +12𝑥𝑇 𝜕2𝐷

Trong đó: D và đạo hàm của nó và các dẫn xuất của nó đƣợc đánh giá ở vị trí mẫu và x = (x, y, σ) T là phần bù đắp từ vị trí này Vị trí của điểm cực trị đƣợc xác định bằng cách lấy đạo hàm trên với đối số x và tiến dần tới 0:

Hình 2.4 : Mô phỏng sử dụng công thức mở rộng của Taylor cho

hàm DoG

Ngày đăng: 14/10/2017, 16:27

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Tương tác người máy, Lương Bá Mạnh- Trường Đại học Bách Khoa Hà Nội [2] Nguyễn Thị Bạch Kim, Giáo trình các phương pháp tối ưu, lý thuyết và thuậttoán, NXB Bách Khoa Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Tương tác người máy", Lương Bá Mạnh- Trường Đại học Bách Khoa Hà Nội [2] Nguyễn Thị Bạch Kim, "Giáo trình các phương pháp tối ưu, lý thuyết và thuật "toán
Nhà XB: NXB Bách Khoa Hà Nội. Tiếng Anh
[3] D. Chai và K. N. Ngan, “Face segmentation using skin colour map in videophone applications”, IEEE Transactions on Circuits and Systems for Video Technology 9 (4) (1999) 551-564 Sách, tạp chí
Tiêu đề: Face segmentation using skin colour map in videophone applications
Tác giả: D. Chai, K. N. Ngan
Nhà XB: IEEE Transactions on Circuits and Systems for Video Technology
Năm: 1999
[6] Francesca Gasparini, Raimondo Schettini, “Skin Detection using Color Pixel Classification with Application” Sách, tạp chí
Tiêu đề: Skin Detection using Color Pixel Classification with Application
Tác giả: Francesca Gasparini, Raimondo Schettini
[7] Yanjiang Wang, Baozong Yuan, “A novel approach for human face detection from color images under complex background,” Pattern Recognition, vol. 34, pp.1983-1992, Feb. 2001 Sách, tạp chí
Tiêu đề: A novel approach for human face detection from color images under complex background
Tác giả: Yanjiang Wang, Baozong Yuan
Nhà XB: Pattern Recognition
Năm: 2001
[8] Mathias Kửlsch Vision Based Hand Gesture Interfaces for Wearable Computing and Virtual Environments. Ph. D. Dissertation, August 2004 Sách, tạp chí
Tiêu đề: Based Hand Gesture Interfaces for Wearable Computing and Virtual Environments. Ph. D. Dissertation
[10] Lowe, D. “Distinctive image features from scale-invariant keypoints” Sách, tạp chí
Tiêu đề: Distinctive image features from scale-invariant keypoints
Tác giả: D. Lowe
[12] Basri, R., andJacobs, D.W.1997. Recognition using region correspondences. International Journal ofComputerVision, 25(2) Sách, tạp chí
Tiêu đề: Recognition using region correspondences
Tác giả: Basri, R., Jacobs, D.W
Nhà XB: International Journal of Computer Vision
Năm: 1997
[13] Brown, M. And Lowe, D.G. 2002. Invariant features from interest point groups. In British Machine Vision Conference, Cardiff, Wales Sách, tạp chí
Tiêu đề: Invariant features from interest point groups
Tác giả: Brown, M., Lowe, D.G
Nhà XB: British Machine Vision Conference
Năm: 2002
[14] Vedrana Andersen, LarsPellarin, RenéeAnderson. Scale-Invariant Feature Transform (SIFT): Performance and Application. In The IT University of Copenhagen Sách, tạp chí
Tiêu đề: Scale-Invariant Feature Transform (SIFT): Performance and Application
Tác giả: Vedrana Andersen, Lars Pellarin, Renée Anderson
Nhà XB: The IT University of Copenhagen
[15] Piotr Indyk. Algorithms for Nearest Neighbor Search Slide. In MIT. Website Sách, tạp chí
Tiêu đề: Algorithms for Nearest Neighbor Search Slide
[16] OpenCV Library, http://sourceforge.net/projects/opencvlibrary/ Sách, tạp chí
Tiêu đề: OpenCV Library
[18] Fast Dynamic Time Warping Library, http://code.google.com/p/lbimproved/ Sách, tạp chí
Tiêu đề: Fast Dynamic Time Warping Library
Tác giả: Daniel Lemire
Nhà XB: Pattern Recognition
Năm: 2009
[17] Approximate Nearest Neighbor Library, http://www.cesti.gov.vn/ Link
[11] Lee, David. Object Recognition from Local Scale-Invariant Features (SIFT). O319.Sift.ppt Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm