Xuất phát từ tình hình thực tế và xu hướng phát triển không ngừng của ngành công nghệ thông tin nói chung và lĩnh vực tương tác người máy Human computer Interaction-HCI nói riêng, học vi
Trang 1LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã đƣợc cảm ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc
Hải Phòng, ngày 15 tháng 8 năm 2015
Học viên thực hiện Luận văn
Nguyễn Thị Giang
Trang 2LỜI CẢM ƠN
Không có thành công nào mà không gắn liền với sự giúp đỡ của người khác
dù ít hay nhiều dù trực tiếp hay gián tiếp, thực tế đã chứng minh Trong suốt thời gian học tập và nghiên cứu tôi đã nhận được rất nhiều sự giúp đỡ của quý thầy cô, bạn bè và gia đình
Với lòng biết ơn sâu sắc nhất, tôi xin gửi lời cảm ơn đến các thầy cô khoa Công nghệ thông tin – Trường Đại học Hàng Hải đã giảng dạy và hướng dẫn tôi trong quá trình học tập tại trường Đặc biệt là TS Hồ Thị Hương Thơm đã tận tâm hướng dẫn và giúp đỡ tôi trong suốt quá trình thực hiện đề tài:
“NHẬN DẠNG CỬ CHỈ TAY TRONG TƯƠNG TÁC NGƯỜI MÁY”
Tôi xin chân thành cảm ơn các thầy cô trong Viện đào tạo sau Đại học- Đại học Hàng Hải đã tạo điều kiện tốt nhất cho chúng tôi được học tập và nghiên cứu tại trường
Cuối cùng, tôi muốn gửi lời cảm ơn vô hạn tới gia đình, bạn bè và những người thân yêu luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện Luận văn tốt nghiệp
Tôi kính chúc các thầy cô khoa Công Nghệ Thông Tin cùng toàn thể thầy cô Viện đào tạo sau đại học và TS Hồ Thị Hương Thơm luôn luôn mạnh khỏe để tiếp tục thực hiện sứ mệnh cao đẹp truyền đạt kiến thức cho thế hệ mai sau
Xin chân thành cảm ơn!
Học viên
Nguyễn Thị Giang
Trang 3MỤC LỤC
Lời cam đoan i
Lời cảm ơn ii
Mục lục iii
Dang mục các chữ viết tắt và ký hiệu iv
Danh mục các hình v
Mở đầu 1
Chương 1 KHÁI NIỆM TỔNG QUAN 3
1.1.Tương tác người máy là gì? 3
1.2.Các phương pháp nghiên cứu HCI 4
1.3.Tương tác người máy bằng cử chỉ tay 8
CHƯƠNG 2 LÝ THUYẾT CƠ SỞ 15
2.1.Nguyên tắc hoạt động của các hệ thống nhận dạng cử chỉ tay 15
2.2.Phân đoạn ảnh dựa vào màu da 16
2.3.Các phương pháp trích chọn đặc trưng 18
2.4.Phương pháp đặc trưng bất biến cục bộ theo tỉ lệ SIFT 21
2.5.Kĩ thuật đối sánh 30
CHƯƠNG 3 MỘT SỐ KỸ THUẬT NHẬN DẠNG CỬ CHỈ TAY VÀ ỨNG DỤNG 34
3.1.Nhận dạng cử chỉ tay dựa trên màu da học 34
3.2.Nhận dạng cử chỉ tay dựa trên tập hợp các cử chỉ mẫu 36
3.3.Ứng dụng cử chỉ tay trong tương tác người máy 41
CHƯƠNG 4 CÀI ĐẶT, THỬ NGHIỆM VÀ ĐỀ MÔ CHƯƠNG TRÌNH 44
4.1 Môi trường cài đặt 44
4.2 Giới thiệu và đề mô chương trình 44
4.3 Thử nghiệm và đánh giá 52
KẾT LUẬN 57
TÀI LIỆU THAM KHẢO 59
Trang 4DANG MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU
COG Trọng tâm của lực hấp dẫn
MkD Thuật toán tìm ngƣỡng MK-RoD Algorithm
Trang 51.9 Hệ thống dịch ngôn ngữ ký hiệu Kinect Translator 11
1.13 Mô hình Virtual reality tại Viện Fraunhofer 13 2.1 Mô hình nguyên tắc hoạt động của hệ thống nhận dạng cử
chỉ tay
15
2.2 Quá trình tính không gian đo (L) và hàm sai khác D –Trích
dẫn trong Lowe, D “Distinctive image features from
scale-invariant keypoints” International Journal of Computer
Vision, 60, 2 (2004)
23
2.3 Cực đại và cực tiểu của các hình ảnh khác biệt-of-Gaussian
đƣợc phát hiện bằng cách so sánh một pixel (đánh dấu X)
với 26 điểm láng giềng trong khu vực 3x3 ở tỉ lệ hiện tại và
Trang 62.5 (a) là ảnh gốc (b) mô tả các điểm hấp dẫn tìm được, các
điểm keypoints được vẽ ở dạng một vector thể hiện 3 thông tin: vị trí, hướng và độ dài (c) là ảnh sau khi loại bỏ các
điểm hấp dẫn có độ tương phản thấp (d) là ảnh sau khi loại
bỏ các điểm hấp dẫn dọc theo cạnh
27
2.7
Đối sánh hai ảnh quy về đối sánh hai tập hợp điểm đặc trưng 30
3.1 Các bàn tay sau khi phân ngưỡng bị nhiễu 35
3.6 Hệ thống nhận dạng cử chỉ với thuật toán SIFT và thuật toán
đối sánh mẫu điểm
37
3.8 (a) Hình ảnh từ Cơ sở dữ liệu đào tạo
(b) Hình ảnh đầu vào kiểm tra với những điểm chính
40
3.9 Khởi động ứng dụng office (Cử chỉ hai ngón tay => Khởi
động Microsoft Excel)
42
4.2 Cử chỉ một ngón tay =>Khởi động Microsoft office 45 4.3 Cử chỉ hai ngón tay=>Khởi động Microsoft Excel 46 4.4 Cử chỉ ba ngón tay=>Khởi động Microsoft Access 46 4.5 Cử chỉ bốn ngón tay =>Khởi động Microsoft PowerPoint 47
Trang 74.6 Cử chỉ năm ngón tay =>Khởi động Microsoft Outlook 47 4.7 Điều khiển Game (Cử chỉ một ngón tay=>Hình cần xếp
đang đi xuống)
Trang 8MỞ ĐẦU
Nhận dạng cử chỉ của tay người là cách tự nhiên khi tương tác người – máy (Human computer Interaction-HCI) Nhiều nhà nghiên cứu trong các học viện và ngành công nghiệp đang quan tâm đến hướng nghiên cứu này Nó cho phép con người tương tác với máy tính rất dễ dàng mà không phải sử dụng các phương pháp tương tác thông thường như bàn phím hay chuột
Với sự ra đời của các thiết bị thông minh, nhiều hoạt động đời thường cũng
sử dụng kỹ thuật điều khiển bằng cử chỉ, ví dụ: Người dùng có thể dùng tay ra lệnh bật/tắt tivi, thay đổi kênh, tăng/giảm âm lượng và làm nhiều thứ khác Kỹ thuật này cũng đã được sử dụng cho các thiết bị chơi game thế hệ mới như Microsoft XBox, Sony PS3,…Người chơi thường điều khiển bằng cách thực hiện các chuyển động
mà họ muốn nhân vật trong trò chơi thể hiện, điều này giúp người chơi được hóa thân vào nhân vật XBox thế hệ mới sử dụng camera để giám sát các chuyển động
và xử lý sao cho nhân vật thực hiện giống y như vậy Điều khiển dựa trên cử chỉ cũng giúp ích rất nhiều cho những người khuyết tật trong việc điều khiển xe lăn Bên cạnh đó, kỹ thuật điều khiển bằng cử chỉ còn được sử dụng trong các lĩnh vực đặc biệt như điều khiển cần cẩu, huấn luyện trong thể thao, phẫu thuật trong y tế,…
Ngày nay, việc điều khiển bằng cử chỉ chưa hẳn sẽ thay thế hoàn toàn các
“thiết bị nhập” như: bàn phím hay màn hình cảm ứng, và không phải lúc nào cũng
có đủ điều kiện để sử dụng Nhưng trong tương tác người máy việc kết hợp nhiều
“kênh giao tiếp” sẽ tạo ra sự “uyển chuyển” và hiệu quả hơn
Xuất phát từ tình hình thực tế và xu hướng phát triển không ngừng của ngành công nghệ thông tin nói chung và lĩnh vực tương tác người máy (Human computer Interaction-HCI) nói riêng, học viên đã lựa chọn hướng nghiên cứu một
số phương pháp nhận dạng cử chỉ tay từ ảnh tĩnh hoặc video dựa trên một số cử chỉ đặc trưng như giơ một ngón tay, hai ngón tay, , cả năm ngón tay Từ đó ứng dụng để điều khiển các phần mềm Microsoft Office hoặc các chương trình Game
Luận văn gồm bốn chương các chương có những nội dung sơ bộ như sau:
Trang 9Chương 1 Khái niệm tổng quan
Trong chương này Luận văn trình bày về khái niệm tương tác người máy (HCI), các phương pháp nghiên cứu trong HCI, trong đó có phương pháp nhận dạng cử chỉ tay người và một số khó khăn gặp phải khi nghiên cứu theo phương pháp này
Chương 2 Lý thuyết cơ sở
Luận văn tìm hiểu về nguyên tắc hoạt động của hệ thống nhận dạng cử chỉ tay, phân đoạn ảnh dựa vào da và các phương pháp trích chọn điểm đặc trưng của ảnh
Chương 3 Một số kỹ thuật nhận dạng cử chỉ tay và ứng dụng
Luận văn tiếp tục đi sâu tìm hiểu một số kỹ thuật nhận dạng cử chỉ tay như: Nhận dạng cử chỉ tay dựa trên màu da học; nhận dạng cử chỉ tay dựa trên tập hợp các cử chỉ mẫu và các ứng dụng thực tế của các kỹ thuật trên
Chương 4 Cài đặt thử nghiệm và đề mô chương trình
Dựa trên cơ sở lý thuyết tìm hiểu được từ các chương trước học viên sử dụng phần mềm MATLAB R2008B để cài đặt thử nghiệm và đề mô chương trình Sau đó đã đưa ra một số đánh giá nhận xét về kết quả tìm được
Cuối cùng là kết luận, Phần này tổng kết các kết quả chính của Luận văn và phương hướng nghiên cứu tiếp theo
Do đây là một vấn đề rất mới và kiến thức của học viên còn hạn chế nên trong quá trình thực hiện đề tài không thể tránh khỏi những thiếu sót Kính mong thầy cô và các bạn đóng góp ý kiến để đề tài được hoàn thiện hơn
Xin chân thành cảm ơn!
Trang 10CHƯƠNG 1 KHÁI NIỆM TỔNG QUAN
Trong chương này Luận văn trình bày về khái niệm tương tác người máy (Human computer Interaction-HCI), các phương pháp nghiên cứu trong HCI, trong
đó có phương pháp nhận dạng cử chỉ tay người và một số khó khăn gặp phải khi
nghiên cứu theo phương pháp này
1.1 Tương tác người máy là gì?
Tương tác người máy (Human computer Interaction-HCI) nói đơn giản là việc nghiên cứu các tác động qua lại giữa con người và công nghệ máy tính HCI
là một lĩnh vực được quan tâm từ khi máy tính ra đời
Tuy nhiên những năm 50-80 của thế kỷ 20: HCI chưa được quan tâm Lý do là vì người sử dụng chủ yếu là các kỹ sư máy tính và khi tương tác để lấy dữ liệu là các chuyên viên máy tính Hầu như người dùng không đối thoại trực tiếp với chương trình Dữ liệu sau khi đánh giá người dùng mang về phân tích đánh giá theo cách riêng của mình
Từ những năm 80: Khoa học và công nghệ phát triển, máy vi tính ngày càng có nhiều khả năng mạnh hơn: bộ nhớ dung lượng lớn hơn, tốc độ xử lý nhanh hơn và các thiết bị ngoại vi cũng đa dạng hơn Xuất hiện mạng Internet toàn cầu và nhiều phần mềm ứng dụng phong phú đáp ứng nhu cầu ngày càng cao của người dùng
Từ những năm 90: Nhu cầu đào tạo và học gia tăng dẫn đến nhu cầu đào tạo
từ xa qua mạng (Elearning), liên quốc gia
Thành lập hiệp hội Công nghệ phần mềm về HCI: SIGHCI (Special Interest Group on Computer Human Interaction)
SIGHCI năm 1992 tại New York đã đề xuất khung đào tạo HCI
HCI là một lĩnh vực đa ngành Người thiết kế một hệ thống tương tác phải
có kiến thức đa ngành: Hiểu được sự cảm nhận thông tin, nhận thức, giải quyết vấn
đề, áp dụng khoa học máy tính và công nghệ để có thể xây dựng các công nghệ cần thiết, kỹ năng đồ họa để thiết kế các giao tiếp
Trang 11HCI liên quan đến:
Nghiên cứu việc con người sử dụng các giao diện
Phát triển các ứng dụng mới cho người dùng
Phát triển các thiết bị, công cụ mới cho người dùng
1.2 Các phương pháp nghiên cứu HCI
Tương tác của con người và thế giới bên ngoài xảy ra khi thông tin được tiếp nhận và được gửi qua: đầu vào và đầu ra
Tương tác của máy tính và con người cũng tương tự như vậy, người sử dụng gửi yêu cầu đến đầu vào của máy tính và nhận thông tin từ đầu ra của máy tính Như vậy đầu ra của người trở thành đầu vào của máy tính Đầu vào trong con người chủ yếu xuất hiện thông qua các giác quan, đầu ra xuất hiện thông qua sự điều khiển vận động của các cơ quan phản ứng kích thích
Con người có năm giác quan chính: thị giác, thính giác, xúc giác, vị giác, khứu giác Trong số đó, ba giác quan đầu tiên là những giác quan quan trọng nhất trong tương tác giữa người và máy tính
Hiện tại, vị giác và khứu giác không có vai trò quan trọng trong các hệ thống máy tính thông thường cũng như trong tương tác người máy, mặc dù chúng có thể
có vai trò trong các hệ thống chuyên dụng như: dùng mùi vị để đưa ra các cảnh báo
về những hỏng hóc hay các hoạt động bất thường xẩy ra
Khi tương tác với máy tính, bạn nhận thông tin chủ yếu qua việc nhìn từ những gì đang xuất hiện trên màn hình Bên cạnh đó, bạn cũng có thể nhận thông tin bằng tai: ví dụ, máy tính có thể phát ra tiếng kêu bíp khi mắc lỗi Xúc giác cũng tham gia vào quá trình để bạn có được cảm nhận về những gì bạn đang làm và hiện nay việc gửi thông tin cho máy tính phổ biến nhất vẫn là việc dùng các ngón tay, thông qua việc đánh máy hay điều khiển con chuột Chúng ta sẽ tìm hiểu vai trò và hạn chế của 3 giác quan chính sau đó sẽ xem xét đến sự điều khiển vận động bằng
cử chỉ tay
Trang 121.2.1 Thị giác
Đối với một người bình thường thị lực là nguồn tiếp nhận thông tin chủ yếu Tuy nhiên nó vẫn còn một số hạn chế:
Thứ nhất khả năng thu nhận màu sắc của con người có hạn
Thứ hai nếu góc nhìn của một đối tượng quá nhỏ, chúng ta sẽ không
có khả năng thu nhận nó
Cuối cùng là sử dụng độ tương phản trong hiển thị: một độ tương phản có các đối tượng đen trên nền màn hình trắng hay còn gọi là độ tương phản âm, sẽ tạo ra độ chói cao hơn và do đó làm tăng tính sắc nét hơn, so với độ tương phản dương (các đối tượng có màu sắc gần giống màu nền) Điều này cũng sẽ làm tăng tính dễ đọc Tuy nhiên, độ tương phản âm cũng có thể sẽ xẩy ra sự lập loè, không ổn định
HCI với thị giác:
Ứng dụng trong màn hình 3D phim 3D
Thu hai hình ảnh dành cho 2 mắt
(camera có len đôi)
Hai hình ảnh được chiếu đồng thời
Tai chúng ta có thể nghe được các tần số từ khoảng 20 Hz đến 15 kHz Nó phân biệt được các thay đổi tần số trong phạm vi nhỏ hơn 1.5 Hz đối với các tần số
Hình 1.1 Phim 3D
Trang 13thấp Các tần số khác nhau kích thích các nơ ron thần kinh ở các phần khác nhau trong hệ thống thính giác và tạo ra các tỷ lệ khác nhau của các nơron thần kinh
Tuy nhiên, nếu âm thanh quá ồn, hoặc tần số của nó quá nhỏ, chúng ta sẽ không có khả năng phân biệt được các âm thanh khác nhau
HCI với thính giác:
Các âm thanh hiện tại vẫn được sử dụng chính vào việc thông báo:
Thông báo khi gõ bàn phím
Thông báo khi vào windows
Thông báo khi máy sắp hết pin, …
Hiện nay âm thanh đang được nghiên cứu:
Tổng hợp tiếng nói để con người có thể nghe đọc tài liệu thay vì nhìn tài liệu, ứng dụng này được dùng để phục vụ người khiếm thị
Dùng âm nhạc để tạo ra các hiệu ứng trong trình diễn nội dung
1.2.3 Xúc giác
Mặc dù trong cuộc sống của con người xúc giác ít quan trọng hơn so với thị giác và thính giác, nhưng chúng ta lại không thể thiếu nó Nếu như thị giác và thính giác giúp ta nhìn và nghe được thông tin thì xúc giác cho chúng ta cảm nhận được những thông tin đó Xúc giác đem lại cho mỗi người cảm giác về môi trường xung quanh mỗi khi cầm nắm vào một vật nào đó và do đó nó đóng vai trò như một cảnh báo
Ví dụ: Khi ta chạm tay vào cốc nước nóng thì ta có cảm giác nóng rát ở tay Hoặc với những người chơi Game họ muốn hóa thân vào nhân vật, muốn có được cảm giác tự nhiên về việc cầm nắm hoặc tiếp xúc trực tiếp với các đối tượng một cách thực sự
Trang 14Đây cũng chính là những yêu cầu đặt ra cho các nhà thiết kế đồ hoạ, thiết kế giao diện Do đó, xúc giác là phương tiện quan trọng để phản hồi và trong máy tính việc sử dụng các thông tin phản hồi là tương đối nhiều
Như chúng ta biết, trong cuộc sống hàng ngày đối với một người bình thường thì xúc giác chỉ là nguồn thông tin đứng thứ hai, nhưng đối với những người mà thị giác hoặc thính giác của họ bị hỏng thì xúc giác lại trở nên rất quan trọng Với những người dùng như vậy, các giao diện như là: hệ thống chữ nổi, nhận dạng cử chỉ tay,… sẽ trở thành nguồn thông tin cơ bản cho tương tác
Bộ máy xúc giác có 3 loại cơ quan thụ cảm:
Cơ quan thụ cảm nhiệt: phản ứng lại với nóng, lạnh,…
Cơ quan thụ cảm thần kinh: phản ứng lại với sự nóng giận, buồn, vui,…
Cơ quan thụ cảm cơ: phản ứng lại với áp lực, độ nhạy cảm của các ngón tay,
Trong đề tài này tương tác giữa người và máy được thể hiện thông qua cử chỉ tay nên chúng ta chỉ quan tâm đến cơ quan thụ cảm cơ
Chẳng hạn trong quá trình đánh máy: Tốc độ đánh máy phụ thuộc vào việc cảm nhận vị trí tương đối của các ngón tay và thông tin phản hồi từ bàn phím Hoặc nhận dạng cử chỉ tay từ đó đưa ra các tín hiệu yêu cầu máy tính sẽ thực hiện theo
ý bạn mà không cần dùng chuột hay bàn phím
HCI trong xúc giác:
Năm 2014 là năm của công nghệ “chạm” Nhờ các thiết bị cảm ứng thông minh, người ta có thể chạm tay để chụp ảnh, chạm tay để ghi âm hoặc để gõ vài
dòng chia sẻ cảm xúc… Tuy nhiên vẫn còn hạn chế với khả năng mô phỏng cảm giác khi chạm, tức là xúc giác
Xuất phát từ thực tế đó công nghệ “Haptic” ra đời từ thập niên 90 Haptic
không chỉ là công nghệ “chạm”, haptic là “chạm và cảm nhận” Máy tính dễ
Trang 15truyền đạt tín hiệu giúp người dùng xem được hình ảnh, gõ chữ bằng bàn phím, nghe âm thanh ở loa, nhưng không thể cảm nhận những gì đang xảy ra bên trong
bộ máy bằng xúc giác Sau nhiều nghiên cứu, thách thức được giải quyết nhờ phân
tích thành phần của cảm giác “chạm”
1.3 Tương tác người máy bằng cử chỉ tay
Chúng ta đã quen làm việc với máy tính thông qua các công cụ như: chuột, bàn phím nhưng càng ngày khoa học công nghệ càng tiến bộ đã xuất hiện những phương pháp tương tác giữa người và máy đáng kinh ngạc như: màn hình chạm (iPhone, iPad) rồi đến công nghệ điều khiển bằng giọng nói (như Siri) Ngày nay một số thiết bị còn cho phép người dùng “nhập” văn bản trực tiếp bằng cách đọc (nhờ phần mềm nhận dạng giọng nói) Để việc tương tác giữa người và máy tính ngày càng thận thiện người ta đã phát hiện công nghệ cho phép sử dụng cử chỉ tay
để điều khiển máy tính và các thiết bị số khác
1.3.1 Thông điệp cử chỉ
Việc công nhận cử chỉ tay là rất khó khăn vì mỗi cử chỉ tay được biến đổi theo mỗi người Mỗi ký hiệu được sử dụng để giao tiếp theo một quy tắc khác nhau cung cấp “Dữ liệu đầu vào” cho thiết bị
Ví dụ :
"một" có thể có nghĩa là "tiến lên phía trước"
"Năm" có thể có nghĩa là "dừng lại"
"hai", "ba" và "bốn" có thể được hiểu là "đảo ngược", "rẽ phải" và " rẽ trái"
Hình 1.2 Một số sản phẩm nổi bật dùng trong Haptic hiện nay
Trang 16Hình 1.3 Các ký hiệu về cử chỉ tay tương ứng với số ngón tay
Với máy tính “hiệu lệnh” của cử chỉ được nhận dạng theo các kiểu sau:
Định trước: Xác định rõ một cử chỉ để đưa ra các cách điều khiển Ví dụ: Trong điều khiển bật tắt đèn Khi tay tiến về phía công tắc, đèn sẽ
tự bật lên, nếu phát hiện tay tiến về phía công tắc lần nữa thì đèn sẽ được tắt,…
Liên hệ chức năng: Liên hệ các chức năng điều khiển của các thiết bị với một số bộ phận trên cơ thể để đưa ra các tập lệnh tương ứng Ví dụ: Xoay cánh tay đề ra lệnh cho Robot quay,…
Trao đổi tự nhiên: Sử dụng cử chỉ giao tiếp giữa người với người để gửi tín hiệu lệnh điều khiển thiết bị Ví dụ: Quạt tay trước mặt để ra hiệu nóng, điều hòa sẽ hạ thấp nhiệt độ,…
1.3.2 Phương pháp nghiên cứu nhận dạng cử chỉ tay
Có rất nhiều hướng nghiên cứu việc nhận dạng cử chỉ tay như:
Găng tay có cảm biến
Các cảm biến được sử dụng để cung cấp
thông tin về vị trí, hướng của bàn tay và cử động
của các ngón tay Găng tay điều khiển thương mại
đầu tiên của hãng DataGlove có gắn các sợi cáp Hình 1.4 Găng tay cảm biến [17]
Trang 17Hình 1.5 Touchpad
quang mỏng chạy phía sau lưng bàn tay, mỗi sợi có một khe nhỏ Ánh sáng được chiếu trong sợi cáp, khi các ngón tay co lại sẽ làm rò rỉ ánh sáng qua khe và thông tin này được ghi nhận để xác định tư thế của tay
Bàn di cảm ứng (touchpad)
Có chức năng giống như chuột trên máy tính
xách tay ghi nhận các di chuyển của tay bằng cảm
ứng Ngày nay công nghệ này đã được áp dụng rất
nhiều trên các thiết bị điện thoại thông minh
Bộ phát siêu âm và bộ thu
Là những thiết bị có khả năng theo dõi vị trí của bộ phát, gắn trên thiết bị cần điều khiển Bộ phận nghiên cứu của hãng phần mềm Microsoft vừa giới thiệu công nghệ SoundWave, đó là việc sử dụng loa và micro thông thường (hoặc tích hợp sẵn trên máy tính xách tay) để nhận dạng cử chỉ dựa trên hiệu ứng Droppler
Hình 1.6 NailO – bàn rê nhỏ có thể đeo
trên ngón tay-Dùng để điều khiển
Smartphone
Hình 1.7 Soundwave- Công nghệ cảm biến nhận dạng cử chỉ bằng sóng
âm(Droppler)
Trang 18 Kỹ thuật quan sát dùng camera: Kỹ thuật này có 2 cách
Một là: dựa trên mô hình: lập mô hình tập hợp các cử chỉ mẫu và nhận dạng khi có cử chỉ trùng
Hai là: dựa trên hình ảnh: ghi nhận hình ảnh chuyển động trong suốt quá trình của cử chỉ để nhận dạng
Luận văn nghiên cứu theo phương pháp kỹ thuật quan sát dùng camera dựa trên mô hình tập hợp mẫu: Phân loại hình ảnh dựa trên các tính năng triết xuất bằng thuật toán SIFT Phương pháp này đã được thử nghiệm và đem lại một số ghi nhận đáng kể cho công nhận cử chỉ tay tĩnh
1.3.3 Những ứng dụng dựa trên cử chỉ tay người
Ngôn ngữ ký hiệu
Ngôn ngữ ký hiệu bắt đầu trước khi có sự
xuất hiện của con người Ngôn ngữ ký hiệu là hình
thức thô nhất và tự nhiên của ngôn ngữ đánh dấu,
Ngày nay ngôn ngữ kí hiệu vẫn được sử dụng trong
Hình 1.8 Màn hình cảm ứng chạm
Trang 19Hình 1.12 Điều khiển Robot bằng cử chỉ tay
các thiết bị nhận diện cử chỉ, ký hiệu cho người khiếm thính
Thiết kế 3D
Việc thao tác đầu vào 3 chiều với chuột của máy tính là rất phước tạp và tốn nhiều thời gian Các công nghệ 3DRAW có khả năng theo dõi vị trí và định hướng trong 3D
Ví dụ:
Công ty SensoMotoric Instruments (SMI) có trụ sở tại Đức SMI đã cho ra thị trường chiếc kính 3D
độc đáo chiếc kính 3D này có khả năng theo
dõi mắt người đeo Người đại diện công ty SMI
nói rằng họ đã sử dụng công nghệ ActiveEye
Khi người dùng đeo kính thì hình ảnh xung
quang sẽ tự hiệu chỉnh theo môi trường 3D
Intel phát triển camera 3D
Camera này có thể nhận biết cảm xúc, từ
đó biết được các chuyển động của người dùng,
theo dõi cảm xúc và thậm chí là ghi nhớ thói
quen của họ, ví dụ: ghi nhớ thói quen đọc sách
của trẻ em Hãng cho biết loại camera mới sẽ
được tích hợp vào các Laptop
Điều khiển từ xa
Điều khiển từ xa là một lĩnh
vực trí tuệ nhân tạo nhằm mục đích
hỗ trợ con người điều khiển các thiết
bị mà không cần tiếp cận gần máy
móc Ví dụ: Thông qua các cử chỉ của
cơ thể để điều khiển Robot thực hiện
Hình 1.11. Webcam Senz3D của
Creative Hình 1.10 Kính 3D theo rõi mắt
người
Trang 20Hình 1.13 Mô hìn Virtual reality tại Viện Fraunhofer (CHLB Đức)
nhiệm vụ cần thiết, điều khiển xe lăn cho người khuyết tật,…
Virtual reality
Virtual reality là một hệ thống mô phỏng trong đó đồ họa máy tính được sử dụng để tạo ra một thế giới "ảo" Thế giới này như thật nhưng không tĩnh mà thay đổi liên tục theo ý muốn (tín hiệu vào) của người sử dụng (nhờ hành động, lời nói, ) Virtual reality có đặc tính chính là khả năng tương tác thời gian thực time interactivity) Thực tế ảo được áp dụng để nâng cao hệ thống xúc giác tiên tiến hiện nay, ứng dụng trong y tế hoặc chơi Game
1.3.4 Những khó khăn trong nhận dạng cử chỉ tay
Tuy có một tương lai rất hứa hẹn nhưng việc xây dựng các hệ thống tương
tác người máy dựa trên cử chỉ tay vẫn còn gặp phải một số vấn đề khó khăn như:
Tốc độ nhận dạng: Để nhận dạng cử chỉ bàn tay trong thực tế ta phải
có thời gian cho thiết bị cảm n h ậ n ( camera hoặc webcam) thu thập các quan sát cần cho việc phân loại hay miêu tả đó là thời gian thực, tức là tốc độ xử lý phải nhanh
Độ chính xác: Môi trường của người điều khiển là động và phức tạp,
bị chi phối bởi nhiều yếu tố như: điều kiện ánh sáng, phông nền,…Vì vậy việc tách đối tượng quan tâm ra khỏi nền hay còn gọi là trừ nền để có thể phân tích chuyển
Trang 21động một cách chính xác hơn hoặc nhận diện vùng da (Skin detection), nhận dạng hình dáng của bàn tay,… vẫn còn là một thách thức đối với nhiều nhà nghiên cứu
Trang 22CHƯƠNG 2 LÝ THUYẾT CƠ SỞ
Trong chương này Luận văn tìm hiểu về nguyên tắc hoạt động của hệ thống nhận dạng cử chỉ tay, phương pháp phân đoạn ảnh dựa vào màu da và các phương pháp trích chọn điểm đặc trưng của ảnh
2.1 Nguyên tắc hoạt động của các hệ thống nhận dạng cử chỉ tay
Trong thế giới thực, chúng ta có thể cầm, thả, di chuyển… các đối tượng bằng các cử chỉ của bàn tay Ngày nay, với sự tiến bộ của khoa học và công nghệ khi c o n n g ư ờ i tương tác với các thiết bị như máy tính, tivi, ôtô… chỉ với vài
cử chỉ của bàn tay là ta có thể điều khiển được hoạt động của nó Để làm được điều này, bộ điều khiển của các thiết bị phải được gắn một thiết bị cảm nhận là camera hoặc webcam, thiết bị này sẽ thu nhận hình ảnh của bàn tay, nhận dạng cử chỉ tay để từ đó đưa ra các tập lệnh tương ứng với các ứng dụng cụ thể
Để nhận dạng cử chỉ tay, trước tiên hệ thống sử dụng các thiết bị thu như Camera hoặc Webcam để thu hình ảnh; Sau đó xử lý hình ảnh bằng cách trích chọn ra các đặc trưng để tính toán dưới dạng số hay biểu tượng; cuối cùng dựa vào các đặc tính đẵ được trích chọn để phân loại và nhận dạng cử chỉ tay
Dưới đây là nguyên tắc hoạt động của bài toán nhận dạng cử chỉ tay
Hình 2.1 Mô hình nguyên tắc hoạt động của hệ thống nhận dạng cử chỉ tay [17]
Trang 232.2 Phân đoạn ảnh dựa vào màu da
Phát hiện màu da là một bước xử lý tìm kiếm trong ảnh các vùng và điểm ảnh có màu da sau đó đưa ra kết quả ảnh vùng bàn tay là vùng các điểm ảnh có màu da, việc tìm các điểm ảnh có màu da bước đầu khá dễ dàng, nhưng do phương pháp này chỉ dựa vào thông tin về màu sắc nên các vùng ảnh, các đối tượng khác
có màu giống với màu da cũng bị nhận diện trùng với màu da, tạo ra sự nhập nhằng
Do đó, việc phát hiện bàn tay dựa trên màu da đạt hiệu quả cao nếu ảnh có màu nền phân biệt rõ với màu da và ngoài vùng bàn tay thì không chứa thêm các đối tượng khác có màu trùng với màu da “Skin Detection using Color Pixel Classification with Application” [6]
Phân loại da dựa vào các lớp vùng da
Thuật toán này dựa trên việc xây dựng mô hình phân bố màu da có tham số
Ví dụ: Ảnh gốc có màu (RGB) được chuyển đổi sang không gian màu
YCrCb Các mẫu màu da được lấy ra từ các ảnh màu để xác định phân bố màu da trong không gian màu YCrCb Sau đó áp dụng phân bố Gaussian Để loại bỏ nhiễu của ảnh thì trước đó áp dụng bộ lọc thông thấp cho các mẫu màu da Từ tập hợp các mẫu màu da đầu vào thu được ở trên, các tham số của mô hình được xây dựng trên cơ sở tính các tham số thống kê sau:
𝜇𝑠 = 1𝑛 𝑛𝑗 =1𝑐𝑗 ; = 𝑛−11 𝑛 (𝑐𝑗 − 𝜇𝑠)(𝑐𝑗 − 𝜇𝑠)𝑇
𝑗 =1
Trong đó:
𝑐𝑗 = (𝑐𝑟𝑐𝑏)𝑇: là các vectơ mẫu màu da trích chọn
n : tổng số các mẫu màu da
: vectơ trung bình của phân bố
ma trận phân bố
Trang 24Để xác định một điểm ảnh có là màu da hay không, ta tính toán hàm mật độ xác suất của điểm ảnh đó trong phân bố Gaussian theo công thức (2.2)
2.2.1 Phân loại da dựa vào ngưỡng trên mỗi kênh màu
Để phát hiện điểm ảnh có màu da, ta cần xác định ngưỡng cho các thành phần của không gian màu Ngưỡng này không phải là một giá trị mà có thể là một miền giá trị, các điểm ảnh được coi là màu da phải có giá trị thuộc phạm vi ngưỡng xác định trước của tất cả các thành phần trong không gian màu
Karin Sobottka và Loannis Pitas [5], sử dụng các ngưỡng cố định trong không gian màu HS để xác định màu da
Trang 25Yanjiang Wang và Baozong Yuan [7], thì sử dụng các giá trị ngưỡng trong không gian màu rgb( R+G+B= 1) và HSV, để xác định màu da
Tuy nhiên, sau một số thực nghiệm, đề tài sử dụng bảng dò màu da (lookup table) trong không gian màu RGB của tác giả Mathias Kolsh[8] thu được kết quả cao hơn
2.3 Các phương pháp trích chọn đặc trưng
2.3.1 Đặt vấn đề
Trong hệ thống nhận dạng ảnh nói chung và nhận dạng cử chỉ bàn tay nói riêng, chúng ta phải đưa ra các trích chọn đặc trưng từ hình ảnh bàn tay trước khi đưa vào tìm kiếm ảnh
Trong tìm kiếm ảnh, việc trích chọn các điểm đặc trưng thích hợp với từng loại truy vấn là quan trọng
Việc lựa chọn các đặc trưng và độ đo thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác của các hệ thống
Trang 26Lựa chọn các điểm đặc trưng sẽ cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu số lượng các đặc trưng quá nhiều sẽ làm che khuất hoặc giảm các tín hiệu (đồng nghĩa với việc tăng nhiễu), mặt khác, nếu số lượng các đặc trưng quá ít sẽ gây ra khó khăn trong việc phân biệt được ảnh để tìm kiếm
Trong đó N là số lượng điểm có trong ảnh
Để tính lược đồ màu của một ảnh, trước tiên ta đi rời rạc hóa từng màu trong ảnh; sau đó đếm số điểm ảnh của mỗi màu Với điều kiện số điểm màu có hạn Để thuận tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị duy nhất Một cách khác để tính lược đồ màu của ảnh RGB ta phân ra làm 3 lượt đồ
riêng biệt h R [], h G [], h B[] Khi đó, mỗi lược đồ được tính bằng cách đếm kênh màu
tương ứng trong mỗi điểm ảnh
2.3.3 Đặc trưng kết cấu
Kết cấu được đặc trưng bởi sự phân bổ không gian của những mức cường độ trong một khu vực gần với nhau Kết cấu gồm các kết cấu gốc hay nhiều kết cấu gộp lại đôi khi gọi là texel
Các phương pháp dùng để trích xuất các đặc trưng kết cấu như:
• Kim tự tháp "có thể lái được" (the steerable pyramid)
• Thay đổi đường viền (the cotourlet transform)
• Biến đổi sóng Gabor (The Gabor Wavelet transform)
• Biểu diễn ma trận đồng hiện (co-occurrence matrix)
Trang 27• Hệ thống bộ lọc định hướng phức tạp (The complex directional fillter bank)
2.3.4 Đặc trưng hình dạng
Trong một ảnh thì màu sắc và kết cấu là những thuộc tính có khái niệm toàn cục Hình dạng của ảnh ở đây không phải là hình tròn, đa giác hay elip,…Những hình dạng mà ta nhìn thấy đó không phải là một thuộc tính của ảnh Mà hình dạng ảnh ở đây đang là một khu vực đặc biệt trong ảnh Chẳng hạn như đường biên của một đối tượng nào đó trong
Trong việc tìm kiếm ảnh theo nội dung, hình dạng được đánh giá là ở cấp cao hơn hơn màu sắc và kết cấu Bởi vì cần có sự phân biệt giữa các vùng để tiến hành xử lý về độ đo của hình dạng Trong các hệ thống tìm kiếm ảnh theo nội dung người ta thường khai thác hai nhóm biểu diễn hình dạng sau:
Hình dạng đối tượng được biểu diễn hình theo đường biên based descriptor): Biểu diễn các đường biên bao xung quanh đối tượng
(cotour- Hình dạng đối tượng được biểu diễn theo vùng (region-based descriptor): Biểu diễn một vùng toàn vẹn
2.3.5 Đặc trưng cục bộ bất biến - SIFT
Đặc trưng cục bộ bất biến là đặc trưng không biến đổi khi ta quay ảnh, thay đổi tỉ lệ ảnh, đôi khi là cả thay đổi góc nhìn và thêm nhiễu ảnh hay thay đổi cường
độ chiếu sáng của ảnh.Thể hiện rõ nét trong việc đối sánh một vùng con của ảnh với phép biến đổi affine Phương pháp chiết xuất các thuộc tính bất biến đặc trưng
từ các hình ảnh được lựa chọn có tên là Scale-Invariant Feature Transform (SIFT) Đặc trưng trích rút đựợc gọi là đặc trưng SIFT (SIFT Feature) Đây là một phương pháp đáng tin cậy dùng để thực hiện đối sánh giữa các khung nhìn khác nhau của một đối tượng hay cảnh Bên cạnh đó SIFT cũng là phương pháp để nhận dạng các đối tượng
Trang 282.4 Phương pháp đặc trưng bất biến cục bộ theo tỉ lệ SIFT
Như đã phân tích ở trên việc tìm ra các điểm đặc trưng cục bộ bất biến đưa
ra hiệu quả khá cao trong việc tìm kiếm ảnh Từ những năm 2004, David Love đã đưa ra một thuật toán tiêu biểu dựa theo đặc trưng cục bộ bất biến trong ảnh đó là: SIFT (Scale-invariant Feature Transform) và đến nay thuật toán này ngày càng có nhiều cải tiến Đặc trưng được trích chọn trong SIFT là các điểm đặc biệt hay còn gọi là keypoint, các điểm này kèm theo các mô tả về nó và một véc tơ đặc trưng lấy keypoint làm điểm gốc
Một khía cạnh quan trọng của phương pháp này là nó tạo ra một số lượng lớn các thuộc tính mà tỉ lệ bao phủ toàn bức ảnh ở mọi tỉ lệ và địa điểm Một hình ảnh tiêu biểu của kích thước 500x500 pixel có tới 2000 thuộc tính ổn định (mặc dù con số này phụ thuộc vào cả nội dung hình ảnh và sự lựa chọn cho các thông số khác nhau) Số lượng các thuộc tính đặc biệt quan trọng đối với sự nhận dạng đối tượng, vì khả năng phát hiện những vật thể nhỏ trong nền lộn xộn đòi hỏi ít nhất là
3 thuộc tính được được đối sánh đúngvới mỗi đối tượng cần nhận dạng
Có bốn giai đoạn chính được thực hiện trong thuật toán để tìm ra các điểm đặc biệt và các đặc trưng của nó bao gồm:
Phát hiện các điểm đặc trưng (Scale-Space): Bước đầu tiên là tìm kiếm tất
cả các điểm có khả năng là các điểm đặc trưng tiềm năng (candidate keypoints) bằng cách áp dụng hàm sai khác Gaussian (DoG - Deffirence of Gaussisan), đó là những điểm bất biến khi thu phóng ảnh hoặc xoay ảnh
Định vị các điểm đặc trưng (Keypoint localization): Từ những điểm đặc
trưng tiềm năng thu được ở trên sẽ áp dụng các bộ lọc và lấy ra tập các điểm đặc trưng tốt nhất (keypoints)
Xác định hướng cho các điểm đặc trưng(Oriented Assignment): Mỗi điểm
đặc trưng sẽ được gán cho một hoặc nhiều hướng dựa trên hướng gradient của ảnh Tất cả các hoạt động trong tương lai được thực hiện trên dữ liệu hình ảnh đã được
Trang 29chuyển đổi liên quan đến phép gán hướng, kích cỡ và vị trí của mỗi điểm đặc trưng Từ đó, tạo ra một sự bất biến trong các phép xử lý
Mô tả các điểm đặc trưng (Keypoint Description): Các điểm hấp dẫn sau
khi được xác định hướng sẽ được mô tả dưới dạng các vector đặc trưng nhiều chiều Các gradient hình ảnh được chọn lựa trong các vùng xung quanh điểm đặc trưng Chúng được chuyển đổi thành đại diện quan trọng khi làm méo hình dạng và thay đổi trong chiếu sáng
2.4.1 Phát hiện các điểm đặc trưng Scale-Space
Theo các công bố của Koenderink (1984) và Lindeberg (1994) thì hàm tốt nhất để biễu diễn không gian đo của ảnh 2 chiều là hàm Gaussian Vì vậy, không gian đo của một ảnh sẽ được định nghĩa như là một hàm L(x,y,) được tạo ra bằng cách nhân chập ảnh đầu vào I(x,y) với môt hàm Gaussian G(x,y,) có tham số về
số đo thay đổi
Trong đó : * là phép nhân chập các ma trận 2 chiều x,y Và G(x,y,) hàm Gaussian :
Để phát hiện điểm đặc trưng (keypoint) ổn định và hiệu quả trong không gian
tỉ lệ, ta tìm cực trị cục bộ của hàm sai khác DoG (Difference-of-Gaussian), kí hiệu
là D(x,y, ) Hàm này chúng có thể được tính toán từ sự khác biệt của hai không gian đo lân cận cách nhau bởi một số hằng số k không đổi
D(x,y,) = L(x,y,k) – L(x,y,) = (G(x,y,k) – G(x,y, )) * I(x,y) (2.3)
Lý do lựa chọn hàm Gaussian là đặc biệt và rất hiệu quả để tính toán L (cũng
như làm tăng độ mịn của ảnh), mà L thì luôn phải được tính rất nhiều trong bất kì
bộ mô tả thuộc tính không gian tỉ lệ nào, vào do đó D sẽ được tính một cách đơn
giản chỉ với phép trừ ma trận điểm ảnh
Trang 30Hình 2.2 Quá trình tính không gian đo (L) và hàm sai khác D – Trích dẫn trong Lowe, D “Distinctive image features from scale-invariant keypoints” International
Journal of Computer Vision, 60, 2 (2004)
Hàm sai khác DoG có thể được sử dụng để tạo ra một sự xấp xỉ gần với đạo hàm bậc hai Laplace có kích thước chuẩn của hàm Gaussian (ó22G) do tác giả
Lindeberg đề xuất năm 1994 (Theo tài liệu Lowe, D “Distinctive image features from scale-invariant keypoints” International Journal of Computer Vision, 60, 2 (2004)) Ông đã chỉ ra rằng việc chuẩn hóa đạo hàm bậc hai với hệ số ó2 là cần thiết cho bất biến đo trở nên đúng Cụ thể, ông đã công bố rằng các giá trị cực đại
và cực tiểu của ó22G chính là những giá trị có tính ổn định nhất (bất biến cao) so với một loạt các hàm đánh giá khác như: Gradient, Hessian hay Harris
Mối quan hệ giữa D và ó22G được biễu diễn như sau :
Trang 31Khi hàm sai khác DoG được tính toán tại các tham số đo lệch nhau một hằng
số k, thì ta có thể sử dụng DoG để xấp xỉ đạo hàm bậc hai Laplace của Gaussian
Vì hệ số (k-1) trong phương trình trên là hằng số trong mọi không gian đo nên nó
sẽ không ảnh hưởng đến việc tìm các vị trí cực trị Xấp xỉ đạo hàm bậc 2 có sai số tiến về 0 khi k gần với 1 Quá trình xấp xỉ đạo hàm không ảnh hưởng đến việc dò tìm các vị trí cực trị thậm chí ngay cả khi chọn k khá xa, ví dụ k=
Một cách tiếp cận hiệu quả để xây dựng D (x, y, σ) là từng bước kết hợp với Gaussian để tạo ra hình ảnh riêng biệt bởi hằng số k trong không gian tỉ lệ Sau khi
áp dụng hàm DoG ta thu được các lớp kết quả khác nhau (scale) từ ảnh gốc, bước tiếp theo là tìm các điểm đặc trưng Các điểm đặc trưng được xác định là các cực đại hoặc cực tiểu của các ảnh DoG qua các tỉ lệ Mỗi điểm ảnh trong DoG được so sánh với 8 điểm ảnh lân cận (láng giềng) của nó ở cùng tỉ lệ đó và 9 điểm láng giềng kề ở các tỉ lệ ngay trước và sau nó Nếu điểm ảnh mang đi so sánh đạt giá trị cực tiểu hoặc cực đại thì sẽ được chọn làm các điểm hấp dẫn ứng viên (hình dưới)
Hình 2.3 Cực đại và cực tiểu của các hình ảnh khác biệt-of-Gaussian được phát hiện bằng cách so sánh một pixel (đánh dấu X) với 26 điểm láng giềng trong khu vực 3x3 ở tỉ
lệ hiện tại và liền kề (đánh dấu bằng vòng tròn)
Điểm đánh dấu x sẽ được so sánh với 26 điểm lân cận, các điểm lân cận được đánh dấu vòng tròn xanh Điểm x sẽ được lấy làm điểm tiềm năng (điểm có
2
Trang 32thể làm điểm đặc biệt – candidate keypoint) Nó được chọn khi và chỉ khi nó lớn hơn tất cả các điểm láng giềng hoặc nhỏ hơn tất cả Giải pháp cho việc tìm các
điểm tiềm năng này là sử dụng thuật toán dò tìm điểm (blob detection) do
Lindeberg đề xuất
Một vấn đề quan trọng là phải xác định tần số lấy mẫu trong ảnh và tỉ lệ miền để việc phát hiện các cực trị đáng tin cậy Thật không may, nó chỉ ra rằng không có khoảng cách tối thiểu của mẫu để phát hiện tất cả các cực trị Điều này có thể thấy được bằng cách xem xét một vòng tròn màu trắng trên nền đen, trong đó
sẽ có một không gian tỉ lệ lớn nhất, nơi các khu vực trung tâm vùng có hàm DOG phù hợp về kích thước và vị trí của hình tròn Đối với một hình elip rất dài, sẽ có hai cực đại gần nhau ở cuối của elip Tại các vị trí của cực đại là một hàm liên tục của ảnh, đối với một số hình elip với vùng trung tâm kéo dài sẽ có một quá trình chuyển đổi từ một cực trị đơn thành 2 cực trị, và đạt cực đại gần sự chuyển đổi khác gần nhau trong quá trình chuyển đổi
2.4.2 Định vị điểm đặc trưng
Khi một ứng viên keypoint (điểm hấp dẫn) đã được tìm thấy bằng cách so sánh một pixel với hàng xóm của mình, bước tiếp theo ta sẽ loại bỏ các điểm có độ tương phản kém (nhạy cảm với nhiễu) hoặc loại bỏ một số điểm hấp dẫn dọc theo các cạnh, không giữ được tính ổn định khi bị nhiễu
Việc thực hiện ban đầu của phương pháp này (Lowe, 1999) chỉ đơn giản là định vị keypoint vào vị trí và tỉ lệ của các điểm mẫu trung tâm Tuy nhiên, thời gian gần đây Brown đã phát triển một phương pháp (Brown và Lowe, 2002) cho một hàm bậc hai 3D vừa khít với các điểm lấy địa phương để xác định vị trí nội suy tối đa, và thí nghiệm của ông cho thấy rằng điều này cung cấp một sự cải thiện đáng kể phù hợp và ổn định Cách tiếp cận của ông sử dụng các mở rộng Taylor lên đến các phương trình bậc hai) của hàm tỉ lệ không gian, D (x, y, σ), dịch chuyển sao mà nguồn gốc là ở vị trí mẫu:
Trang 332.4.2.1 Phép nội suy lân cận cho vị trí đúng của điểm hấp dẫn
Phép nội suy lân cận sử dụng mở rộng Taylor (Taylor expansion) cho hàm Difference-of-Gaussian D(x,y,) :
𝐷 𝑥 = 𝐷 +𝜕𝐷𝜕𝑥𝑇 𝑥 +12𝑥𝑇 𝜕2𝐷
Trong đó: D và đạo hàm của nó và các dẫn xuất của nó đƣợc đánh giá ở vị trí mẫu và x = (x, y, σ) T là phần bù đắp từ vị trí này Vị trí của điểm cực trị đƣợc xác định bằng cách lấy đạo hàm trên với đối số x và tiến dần tới 0:
Hình 2.4 : Mô phỏng sử dụng công thức mở rộng của Taylor cho
hàm DoG