Các Thuật Toán Nhận Dạng Cử Chỉ Trong Video.pdf

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Национальный исследовательский Томский политехнический университет» На правах рукописи Нгуен Тоа[.]

Аналитический обзор методов распознавания жестов

Понятие жеста

Trong cuộc sống hàng ngày, cử chỉ là một kênh giao tiếp mạnh mẽ, đóng vai trò quan trọng trong việc truyền đạt thông tin Mỗi hành động vật lý của con người thường bao gồm một loại cử chỉ nào đó, và đặc điểm của những cử chỉ này thường là yếu tố quan trọng cho chính hành động đó Những cử chỉ này thường được gọi là "cử chỉ tự nhiên" Theo định nghĩa của Kurtenback và Hulteen, cử chỉ là các hành động của tay và/hoặc bộ phận cơ thể mang thông tin Tuy nhiên, không phải tất cả các hành động của tay đều được coi là cử chỉ, như những chuyển động ngẫu nhiên không có ý nghĩa Tập hợp và ý nghĩa của các cử chỉ rất khác nhau tùy thuộc vào ngữ cảnh và văn hóa Ví dụ, cử chỉ "chiến thắng" phổ biến ở Anh lại chỉ có nghĩa là "hai" ở Việt Nam, và cử chỉ "OK" không có ý nghĩa gì Mặc dù có sự khác biệt này, cử chỉ vẫn có thể được phân loại theo chức năng của chúng.

 Семиотические жесты (semiotic): жесты для передачи значимой инфор- мации;

 Эрготические жесты (ergotic): жесты для манипуляции физическими объектами и создания артефактов;

 Эпистемологические жесты (epistemic): жесты для изучения с помощью тактильного обследования В исследованиях в области ЧМВ, особое внимание уделяется семиотиче- ским жестам Данная группа жестов делится на следующие подгруппы [116]:

 Символические жесты (symbolic): жесты, которые имеют единственное определенное значение

 Дейктические жесты (deictic): это тип жестов указания руки, которые чаще всего встречаются в ЧМВ

 Иконические жесты (iconic): жесты для передачи информации о разме- рах, форме, ориентации и т.д объекта

Pantomimic gestures are used to demonstrate the movement of objects, and Kendon's classification categorizes gestures into gesticulation, language-like gestures, pantomimes, emblems, and sign language This taxonomy is often organized by the increasing significance and complexity of each subgroup, ranging from gesticulation to sign language Quek proposed a suitable taxonomy for human-computer interaction (HCI), distinguishing between gestures and incidental (unintentional) movements Gestures can be manipulative or communicative, with communicative gestures encompassing actions and symbols Incidental movements do not convey information, while manipulative gestures affect objects, such as selecting a menu item Communicative gestures are primarily used in HCI, as they can be represented through static poses and hand movements.

The proposed Quek taxonomy of gestures for computer systems highlights the ability of these systems to understand natural human gestures through gesture recognition, which involves processing and transforming data to describe human movements using mathematical frameworks Gesture recognition technology enables the creation of gesture-based interfaces, allowing human-computer interaction through gestures Input devices for such interfaces, as well as for the gesture recognition apparatus, may include specialized gloves, markers, infrared sensors, 3D cameras, stereo cameras, and standard video cameras Depending on the type of input device, the methods, algorithms, and techniques for solving gesture recognition tasks fall into specific categories.

 Методы с использованием устройств, работающих вне спектра видимо- го света (тепловые сенсоры, инфракрасные камеры и т.д.)

 ôАктивные методыằ, которые требуют активного проецирования света

 ôИнвазивные методыằ, которые требуют модификации или изменения среды (например, ношение специальных перчаток или цветовых маркеров)

 Методы на основе компьютерного зрения (vision-based), в которых же- сты наблюдаются и записываются с использованием видео камеры Движения руки Жесты руки Ненамеренные движения Манипулятивные Коммуникативные Действия Символы

In gesture-based interfaces, there are two types of gestures: interactive and autonomous gestures Autonomous gestures are processed only after the user completes an action, such as drawing a circle to activate a program menu; the command is executed only once the gesture is finished An example of an autonomous gesture recognition system is one that translates sign language, recognizing 26 hand signs from the international sign alphabet In contrast, interactive gestures allow for direct manipulation of objects, such as moving a cursor or transforming an object's shape on the screen, and are processed in real-time during their execution Unlike autonomous gestures, interactive gestures do not have clearly defined beginnings and ends, while autonomous gestures always have a distinct start and finish The first gesture recognition system of this type was developed to help users interact with a virtual workspace.

Mapes and Moshell have contributed to the field of interactive gesture recognition, while another notable system is the "visual panel" developed by Zhang et al In this work, we will refer to the process of recognizing interactive gestures as "interactive recognition" or "interactive recognition mode," whereas the recognition of autonomous gestures will be termed "autonomous recognition."

Gesture recognition systems typically operate using a single type of gesture, but recent advancements in computer vision methods, improved computer performance, and the availability of high-quality, affordable cameras have propelled gesture recognition into a dominant trend These computer vision-based systems offer a more intuitive and natural interaction channel between humans and computers This work focuses on developing a gesture recognition algorithm leveraging computer vision, which utilizes static images and/or sequences of video frames captured at 30 frames per second Each image provides two-dimensional spatial information, while a sequence of images conveys spatiotemporal data, capturing static hand shapes and their positional changes Rapid transitions in hand shapes through intermediate poses may appear blurred and indistinct, and we refer to the changes in hand shape caused by finger movements or hand deformations as "local movements."

Mười tám biện pháp sẽ được gọi là "cuộc vận động toàn cầu" Cần nhấn mạnh rằng các cử chỉ (như dấu hiệu "OK", "chiến thắng", v.v.) chỉ có thể là tĩnh và được mô tả bằng một hình ảnh tĩnh (hoặc khung hình) duy nhất Những cử chỉ này sẽ được gọi là "cử chỉ tĩnh" hoặc "tư thế", trong khi "cử chỉ" sẽ được sử dụng để chỉ các tư thế liên tiếp và các chuyển động liên quan (toàn cầu và/hoặc địa phương).

Походы к решению задачи распознавания жестов

Hand representation methods can be categorized into two main types based on their features: appearance-based approaches, which focus on the external characteristics of the hand, and 3-D model-based methods, which utilize three-dimensional representations of the hand.

D model-based approach) По способу описания жестов различаются статистиче- ский и синтактический подходы (statistical and syntactic approaches)

1.2.1 Методы на основе внешности Методы на основе внешности руки используют двумерные признаки изображения для моделирования визуальной внешности руки и сравнивают эти параметры с теми же признаками, выделенными из входного изображения В данную категорию входят методы, в которых используются такие признаки как цвет кожи [87, 91, 136], образы руки [20, 99, 102, 112], локальные признаки [52,

Skin color plays a crucial role in hand segmentation and tracking in video frames Various methods have utilized skin color segmentation for hand detection in videos The choice of color space is often critical for this approach, as it impacts the system's robustness to lighting changes Typically, color spaces that effectively distinguish chromaticity and luminance components are preferred to achieve consistent results.

19 методы обнаружения руки по цвету кожи чаше всего используют пространства

Các phương pháp như HSV, YCrCb và YUV cho phép mô tả gần đúng ô chromaticity của da mà không cần đến giá trị màu sắc hiển thị Những phương pháp này loại bỏ thành phần độ sáng để tránh ảnh hưởng của bóng đổ và thay đổi ánh sáng Do đó, vector màu hai chiều còn lại là cố định và đặc trưng chỉ cho vùng da Biểu đồ histogram được xây dựng cho vùng có da cũng chứa một giá trị đỉnh trùng với màu da Như vậy, chỉ có thể xác định vùng tay bằng cách thiết lập một số ngưỡng trong histogram đã tạo và sử dụng phương pháp phân tích các thành phần liên kết.

Manresa và cộng sự đã phát triển một hệ thống quản lý trò chơi video theo thời gian thực thông qua cử chỉ, bao gồm ba bước: phân đoạn tay, theo dõi tay và nhận diện cử chỉ Trong bước phân đoạn, màu da được sử dụng, trong khi theo dõi thực hiện bằng mô hình tốc độ không đổi để giảm thiểu lỗi phân đoạn Các đặc điểm của tay như hình dạng và định hướng được phân loại bằng máy trạng thái hữu hạn, cho phép nhận diện bốn cử chỉ hoặc bốn hướng di chuyển Tuy nhiên, các thuật toán dựa trên màu da thường gặp khó khăn khi có sự thay đổi trong điều kiện ánh sáng Wu và cộng sự đã đề xuất sử dụng bản đồ tự tổ chức thích ứng cấu trúc (SASOM) như một mô hình màu, kết hợp với mô hình màu thông thường, giúp theo dõi tay và khuôn mặt hiệu quả ngay cả trong điều kiện ánh sáng không ổn định.

Despite the high processing speed and ease of implementation, skin color-based algorithms have significant drawbacks, such as their inability to differentiate objects with similar colors and their performance being heavily influenced by lighting conditions To mitigate these issues, specific requirements must be met, including consistent lighting and the presence of only one object on the screen, or additional complex processing In contrast, methods utilizing distinctive hand features focus on local characteristics like fingertip positions and hand edges for recognition through heuristic techniques The shape of the hand, independent of skin color or lighting, provides valuable information for hand detection in images Key features derived from hand shape include contours and edges, with contour extraction being particularly useful in real-time applications on uniform backgrounds However, extracting hand contours from complex backgrounds poses challenges, often necessitating intricate post-processing to improve reliability, frequently in conjunction with color-based methods or background subtraction The edges of hand components, including fingers, also play a crucial role in developing effective hand detectors.

21 cảm biến phát hiện đường thẳng để xác định các cạnh song song của ngón tay Việc phát hiện bàn tay được thực hiện thông qua việc phân cụm các cạnh đã được trích xuất Trong một cách tiếp cận toàn cầu hơn, các giả thuyết mô hình 3-D của bàn tay được đánh giá bằng cách tổng hợp hình ảnh các cạnh từ mô hình 3-D và so sánh với hình ảnh các cạnh được tính toán từ hình ảnh gốc Để so sánh mô hình với các cạnh được trích xuất từ hình ảnh gốc, có thể áp dụng các mô tả hình thái học cục bộ Trong tài liệu, một mô tả ngữ cảnh hình dạng được đề xuất, đại diện cho histogram của các tọa độ cực tương đối của tất cả các điểm cạnh của đối tượng.

Oka et al developed an advanced table utilizing real-time fingertip tracking for interaction with visual objects, employing an infrared camera They created a method to determine fingertip positions in images and an algorithm to track them across consecutive video frames This algorithm effectively monitors fingertip movements in real-time, even against complex backgrounds and varying lighting conditions Additionally, the authors proposed a mechanism that integrates direct manipulation (interactive recognition) with autonomous recognition.

Zhang và các cộng sự đã phát triển một loại giao diện đặc biệt mang tên "bảng điều khiển trực quan" Bảng điều khiển này cho phép sử dụng bất kỳ bảng vuông nào và ngón tay như thiết bị đầu vào Hệ thống có khả năng theo dõi ngón tay và nhận diện các cử chỉ như "nhấp chuột" và "kéo thả", từ đó thực hiện nhiều chức năng khác nhau như điều khiển từ xa, mô phỏng bàn phím và joystick.

Huang et al developed a gesture recognition system that operates in three steps: feature extraction, training, and recognition The feature extraction step employs a hybrid approach, which includes edge detection of the hand and tracking hand movements across sequential frames For the training phase, Principal Component Analysis (PCA) is utilized to describe spatial changes in hand shape, while a Hidden Markov Model (HMM) represents temporal changes in hand shape Generally, methods utilizing hand features are resilient to lighting conditions and are not dependent on skin color The information derived from these features (such as shape, key points, and fingertip positions) is extensive and can be further processed, often using statistical methods However, a significant challenge of this approach is segmenting the object of interest from the background, which can be particularly difficult in noisy environments Consequently, this approach often necessitates complex post-processing to enhance reliability Additionally, the dynamic nature of the human hand, being a jointed object, complicates the effective extraction of necessary hand features during gesture execution.

Phương pháp Jones-Viola ban đầu được phát triển để phát hiện khuôn mặt con người trong hình ảnh, sau đó đã được áp dụng thành công để phát hiện tay và các loại đối tượng khác Ưu điểm chính của phương pháp này là tốc độ thực hiện cao, lên tới 15 khung hình mỗi giây.

Phương pháp phát hiện đối tượng của Jones-Viola sử dụng một loại đặc trưng mới dựa trên wavelet Haar, cho phép hoạt động theo thời gian thực Để tính toán đặc trưng Haar nhanh chóng, Jones và Viola đã giới thiệu khái niệm "hình ảnh tích hợp", giúp loại bỏ nhu cầu xây dựng pyramid hình ảnh, từ đó giảm đáng kể số lượng phép toán cần thiết Trong hệ thống phát hiện, một phiên bản sửa đổi của AdaBoost được sử dụng làm bộ phân loại, trong đó các "bộ phân loại yếu" được kết hợp thành một cấu trúc cascade theo độ phức tạp tăng dần Mỗi bộ phân loại yếu chỉ chịu trách nhiệm cho một tập hợp đặc trưng Haar nhất định, cho phép cấu trúc cascade của AdaBoost nhanh chóng loại bỏ các khu vực không có đặc trưng của đối tượng cần tìm và tập trung tài nguyên tính toán vào những ứng viên có khả năng cao nhất trở thành đối tượng quan tâm.

Chen Q [22] предложил параллельную структуру детекторов Джонса- Виолы для распознавания жестов В его работе реализованы 4 детектора Джон- са-Виолы для детектирования и распознавания 4 типов статических жестов

Hệ thống phân loại động từ và cú pháp cho phân tích chuyển động của bàn tay có khả năng nhận diện cả cử chỉ tĩnh và động trong thời gian thực, hoạt động độc lập Giao diện nhận diện cử chỉ “HandVu” được phát triển bởi Kolsch và Turk cho phép nhận diện cử chỉ tĩnh dựa trên phương pháp Jones-Viola Người dùng cần đặt tay trong một khu vực xác định trên màn hình camera để hệ thống có thể trích xuất các đặc điểm cần thiết Quá trình theo dõi bắt đầu dựa trên thông tin màu sắc, trong khi việc nhận diện hình dạng bàn tay được thực hiện thông qua bộ phát hiện Jones-Viola Mặc dù có độ chính xác cao và tốc độ nhanh, bộ phát hiện này nhạy cảm với sự xoay chuyển của đối tượng và yêu cầu thời gian huấn luyện dài cùng một cơ sở dữ liệu lớn Để khắc phục điều này, Guo đề xuất sử dụng các đặc điểm phân cấp dựa trên pixel thay vì đặc điểm Haar nhằm rút ngắn thời gian huấn luyện mà vẫn giữ được tốc độ và độ chính xác Bộ đặc điểm mới do Kolsch và Turk đề xuất giúp đạt được độ chính xác cao hơn ngay cả khi có sự chồng chéo một phần của đối tượng, nhưng việc áp dụng phương pháp Jones-Viola trong nhận diện cử chỉ vẫn bị hạn chế do hình dạng bàn tay thường xuyên thay đổi.

25 стов, и даже для небольшого изменения формы руки требуется переобучение детектора, чтобы он мог распознавать новую форму

1.2.2 Методы с использованием 3D модели руки Хотя 2D изображение обеспечивает достаточную информацию для мно- гих алгоритмов распознавания, обычно требуются и другие данные об объекте, такие как ориентация руки, форма руки, и даже положение руки в простран- стве Для этой цели были разработаны методы трекинга и распознавания в про- странстве (3D-tracking and Recognition), которые отслеживают положение и ориентацию объекта в пространстве с помощью стереокамеры или на основе

Mô hình 3D của bàn tay được áp dụng trong việc mô phỏng động học ba chiều Khi dự đoán mô hình đã tạo ra, hình ảnh hai chiều của bàn tay sẽ được so sánh với hình ảnh video đầu vào Kết quả của quá trình so sánh cho biết sự hiện diện hoặc vắng mặt của đối tượng quan tâm (bàn tay) trong hình ảnh và xác định hình dạng mà đối tượng nhận được (tức là nhận diện tư thế của bàn tay) Do đó, phương pháp này đồng thời giải quyết các nhiệm vụ phát hiện bàn tay và nhận diện tư thế bàn tay.

Обсуждение и постановка задач

An analytical review reveals that hand recognition is a complex task that cannot be solved by a single algorithm Solutions typically involve feature extraction from video frames, utilizing appearance-based methods to identify edges, textures, colors, and shapes, or model matching through model-based techniques Classification is then performed using statistical or syntactic approaches A comparison of the characteristics of various gesture recognition systems is presented in Table 1.1.

1 [4] Трекинг руки в реальном вре- мени Метод Джонса-Виолы Способность распозна- вания только одной по- зы руки

The recognition of articulated objects, such as bodies and hand poses, involves reverse indexing of an image database using local features However, this process cannot operate in real-time on a PC, as each query takes approximately three seconds to process.

Gesture recognition in sequential images involves the application of linguistic analysis to decompose dynamic gestures into static and dynamic components However, this method cannot operate in real-time, as each image requires 8 seconds for processing.

Tracking hand movement in sequential video frames involves searching for optimal motion estimation in high-dimensional space However, this method cannot operate in real-time, as each frame requires two seconds for processing.

5 [143] Классификация манипулятив- ных и управ- ляющих же- стов Вычисление трехмер- ного представления руки с помощью алго- ритма сопоставления Требуется система сте- реокамеры и калибров- ка камеры

6 [74] Распознавание языка жестов Классификация линг- вистических значений поз; распознавание временного перехода поз с помощью моде- ли Маркова Требуется ôчистыйằ фон; Пользователь должен носить рубашку с длинными рукавами

7 [125] Трекинг ло- кального дви- жения пальцев в пространстве Применение комбина- ции 2-D Классифика- ции и 3-D интерполя- ции движений Требуется ôчистыйằ фон

8 [136] Сегментация лица и руки в реальном вре- мени Сегментация на осно- ве цветовой информа- ции со структурной адаптивной самоорга- низующейся картой Чувствительность к из- менению освещения и фона

Gesture recognition and real-time motion analysis involve the implementation of parallel structures using Jones-Viola detectors and semantic analysis of hand movements These systems exhibit sensitivity to hand rotation but require extensive training durations and a large dataset of training images.

Real-time hand tracking and gesture recognition involve segmenting based on color information, with shape and orientation classified using finite automata The system's sensitivity to changes in lighting conditions and backgrounds necessitates a clean background for optimal performance.

11 [101] Трекинг кон- чиков пальцев в реальном времени Определение положе- ния кончиков пальцев на изображениях и слежение за ними в последовательных ви- део фреймах Требуется инфракрас- ная камера

12 [149] Слежение за пальцем и рас- познавание же- стов Сегментация на осно- ве цветовой информа- ции Требуется прямоуголь- ная доска для работы

Real-time hand tracking and gesture recognition are crucial areas of research, with methods like the Jones-Viola algorithm utilizing color information for tracking However, challenges such as sensitivity to hand rotation, extensive training durations, and the need for large datasets remain An analysis of existing gesture recognition solutions highlights the ongoing relevance of this task, indicating a necessity for further investigation.

The article discusses two approaches to gesture recognition The first approach treats gestures as whole entities, deriving mathematical descriptions from a vast number of training examples, which leads to high accuracy but slower performance and a limited range of recognized gestures In contrast, the second approach breaks gestures down into their constituent components, such as poses, transitions, and movements, allowing for the recognition of these primitives This method employs syntactic approaches to combine recognized components, offering greater versatility and the ability to recognize complex gestures Additionally, it enables the development of interactive recognition systems for direct manipulation with gestures and autonomous recognition systems for more intricate gestures.

The dissertation employs a method that breaks down gestures into their constituent components, addressing four key tasks: developing a comprehensive algorithm to represent gestures as components, recognizing static components (poses), describing dynamic components (hand movements), and tracking these components across sequential frames The hand pose classifier must be invariant to minor deformations due to finger movements, hand rotation for user convenience, and scaling to accommodate gestures performed at varying distances from the camera Additionally, the classifier should be resilient to changes in lighting conditions and partially resistant to background noise from other objects It is essential for the classifier to operate in real-time, processing at least 15 frames per second Table 2 outlines the characteristics of various pose recognition algorithms, while Table 1.2 details their processing times, accuracy rates, and robustness against scaling and rotation, along with background requirements.

[26] 0,4 94,89 Нет данных Да Чистый фон

[40] 0,09-0,11 93,8 Нет данных Нет данных Нет

[89] Нет дан- ных 93,4 Да Нет данных Чистый фон Нет дан- ных 76,1 Да Нет данных Нет

The analysis of existing solutions reveals that a specialized classifier for hand pose recognition that meets the specified requirements is currently unavailable The most recognized pose classifier is the Jones-Viola detector and its modifications, widely used in various studies However, this detector has significant drawbacks, including lengthy training times, the need for a large training dataset, and sensitivity to object tilting and deformation, making it unsuitable for hand pose recognition in this work Nevertheless, it remains the best candidate for real-time hand detection in video frames due to its accuracy and speed To describe the dynamic component of gestures, an appropriate motion classifier must be developed to recognize various forms of movement in real-time, accommodating heavily deformed trajectory shapes that differ from standard training forms A further challenge in hand motion recognition is the limited observable trajectory points during fast gestures performed in a short time The reviewed studies do not address the issue of motion recognition Therefore, the objective of this dissertation is to develop a comprehensive gesture recognition algorithm for video sequences that operates in real-time and can recognize both autonomous and interactive gestures, necessitating a systematic approach to solving the outlined tasks.

 предложить архитектуру комплексного алгоритма распознавания же- стов;

 реализовать алгоритм обнаружения руки на видеокадрах;

 реализовать алгоритм трекинга для задачи отслеживания руки на ви- деопоследовательностях;

 разработать новый алгоритм распознавания позы руки, обеспечиваю- щий инвариантность к вращению, перемещению, масштабированию объекта, и возможность работы в реальном времени;

 создать новый алгоритм распознавания глобального движения руки, способный работать в реальном времени;

 реализовать программную систему для удаленного управления компь- ютером с использованием жестов руки для демонстрации возможности разра- ботанных алгоритмов

Выводы по главе

Chương này cung cấp khái niệm tổng quát về cử chỉ và các phân loại cử chỉ nổi tiếng trong ngôn ngữ học và công nghệ nhận diện cử chỉ, cũng như khái niệm nhận diện cử chỉ và giao diện dựa trên cử chỉ Đưa ra định nghĩa mới về "cử chỉ", "tư thế" và "chuyển động" sẽ được sử dụng trong luận án Thực hiện phân tích tổng quan về các phương pháp hiện có để giải quyết bài toán nhận diện cử chỉ dựa trên thị giác máy tính, bao gồm các phương pháp dựa trên hình dạng, các phương pháp sử dụng mô hình 3D của bàn tay, phương pháp thống kê và phương pháp cú pháp Đánh giá những ưu điểm và nhược điểm của các giải pháp đã xem xét Kết quả phân tích và so sánh các giải pháp hiện có cho thấy tính cấp thiết của luận án, đặt ra mục tiêu nghiên cứu và xác định các nhiệm vụ cần thiết để giải quyết vấn đề nhận diện cử chỉ trong các đoạn video theo thời gian thực.

Метод распознавания жестов на видеопоследовательностях

Архитектура комплексного алгоритма распознавания жестов

The dissertation presents a two-level architecture for a comprehensive gesture recognition algorithm The first level involves capturing sequential frames from a video camera, preprocessing the obtained frames, and detecting the hand within the video frame The second level executes further processing to enhance gesture recognition accuracy.

The algorithm for gesture recognition encompasses hand tracking over time, pose recognition, and global motion detection At the second level, users can select between autonomous or interactive gesture recognition modes A comprehensive diagram of the algorithm is illustrated in Figure 2.1.

The first level of the system is designed to detect the presence of a hand within the camera's field of view and to initialize the second-level recognition and tracking algorithms A standard video camera captures 15 to 30 frames per second at a resolution of 640x480 pixels, processing only one frame at a time To ensure real-time gesture recognition, each frame must be processed within 66 milliseconds, leading to a reduction in frame size to 320x240 pixels during preprocessing This step also converts color frames to grayscale, as subsequent algorithms operate solely on grayscale images The hand detector searches for hand presence in each incoming frame; if no hand is detected, the frame is discarded, and the next one is processed When a hand is detected, the detector is disabled, and the goal is to initialize second-level tracking algorithms by defining a rectangular area in the frame containing the hand, which serves as the object model for tracking For recognizing autonomous gestures, second-level algorithms utilize pose recognition and associated global movement Once the hand's position is established, the rectangular area is saved and passed to the tracking algorithm, which analyzes it to create an object model and initiate the tracking process The incoming video frames are then sent directly to the second level, where preprocessing occurs before the tracking mechanism is activated to locate the hand's position.

The article discusses a hand gesture recognition system that operates by focusing on the area of the video frame where the hand is located, ensuring high-speed recognition regardless of the frame size The system processes new frames only if a gesture is completed, determined by the absence of the hand in the frame, such as when it moves out of the camera's view Recognized gestures are converted into commands for computer interaction, similar to hotkeys For interactive gestures, pose recognition and tracking algorithms are employed, allowing for continuous operations like remote cursor control and gesture-based drawing Hand detection utilizes the well-known Jones-Viola method, while hand position tracking is achieved through the CAM-Shift method using color information A new algorithm based on multilayer neural networks and SURF descriptors is proposed for hand pose recognition, and movement analysis is performed using a neural network-based classifier developed in the study.

Обнаружение руки на видеокадре

The detection of hands in images is a fundamental task in gesture recognition systems Currently, the Jones-Viola method, which utilizes Haar features and a cascading AdaBoost classifier, is regarded as one of the most effective algorithms in terms of recognition efficiency and processing time Originally developed for face detection, experiments have demonstrated that this algorithm can effectively detect hands with similar efficiency as it does for faces Jones and Viola's research indicates that their method can process up to 15 frames per second, enabling real-time operation Additionally, the Jones-Viola detector has a very low false detection rate and performs well at slight angles, approximately up to 15 degrees for hands and 30 degrees for faces Thus, the application of the Jones-Viola method facilitates real-time hand detection in video sequences.

 представление изображения в ôинтегральномằ виде, что позволяет быстро вычислять признаки Хаара;

 поиск нужного объекта на основе признаков Хаара;

 использование каскадной классификации AdaBoost, что позволяет быстро отбрасывать окна, где не найден объект, и концентрировать вычисления для областей с наибольшей вероятностью нахождения объекта

2.2.1 Признаки Хаара Традиционная работа со значением интенсивности каждого пикселя на изображении обычно требует огромного объема вычислений, что существенно

Việc sử dụng bộ đặc trưng thay thế dựa trên biến đổi wavelet Haar, như đề xuất bởi Papageorgiou và cộng sự, giúp giảm tốc độ xử lý Viola và Jones đã phát triển ý tưởng này thành các "đặc trưng Haar" thông qua việc so sánh độ sáng giữa hai vùng hình chữ nhật liền kề Giả sử có một tập hợp đối tượng A và một tập hợp các giá trị cho phép B, hàm quyết định f X: Y xác định đặc trưng f của đối tượng O như một ánh xạ từ X đến Y f, trong đó Y f là tập hợp các giá trị cho phép của đặc trưng Bất kỳ hàm f X: Y nào cũng có thể được coi là một đặc trưng Nếu có một tập hợp các đặc trưng f 1 ,, f n, thì vector X = (f x 1 ,, f x n) được gọi là mô tả đặc trưng của đối tượng O, và có thể đồng nhất mô tả đặc trưng với chính các đối tượng Tập hợp A Y = f 1 ×  × Y fn được gọi là không gian đặc trưng Giá trị của các đặc trưng Haar được tính toán trong mỗi vùng của hình ảnh (cửa sổ phát hiện) bằng cách lấy hiệu số tổng cường độ của các pixel trong các hình chữ nhật liền kề theo công thức đã được nêu.

The Haar feature is a pattern that specifies the coordinates of regions in an image, while the value of a Haar feature is the difference in the summed intensities of pixels within the specified areas This difference is crucial for determining the presence or absence of a characteristic object area in an image For instance, in a database of images containing human faces, the Haar feature can be utilized to identify facial regions effectively.

Analysis of the images indicates that the area around the eyes is darker than the cheek area on all faces Consequently, one of the Haar features for facial recognition consists of a pair of adjacent rectangles positioned above the eyes and cheeks This observation also applies to hands and various other objects The placement of these rectangles is determined relative to the detection window, which acts as a bounding box around the target object The standard Jones-Viola method employs rectangular features, known as Haar primitives Additionally, an extended set of primitives with tilted features, proposed by Lienhart and Maydt, is often utilized in the implementation of this algorithm.

2.3б) Список всех признаков Хаара указан на рис 2.4 а) б) Рис 2.3 Набор примитивных признаков (а) и расширенных примитивов (б)

2.1.1 Интегральное изображение Интегральное представление изображения (или просто ôинтегральное изображениеằ) позволяет быстро вычислять значение признаков Хаара, незави- симо от размера изображения Интегральное изображение – это матрица, сов- падающая по размерам с исходным изображением, каждый элемент которой представляет собой сумму интенсивностей всех пикселей, находящихся левее и выше данного элемента По этому определению, элемент интегрального изоб- ражения P x y( , ) в точке p x y   , исходного изображения вычисляется по фор- муле (см рис 2.5а) [130]:

  Здесь I x y( ', ')– интенсивность пикселей в прямоугольнике от p   0,0 до

( ) p x y ; P x y( , ) – элемент интегрального изображения в точке (x y, ) Однако существует более быстрый способ вычисления элемента инте- грального изображения по значениям уже вычисленных элементов:

Tính toán ma trận hình ảnh tích phân được thực hiện chỉ trong một lần quét và mất thời gian tuyến tính, tỷ lệ với số lượng pixel trong hình ảnh (tức là kích thước hình ảnh) Với hình ảnh tích phân, có thể tính toán nhanh chóng tổng cường độ của các pixel trong một hình chữ nhật hoặc một khu vực bất kỳ Tổng cường độ của các pixel trong hình chữ nhật D được tính bằng hình ảnh tích phân theo công thức: P(x, y) = I(x, y) + P(x-1, y-1) + P(x, y-1) - P(x-1, y).

   Данное свойство интегрального изображения позволяет вычислять при- знаки Хаара, используя несколько простых операций за постоянное время, независимо от размера изображения

55 а б Рис 2.5 Интегральное представление изображения: а – интегральное изображение в точке p x y   , ; б – вычисление суммы интенсивностей пикселей внутри прямоугольника

2.2.2 AdaBoost -классификатор Видеопоток получается из камеры в виде последовательности кадров Для каждого кадра вычисляется его интегральное изображение Затем кадр скани- руется окном небольшого размера (обычно 24х24 пикселей) (суб-окном), со- держащим признаки Хаара Для каждого j-ого признака, выход соответствую- щего (ôслабогоằ) классификатора определяется формулой [130]:

  Здесь x – суб-окно;  j – пороговое значение; f j – признак Хаара; h - вы- ход слабого классификатора

AdaBoost алгоритм позволяет повысить точность классификации, исполь- зуя ряд ôслабых классификаторовằ В результате вычисляется взвешенная ком- бинация этих слабых классификаторов [130]:

Trong phương pháp Jones-Viola, một loạt các bộ phân loại AdaBoost được kết hợp thành một cấu trúc thác, trong đó mỗi bộ phân loại chịu trách nhiệm cho một tập hợp các đặc trưng Haar đặc trưng cho từng khu vực cụ thể Ở đây, N là số lượng bộ phân loại yếu, α i là hệ số thu được từ cơ sở dữ liệu huấn luyện, h i là đầu ra của bộ phân loại yếu và H là đầu ra của bộ phân loại mạnh.

The cascade classifier structure, known as the "cascade classifier," consists of multiple AdaBoost classifiers, each responsible for a specific Haar feature The frame is scanned using sub-windows to identify areas described by these Haar features Cascades are arranged sequentially, with earlier ones detecting more global object characteristics and later ones focusing on finer details A sub-window is deemed to contain the object of interest only if it passes through all cascades, meaning it meets all the Haar feature criteria If a sub-window fails any cascade, it is immediately rejected, allowing the algorithm to move on to the next sub-window This cascade structure enables the rapid elimination of areas lacking object-specific features, concentrating computational power on promising candidates Additionally, to address the challenge of detecting human hands, which lack consistent contours, two detectors are created: one for the fist and another for the palm The video frame is first processed by the palm detector, and if the object is detected, the fist detector is disabled; otherwise, the fist detector is activated to identify the presence of a hand in the frame.

№ n Все суб-окна Отвергнутые суб-окна Дополнительная обработка Каскадная классификация

Трекинг руки на последовательных кадрах

Методы отслеживания объекта на видеопоследовательностях могут быть разделены на три большие группы [145]: слежение на основе точек (point tracking), слежение с использованием ядра (kernel tracking), и слежение за контуром

Silhouette tracking presents challenges due to the rapid changes in hand shape within frames, making point and contour-based tracking unsuitable This study employs the CAMShift method, which utilizes color features for tracking CAMShift (Continuously Adaptive Mean-Shift) is a well-known modification of the Mean-Shift tracking algorithm that automatically adjusts the search window size during tracking Once the hand is captured in a frame, its position and size are used to initialize the search window, followed by the calculation of two histograms.

Trong bài viết này, chúng tôi sử dụng hai không gian màu RGB và HSL để so sánh hiệu quả của thuật toán theo dõi Bradski đã đề xuất sử dụng thành phần H của không gian màu HSV để xây dựng histogram Chúng tôi tính toán histogram xác suất màu (color probability histogram) từ hai histogram đã xây dựng bằng công thức: min i ,1.

Trong bài viết này, P i đại diện cho thành phần thứ i của histogram xác suất màu, HM i là thành phần histogram của mô hình, và HI i là thành phần histogram của toàn bộ khung hình Khi thay thế mỗi pixel của hình ảnh đầu vào bằng giá trị tương ứng P i, chúng ta nhận được "hình ảnh xác suất" như được trình bày trong hình 2.8b Đối với mỗi khung hình đến, thuật toán sẽ tính toán lại "trọng tâm" trong khu vực đã xử lý xung quanh trọng tâm trước đó trong hình ảnh xác suất theo công thức (2.1) và di chuyển cửa sổ tìm kiếm đến vị trí mới này.

M = ∑∑ yI(x, y), trong đó (x, y) là tọa độ của tâm khối lượng; I(x, y) là cường độ của pixel tại (x, y) trong hình ảnh xác suất M00, M10, M01 lần lượt là các mômen không, mômen đầu tiên theo hướng x và mômen đầu tiên theo hướng y Để tránh việc tính toán vô hạn tâm khối lượng, thuật toán dừng lại khi đạt được "điều kiện ổn định", được hiểu là số lần lặp tối đa để tính lại tâm khối lượng hoặc một ngưỡng thay đổi nhất định của tâm khối lượng Số lần lặp dao động từ 10 đến 20, trong khi ngưỡng thay đổi là từ 1 đến 2 pixel Biết được vị trí của tâm khối lượng ổn định, chúng ta có thể tính toán kích thước của cửa sổ tìm kiếm hiện tại (nơi đối tượng theo dõi nằm) theo các công thức đã chỉ định.

Tọa độ của tâm khối lượng được biểu thị bởi M (x, y, c), trong đó I(x, y) là cường độ của pixel trong hình ảnh xác suất Chiều cao và chiều rộng của cửa sổ tìm kiếm lần lượt được ký hiệu là h và w Vị trí và kích thước của cửa sổ tìm kiếm được lưu lại để sử dụng cho khung hình video tiếp theo và cũng được truyền vào thuật toán nhận diện cử chỉ Kết quả của thuật toán theo dõi được trình bày trong hình 2.9.

Предложенный алгоритм распознавание позы руки

Ý tưởng chính của thuật toán nhận diện tư thế tay được đề xuất là xem hình ảnh như một tài liệu văn bản, trong đó các đặc điểm hình ảnh (điểm và vùng đặc trưng) được coi là các từ tạo thành tài liệu này Loại tài liệu được xác định thông qua việc tính toán tần suất xuất hiện của một số "từ khóa" Ý tưởng này được lấy từ mô hình "bag-of-words" (BOW) phổ biến trong xử lý tài liệu văn bản Để áp dụng ý tưởng này trong nhận diện đối tượng, các đặc điểm được trích xuất từ tập hợp hình ảnh (cơ sở dữ liệu cho việc huấn luyện) và sau đó được phân chia thành các nhóm Trong mỗi nhóm, một "đại diện" được chọn cho tất cả các đặc điểm trong nhóm, và các đại diện được chọn này sẽ đóng vai trò là "từ khóa".

The algorithm for pose recognition is based on a vocabulary of 61 key terms, which form a collection of keywords By comparing the extracted features of an input image with the keywords from this feature vocabulary, a histogram of keywords is generated for that image This histogram serves as a descriptor for recognition within a neural network classifier An illustration of the proposed recognition algorithm is shown in Figure 2.10, while the overall scheme of the algorithm is depicted in Figure 2.11.

62 Рис 2.11 Общая схема алгоритма Алгоритм распознавания формы руки состоит из следующих этапов:

1 Обучение классификатора а Генерация словаря визуальных признаков:

- Генерация словаря из кластеров б Создание дескрипторов и обучение нейронной сети:

- Сопоставление выделенных признаков со словарем;

- Распознавание в нейронной сети Класс объекта Дескриптор Словарь кластеры

SURF признаки Набор изображений Выделение признаков Генерация словаря Кластеризация Сохранение для 2-го этапа

1-й этап: Генерация словаря Обучение классификатора

The second stage involves creating descriptors and training a neural network using a set of SURF features This process includes establishing a dictionary for feature matching and recognition, which is essential for building a weight matrix that enhances the neural network's learning capabilities The effective recognition of patterns relies on the accurate representation of the SURF feature set.

2.4.1 Метод выделения характерных признаков Для описания объектов на изображении могут применяться различные признаки: контуры, углы/точки интереса, области интереса, кряжи и т.д В кон- тексте визуальной категоризации и распознавания образов необходимо, чтобы признаки были устойчивыми к вращению, перемещению и масштабированию объекта Описание выбранных признаков также играет важную роль, т.к оно определяет тип используемого классификатора Поэтому, выбор метода обна- ружения и описания признаков часто является самой важной частью любого ал- горитма распознавания визуальных объектов на изображении В [1] мы разра- ботали алгоритм распознавания сложных фигур на основе Фурье-дескрипторов и нейронной сети, который устойчив ко всем видам трансформации Однако для вычисления Фурье-дескрипторов необходимо определить контуры объекта, что требует больших усилий на отделение (сегментацию) объекта от фона Это является не простой задачей на практике, когда часто приходится иметь дело со сложным фоном В области категоризации изображений существуют и широко использу- ются множество методов выделения признаков: детектор Харриса [48], автома- тическая селекция масштаба [82], SIFT (Scale-invariant feature transform) [95],

DoG (Difference of Gaussians filter) [83], SURF (Speeded Up Robust Features) [50] и т.д Также популярны методы описания признаков (дескрипторов): Gaussian derivatives [41], moment invariants [97], complex features [5, 120], steerable filters

Recent studies have compared popular feature extraction methods, revealing that SIFT and SURF perform the best While SIFT detects a greater number of features, it is slower in execution Conversely, experiments indicate that SURF yields superior results when processing low-resolution images The goal is to develop a high-speed hand recognition algorithm.

Trong nghiên cứu này, chúng tôi sử dụng phương pháp SURF để xử lý và mô tả các đặc trưng của video trong thời gian thực Bộ phát hiện SURF dựa trên việc tính toán ma trận Hessian với phương pháp xấp xỉ đơn giản Đối với mỗi điểm P = (x, y), ma trận Hessian H(σ, P) tại P với thang đo σ được xác định theo công thức sau [50]:

H  Здесь L xx ( , )P , L yy ( , )P , L xy ( , )P  – свертка второй производной Гаусса

Để giảm thời gian xử lý, đạo hàm bậc hai của hàm Gauss được tính toán gần đúng bằng cách sử dụng bộ lọc ô và hình ảnh tích phân Hình ảnh tích phân cũng đơn giản hóa quá trình phân tích trong không gian quy mô Định thức của ma trận Hessian sau đó được sử dụng để chọn tọa độ của các điểm quan tâm và quy mô Các điểm quan tâm được xác định thông qua phương pháp подавления не-максимумов (non-maximum suppression).

SURF features are robust to scaling and establish a circular region around key interest points to determine unique orientations, providing invariance to rotation As illustrated in Figure 2.12, SURF features are extracted from hand images at varying scales and rotation angles These features are represented by fixed-length vectors (64 in the original SURF and 128 in the extended version) Since SURF identifies interest points based on local features, the number of detected points varies depending on the image, even for the same object Consequently, these descriptors cannot be directly input into a neural network for recognition.

65 Рис 2.12 Выделенные методом SURF признаки при разном масштабе и враще- нии: а) 74 признака; б) 69 признаков; в) 46 признаков

2.4.2 Кластеризация SURF-дескрипторов и генерация словаря признаков Как указано выше, SURF дескрипторы имеет фиксированную длину (64 или 128 элементов), однако количество выделенных дескрипторов достаточно большое (несколько десятков) и меняется в зависимости от каждого изображе- ния Это препятствует прямому использованию SURF дескрипторов в нейрон- ной сети Для решения такой проблемы необходимо разработать способ описа- ния объекта на основе выделенных SURF признаков Предлагается разделить все обнаруженные признаки из набора изображе- ний на группы Это обусловлено тем, что визуальные признаки, выделенные из одного класса объекта должны иметь сходство Признаки, полученные при ана- лизе одного изображения, также могут быть похожи друг на друга Разделение признаков на группы позволяет ôсоединитьằ подобные признаки вместе и вы- брать одного ôпредставителяằ для всей группы Описание объекта тогда можно осуществлять с помощью только этих ôпредставителейằ Разделение признаков на группы можно совершать с использованием раз- личных методов кластеризации [63]: алгоритма k-средних (k-means), метода не- четкой кластеризации C-средних (C-means), графовых алгоритмов кластериза- ции, статистических алгоритмов кластеризации, иерархической кластеризации или таксономии, нейронной сети Кохонена, ансамбля кластеризаторов, алго- ритмов семейства KRAB, EM-алгоритма, алгоритма, основанного на методе просеивания, дискриминантного анализа, DBSCAN, и т.д В принципе можно применять любой из вышеуказанных методов кластеризации В данной работе

66 применяется популярный метод кластеризации K-means в связи с приемлемой скоростью его работы и простоты в реализации

K-means разбивает множество элементов векторного пространствана за- ранее известное число кластеровk Основная идея заключается в том, что на каждойитерации перевычисляется центр масс для каждого кластера, получен- ного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в со- ответствии с тем, какой из новых центров оказался ближе по выбран- нойметрике Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров Завершение работы алгоритма происходит за конечное число итераций, так как количество возможных разбиений конечного множе- ства ограничено, а на каждом шаге суммарное квадратичное отклонение уменьшается, поэтому зацикливание невозможно K-means стремится миними- зировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров:

Trong K-means clustering, k là số lượng cụm, S_i là các cụm thu được, và μ_i là trọng tâm của các vector x_j thuộc S_i Khi áp dụng phương pháp K-means, trước tiên cần xác định số lượng cụm Nếu một cụm được định nghĩa là tập hợp các từ khóa duy nhất trong tài liệu văn bản, thì số lượng cụm tương ứng với tổng số từ khóa Trọng tâm của mỗi cụm là từ khóa đó, và tập hợp tất cả các từ khóa tạo thành từ điển Nếu các đặc trưng được phân tách bằng phương pháp SURF từ các đối tượng thuộc một lớp nhất định là độc nhất và đặc trưng cho lớp đối tượng đó, thì số lượng từ trong từ điển (số cụm) xấp xỉ bằng tổng số trung bình của các đặc trưng trong tất cả các lớp đối tượng.

Trong bài viết này, K đại diện cho số lượng cụm, N là số lớp đối tượng, M_i là số lượng hình ảnh của lớp thứ i, và k_{ji} là số đặc trưng được trích xuất từ mẫu j của lớp i Khi quá trình phân cụm hoàn tất, chúng ta thu được một tập hợp các vectơ trọng tâm của tất cả các nhóm đặc trưng SURF Các vectơ trọng tâm này là

SURF descriptors can represent all vectors within their group, serving as a foundational element for generating new descriptors for the classifier The concept of clustering is illustrated in Figure 2.13, which demonstrates the process of clustering and the creation of a codebook.

2.4.3 Генерация дескрипторов для нейронной сети При поступлении нового изображения, метод SURF выделяет характери- стические признаки и описывает эти признаки набором векторов, размерность которых фиксирована Для каждого SURF вектора (дескриптора) вычисляется квадрат расстояния Евклида до каждого из центров масс по формуле (2.4) и вы- бирается самое короткое расстояние

Khoảng cách d( ,p q k ) giữa vector SURF đầu vào và trung tâm khối k được định nghĩa, trong đó N là kích thước của vector SURF (64 hoặc 128 tùy thuộc vào phương pháp mô tả được chọn) Nếu khoảng cách này nhỏ hơn một ngưỡng xác định, trung tâm tương ứng sẽ được chọn làm đại diện cho dữ liệu đầu vào.

Предложенный алгоритм распознавания движения руки

Начальное положение руки на видеокадре определяется на этапе обнару- жения с помощью детектора Джонса-Виолы В процессе трекинга, траектория движения руки записывается для дальнейшей обработки в алгоритме распозна-

72 вания движения Для решения этой задачи был разработан быстрый алгоритм распознавания траектории движения руки на основе нейронной сети Алгоритм распознавания траектории движения руки состоит из следую- щих этапов:

Simplifying and smoothing the trajectory of movement is essential in tracking hand motions, which are recorded as a series of points During hand movement, individuals often make random, small-amplitude motions, resulting in a non-smooth trajectory Consequently, the data collected after the movement contains inherent noise, and the large number of points complicates processing To address this issue, the Ramer-Douglas-Peucker algorithm is utilized to effectively "smooth" the trajectory.

Resampling and trajectory transformation are essential processes in motion recognition systems, as the number of points in a hand movement trajectory varies based on the speed of the hand's movement and the data processing rate of the program To ensure a consistent input for recognition mechanisms, resampling is employed to standardize the number of trajectory points Additionally, this stage involves scaling and translating the trajectory, which enhances the efficiency of the descriptors calculated in the subsequent steps.

 Вычисление дескриптора Массив точек траектории преобразуется в массив векторов наклона и выполняется вычисление синуса или косинуса углов наклона Массив синусов (или косинусов) в дальнейшем будет служить входом для классификатора

 Обучение и распознавание в нейронной сети Для распознавания формы траектории движения руки в качестве классификатора применяется многослойная нейронная сеть с обратным распространением ошибок

2.5.1 Алгоритм Рамера-Дугласа-Пекера Суть алгоритма состоит в том, чтобы по данной ломаной, аппроксимиру- ющей кривую, построить ломаную с меньшим числом точек Алгоритм опреде- ляет расхождение, которое вычисляется по максимальному расстоянию между исходной и упрощённой кривыми Упрощенная кривая состоит из подмноже- ства точек, которые определяются из исходной кривой Начальная кривая представляет собой упорядоченный набор точек или линий на расстоянии ε > 0 Алгоритм рекурсивно делит линию Входом алго- ритма служат координаты всех точек между первой и последней Первая и по- следняя точка сохраняются неизменными После этого алгоритм находит точку, наиболее удалённую от прямой, проведённой через первую и последнюю точ- ки Если точка находится на расстоянии, меньше чем ε, то все точки, которые ещё не были отмечены к сохранению, могут быть выброшены из набора и по- лучившаяся прямая сглаживает кривую с точностью не ниже ε Если же расстояние больше ε, то алгоритм рекурсивно вызывает себя на наборе от начальной точки до данной точки, и от данной точки до конечной точки Это означает, что данная точка будет отмечена к сохранению По окон- чании всех рекурсивных вызовов выходная ломаная линия строится только из тех точек, которые были отмечены к сохранению Пример упрощения линии алгоритмом Дугласа-Пекера указан на рис 2.16 а) б) Рис 2.16 Результат упрощения линии алгоритмом Дугласа-Пекера: а – исходная линия б – упрощенная линия

2.5.2 Передискретизация и преобразование траектории Предположим, что после упрощения, получается траектория в виде мас- сива T { ( , ) |P x y i i i[1 ]}m , где m – количество точек При этом необходимым условием является присутствие в траектории N точек (как правило, m не равно

N) Величина N является фиксированной и соответствует числу входов в нейронную сеть Для осуществления перехода от m точек к N точкам сначала вычисляется длина траектории:

Độ dài trung bình giữa các điểm của đường đi được xác định bằng công thức I=L/(N-1) Độ dài trung bình I sẽ được sử dụng như một điều kiện để thêm hoặc xóa điểm khỏi đường đi ban đầu Dưới đây là thuật toán để thực hiện quá trình tái số hóa.

, Желаемое число точек N d = расстояние ( ) Добавить новую точку в M’ Вставить в M в i-ое место

D = D + d Возвратить M’ Последняя точ- ка M да нет да нет

Số lượng điểm trong đường đi được tái mẫu ảnh hưởng đến hiệu quả nhận diện và hiệu suất của thuật toán Nếu N quá nhỏ, độ chính xác của việc nhận diện sẽ giảm, trong khi nếu N quá lớn, thời gian xử lý sẽ tăng lên Các thí nghiệm cho thấy N = [32 128] là phù hợp cho nhiều hệ thống máy tính Sau khi tái mẫu, hình dạng sẽ được điều chỉnh kích thước để khung giới hạn của nó trùng với hình vuông mẫu có kích thước xác định Hình dạng cũng sẽ được di chuyển để gốc tọa độ trùng với tâm của nó, điều này giúp đơn giản hóa việc tạo ra mô tả và nâng cao độ chính xác nhận diện.

2.5.3 Вычисление дескриптора Для каждой точки P x y n ( n , n ) вычисляется синус угла отклонения a между вектором P n и осью Ox:

  В результате передискретизации количество точек в траектории стано- вится фиксированным и равным N Таким образом, получается массив

S  a  n N , который будет использоваться как дескриптор траекто- рии и может быть передан в виде входных данных в нейронную сеть для осу- ществления процесса распознавания

2.5.4 Обучение и распознавание в нейронной сети В данном алгоритме применяется многослойная нейронная сеть Обуче- ние нейронной сети осуществляется на основе применения метода обратного распространения ошибки [49] Каждый класс соответствует одной форме траек- тории движения руки Данные для обучения вычисляются путем добавления шумов к ôстандартнымằ фигурам, и также вводятся пользователем Структура данной нейронной сети определялась эмпирическим способом таким образом, чтобы максимизировать отношение: средняя точность распознавания / время обработки

Выводы по главе

В данной главе приведено детальное описание предложенной архитекту- ры комплексного алгоритма распознавания жестов, реализованного алгоритма обнаружения руки и алгоритма трекинга, разработанного алгоритма распозна- вания поз руки, и созданного алгоритма распознавания глобального движения:

A new comprehensive algorithm for real-time gesture recognition in video sequences has been introduced, capable of functioning in both autonomous and interactive gesture recognition modes The proposed two-level architecture includes initial steps for capturing sequential frames from a video camera, preprocessing the acquired frames, and detecting hands within the video frame The second level focuses on tracking the hand over time, recognizing poses, and identifying global movements.

 Предложено применение алгоритма Джонса-Виолы для обнаружения руки в видеопотоке с возможностью функционирования в реальном времени Алгоритм работает на основе признаков Хаара, интегрального изображения, и каскадного AdaBoost классификатора

 Изложен метод CAM-Shift для трекинга руки на основе использования цветовой информации кожи

 Предложен и реализован алгоритм распознавания позы руки в видео- потоке на основе использования SURF-дескрипторов, алгоритма k-средних, и многослойной нейронной сети

 Создан алгоритм распознавания глобального движения руки в видеопо- токе с использованием многослойной нейронной сети

Численные эксперименты и анализ результатов распознавания жестов

Программная реализация системы распознавания жестов

Tiêu đề	Các Thuật Toán Nhận Dạng Cử Chỉ Trong Video
Tác giả	Nguyen Toan Thang
Người hướng dẫn	TS. V.G. Spitsin
Trường học	Đại Học Bách Khoa Tomsk
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận văn
Năm xuất bản	2014
Thành phố	Tomsk

Định dạng
Số trang	146
Dung lượng	4,62 MB