Способ бесконтактного управления курсором мыши



Способ бесконтактного управления курсором мыши
Способ бесконтактного управления курсором мыши
Способ бесконтактного управления курсором мыши
Способ бесконтактного управления курсором мыши
Способ бесконтактного управления курсором мыши
Способ бесконтактного управления курсором мыши
Способ бесконтактного управления курсором мыши
Способ бесконтактного управления курсором мыши
Способ бесконтактного управления курсором мыши
Способ бесконтактного управления курсором мыши
Способ бесконтактного управления курсором мыши

 

G06F3/042 - Вводные устройства для передачи данных, подлежащих преобразованию в форму, пригодную для обработки в вычислительной машине; выводные устройства для передачи данных из устройств обработки в устройства вывода, например интерфейсы (пишущие машинки B41J; преобразование физических переменных величин F15B 5/00,G01; получение изображений G06T 1/00,G06T 9/00; кодирование, декодирование или преобразование кодов вообще H03M; передача цифровой информации H04L)

Владельцы патента RU 2618389:

Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук (RU)

Изобретение относится к технологиям бесконтактного человеко-машинного взаимодействия. Техническим результатом является повышение робастности слежения за перемещением головы пользователя путем повышения производительности работы с системой и снижения уровня ошибок выделения объектов. Предложен способ бесконтактного управления курсором мыши. Согласно способу, определяют местоположение области интереса на выпуклой форме. Выпуклая форма представляет собой голову человека, область интереса представляет собой область лица человека между бровями и нижней губой. Оцифрованное изображение указанной выпуклой формы получают с помощью видеокамеры. После того как указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы, определяют местоположение пяти опорных точек в пределах указанного сохраненного паттерна яркости области интереса, а затем регистрируют множество оцифрованных видеоизображений. По результатам сравнения матрицы сохраненного паттерна яркости области интереса и матрицы зарегистрированного паттерна яркости области интереса определяют двумерные координаты указанных опорных точек в каждом из указанного множества видеоизображений, а затем используют двумерные координаты указанных опорных точек для управления курсором мыши. 2 з.п. ф-лы, 1 табл., 7 ил.

 

Изобретение относится к области искусственного интеллекта, а именно к области бесконтактного человеко-машинного взаимодействия. Оно может быть использовано для управления компьютером или другими техническими устройствами с помощью манипулятора типа «мышь» (далее - мышь), в частности, предназначенными для людей с нарушениями моторных функций рук. Для таких людей предназначаются ассистивные технологии для бесконтактного взаимодействия с компьютером посредством отслеживания осмысленных движений (жестов) головы или частей тела человека.

Для решения задачи отслеживания движений головы пользователя возможно использовать различные аппаратные средства, когда пользователь надевает на голову специальное устройство (шлем, очки виртуальной реальности или специальную конструкцию с отражающими метками). Например, американская компания NaturalPoint (www.naturalpoint.com/smartnav) выпускает устройства SmartNav, реализующие функции бесконтактной мыши. Эта система состоит из инфракрасного приемо-передатчика и нескольких отражающих меток, которые должны быть прикреплены к лицу пользователя или к специальной кепке. Другая американская компания InterSence (www.intersense.com) производит аппаратные трекеры InterTrax для шлемов виртуальной реальности. Внутри такого устройства находится микроминиатюрный гироскоп, который позволяет отслеживать положение и ориентацию головы в трехмерном пространстве.

Кроме того, для этой задачи могут также применяться специальные устройства со светодиодами (и аккумуляторами), которые отслеживаются инфракрасной видеокамерой. Например, комплект для ассистивного управления компьютером КАУ-09-1 (http://www.fatum-spb.ru/razrabotki-dlya-invalidov.html) или цветными реперными (контрольными) точками-мишенями, которые крепятся на специальном шлеме, надеваемом на голову. Еще одним аналогом является аппаратная система «Шлемомышь» (Кричевец, А. Шлемомышь // Компьютерра, №434, 2002. - С. 48-51. - Режим доступа: www.computerra.ru/offline/2002/434/16588), в которой используется специальная мишень на шлеме, одеваемом на голову пользователя. Реперные точки на таких устройствах отслеживаются, как правило, посредством инфракрасной, либо оптической видеокамеры. Однако как пользователи, так и психофизиологи говорят о том, что люди не желают использовать для человеко-машинного взаимодействия носимые на голове или теле аппаратные устройства, значительно снижающие естественность взаимодействия и мобильность передвижения из-за наличия проводов, кабелей, аккумуляторов для их автономной работы, их общей громоздкости и технических сложностей в калибровке и установке. Кроме того, люди без рук не могут надеть такое устройство сами себе на голову, поэтому им в любом случае нужна сторонняя помощь.

Возможны также случаи, когда в результате болезни помимо рук может парализовать также и шею человека, в этом случае он не может использовать жесты головой для управления курсором (указателем) мыши на экране компьютера. Чтобы решить эту проблему, возможно применение системы отслеживания взгляда пользователя (eye-tracking). Подобные аналоги (патент на изобретение РФ 2522848 от 20.07.2014; система Eyegaze System (http://www.eyegaze.com) от компании LC Technologies; 208. Tinto Garcia-Moreno, F. Eye Gaze Tracking System Visual Mouse Application Development // Technical Report, Ecole Nationale Superiere de Physique de Strasbourg (ENSPS) and School of Computer Science, Queen's University Belfast, 2001. - 77 p.) позволяют пользователю с помощью взгляда указывать на объекты воздействия или выбирать элементы меню графического интерфейса компьютера. Их применение осложняется тем, что необходимо использовать дорогие высокоскоростные цифровые видеокамеры высокой четкости (с большим оптическим разрешением), так как область глаза незначительна по размеру и сложна в распознавании. Существуют также варианты размещения видеокамеры прямо перед глазами человека на специальном шлеме, надеваемом пользователем (http://neurobotics.ru/products/eye_tracking). Однако как показывают когнитивные исследования, использование отслеживания направления взгляда для управления курсором намного хуже, чем отслеживание движений/жестов головой в таких показателях как производительность, эмоциональная нагрузка на пользователя, удобство использования и т.д.

Известны аналоги (патент на изобретение РФ 2401629 от 20.10.2010; патент на изобретение РФ 2542369 от 20.02.2015; Аграновский, А.В. Аппаратно-программные инструментальные средства проектирования виртуальных акустических объектов и сцен для слепых пользователей персональных компьютеров / А.В. Аграновский, Г.Е. Евреинов, А.С. Яшкин // Материалы IX Международной конференции-выставки «Информационные технологии в образовании». - Москва, 1999), в которых управление мышью осуществляется с использованием ног вместо рук, манипулятора, располагаемого в полости рта, или специального тактильного манипулятора, функционирующего за счет изменения положения центра масс тела человека. Общими недостатками указанных аналогов являются низкие производительность и удобство использования, большая эмоциональная нагрузка.

Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является способ отслеживания местоположения подвижной трехмерной выпуклой формы (поверхности) с помощью видеокамеры (патент US 6925122 В2 от 02.08.2005), содержащий этапы:

этап а: определяют местоположение области интереса на указанной выпуклой форме, указанное местоположение выбирают из группы, состоящей из точки на указанной выпуклой форме, ближайшей к видеокамере, и точки на указанной выпуклой форме, ближайшей к фиксированной точке пространства, указанное местоположение имеет возможность перемещения на указанной выпуклой форме так, что выпуклая форма изменяет местоположение и ориентацию в пространстве;

этап b: сохраняют оцифрованное видеоизображение указанной выпуклой формы в окрестности указанной области интереса, размер указанной окрестности определяют по площади поверхности указанной выпуклой формы с постоянной сферической кривизной, указанное оцифрованное видеоизображение имеет паттерн (эталон) яркости, называемый сохраненным паттерном яркости области интереса, указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы;

этап с: определяют местоположение опорной точки, выбранной из группы, состоящей из центра указанного сохраненного паттерна яркости области интереса и местоположения в пределах указанного сохраненного паттерна яркости области интереса;

этап d: регистрируют множество оцифрованных видеоизображений, каждое из упомянутого множества видеоизображений содержит видеоизображение указанной выпуклой формы, названное зарегистрированным паттерном яркости области интереса, указанный зарегистрированный паттерн яркости области интереса приводят к тому же размеру, что и сохраненный паттерн яркости области интереса, и для каждого из упомянутого множества видеоизображений регистрируют в виде матрицы;

этап е: сравнивают матрицу сохраненного паттерна яркости области интереса и матрицу зарегистрированного паттерна яркости области интереса для каждого из указанного множества видеоизображений на основе попиксельного сравнения или корреляционного анализа, чтобы определить двумерные координаты указанной опорной точки в каждом из указанного множества видеоизображений с точностью до одного пикселя; и

этап g: используют двумерные координаты указанной опорной точки в качестве информации, необходимой для управления компьютером, в каждом из указанного множества видеоизображений;

при этом выпуклая форма является формой кончика носа на лице, а этап е дополнительно содержит определение окна поиска в каждом из указанного множества видеоизображений, внутри которого выполняют сравнение, указанное окно поиска выбирают из группы, состоящей из:

a) окно поиска представляет собой квадратную область с длиной стороны в пределах от четверти ширины указанного лица до ширины указанного лица, указанная область имеет центр в местоположении кончика носа на предыдущем видеоизображении из упомянутого множества видеоизображений, если указанное местоположение известно;

b) окно поиска представляет собой прямоугольную область, определяемую с использованием автоматизированной технологии обнаружения лица;

c) окно поиска представляет собой всю область изображения видеокадра.

Недостатком способа прототипа является низкая робастность слежения за перемещением головы пользователя, обусловленная использованием только анализа положения кончика носа на видеоизображениях.

Для оценивания робастности принято использовать методику международного стандарта ISO 9241-9:2000 "Requirements for non-keyboard input devices" («Требования к неклавитаурным устройствам ввода информации»), которая базируется на экспериментах и законах, разработанных в середине 20 века американским психологом-когнитивистом П. Фиттсом (Paul Morris Fitts), и впоследствии развитых другими учеными [Soukoreff, R.W. Towards а standard for pointing device evaluation, perspectives on 27 years of Fitts' law research in HCI / R.W. Soukoreff, I.S. MacKenzie // Int. Journal of Human Computer Studies, Vol. 61, No. 6, 2004. - pp. 751-789].

Данная методика состоит в следующем. Пользователи при помощи предоставленного им устройства указательного ввода, должны насколько возможно быстро отметить на экране набор целей-объектов, последовательно появляющихся по круговой схеме на экране. При этом порядок целей задается таким образом, чтобы пользователь последовательно выделял наиболее удаленно расположенные друг от друга объекты, совершая движения указателем в различных направлениях [Schapira, Е. Experimental evaluation of vision and speech based multimodal interfaces / E. Schapira, R. Sharma // In Proc. Workshop on Perceptive User Interfaces PUI, USA, 2001. - pp. 1-9]. При этом вычисляется индекс сложности задачи ID ("index of difficulty"), измеряемый в битах, в соответствии с формулой Шэннона [Carbini, S. Evaluation of contact-less multimodal pointing devices / S. Carbini, J.E. Viallet // In Proc. 2-nd IASTED International Conference on Human-Computer Interaction, Chamonix, France, 2006. - pp. 226-231]:

где D - расстояние между центрами целей (диаметр окружности); W - диаметр круглой цели в экранных пикселях. Согласно закону Фиттса время движения MT между целями линейно зависит от индекса сложности ID задания. Однако координаты точки, где происходит выделение цели, зависят как от фактического расстояния между точками, так и от фактического диаметра самих целей (чем меньше цель, тем сложнее попасть по ее центру). Поэтому фактический (эффективный, "effective") индекс сложности выражается следующим образом:

где De - фактическое расстояние между точками кликов целей и We - фактический диаметр цели, который принято вычислять через энтропию нормального распределения величины:

где σ - среднеквадратическое отклонение координат точки выделения, проецируемой на ось, которая соединяет центры начальной и конечной целей.

Получаемые значения IDe отличаются от значений ID, более точно учитывая качество выполнения тестового задания пользователем. При этом согласно методике Фиттса основным показателем оценки робастности является производительность работы с системой TP ("throughput"), отражающая компромисс между временем движения (выполнения задания) МТ и точностью выделения целей:

Задачей изобретения является разработка способа бесконтактного управления курсором мыши, позволяющего повысить робастность слежения за перемещением головы пользователя путем повышения производительности работы с системой и снижения уровня ошибок выделения объектов.

В заявленном способе эта задача решается тем, что в способе бесконтактного управления курсором мыши, заключающемся в том, что определяют местоположение области интереса на выпуклой форме, сохраняют оцифрованное видеоизображение указанной выпуклой формы в окрестности указанной области интереса, указанное оцифрованное видеоизображение имеет паттерн яркости, называемый сохраненным паттерном яркости области интереса, указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы, регистрируют множество оцифрованных видеоизображений, каждое из упомянутого множества видеоизображений содержит видеоизображение указанной выпуклой формы, названное зарегистрированным паттерном яркости области интереса, указанный зарегистрированный паттерн яркости области интереса приводят к тому же размеру, что и сохраненный паттерн яркости области интереса, и для каждого из упомянутого множества видеоизображений регистрируют в виде матрицы, сравнивают матрицу сохраненного паттерна яркости области интереса и матрицу зарегистрированного паттерна яркости области интереса для каждого из указанного множества видеоизображений на основе попиксельного сравнения или корреляционного анализа, при этом окна поиска в каждом из указанного множества видеоизображений, внутри которого выполняют сравнение, выбирают из группы, состоящей из: окна поиска, представляющего собой квадратную область с длиной стороны в пределах от четверти ширины лица до ширины лица и центром, соответствующим местоположению кончика носа на предыдущем видеоизображении из упомянутого множества видеоизображений, если указанное местоположение известно, окна поиска, представляющего собой прямоугольную область, определяемую с использованием автоматизированной технологии обнаружения лица, или окна поиска, представляющего собой всю область изображения видеокадра, дополнительно принимают, что выпуклая форма представляет собой голову человека, а область интереса - область лица человека между бровями и нижней губой. Перед тем как определяют местоположение области интереса на выпуклой форме, получают оцифрованное изображение указанной выпуклой формы с помощью видеокамеры. После того как указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы, определяют местоположение пяти опорных точек в пределах указанного сохраненного паттерна яркости области интереса, а затем регистрируют множество оцифрованных видеоизображений. По результатам сравнения матрицы сохраненного паттерна яркости области интереса и матрицы зарегистрированного паттерна яркости области интереса определяют двумерные координаты указанных опорных точек в каждом из указанного множества видеоизображений. Затем используют двумерные координаты указанных опорных точек для управления курсором мыши.

Опорные точки лица человека представляют собой центр верхней губы, кончик носа, точку между глаз на переносице, зрачок правого глаза и зрачок левого глаза пользователя.

Кроме того, в случае потери одной из опорных точек осуществляют ее восстановление на основе двумерных координат двух точек, оставшихся в прямоугольной области, объединяющей тройки опорных точек.

Новая совокупность существенных признаков позволяет достичь указанного технического результата за счет:

- использования пяти естественных опорных точек на лице человека, формирующих две перпендикулярные линии;

- возможности корректировки положения отслеживаемых опорных точек, определяемой различием пропорций лиц различных людей;

- восстановления опорных точек в области интереса в случае потери одной из них.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа бесконтактного управления курсором мыши, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности «новизна».

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Заявленное изобретение поясняется следующими чертежами:

- фиг. 1, на которой представлена блок-схема последовательности действий, реализующих предлагаемый способ;

- фиг. 2, на которой представлена система пяти опорных точек на лице человека;

- фиг. 3, отображающей график скорости движения головы пользователя в видеокадрах при бесконтактном выделении целей на экране;

- фиг. 4, отображающая схему и порядок расположения целей на экране для проведения экспериментов по методике Фиттса (а) и траекторию движения курсора при выполнении задания жестами головой (б);

- фиг. 5, на которой приведено соотношение значений фактической сложности IDe и теоретической сложности ID задачи;

- фиг. 6, на которой представлены результаты анализа значений времени движения МТ от одной цели к другой при выполнении пользователями поставленной тестовой задачи;

- фиг. 7, на которой представлены результаты анализа значений производительности TP по методике Фиттса при выполнении тестового сценария согласно разработанного способа.

Реализация заявленного способа заключается в следующем (фиг. 1).

В блоке 101 получают оцифрованное изображение выпуклой формы с помощью видеокамеры, при этом выпуклая форма представляет собой голову человека (пользователя) с нарушениями моторных функций рук, управляющего компьютером или другими техническими устройствами.

В блоке 102 определяют местоположение области интереса на выпуклой форме, представляющей собой область лица человека между бровями и нижней губой.

Поиск области интереса может проводиться, например, методом AdaBoost [Вежневец, A. Boosting - Усиление простых классификаторов / А. Вежневец, В. Вежневец // Компьютерная графика и мультимедиа. Вып. 4(2), 2006. - Режим доступа: http://cgm.computergraphics.ru/content/view/112] на основе алгоритма Виола-Джонс [Viola, P. Rapid Object Detection using a Boosted Cascade of Simple Features / P. Viola, M. Jones // In Proc. 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR-2001, 2001. - pp. 511-515]. Изображение сканируется рамкой-окном заданного размера и строится пирамида копий объектов. Построенная пирамида анализируется заранее обученными каскадами Хаара, и на изображении находятся графические области, отвечающие заданной визуальной модели [Lienhart, R. An Extended Set of Haar-like Features for Rapid Object Detection / R. Lienhart, J. Maydt // In Proc. IEEE International Conference on Image Processing ICIP'2002, Rochester, New York, USA, 2002. - pp. 900-903]. Метод детекции лица пользователя находит прямоугольные графические области на изображении с видеокадров, с высокой степенью вероятности содержащие изображение лица человека. Введено ограничение, что размер такой области должен быть не менее 220×250 пикселей (при оптическом разрешении видеокадров 640×480 пикселей), чтобы захватывать только одно лицо в кадре, достаточно близко расположенное по отношению к видеокамере, а кроме того, это ускоряет процесс обработки видеопотока. Данные методы видеообработки реализованы в библиотеке компьютерного зрения OpenCV [Bradsky, G. Learning OpenCV / G. Bradsky, A. Kaehler // O'Reilly Publisher, 2008. - 571 p.] и применяются в модифицированном виде в данном способе.

В блоке 103 сохраняют оцифрованное видеоизображение указанной выпуклой формы в окрестности указанной области интереса. Указанное оцифрованное видеоизображение имеет паттерн яркости, называемый сохраненным паттерном яркости области интереса, поэтому в блоке 104 указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы.

В блоке 105 определяют местоположение пяти опорных точек (фиг. 2) в пределах указанного сохраненного паттерна яркости области интереса.

Естественные опорные точки лица человека представляют собой: центр верхней губы, кончик носа, точку между глаз на переносице, зрачок правого глаза и зрачок левого глаза. Причем эти точки формируют две перпендикулярные линии: вертикальную (точки 1-3) и горизонтальную (точки 3-5). Пропорции лиц различных людей схожи, но не идентичны, поэтому способ предусматривает возможность корректировки положения системы отслеживаемых точек, которую можно произвести путем изменения соответствующих параметров. Кроме того, экспериментально было обнаружено, что для людей со светлыми глазами эти две естественных точки не являются надежными для отслеживания, поэтому их также можно исключить при определении местоположения опорных точек.

В блоке 106 регистрируют множество оцифрованных видеоизображений, каждое из упомянутого множества видеоизображений содержит видеоизображение указанной выпуклой формы, названное зарегистрированным паттерном яркости области интереса.

Для отслеживания движений головы пользователя применяется метод, реализованный на основе базового алгоритма Лукас-Канаде (Lukas-Kanade) [Lucas, B.D. An Iterative Image Registration Technique with an Application to Stereo Vision / B.D. Lucas, T. Kanade // IJCAI, 1981. - pp. 674-679] и его более поздней пирамидальной модификации [Bouguet, J.-Y. Pyramidal Implementation of the Lucas-Kanade Feature Tracker Description of the algorithm // Intel Corporation Microprocessor Research Labs, 2000] для анализа оптического потока (т.е. изображение видимого движения объектов, поверхностей или краев сцены, получаемое в результате перемещения наблюдателя относительно сцены или наоборот сцены относительно наблюдателя).

Указанный зарегистрированный паттерн яркости области интереса в блоке 107 приводят к тому же размеру, что и сохраненный паттерн яркости области интереса, и для каждого из упомянутого множества видеоизображений регистрируют в виде матрицы в блоке 108.

В блоке 109 сравнивают матрицу сохраненного паттерна яркости области интереса и матрицу зарегистрированного паттерна яркости области интереса для каждого из указанного множества видеоизображений на основе попиксельного сравнения или корреляционного анализа. При этом окно поиска в каждом из указанного множества видеоизображений, внутри которого выполняют сравнение, выбирают из группы, состоящей из:

- окна поиска, представляющего собой квадратную область с длиной стороны в пределах от четверти ширины лица до ширины лица и центром, соответствующим местоположению кончика носа на предыдущем видеоизображении из упомянутого множества видеоизображений, если указанное местоположение известно;

- окна поиска, представляющего собой прямоугольную область, определяемую с использованием автоматизированной технологии обнаружения лица;

- окна поиска, представляющего собой всю область изображения видеокадра.

По результатам сравнения матрицы сохраненного паттерна яркости области интереса и матрицы зарегистрированного паттерна яркости области интереса в блоке 110 определяют двумерные координаты указанных опорных точек , в каждом из указанного множества видеоизображений. Смещение двухмерных координат данных опорных точек в последовательных видеокадрах преобразуется (блок 111) в синхронные перемещения курсора мыши на экране.

Для вычисления текущего положения курсора мыши на экране М=(МХ, MY) используется линейная комбинация изменения координат реперных точек 1-3 (для абсциссы МХ координат курсора мыши) и точек 3-5 (для ординаты MY) в соседних видеокадрах:

где Ci определяет i-ю реперную точку на текущем кадре, а - на предыдущем кадре видеопотока, - коэффициент скорости движения курсора мыши.

Таким образом, курсор сдвигается пропорционально перемещению трех точек между соседними кадрами видеопотока. При этом точки 4-5 не учитываются при формировании координаты X курсора, так как при повороте головы их смещение оказывается нелинейным (различным для каждой из точек) в декартовой системе координат. Для Y координаты курсора аналогично из рассмотрения исключаются точки 1-2. Таким образом, курсор сдвигается на экране пропорционально сдвигу отслеживаемых точек лица человека с учетом заданного коэффициента скорости движения курсора KP.

Разработанный способ также учитывает скорость перемещения головы пользователя. Если пользователю необходимо передвинуть курсор на значительное расстояние (например, от одного угла экрана к другому), то пользователь двигает головой достаточно быстро и применяется большой коэффициент скорости K1 (не менее 3 единиц, в зависимости от разрешения экрана). Если же пользователь хочет выделить некоторый объект на экране, то совершает незначительные движения головой и применяется малый коэффициент умножения K2 (не более 3 единиц, в зависимости от разрешения экрана). Этот процесс может быть представлен следующей формулой:

где КР - коэффициент скорости перемещения курсора мыши; VH - скорость перемещения головы пользователя на видеокадрах; TH - максимальное пороговое значение малой скорости перемещения головы (настраивается в зависимости от установленного разрешения экрана, удаленности пользователя от видеокамеры и эргономических предпочтений пользователя).

Таким образом, в способе бесконтактного управления курсором мыши применяются несколько адаптивных значений скорости движения курсора мыши в зависимости от скорости перемещения головы пользователя.

Для выбора оптимального значения порога скорости TH были проведены соответствующие эксперименты. Скорость движения головы была вычислена при работе пользователя с интеллектуальной системой, установленной на ноутбуке с монитором размером 15'' (около 37 см) формата 16:9 и разрешением 1280×800 пикселей. Задача пользователя состояла в выделении небольших круглых целей разного размера, последовательно появляющихся в различных частях экрана, и подтверждении нажатия цели. Средняя скорость обработки видеокадров системой составила около 15 кадров в секунду, что достаточно для работы в реальном режиме работы без задержек и рывков с плавным перемещением курсора. График на фиг. 3 показывает значения скорости (пикселей/кадр) движения головы оператора в 2D координатах кадра видеокамеры разрешением 640×480 пикселей. При этом скорость движения головы пользователя в видеопотоке вычисляется по формуле:

где Ci определяет i-ю опорную точку на текущем кадре, а - на предыдущем кадре видеопотока.

Из фиг. 3 можно сделать вывод, что когда пользователь двигает курсор мыши от одного объекта на экране к другому, он выполняет движения головой достаточно быстро (обычно не менее 10 экранных пикселей за время между двумя видеокадрами, но когда пользователь старается точно попасть курсором в требуемую цель на экране, движения головой производятся аккуратно с заметно меньшей амплитудой (обычно 1-3 экранных пикселей за время между двумя соседними видеокадрами). Поэтому значение пороговой константы скорости TH устанавливается равным 3,0, но может адаптивно настраиваться в зависимости от скорости обработки видеоданных, частоты кадров, расстояния пользователя до экрана и индивидуальных эргономических предпочтений пользователя.

Кроме того, предлагаемый способ в случае потери одной из опорных точек осуществляет ее восстановление на основе двумерных координат двух точек, оставшихся в прямоугольной области, объединяющей тройки опорных точек. Например, если точка 2 (фиг. 2, б) выходит за пределы прямоугольной зоны, образованной точками 1 и 3, то ее правильное положение будет восстановлено как линейная комбинация координат двух других точек. Для точки 3 определены сразу две прямоугольных рабочих области (вертикальная и горизонтальная), поэтому эта точка является самой надежной в данном методе (фиг. 2, в).

Способ бесконтактного управления курсором мыши может быть реализован с помощью известных устройств. Так, получение оцифрованного изображения выпуклой формы может быть осуществлено с помощью web-камеры с разрешением 640×480 пикселей и частотой до 25 кадров в секунд.

Для сохранения (регистрации) оцифрованных видеоизображений используется буферное устройство, которое может быть реализовано с использованием матрицы ОЗУ. Схемы ОЗУ известны и описаны, например, в книге В.Н. Вениаминова, О.Н. Лебедева, А.И. Мирошниченко «Микросхемы и их применение» (М.: Радио и связь, 1989, с. 146). В частности, ОЗУ может быть реализовано на микросхемах К565 серии.

Устройства хранения матрицы сохраненного паттерна яркости области интереса и матрицы зарегистрированного паттерна яркости области интереса могут быть реализованы на основе постоянных запоминающих устройств (ПЗУ). Схемы ПЗУ известны и описаны, например, в книге В.Н. Вениаминова, О.Н. Лебедева, А.И. Мирошниченко. Микросхемы и их применение. М.: Радио и связь, 1989. - С. 156. В частности, ПЗУ может быть реализовано на микросхемах К555 серии.

Блоки 102, 105, 107, 109, 110 могут быть реализованы на устройствах сходящихся вычислений. Схемы устройств сходящихся вычислений известны и описаны, например, в книге Э. Айфичера, Б. Джервиса «Цифровая обработка сигналов: практический подход» (М.: Издательский дом «Вильямс», 2004. - С. 850). В частности, такая схема может быть реализована на комплексных умножителях PDSP16112A (Mitel) и комплексных накопителях PDSP16318A (Mitel).

Мышь представляет собой устройство ввода информации. Описание устройств ввода представлено в книге Авдеев В.А. Периферийные устройства: интерфейсы, схемотехника, программирование. - М.: ДМК Пресс, 2009, 848 с.: ил. - С. 414-433.

Монитор представляет собой устройство вывода информации и предназначено для отображения графических объектов и курсора мыши. Описание устройств вывода представлено в книге Авдеев В.А. Периферийные устройства: интерфейсы, схемотехника, программирование. - М.: ДМК Пресс, 2009, 848 с.: ил. - С. 451-526.

Заявленный способ бесконтактного управления курсором мыши позволяет повысить робастность слежения за перемещением головы пользователя путем повышения производительности работы с системой.

Для доказательства достижения заявленного технического результата проведены следующие эксперименты, для проведения которых было разработано соответствующее программное обеспечение, позволяющее произвольно задавать значения D и W в выражении (1), а также вычислять результаты прохождения теста. Программное обеспечение предлагает пользователю последовательно выбрать 16 целей, которые появляются на экране монитора компьютера (фиг. 4, а). На фиг. 4, б показан реальный пример траектории движения курсора при бесконтактном выполнении задания жестами головой, полученный посредством разработанного способа.

Для проведения экспериментов были привлечены шесть потенциальных пользователей разного уровня и опыта общения с компьютером, которым предлагались задания с 16-ю круглыми целями, по очереди появляющимися в различных точках экрана на окружности заданного диаметра D. Каждым пользователем были проведены серии по 10 тестов с дискретным изменением диаметра цели W в пределах 32-128 пикселей и расстояния D между целями в пределах 96-650 пикселей (при стандартном разрешении экрана 1280×1024), таким образом, значение ID варьировалось от 1,32 до 4,4 бит. Всего пользователями было выполнено 360 тестов, каждый из которых занимал от 30 секунд до 2 минут.

График на фиг. 5 показывает полученные в результате экспериментов и усредненные по всем пользователям зависимости результирующих соотношений IDe (фактическая сложность) и ID (теоретически рассчитанная сложность), полученные при разных значениях D и W. Причем, данный график лежит выше пунктирной линии (ожидаемая сложность выполнения задачи), а это означает, что выполнение данной задачи оказалось несколько сложнее, чем ожидалось теоретически (в том случае, если график лежит ниже пунктирной линии, то можно говорить о том, что предлагаемая тестерам задача легче расчетной сложности).

Согласно экспериментам по методике Фиттса, время движения МТ между двумя целями есть линейная функция индекса сложности ID задачи. Для каждого проведенного теста измерялось время между соседними кликами целей, а также количество ошибок выделений (непопадание внутрь цели). На фиг. 6 приведен статистический анализ полученных значений времени движения МТ для всех тестеров. Верхняя и нижняя границы прямоугольника означают покрытие 75% и 25% (верхние и нижние квартили) всех полученных значений МТ, соответственно. Верхняя и нижняя горизонтальные черточки на вертикальной линии означают покрытие 90% и 10% (верхние и нижние децили) всех значений МТ, соответственно. Полоса внутри прямоугольника обозначает медиану (медианное значение) величины МТ, т.е. около 2,5 секунд между речевыми "подтверждениями" цели.

На фиг. 7 представлен статистический анализ полученных значений производительности TP бесконтактного многомодального интерфейса по методике Фиттса при выполнении пользователями поставленной тестовой задачи. На данном рисунке показаны медиана, верхние и нижние квартили и децили полученных значений ТР.

Также было проведено тестирование разработанного способа и способа прототипа на указанной тестовой задаче. Тестирование системы было произведено несколькими добровольными тестерами, которые имели незначительный опыт работы с персональным компьютером.

В таблице 1 приведены результаты экспериментов и сравнение указанных способов по трем количественным показателям:

1) среднее время движения МТ между двумя целями;

2) процент ошибок выделения целей (непопадание курсором в цель);

3) общая производительность ТР.

Данная таблица показывает, что наилучшие результаты по производительности и ошибкам выделения цели были показаны при использовании разработанного способа, что свидетельствует о достижении заявленного способа бесконтактного управления курсором мыши.

При проведении экспериментов способ-прототип и разработанный способ моделировались на ноутбуке HP с многоядерным процессором Intel Core i5 2.5 ГГц, 3 Гб оперативной памяти и экраном диагональю 15''. В качестве дополнительного аппаратного обеспечения использовалась USB веб-камера Logitech QuickCam or Notebooks Pro, обеспечивающая разрешение 640×480 точек при 25 кадрах в секунду. Очевидно, что использование профессиональной цифровой видеокамеры позволит достичь лучшей точности выделения целей, а следовательно, большей робастности слежения за перемещением головы пользователя.

1. Способ бесконтактного управления курсором мыши, заключающийся в том, что определяют местоположение области интереса на выпуклой форме, сохраняют оцифрованное видеоизображение указанной выпуклой формы в окрестности указанной области интереса, указанное оцифрованное видеоизображение имеет паттерн яркости, называемый сохраненным паттерном яркости области интереса, указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы, регистрируют множество оцифрованных видеоизображений, каждое из упомянутого множества видеоизображений содержит видеоизображение указанной выпуклой формы, названное зарегистрированным паттерном яркости области интереса, указанный зарегистрированный паттерн яркости области интереса приводят к тому же размеру, что и сохраненный паттерн яркости области интереса, и для каждого из упомянутого множества видеоизображений регистрируют в виде матрицы, сравнивают матрицу сохраненного паттерна яркости области интереса и матрицу зарегистрированного паттерна яркости области интереса для каждого из указанного множества видеоизображений на основе попиксельного сравнения или корреляционного анализа, при этом окна поиска в каждом из указанного множества видеоизображений, внутри которого выполняют сравнение, выбирают из группы, состоящей из: окна поиска, представляющего собой квадратную область с длиной стороны в пределах от четверти ширины лица до ширины лица и центром, соответствующим местоположению кончика носа на предыдущем видеоизображении из упомянутого множества видеоизображений, если указанное местоположение известно, окна поиска, представляющего собой прямоугольную область, определяемую с использованием автоматизированной технологии обнаружения лица, или окна поиска, представляющего собой всю область изображения видеокадра, отличающийся тем, что выпуклая форма представляет собой голову человека, область интереса представляет собой область лица человека между бровями и нижней губой, перед тем, как определяют местоположение области интереса на выпуклой форме, получают оцифрованное изображение указанной выпуклой формы с помощью видеокамеры, после того, как указанный сохраненный паттерн яркости области интереса сохраняют в виде матрицы, определяют местоположение пяти опорных точек в пределах указанного сохраненного паттерна яркости области интереса, а затем регистрируют множество оцифрованных видеоизображений, по результатам сравнения матрицы сохраненного паттерна яркости области интереса и матрицы зарегистрированного паттерна яркости области интереса определяют двумерные координаты указанных опорных точек в каждом из указанного множества видеоизображений, а затем используют двумерные координаты указанных опорных точек для управления курсором мыши.

2. Способ по п. 1, отличающийся тем, что естественные опорные точки лица человека представляют собой центр верхней губы, кончик носа, точку между глаз на переносице, зрачок правого глаза и зрачок левого глаза пользователя.

3. Способ по п. 2, отличающийся тем, что в случае потери одной из опорных точек осуществляют ее восстановление на основе двумерных координат двух точек, оставшихся в прямоугольной области, объединяющей тройки опорных точек.



 

Похожие патенты:

Изобретение относится к области уличной рекламы и может быть использовано для создания уличных рекламных видеоэкранов. Светодиодный экран выполнен из двух модулей плоского материала, на одном из которых закреплены светодиоды с индивидуальным чипом управления.

Изобретение относится к области производства вращающихся дисплеев для визуального отображения текстовой, графической и видеоинформации в рекламных и иных целях и направлено на повышение качества изображения.

Изобретение относится к области туристического и спортивного снаряжения и может быть использовано при создании легких (малых) плавательных средств, в частности досок для плавания, SUP, серфов, байдарок, надувных лодок и т.п.

Изобретение относится к носителю для дисплея для переноски дисплея, такого как плоскопанельный дисплей. Изобретение было выполнено для того, чтобы дисплей мог переноситься безопасным образом.

Изобретение относится к модулю отображения и к системе отображения, которые максимизируют визуальное и пространственное использование с помощью прозрачной панели отображения.

Предложено оптическое чувствительное устройство, которое, даже если корпусная рамка выполнена тонкой, может обеспечивать плавное покидание чувствительным блоком корпусной рамки или плавный вход в нее, а также может компенсировать позиционные сдвиги дисплейной панели для отображения, вызванные приведением ее в действие и вырабатыванием в результате этого тепла.

Изобретение относится к исполнительно-приводному механизму измерительного преобразователя. Исполнительно-приводной механизм содержит: корпусную рамку (2), измерительный преобразователь (3), содержащий оптический датчик (41), пружинный элемент (6), выполненный с возможностью расширения или сокращения в направлении Y, исполнительно-приводные элементы (5, 15), выполненные с возможностью сокращения против упругости пружинного элемента (6), когда подано питание, и направляющий элемент (17) для перемещения измерительного преобразователя (3) линейно в направлении X.

Настоящее изобретение относится к (i) подложке матрицы, в которой элементы тонкопленочных транзисторов (TFT) и другие компоненты обеспечиваются на изолирующей подложке, и (ii) жидкокристаллической панели отображения, изготовленной с подложкой матрицы.

Дисплей // 2485602
Изобретение относится к дисплею и направлено на создание нового и улучшенного дисплея, который позволяет достичь большего уменьшения толщины модуля, когда дисплейная панель и подложка электрических схем размещены вместе.

Изобретение относится к области обработки изображений и может быть использовано для автоматического поиска и распознавания изображений объектов. Технический результат заключается в повышении вероятности распознавания объектов за счет увеличения размерности и информативности выделенного вектора признаков из изображений объектов.

Изобретение относится к технологиям компьютерной обработки изображений. Техническим результатом является повышение эффективности косметической обработки изображения лица за счет автоматического распознания части изображения, которое должно быть косметически обработано.

Изобретение относится к средствам выполнения оптического распознавания символов серий изображений с текстовыми символами. Технический результат заключается в повышении качества оптического распознавания за счет анализа серии изображений.

Изобретение относится к области обработки данных. Технический результат - повышение точности определения городских объектов при построении моделей городских объектов, на основе данных лазерного сканирования и фотографических данных.
Изобретение относится к средствам графического искажения отдельных символов при помощи интерполяции (морфинга) шрифтов между собой. Технический результат заключается в обеспечении возможности создания изображений для полностью автоматизированного теста Тьюринга (САРТСНА), при повышении сложности автоматического распознавания символов данных изображений с помощью компьютерных программ.

Группа изобретений относится к области медицины, а именно к онкологии. Для интеллектуального объединения результатов медицинских исследований используют способ и систему, содержащую модуль извлечения контекстной информации из изображения интересующей области, модуль выбора признаков, формирующий текущий вектор признаков, подсистему связывания, вычисляющую показатель подобия и подсистему представления, обеспечивающую отображение представляемых данных на основе показателя подобия.

Изобретение относится к технологиям обработки электронных документов. Техническим результатом является обеспечение классификации изображений документов на основе функции классификации.

Группа изобретений относится к технологиям распознавания символов, соответствующих изображениям символов, полученных из изображения отсканированного документа или другого изображения, содержащего текст.

Группа изобретений относится к технологиям оптического распознавания символов (OCR) кадров видеоматериалов с целью обнаружения в них текстов на естественных языках.

Изобретение относится к области поиска изображений. Технический результат - обеспечение повышения эффективности процесса поиска изображений, посредством использования композитного параметра визуальных характеристик.

Изобретение относится к области мобильных терминалов. Техническим результатом является эффективное отображение рабочего стола.
Наверх