Мобильный видеопоиск

Авторы патента:

ЛИ Шипэн (CN)

ЛЮ У (CN)

МЭЙ Тао (CN)

G06K9/46 - выделение деталей или характеристик изображения

G06K9/00744 - Способы и устройства для считывания и распознавания напечатанных или написанных знаков или распознавания образов, например отпечатков пальцев (обработка или анализ траекторий ядерных частиц G01T 5/02; проверка рисунков на бумажных деньгах или подобных ценных бумагах G07D 7/20; распознавание речи G10L 15/00)

G06F17/30787 - Устройства или методы цифровых вычислений или обработки данных, специально предназначенные для специфических функций

Владельцы патента RU 2647696:

МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи (US)

Изобретение относится к средствам поиска по видеоконтенту. Технический результат заключается в расширении арсенала технических средств поиска по видео. Способ поиска видео содержит этапы, на которых: принимают через компонент ввода вычислительного устройства множество временных интервалов видеоконтента; выполняют извлечение дескриптора аудио-видео для временных интервалов видеоконтента; формируют подпись аудио-видеоассоциированную с временными интервалами видеоконтента на основе извлекаемого дескриптора аудио-видео, при этом подпись аудио-видео включает в себя хэш-бит видео, ассоциированный с временным интервалом видеоконтента; отправляют подпись аудио-видео, ассоциированную с одним или более временными интервалами видеоконтента, в качестве запроса к набору данных; продолжают принимать возможные варианты результатов запроса; и представляют возможные варианты результатов, продолжая принимать временные интервалы видеоконтента. 5 н. и 5 з.п. ф-лы, 11 ил.

Уведомление об авторском праве и разрешение

[0001] Часть раскрытия сущности данного патентного документа может содержать материал, который является субъектом защиты авторского права. Обладатель авторского права не имеет возражений против факсимильного репродуцирования кем-либо патентного документа или раскрытия сущности патента в том виде, в котором он содержится в патентном фонде Агентства США по патентам и товарным знакам, но во всех иных случаях абсолютно все любые другие авторские права защищены. Следующее уведомление должно применяться к этому документу: Copyright © 2013, Microsoft Corp.

Уровень техники

[0002] Получают все большее распространение мобильные устройства с доступом к Интернету и Всемирной паутине, служащие в качестве персональных помощников для Интернет-серфинга, которые предоставляют пользователям доступ к постоянно растущим объемам данных в движении.

[0003] Мобильные устройства в данный момент не предоставляют платформу, которая способствует некоторым типам выполнения поиска, в частности, выполнению поиска видеоконтента без расходования ресурсов для того, чтобы записывать и отправлять запись предмета поиска в качестве запроса.

[0004] Некоторые поисковые приложения для мобильных устройств поддерживают фотографии, снятые с помощью камеры, встроенной в мобильное устройство, в качестве визуального запроса, что называется захватом для поиска. В захвате для поиска, типично сначала получается мгновенный снимок изображения. Затем этот мгновенный снимок отправляется в качестве запроса на то, чтобы выполнять поиск совпадения в различных вертикальных областях. Другие поисковые приложения поддерживают аудио, записываемое из микрофона, встроенного в мобильное устройство, в качестве аудиозапроса. Например, INTONOW дает возможность пользователям записывать аудио для использования в качестве запроса. Тем не менее, этот звук записывается в течение периода приблизительно вплоть до 12 секунд. Затем эта звукозапись отправляется в качестве запроса на то, чтобы выполнять поиск совпадения в различных вертикальных областях. Этот процесс не работает оптимально, если условия записи являются зашумленными, или в случае видео без звука, так что запись является беззвучной.

[0005] Некоторые поисковые механизмы для аудиофайлов используют еще более длительное время записи.

Тем не менее, типичные механизмы аудиопоиска не выполняют поиск аудио в комбинации с видео, и они по-прежнему требуют отправки фактической записи в качестве запроса.

[0006] Еще одни другие поисковые приложения поддерживают видеоизображения, снятые с помощью камеры, встроенной в мобильное устройство, в качестве визуального запроса, что может называться видеозахватом для поиска. VIDEOSURF является примером видеозахвата для поиска. В VIDEOSURF, видеоизображение захватывается в течение периода, по меньшей мере, в 10 секунд и сохраняется. Пользователь затем выбирает отличительный видеоконтент для поиска, и далее этот клип с видеоизображениями отправляется в качестве запроса на то, чтобы выполнять поиск совпадающего видео.

[0007] Существующие приложения для мобильного видеопоиска расходуют значительные ресурсы для того, чтобы сохранять относительно длительный аудио- и/или видеоклип и отправлять записанный клип в поисковый механизм. После того, как поисковый механизм принимает запрос на записанный видеоклип, поисковый механизм может выполнять определение совпадений на основе клипа. Существующие способы требуют клипа фиксированной длительности, например, в 10 или 12 секунд.

[0008] Большинство исследований, связанных с видеопоиском на мобильных устройствах, акцентируют внимание на компактной схеме дескрипторов на мобильных устройствах. Самым популярным способом разрешать эту проблему является сжатие дескрипторов через технологию кодирования изображений для поиска практически дублированных видео, который может классифицироваться на три категории согласно типу модальности данных, на которой они основываются: способы на основе аудио, на основе видео и на основе слияния. Тем не менее, большинство существующих подходов к поиску практически дублированных видео преимущественно акцентирует внимание на настольных сценариях, в которых видеозапрос обычно представляет собой поднабор исходного видео без значительного искажения, а не видео, захваченного посредством мобильного устройства. Кроме того, вычислительные затраты и компактность дескрипторов зачастую игнорируются в существующих подходах, поскольку традиционные подходы к поиску дублированных видео не принимают вышеуказанные сложности мобильных технологий во внимание. Традиционные подходы к поиску дублированных видео не являются подходящими для мобильного видеопоиска.

Сущность изобретения

[0009] Этот документ описывает средство для видеопоиска на мобильном устройстве, которое использует преимущество вычислительных ресурсов, доступных на мобильном устройстве, чтобы извлекать характеристики аудио и видео видеоконтента, представленного посредством устройства, отличного от мобильного устройства, и отправлять характеристики в качестве запроса вместо отправки записи видеоконтента в качестве запроса. Посредством извлечения характеристик аудио и видео для использования в качестве поискового запроса и посредством определения совпадения характеристик аудио и видео с характеристиками аудио и видео, сохраненными в индексированном наборе данных видеоконтента, средство предоставляет возможные варианты видео для каждой отправляемой характеристики аудио и видео, в том числе, когда характеристики извлекаются в зашумленных, плохо освещенных или изменчивых условиях. Средство предусматривает представление индикатора относительно возможных вариантов видео в то время, когда получаются дополнительные части видеоввода, и постепенное уточнение возможных вариантов видео, которые должны указываться. Средство предоставляет перечень возможных вариантов видео, включающий в себя пересмотр перечня возможных вариантов видео, предоставляемых в то время, когда получаются дополнительные части видеоввода до тех пор, пока не будет выполнен выбор из предоставляемых возможных вариантов видео, либо до тех пор, пока не будет стабилизирован список результатов возможных вариантов видео, например, список результатов возможных вариантов видео прекращает изменяться в течение определенного периода времени, и поиск прекращается. Средство предусматривает различное представление индикатора относительно возможных вариантов видео в ответ на стабилизацию списка результатов возможных вариантов видео, например, прекращение изменения в течение определенного периода времени. Средство также предусматривает представление дополнительного интерфейса в ответ на выбор, выполненный из предоставляемых возможных вариантов видео; например, средство предусматривает открытие обозревателя, чтобы давать возможность пользователю покупать или арендовать выбранное видео, давать возможность пользователю видеть дополнительную или вспомогательную информацию относительно выбранного видео или давать возможность пользователю сохранять индикатор относительно видео для последующего просмотра.

[0010] Данная сущность изобретения предоставлена для того, чтобы представлять в упрощенной форме выбор концепций, которые дополнительно описаны ниже в подробном описании. Эта сущность не имеет намерение идентифицировать ключевые или важнейшие признаки заявленного предмета изобретения, а также не имеет намерение использоваться в качестве помощи при определении объема заявленного предмета изобретения. Термин "технологии", например, может означать способ(ы) и/или машиноисполняемые инструкции, модуль(и), алгоритмы, аппаратную логику (например, программируемые пользователем вентильные матрицы (FPGA), специализированные интегральные схемы (ASIC), специализированные микросхемы для массового производства (ASSP), внутрикристальные системы (SOC), комплексные программируемые логические устройства (CPLD)) и/или "средство", например, может означать аппаратную логику (например, программируемые пользователем вентильные матрицы (FPGA), специализированные интегральные схемы (ASIC), специализированные микросхемы для массового производства (ASSP), внутрикристальные системы (SOC), комплексные программируемые логические устройства (CPLD)), другое устройство(а) и/или другую систему(ы), разрешенные посредством вышеприведенного контекста и в документе.

Краткое описание чертежей

[0011] Подробное описание приводится со ссылкой на прилагаемые чертежи. На чертежах самая левая цифра(ы) номера ссылки идентифицирует чертеж, на котором номер ссылки впервые появляется. Идентичные номера используются на всех чертежах для того, чтобы указать похожие признаки и компоненты.

[0012] Фиг. 1 является иллюстративной схемой примерной реализации мобильного видеопоиска с использованием захвата посредством мобильного устройства аудио-видео из видеопредставления на телевизионном приемнике.

[0013] Фиг. 2 является иллюстративной схемой части примерного пользовательского интерфейса мобильного видеопоиска из варианта осуществления по фиг. 1.

[0014] Фиг. 3 является иллюстративной схемой примерной архитектуры для реализации мобильного видеопоиска.

[0015] Фиг. 4 является блок-схемой, которая иллюстрирует выбранные компоненты примерных мобильных устройств, выполненных с возможностью мобильного видеопоиска.

[0016] Фиг. 5 является блок-схемой, которая иллюстрирует выбранные компоненты примерных серверных устройств, выполненных с возможностью индексации многоуровневого аудио-видео, которая может использоваться для мобильного видеопоиска.

[0017] Фиг. 6 является иллюстративной схемой примерной инфраструктуры системы, включающей в себя мобильное устройство, реализующее мобильный видеопоиск, и сервер, реализующий индексацию многоуровневого аудио-видео.

[0018] Фиг. 7 является иллюстративной схемой примера извлечения цифрового аудиоотпечатка.

[0019] Фиг. 8 является иллюстративной схемой примера индекса многоуровневого аудио-видео.

[0020] Фиг. 9 является блок-схемой последовательности операций способа примерного процесса для реализации мобильного видеопоиска на клиентском устройстве.

[0021] Фиг. 10 является блок-схемой последовательности операций способа примерного процесса для реализации видеопоиска на сервере с использованием индекса многоуровневого аудио-видео.

[0022] Фиг. 11 является блок-схемой последовательности операций способа, которая иллюстрирует примерную реализацию прогрессивной обработки во время видеопоиска на сервере с использованием индекса многоуровневого аудио-видео.

Подробное описание изобретения

[0023] Инструмент мобильного видеопоиска предоставляет обширный набор функциональностей, чтобы получать релевантные результаты для видеопоиска. По сравнению с настольным компьютером, который преимущественно поддерживает поиск с использованием фрагментов фактических видеофайлов, мобильное устройство предоставляет обширный набор интерфейсов для пользовательского взаимодействия, который может использоваться для того, чтобы упрощать использование и получать результаты во множестве окружений. Например, помимо выгрузки и загрузки файлов и традиционных вводов с помощью клавиатуры и мыши, принятых в настольном окружении, мобильные устройства оснащены возможностями принимать дополнительные многомодальные вводы. Интерфейсы мобильных устройств могут комбинировать визуальную модальность через встроенную камеру и аудиомодальность через встроенный микрофон.

[0024] Хотя мобильные устройства могут комбинировать такие модальности ввода, видеопоиск из мобильных устройств сталкивается с множеством сложностей. Например, одна из сложностей, с которыми сталкивается мобильный видеопоиск, заключается в том, что поиск может требоваться несмотря на то, что пользователь находится в неидеальных условиях. Окружение может быть зашумленным, изменчиво освещенным или с колеблющимся освещением и/или в окружении с колеблющимися скоростями Интернет-подключения. Напротив, видеопоиск из настольных компьютеров типично включает в себя отправку фрагмента видеофайла, а не записи представления видео на другом устройстве, захваченного с помощью камеры и/или микрофона.

[0025] Другие сложности, с которыми сталкивается мобильный видеопоиск, включают в себя аппаратные ограничения мобильных устройств. Процессор, например, центральный процессор (CPU) и графический процессор (GPU) и запоминающее устройство мобильных устройств по-прежнему являются несравнимыми с настольными компьютерами. Строгие ограничения по запоминающему устройству и вычислительные ограничения делают подписи с существенными затратами по запоминающему устройству или ресурсоемким вычислением неподходящими для мобильных клиентов. Дополнительно, отрицательные эффекты ограничений сети и по полосе пропускания. В мобильных устройствах, сетевое соединение зачастую является ненадежным, и полоса пропускания является относительно низкой. В мобильном видеопоиске, как описано в данном документе, эффекты узких мест и прерванных соединений могут быть ограничены посредством использования компактных подписей, чтобы уменьшать объем данных, передаваемых по сети, и в конечном счете уменьшать сетевую задержку. Помимо этого, пользователи мобильных устройств для поиска являются чувствительными ко времени задержки поиска. Представление предварительных результатов, включающих в себя результаты из прогрессивного поиска, в то время, когда более захватывается короткий, чем традиционный, клип-запрос, уменьшает кажущееся время задержки для пользователя.

[0026] Например, пользователь может идти на встречу и заметить видеопредставление в окне витрины. Даже если пользователь не имеет времени остановиться и посмотреть видео, пользователь может захватывать несколько секунд видео с использованием инструмента до тех пор, пока инструмент не возвратит совпадающее видео. Пользователь может сохранять название видео для последующего просмотра. В этом примере, клиентский инструмент, который может записывать аудио из представления и видеоизображение из представления и выполнять облегченное преобразование для захваченного контента. Преобразование включает в себя извлечение цифрового аудиоотпечатка и извлечение визуальных хэш-битов даже в зашумленных уличных условиях. С учетом относительно ограниченных ресурсов запоминающего устройства и вычислительных ресурсов мобильного устройства по сравнению с настольным компьютером, например, это может приводить к неосуществимости извлечения вычислительно затратных подписей для того, чтобы представлять видеоклип. Кроме того, полоса пропускания, доступная для того, чтобы отправлять видеоклип на сервер для обработки, может быть недоступной, либо длительность передачи может быть неприемлемо большой. Посредством использования вычислительных возможностей на мобильном устройстве, инструмент может выполнять преобразование и передавать гораздо более низкий объем данных по сети. Например, извлечение цифрового аудиоотпечатка может приводить приблизительно к 0,5 Кбайт данных для секунды видео. Аналогично, извлечение визуальных хэш-битов из видео может приводить приблизительно к 1,0 Кбайт данных для секунды видео. Таким образом, подпись аудио-видео этих комбинированных характеристик может отправляться менее чем для 2 КБ данных по сравнению с объемом данных, чтобы отправлять всю секунду видеоклипа. Кроме того, вследствие сниженного времени задержки поисковой системы, возможные совпадения могут возвращаться в то время, когда видеоввод по-прежнему получается, к примеру, для прогрессивного представления возможных вариантов результатов. Когда дополнительные возможные варианты совпадений видео не получаются, или список результатов не изменяется в течение определенного периода времени, например, 3 секунд, то поиск может прекращаться, когда идентифицировано видео, совпадающее с запросом, поиск может автоматически прекращаться, и пользовательский интерфейс может изменяться таким образом, чтобы отражать стабилизированный список возможных вариантов результатов.

[0027] Аспекты инструмента мобильного видеопоиска, как описано в данном документе, могут реализовываться как поисковое приложение, работающее на мобильном устройстве, и/или через интерфейс прикладного программирования (API). Инструмент мобильного видеопоиска может захватывать видеоввод для запроса и выполнять извлечение цифрового аудиоотпечатка и визуальных хэш-битов, чтобы формировать подпись аудио-видео. В случае приложения, работающего на мобильном устройстве, приложение может отправлять подпись аудио-видео в качестве поискового видеозапроса. В случае API, приложение может показывать цифровой аудиоотпечаток и визуальные хэш-биты, составляющие подпись аудио-видео, через API для другого приложения, чтобы использовать для видеопоиска.

[0028] В облаке, система имеет возможность индексировать крупномасштабные видеоданные с использованием новой схемы индексации многоуровневого аудио-видео (LAVE); в то время как на клиенте, система извлекает облегченные объединенные подписи аудио-видео в реальном времени и выполняет поиск прогрессивным способом. LAVE-схема комбинирует подписи аудио-видео через объединенную индексацию многоуровневого аудио-видео, которая сохраняет отдельную структуру каждой подписи в вычислении подобия и рассматривает их корреляцию в комбинированной стадии. Объединенная подпись аудио-видео является вычислительно дешевой для мобильных устройств и усиливает различающую способность из отдельных аудио- и визуальных модальностей. Таким образом, подпись аудио-видео является надежной к большой дисперсии, например, шуму и искажению в видеозапросе. В различных вариантах осуществления, распознаваемая хэш-функция значительно уменьшает число битов, которые следует передавать из мобильного устройства по сети, к примеру, на сервер или облако. Алгоритм преобразования и определения совпадений на основе двухчастного графа делает видеопоиск прогрессивным, что означает то, что поиск может прекращаться, когда достигается стабильный результат. Как описано в данном документе, результат является стабильным, когда результаты не изменяются в течение определенного периода времени, например, в течение трех секунд. По меньшей мере, в одной реализации, система, описанная в данном документе, достигает точности более 90%, например, 90,77%, когда видеозапрос составляет меньше 10 секунд, и точности приблизительно 70%, например, 70,07%, когда видеозапрос составляет меньше 5 секунд.

[0029] Как описано в данном документе, серверное или облачное вычислительное окружение, которое также может упоминаться в качестве распределенного сетевого окружения, может хостить индекс многоуровневого аудио-видео видеоконтента, для которого запущен поиск. Аналогично описанию получения цифрового аудиоотпечатка и визуальных хэш-битов, чтобы получать подпись аудио-видео, сервер или облачный компьютер может выполнять извлечение подписей аудио-видео на видеофайлах из библиотеки видеофайлов. Извлеченная подпись аудио-видео может сохраняться в качестве индекса многоуровневого аудио-видео, что может уменьшать время задержки поиска по сравнению с другими поисковыми структурами.

[0030] В различных вариантах осуществления, выполнение поиска LAVE-индекса включает в себя многоэтапный процесс. По меньшей мере, в одном варианте осуществления, сначала механизм видеопоиска использует цифровой аудиоотпечаток из запроса в качестве фильтра. Во-вторых, механизм видеопоиска сравнивает ключевые кадры из фильтрованного набора для подобия. В-третьих, механизм видеопоиска выполняет геометрическую верификацию, чтобы получать ближайшие результаты. Механизм видеопоиска может ранжировать ближайшие результаты, и механизм видеопоиска может обновлять ближайшие результаты и/или ранжирование по мере того, как дополнительные подписи аудио-видео поступают из запроса. Механизм видеопоиска может отправлять представления возможных вариантов результирующих видео в мобильное устройство, из которого инициирован запрос. В некоторых вариантах осуществления, возможные варианты результатов могут быть представлены в пользовательском интерфейсе, совместно используемом с представлением аудио-видеозахвата в то время, когда он выполняется. По меньшей мере, в одном варианте осуществления, возможные варианты результатов могут представляться прогрессивно в пользовательском интерфейсе, совместно используемом с представлением аудио-видеозахвата в то время, когда возникает захват видеоввода для запроса и извлечения цифрового аудиоотпечатка и визуальных хэш-битов, чтобы формировать подпись аудио-видео. В случае если список результатов стабилизирован, аспект захвата может завершаться, и пользовательский интерфейс может переходить в представление списка результатов поиска со стабильным перечнем возможных вариантов результатов с/без дополнительной информации.

[0031] По меньшей мере, в одном варианте осуществления, технологии мобильного видеопоиска, описанные в данном документе, реализуются в распределенном сетевом окружении. Распределенное сетевое окружение может включать в себя один или более типов вычислительных ресурсов, причем эти типы вычислительных ресурсов могут включать в себя вычислительные устройства, сетевые устройства и/или устройства хранения данных. Распределенное сетевое окружение также может упоминаться в качестве облачного вычислительного окружения.

[0032] Ниже подробнее описываются аспекты различных вариантов осуществления со ссылкой на фиг. 1-11.

Примерная реализация

[0033] Фиг. 1 показывает реализацию примерного варианта осуществления мобильного видеопоиска с использованием мобильного устройства, как описано в данном документе. В проиллюстрированном примере, пользователь 102 использует мобильное вычислительное устройство 104, такое как планшетный компьютер или смартфон. На фиг. 1, мобильное вычислительное устройство 104 показано с пользовательским интерфейсом, представляющим захват аудио- и видеоввода из видеопредставления 106 на телевизионном приемнике 108 через инструмент 110 мобильного видеопоиска при представлении списка возможных вариантов 112 результатов. По меньшей мере, в одном варианте осуществления, список возможных вариантов 112 результатов может вычисляться в реальном времени или почти в реальном времени и возвращаться в клиент в качестве прогрессивного списка возможных вариантов 112 результатов. Возможные варианты изображений и/или возможный вариант текста, ассоциированный с возможными вариантами результатов, могут быть представлены в перечне 112 в пользовательском интерфейсе на экране мобильного устройства 104. В проиллюстрированном примере, мобильное устройство 104 представляет устройство Windows Phone®, хотя аналогично могут использоваться другие мобильные телефоны, смартфоны, планшетные компьютеры и другие такие мобильные устройства. На мобильном устройстве 104, активация аппаратной или программной кнопки может указывать желание инициировать инструмент 110 мобильного видеопоиска.

[0034] В примерной реализации по фиг. 1, показан инструмент 110 мобильного видеопоиска, захватывающий аудиоввод через микрофон мобильного устройства, как представлено посредством графического представления 114 микрофона. Хотя в других реализациях, аудиозахват может представляться посредством различной графики или просто пониматься без соответствующей графики. Между тем, инструмент 110 мобильного видеопоиска захватывает видеоввод через камеру мобильного устройства, как очевидно из пользовательского интерфейса, отображающего видеозахват 116. В то время, когда инструмент мобильного видеопоиска продолжает захватывать аудиоввод и видеоввод, инструмент мобильного видеопоиска может извлекать цифровой аудиоотпечаток аудиоввода и визуальные хэш-биты видеоввода, чтобы отправлять в облако для использования при выполнении поиска, например, с тем чтобы выполнять поиск набора данных с LAVE-индексацией. Помимо этого, в то время когда инструмент мобильного видеопоиска продолжает захватывать аудиоввод и видеоввод, инструмент мобильного видеопоиска может принимать прогрессивный список возможных вариантов 112 результатов поиска. Возможные варианты изображений и/или возможный вариант текста, ассоциированный с возможными вариантами результатов, могут быть представлены в перечне 112 в пользовательском интерфейсе на экране мобильного устройства 104. В проиллюстрированном варианте осуществления, прогрессивный список возможных вариантов 112 результатов поиска, включающий в себя возможные варианты изображений и возможный вариант текста, представлен рядом с видеозахватом в пользовательском интерфейсе, хотя предполагаются другие местоположения представления.

[0035] В различных вариантах осуществления, чтобы оптимизировать запоминающее устройство, мобильное устройство 104 не сохраняет аудиоввод или видеоввод, и вместо этого мобильное устройство 104 сохраняет цифровой аудиоотпечаток и визуальные хэш-биты. Сохранение цифрового аудиоотпечатка и визуальных хэш-битов может быть полезным для условий низкой или несогласованной полосы пропускания или периодов, когда устройство не имеет сетевого соединения.

[0036] Ранее, глобальные признаки приспособлены для выполнения поиска практически дублированных видео, в которых видео представлены посредством компактных глобальных подписей. Такие глобальные признаки включают в себя пространственно-временной признак, который использует распределение интенсивности уровня серого относительно временной шкалы, чтобы представлять видео, и комбинацию пространственной и временной информации, чтобы составлять инвариантные глобальные подписи. Хотя эти глобальные представления достигают высоких скоростей извлечения в крупномасштабном наборе видеоданных, они не приспосабливают записанные видеозапросы серьезными искажениями.

[0037] По сравнению с глобальными признаками, локальные дескрипторы являются более отличительными и надежными касательно искажений записанных видеозапросов, поскольку они анализируют локальную инвариантность, такую как масштаб и ориентация. Тем не менее, вследствие вычислительной сложности, эффективность использования локальных дескрипторов для записанных видеозапросов, которые могут содержать искажения, становится недостаточной. Несколько подходов пытаются повышать скорость определения совпадения на основе локальных дескрипторов, включающего в себя набор слов (BoW) и составление иерархической структуры, с тем чтобы ускорять процесс определения совпадений. Тем не менее, подходы на основе локальных дескрипторов требуют широкомасштабной оптимизации для того, чтобы управлять мобильными устройствами вследствие ограниченных вычислительных возможностей и запоминающего устройства мобильных устройств.

[0038] Аудио может выполнять важную роль в поиске практически дублированных видео.

Один пример использует цифровой аудиоотпечаток на основе ориентиров для того, чтобы осуществлять аналогичный аудиопоиск, и другой пример включает в себя представление набора аудиослов (BoA), обусловленное посредством BoW, для того чтобы характеризовать аудиопризнаки для аналогичного видеопоиска. По сравнению с видеопризнаками, аудиопризнаки могут быть более надежными, вычислительно эффективными и компактными, что делает аудиопризнаки подходящими для использования в мобильном видеопоиске.

[0039] В последнее время, объединенный аудиовизуальный поиск практически дублированных видео применяется для крупномасштабного обнаружения видеокопий. Ключевая проблема комбинирования признаков состоит в идентификации корреляции между аудиопризнаками и видеопризнаками. Существующие стратегии слияния включают в себя раннее слияние и позднее слияние. Обе стратегии раннего слияния и позднего слияния имеют недостатки. Например, раннее слияние не сохраняет структурную информацию отдельных признаков, в то время как позднее слияние не распознает корреляцию между признаками.

[0040] Существующие способы раннего слияния и позднего слияния не могут в достаточной степени извлекать преимущество подписей аудио-видео, так что существующие способы поиска практически дублированных видео могут быть непосредственно приспособлены к мобильному видеопоиску, с тем чтобы справляться с уникальными сложностями мобильных технологий.

[0041] Фиг. 2 является иллюстративной схемой примерного перечня 200 стабилизированных результатов в пользовательском интерфейсе мобильного видеопоиска варианта осуществления по фиг. 1.

[0042] По сравнению с вышеописанными способами, технологии и средства мобильного видеопоиска, как описано в данном документе, предоставляют прогрессивный мобильный видеопоиск в то время, когда захватывается видеоввод. Схема мобильного видеопоиска прогрессивно передает компактные подписи аудио-видео, которые могут извлекаться из цифровых аудиоотпечатков и визуальных хэш-битов, в облако. Технология LAVE-индексации использует преимущество подписи аудио-видео для надежного видеопоиска. Кроме того, чтобы расширять возможности поиска пользователей, процесс прогрессивных запросов использует способ преобразования и определения совпадений на основе двухчастного графа.

[0043] Соответственно, в различных реализациях, инструмент мобильного видеопоиска использует аудиоввод, чтобы помогать пользователям ускорять запрос посредством использования снятия цифровых аудиоотпечатков на основе ориентиров (LBAF), чтобы получать цифровые аудиоотпечатки.

[0044] В примерной реализации, возможные варианты изображений, ассоциированные со стабилизированными возможными вариантами результатов, могут быть представлены в перечне 200 в пользовательском интерфейсе на экране мобильного устройства 104, как показано на 204. Между тем, текст, ассоциированный с возможными вариантами результатов, например, заголовки, имена персонажей и т.д., представлен в перечне 200 в пользовательском интерфейсе на экране мобильного устройства 104, как показано на 206. В показанном примере, перечень результатов включает в себя возможные варианты 204 изображений и соответствующие заголовки 206, представленные в формате горизонтальной модульной ленты, из которого конкретный возможный вариант результата может выбираться посредством перетаскивания в область 202 поиска или посредством касания либо иного выбора или изображения или текста на экране мобильного устройства 104. Тем не менее, возможны и предполагаются другие форматы. Например, выбор возможного варианта изображения может инструктировать обозревателю открываться и предоставлять возможность пользователю покупать или арендовать копию выбора для просмотра на мобильном устройстве, и/или выбор текста или заголовка может выводить информацию относительно ассоциированного видео или сохранять заголовок, с/без ассоциированного изображения, для последующего доступа.

Иллюстративная архитектура

[0045] Архитектура, описанная ниже, составляет только один пример и не имеет намерение ограничивать формулу изобретения какой-либо конкретной архитектурой или операционным окружением. Другие архитектуры могут использоваться без отступления от сущности и объема заявленного предмета изобретения. Фиг. 3 является иллюстративной схемой примерной архитектуры для реализации мобильного видеопоиска.

[0046] В некоторых вариантах осуществления, различные устройства и/или компоненты окружения 300 включают в себя одну или более сетей 302, по которым мобильное вычислительное устройство 304, которое может соответствовать мобильному вычислительному устройству 104 и также упоминается в данном документе как клиентское устройство 304 или просто устройство 304, может соединяться, по меньшей мере, с одним сервером 306. Окружение 300 может включать в себя несколько сетей 302, множество устройств 304 и/или множество серверов 306.

[0047] В различных вариантах осуществления, сервер(ы) 306 может хостить облачную услугу или централизованную услугу, конкретную для объекта, такого как школьная система или компания. Варианты осуществления поддерживают сценарии, в которых сервер(ы) 306 может включать в себя одно или более вычислительных устройств, которые работают в кластере или другой сгруппированной конфигурации, чтобы совместно использовать ресурсы, балансировать нагрузку, повышать производительность, предоставлять поддержку обхода сбоя или избыточность либо для других целей по сети 302.

[0048] Например, сеть(и) 302 могут включать в себя сети общего пользования, такие как Интернет, частные сети, такие как институциональная и/или персональная сеть intranet, либо некоторую комбинацию частных сетей и сетей общего пользования. Сеть(и) 302 также могут включать в себя любой тип проводной и/или беспроводной сети, включающей в себя, но не только, локальные вычислительные сети (LAN), глобальные вычислительные сети (WAN), сети спутниковой связи, кабельные сети, Wi-Fi-сети, WiMAX-сети, сети мобильной связи (например, 3G, 4G и т.д.) либо любую комбинацию вышеозначенного. Сеть(и) 302 могут использовать протоколы связи, включающие в себя протоколы с коммутацией пакетов и/или на основе датаграмм, такие как Интернет-протокол (IP), протокол управления передачей (TCP), протокол пользовательских датаграмм (UDP) или другие типы протоколов. Кроме того, сеть(и) 302 также могут включать в себя определенное число устройств, которые упрощают сетевую связь и/или формируют аппаратную основу для сетей, таких как коммутаторы, маршрутизаторы, шлюзы, точки доступа, брандмауэры, базовые станции, повторители, магистральные устройства и т.п.

[0049] В некоторых вариантах осуществления, сеть(и) 302 дополнительно могут включать в себя устройства, которые предоставляют соединение с беспроводной сетью, такие как точка беспроводного доступа (WAP). Варианты осуществления поддерживают подключение через WAP, которые отправляют и принимают данные по различным электромагнитным частотам (например, радиочастотам), включающие в себя WAP, которые поддерживают 802.11-стандарты Института инженеров по электротехнике и радиоэлектронике (IEEE) (например, 802.11 г, 802.11n и т.д.) и другие стандарты.

Машиночитаемые носители

[0050] Машиночитаемые носители, когда этот термин используется в данном документе, включают в себя, по меньшей мере, два типа машиночитаемых носителей, а именно, компьютерные носители хранения данных и среды связи.

[0051] "Компьютерный носитель хранения" включает в себя энергозависимый и энергонезависимый, съемный и несъемный носитель, реализованный по любому способу или технологии хранения информации, такой как машиночитаемые инструкции, структуры данных, программные модули или другие данные. Компьютерные носители хранения данных включают в себя материальные и/или физические формы носителей, включенных в устройство и/или аппаратный компонент, который является частью устройства или является внешним для устройства, включающие в себя, но не только, оперативное запоминающее устройство (RAM), статическое оперативное запоминающее устройство (SRAM), динамическое оперативное запоминающее устройство (DRAM), запоминающее устройство на фазовых переходах (PRAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM), электрически стираемое программируемое постоянное запоминающее устройство (EEPROM), флэш-память, постоянное запоминающее устройство на компакт-дисках (CD-ROM), универсальные цифровые диски (DVD), оптические карты или другие оптические носители хранения данных, магнитные кассеты, магнитную ленту, устройство хранения данных на магнитных дисках, магнитные карты либо другие магнитные устройства или носители хранения данных, полупроводниковые запоминающие устройства, запоминающие матрицы, систему хранения данных с подключением по сети, сети хранения данных, хостящееся компьютерное устройство хранения данных или любое другое запоминающее устройство, устройство хранения данных и/или носитель хранения данных или технология запоминающих устройств либо любой другой носитель, отличный от среды передачи, который может использоваться для того, чтобы сохранять и хранить информацию для доступа посредством вычислительного устройства.

[0052] Напротив, среды связи могут осуществлять машиночитаемые инструкции, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая или другой механизм передачи.

[0053] Как задано в данном документе, компьютерные носители хранения данных не включают в себя среды связи исключительно из какого-либо из аппаратных компонентов, требуемых для того, чтобы выполнять передачу. Иными словами, компьютерные носители хранения данных не включают в себя среды связи, состоящие исключительно из модулированного сигнала данных, несущей или распространяемого сигнала, по сути.

[0054] В различных вариантах осуществления, мобильные вычислительные устройства 304 включают в себя такие устройства, как устройства 304A-304E. Варианты осуществления поддерживают сценарии, в которых устройство(а) 304 может включать в себя одно или более вычислительных устройств, которые работают в кластере или другой сгруппированной конфигурации, чтобы совместно использовать ресурсы, либо для других целей. Хотя проиллюстрированы как широкое множество типов мобильных устройств, устройство(а) 304 может представлять собой другие типы мобильных устройств и не ограничено проиллюстрированными типами мобильных устройств. Устройство(а) 304 может включать в себя любой тип мобильного вычислительного устройства с одним или более процессоров 308, функционально соединенных с интерфейсом 310 ввода-вывода и машиночитаемыми носителями 312. Устройства 304 могут включать в себя мобильные вычислительные устройства, такие как, например, смартфоны 304A, переносные компьютеры 304B, планшетные компьютеры 304C, устройства 304D связи, персональные цифровые устройства 304E (PDA) и/или комбинации вышеозначенного. Устройства 304 также могут включать в себя устройства для чтения электронных книг, носимые микрокомпьютеры, автомобильные компьютеры, игровые устройства, мобильные тонкие клиенты, терминалы и/или рабочие станции. В некоторых вариантах осуществления, устройства 304 могут отличаться от мобильных устройств и могут включать в себя, например, настольные компьютеры и/или компоненты для интеграции в вычислительном устройстве, приборах или другом виде устройства.

[0055] В некоторых вариантах осуществления, как показано относительно устройства 304A, машиночитаемые носители 312 могут сохранять инструкции, выполняемые посредством процессора(ов) 308, включающего в себя операционную систему 314, механизма 316 для мобильного видеопоиска и других модулей, программ или приложений 318, которые являются загружаемыми и выполняемыми посредством процессора(ов) 308, таких как CPU или GPU. Альтернативно или помимо этого, функциональность, описанная в данном документе, может выполняться, по меньшей мере, частично, посредством одного или более аппаратных логических компонентов. Например, и без ограничения, иллюстративные типы аппаратных логических компонентов, которые могут быть использованы, включают в себя программируемые пользователем вентильные матрицы (FPGA), специализированные интегральные схемы (ASIC), специализированные микросхемы для массового производства (ASSP), внутрикристальные системы (SOC), комплексные программируемые логические устройства (CPLD) и т.д.

[0056] Машиночитаемые носители 312 в различных вариантах осуществления могут включать в себя компьютерные носители хранения данных, которые, в свою очередь, могут включать в себя энергозависимое запоминающее устройство, энергонезависимое запоминающее устройство и/или другие постоянные и/или вспомогательные компьютерные носители хранения данных, как пояснено выше. Таким образом, машиночитаемые носители 312 при реализации в качестве компьютерных носителей хранения данных включают в себя материальные и/или физические формы носителей, включенных в устройство и/или аппаратный компонент, который является частью устройства или является внешним для устройства, включающие в себя, но не только, оперативное запоминающее устройство (RAM), статическое оперативное запоминающее устройство (SRAM), динамическое оперативное запоминающее устройство (DRAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM), электрически стираемое программируемое постоянное запоминающее устройство (EEPROM), флэш-память, постоянное запоминающее устройство на компакт-дисках (CD-ROM), универсальные цифровые диски (DVD), оптические карты или другие оптические носители хранения данных, магнитные кассеты, магнитную ленту, устройство хранения данных на магнитных дисках, магнитные карты либо другие магнитные устройства или носители хранения данных, полупроводниковые запоминающие устройства, запоминающие матрицы, систему хранения данных с подключением по сети, сети хранения данных, хостящееся компьютерное устройство хранения данных или любое другое запоминающее устройство, устройство хранения данных и/или носитель хранения данных, которые могут использоваться для того, чтобы сохранять и хранить информацию для доступа посредством вычислительного устройства. Тем не менее, машиночитаемые носители 312 при реализации в качестве компьютерных носителей хранения данных не включают в себя среды связи, состоящие исключительно из распространяемых сигналов, по сути.

[0057] Устройство(а) 304 дополнительно может включать в себя один или более интерфейсов 310 ввода-вывода, чтобы давать возможность устройству 304 обмениваться данными с другими устройствами. Интерфейсы 310 ввода-вывода устройства 304 также могут включать в себя один или более сетевых интерфейсов, чтобы обеспечивать связь между вычислительным устройством 304 и другими сетевыми устройствами, такими как другое устройство(а) 304 и/или сервер(ы) 306, по сети(ям) 302. Интерфейсы 310 ввода-вывода устройства 304 могут давать возможность устройству 304 обмениваться данными с другими устройствами, такими как периферийные устройства пользовательского ввода (например, клавиатура, мышь, перо, игровой контроллер, устройство аудиоввода, устройство видеоввода, устройство сенсорного ввода, устройство ввода с помощью жестов и т.п.) и/или периферийные устройства вывода (например, дисплей, принтер, аудиодинамики, тактильный вывод и т.п.). Сетевой интерфейс(ы) может включать в себя один или более сетевых интерфейсных контроллеров (NIC) или других типов приемо-передающих устройств, чтобы отправлять и принимать связь по сети.

[0058] Сервер(ы) 306 может включать в себя любой тип вычислительного устройства с одним или более процессоров 320, функционально соединенных с интерфейсом 322 ввода-вывода и машиночитаемыми носителями 324. В некоторых вариантах осуществления, как показано относительно сервера(ов) 306, машиночитаемые носители 324 могут сохранять инструкции, выполняемые посредством процессора(ов) 320, включающего в себя операционную систему 326, инфраструктуры для механизма 328 обработки многоуровневого аудио-видео и других модулей, программ или приложений 330, которые являются загружаемыми и выполняемыми посредством процессора(ов) 320, к примеру, CPU и/или GPU. Альтернативно или помимо этого, функциональность, описанная в данном документе, может выполняться, по меньшей мере, частично, посредством одного или более аппаратных логических компонентов. Например, и без ограничения, иллюстративные типы аппаратных логических компонентов, которые могут быть использованы, включают в себя программируемые пользователем вентильные матрицы (FPGA), специализированные интегральные схемы (ASIC), специализированные микросхемы для массового производства (ASSP), внутрикристальные системы (SOC), комплексные программируемые логические устройства (CPLD) и т.д.

[0059] Машиночитаемые носители 324 при реализации в качестве компьютерных носителей хранения данных могут включать в себя энергозависимое запоминающее устройство, энергонезависимое запоминающее устройство и/или другие постоянные и/или вспомогательные машиночитаемые носители хранения данных. Сервер(ы) 306 дополнительно может включать в себя один или более интерфейсов 322 ввода-вывода, чтобы давать возможность серверу 306 обмениваться данными с другими устройствами, такими как периферийные устройства пользовательского ввода (например, клавиатура, мышь, перо, игровой контроллер, устройство аудиоввода, устройство видеоввода, устройство сенсорного ввода, устройство ввода с помощью жестов и т.п.) и/или периферийные устройства вывода (например, дисплей, принтер, аудиодинамики, тактильный вывод и т.п.). Интерфейсы 310 ввода-вывода сервера 306 также могут включать в себя один или более сетевых интерфейсов, чтобы обеспечивать связь между вычислительным сервером 306 и другими сетевыми устройствами, такими как другой сервер(ы) 306 или устройства 304, по сети(ям) 302.

[0060] В различных вариантах осуществления, сервер(ы) 306 может представлять облачную услугу или централизованную услугу, конкретную для объекта, такого как школьная система или компания. Сервер(ы) 306 может включать в себя программирование, чтобы отправлять пользовательский интерфейс в одно или более устройств (устройств) 304. Сервер(ы) 306 может сохранять или осуществлять доступ к пользовательскому профилю, который может включать в себя информацию, со сбором которой посредством объекта согласен пользователь, такую как номер учетной записи пользователя, имя, местоположение и/или информацию относительно одного или более клиентских устройств 304, которую пользователь может использовать для конфиденциальных транзакций в недоверенных окружениях.

Примерное мобильное устройство

[0061] Фиг. 4 иллюстрирует выбранные компоненты примерного мобильного устройства 104, выполненного с возможностью предоставлять средство мобильного видеопоиска, как описано в данном документе. Примерное мобильное устройство 304 включает в себя источник 402 питания, один или более процессоров 404, которые могут соответствовать процессору(ам) 308 и могут включать в себя микропроцессоры, и интерфейсы ввода, соответствующие интерфейсу 310 ввода-вывода, включающие в себя сетевой интерфейс 406, одну или более камер 408, один или более микрофонов 410, и в некоторых случаях дополнительный интерфейс 412 ввода может включать в себя сенсорный интерфейс и/или интерфейс на основе жестов. Примерное мобильное устройство 304 также включает в себя интерфейсы вывода, соответствующие интерфейсу 310 ввода-вывода, включающие в себя дисплей 414, и в некоторых случаях может включать в себя дополнительный интерфейс 416 вывода, такой как динамики, принтер и т.д. Сетевой интерфейс 406 предоставляет возможность мобильному устройству 304 отправлять и/или принимать данные по сети 302. Сетевой интерфейс 406 также может представлять любую комбинацию других интерфейсов связи, чтобы предоставлять возможность мобильному устройству 304 отправлять и/или принимать различные типы связи, включающие в себя, но не только, веб-данные и данные на основе сотовой телефонной сети. Помимо этого примерное мобильное устройство 304 включает в себя машиночитаемые носители 418, которые в некоторых вариантах осуществления соответствуют машиночитаемым носителям 312. Машиночитаемые носители 418 сохраняют операционную систему 420 (ОС), приложение 422 обозревателя, инструмент 316 мобильного видеопоиска и любое число других приложений или модулей 424, которые сохраняются в машиночитаемых носителях 418 в качестве машиночитаемых инструкций и выполняются, по меньшей мере, частично, на процессоре 404.

[0062] Приложение 422 обозревателя представляет любое из множества приложений, которые могут выполняться на мобильном устройстве 304, чтобы предоставлять пользовательский интерфейс, через который может осуществляться доступ к веб-контенту, доступному по Интернету.

[0063] Другие приложения или модули 424 могут включать в себя любое число других приложений, которые выполняются на мобильном устройстве 304. Такие другие приложения могут включать в себя, например, почтовое приложение, приложение для работы с календарем, модуль обработки транзакций, музыкальный проигрыватель, приложение для работы с камерой, модуль вычисления, одну или более игр, один или более инструментов для повышения производительности, приложение обмена сообщениями, акселерометр и т.д.

[0064] Инструмент 316 мобильного видеопоиска включает в себя один или более из модуля 426 аудиоизвлечения, модуля 428 видеоизвлечения, модуля 430 формирования подписей, модуля 432 приема результатов, модуля 434 пользовательского интерфейса и любого числа других модулей 436 мобильного видеопоиска. Модуль 426 аудиоизвлечения может извлекать цифровой аудиоотпечаток, к примеру, LBAF.

[0065] Модуль 428 видеоизвлечения использует видеодескриптор, который является надежным к искажениям, таким как движение, размытые и изменчивые условия освещения, а также быстро извлекается. Модуль 428 видеоизвлечения может извлекать необработанные признаки, к примеру, ускоренные надежные признаки (SURF) из локальных видеопризнаков. Тем не менее, отправка необработанных SURF-признаков может инструктировать мобильному устройству использовать неприемлемо большое количество энергии, и может отнимать слишком много времени для того, чтобы быть приемлемой для пользователей. В различных вариантах осуществления, модуль видеоизвлечения использует способы хэширования, чтобы сжимать локальные признаки в хэш-биты, согласно минимальным вычислительным ресурсам и ресурсам запоминающего устройства мобильного вычислительного устройства 104.

[0066] Модуль 430 формирования подписей работает согласно и может составлять все или часть программирования, чтобы выполнять LAVE-поиск, по меньшей мере, на основе цифрового аудиоотпечатка из модуля 426 аудиоизвлечения и/или визуальных хэш-битов из модуля 428 видеоизвлечения.

[0067] Модуль 434 пользовательского интерфейса работает согласно и может составлять все или часть программирования для работы другого механического устройства и/или компонентов пользовательского интерфейса программного обеспечения мобильного устройства 104. Например, модуль 434 пользовательского интерфейса, который может выполняться посредством процессора 404, может управлять функциями аппаратной или программной кнопки выбора, кнопки начального экрана, кнопки "Назад" и/или кнопки "Пуск" в контексте инструмента 316 мобильного видеопоиска. Модуль 434 пользовательского интерфейса обеспечивает представление и выбор конкретных перечней для перечней возможных вариантов результатов, принимаемых посредством модуля 432 приема результатов. Например, модуль 434 пользовательского интерфейса предусматривает представление и выбор конкретных перечней возможных вариантов, представленных в формате прокручиваемой модульной ленты на экране мобильного устройства 104, как показано на 112 и/или 200.

[0068] В некоторых вариантах осуществления, другие компоненты 436 интерактивного многомодального поиска изображений могут применять контекст других интерактивных данных, чтобы выполнять мобильный видеопоиск. Например, другие контекстные данные, которые могут использоваться, могут включать в себя, но не только, недавние поиски, информацию обмена сообщениями, данные, которые идентифицируют приложения, к которым недавно осуществлен доступ (например, поиск обозревателя, приложения с перечнем фильмов и т.д.) и т.д.

[0069] Хотя проиллюстрирован на фиг. 4 как сохраненный на машиночитаемых носителях 418 мобильного устройства 304, в некоторых реализациях, инструмент 316 мобильного видеопоиска или его части могут сохраняться на одном или более серверов 306 и/или выполняться через облачную реализацию. Помимо этого, в некоторых реализациях, инструмент 316 мобильного видеопоиска или его части могут реализовываться с использованием любой формы машиночитаемых носителей, которая является доступной посредством мобильного устройства 304. Кроме того, в некоторых вариантах осуществления, один или более компонентов операционной системы 420, приложение 422 обозревателя, инструмент 316 мобильного видеопоиска и/или другие приложения или модули 424 могут реализовываться как часть интегральной схемы, которая является частью или доступна для мобильного устройства 304. Кроме того, хотя проиллюстрированы и описаны как реализуемые на мобильном устройстве 304, в некоторых вариантах осуществления, доступ к данным и другая функциональность, предоставленная посредством инструмента 316 мобильного видеопоиска, как описано в данном документе, также могут реализовываться на любом другом типе вычислительного устройства, которое выполнено с возможностью аудио- и видеоввода и через которое пользователь может выполнять видеопоиск, включающем в себя, но не только, настольные компьютерные системы, игровые приставки и/или телевизионные системы.

Примерное серверное устройство

[0070] Фиг. 5 является блок-схемой, которая иллюстрирует выбранные компоненты примерного серверного устройства 306, выполненного с возможностью предоставлять индексацию многоуровневого аудио-видео в качестве средства мобильного видеопоиска, как описано в данном документе. Примерный сервер 306 включает в себя источник 502 питания, один или более процессоров 504, которые могут соответствовать процессору(ам) 320 и могут включать в себя микропроцессоры, и интерфейсы ввода, соответствующие интерфейсу 322 ввода-вывода, включающему в себя сетевой интерфейс 506, и в некоторых случаях, может включать в себя один или более дополнительных интерфейсов 508 ввода, таких как клавиатура, программируемые клавиши, микрофон, камера и т.д. В дополнение к сетевому интерфейсу 506, примерное серверное устройство 306 также может включать в себя один или более дополнительных интерфейсов 510 вывода, соответствующих интерфейсу 322 ввода-вывода, включающих в себя такие интерфейсы вывода, как дисплей, динамики, принтер и т.д. Сетевой интерфейс 506 предоставляет возможность серверу 306 отправлять и/или принимать данные по сети 302. Сетевой интерфейс 506 также может представлять любую комбинацию других интерфейсов связи, чтобы предоставлять возможность серверу 306 отправлять и/или принимать различные типы связи, включающие в себя, но не только, веб-данные и данные на основе сотовой телефонной сети. Помимо этого, примерный сервер 306 включает в себя машиночитаемые носители 512, которые в некоторых вариантах осуществления соответствуют машиночитаемым носителям 324. Машиночитаемые носители 512 сохраняют операционную систему 514 (ОС), LAVE-индекс 516, механизм 328 обработки многоуровневого аудио-видео и любое число других приложений или модулей 518, которые сохраняются на машиночитаемых носителях 512 в качестве машиноисполняемых инструкций и выполняются, по меньшей мере, частично, на процессоре 504.

[0071] Другие приложения или модули 518 могут включать в себя любое число других приложений, которые выполняются на сервере 306. Такие другие приложения могут включать в себя, например, почтовое приложение, приложение для работы с календарем, модуль обработки транзакций, музыкальный проигрыватель, приложение для работы с камерой, модуль вычисления, одну или более игр, один или более инструментов для повышения производительности, приложение обмена сообщениями, акселерометр и т.д.

[0072] Механизм 328 обработки многоуровневого аудио-видео включает в себя, по меньшей мере, один из модуля 524 аудиоизвлечения, модуля 526 видеоизвлечения, модуля 528 LAVE-поиска, модуля 530 геометрической верификации, модуля 532 прогрессивных запросов и решающего модуля 534.

[0073] Хотя проиллюстрирован на фиг. 5 как сохраненный на машиночитаемых носителях 512 сервера 306, в некоторых реализациях, механизм 328 обработки многоуровневого аудио-видео или его части могут сохраняться на одном или более дополнительных серверов 306 и/или выполняться через облачную реализацию. Помимо этого, в некоторых реализациях, механизм 328 обработки многоуровневого аудио-видео или его части могут реализовываться с использованием любой формы машиночитаемых носителей, которая является доступной посредством сервера 306. Кроме того, в некоторых вариантах осуществления, один или более компонентов операционной системы 514, LAVE-индекс 516 и/или другие приложения или модули 518 могут реализовываться как часть интегральной схемы, которая является частью или доступна для сервера 306. Кроме того, хотя проиллюстрированы и описаны как реализуемые на сервере 306, в некоторых вариантах осуществления, доступ к данным и другая функциональность, предоставленная посредством механизма 328 обработки многоуровневого аудио-видео, как описано в данном документе, также могут реализовываться на любом другом типе вычислительного устройства, которое выполнено с возможностью аудиоиндексации и визуальной индексации и которое может выполнять видеопоиск на основе ввода видеозапросов, включающем в себя, но не только, настольные компьютерные системы, центральные системы распространения телевизионных программ и переносные компьютерные системы.

[0074] Фиг. 6, на 600, является иллюстративной схемой примерной инфраструктуры мобильного устройства, реализующего мобильный видеопоиск, и серверного или облачного вычислительного окружения, которое также может упоминаться в качестве распределенного сетевого окружения, реализующего индексацию многоуровневого аудио-видео. Инфраструктура 600 проиллюстрирована с оффлайновым каскадом 602 и онлайновым каскадом 604. Инфраструктура 600 может включать в себя, по меньшей мере, один сервер 606, который в различных вариантах осуществления соответствует серверу(ам) 306 и может включать в себя, например, веб-сервер, сервер приложений и любое число других серверов данных. Между тем, инфраструктура 600 может включать в себя, по меньшей мере, один клиент 608, который в различных вариантах осуществления соответствует устройству(ам) 104 и/или 304.

[0075] В различных вариантах осуществления, клиент 608 представляет любой тип мобильного вычислительного устройства, сконфигурированного с возможностью передавать и принимать данные по сети, к примеру, по сети 302. Например, клиент 608 может реализовываться как мобильный телефон, смартфон, персональное цифровое устройство (PDA), нетбук, планшетный компьютер, карманный компьютер и другие такие мобильные вычислительные устройства, характеризуемые посредством уменьшенного форм-фактора и ограничений по ресурсам.

[0076] В оффлайновом каскаде 602, мощность облачных вычислений может использоваться для того, чтобы сохранять крупномасштабный исходный набор 610 видеоданных, который может включать в себя много тысяч видео. На 612, приложение индексации многоуровневого аудио-видео, к примеру, LAVE 328 извлекает дескрипторы аудио-видео для отдельных видео из крупномасштабного исходного набора 610 видеоданных. Эффективные объединенные дескрипторы аудио-видео являются надежными относительно дисперсии видеозапросов из сложных условий захвата мобильного видео (например, беззвучное видео или размытое видео низкого визуального качества) в системе мобильного видеопоиска. В различных вариантах осуществления, выбор объединенных дескрипторов основан, по меньшей мере, частично на трех характеристиках: 1) надежный относительно дисперсии записанных видеозапросов, 2) недорогой в вычислении на мобильных устройствах, и 3) несложный для индексации для мобильного видеопоиска. По меньшей мере, в одном варианте осуществления, LAVES-приложение использует снятие цифровых аудиоотпечатков на основе ориентиров (LBAF), чтобы получать цифровые аудиоотпечатки 614, и ускоренные надежные признаки (SURF), чтобы получать визуальные хэш-биты 616. На 618, LAVE-приложение 328 компонует и сохраняет LAVE-индекс 620 с использованием этих дескрипторов.

[0077] Онлайновый каскад 604 запросов включает в себя следующие операции, которые могут выполняться в то время, когда клиентское устройство 608, такое как устройство 304, захватывает видеоклипы-запросы 622: 1) Извлечение в реальном времени облегченных дескрипторов аудио-видео на мобильном устройстве 624. Инструмент 316 мобильного видеопоиска отправляет подпись аудио-видео (включающую в себя визуальные хэш-биты 626 и цифровой аудиоотпечаток 628) на сервер 606. В различных вариантах осуществления, инструмент 316 мобильного видеопоиска отправляет подпись с предварительно определенными интервалами, например, с интервалом в две секунды, с интервалом в одну секунду, с интервалом в полсекунды и т.д. 2) Сервер 606 принимает подпись, например, двухсекундную подпись, односекундную подпись, полусекундную подпись и т.д. Как показано на 630, сервер 606 осуществляет поиск аналогичных ключевых видеокадров 632 через LAVE-индекс 620. 3) Как показано на 634, сервер 606 использует визуальные ранжирования на основе геометрической верификации для того, чтобы уточнять результаты поиска. Геометрическая верификация сравнивает характеристики 636 запроса с исходными характеристиками 638. Для каждого совпадающего запроса, например, односекундного запроса и исходных ключевых видеокадров, один узел на двухчастном графе может представлять принимаемый запрос, и другой узел может представлять возможный вариант совпадающего ключевого кадра из исходного видео. На графе, ребро соединяет узел запросов с узлом возможных вариантов совпадающих ключевых кадров. 4) Как показано на 640, сервер 606 выполняет процесс прогрессивных запросов через преобразование и определение совпадений на основе двухчастного графа, чтобы делать видеопоиск прогрессивным. Подробности процесса 640 прогрессивных запросов показаны в алгоритме 1. Например, если поступает новый запрос, то добавляется новый узел запросов на 636. Затем ребра двухчастного графа обновляются согласно возвращаемому результату. Во время прогрессивного запроса 640, если число ребер двухчастного графа не изменяется, не изменяется количественный показатель подобия совпадающего видео; иначе, количественный показатель подобия совпадающего видео обновляется.

[0078] На 642, при отсутствии изменений результатов поиска и/или количественного показателя подобия в течение определенного периода времени, например, в течение предварительно определенного периода в две последовательные секунды, в течение трех последовательных секунд, в течение четырех последовательных секунд, решающий модуль 534 определяет то, что достигнут стабильный результат поиска. В некоторых вариантах осуществления, на 642, при отсутствии изменений результатов поиска и/или количественного показателя подобия в течение определенного периода времени, например, в течение переменного периода времени и/или относительного периода времени, решающий модуль 534 определяет то, что достигнут стабильный результат поиска. Когда стабильный результат поиска достигается, процесс поиска может прекращаться автоматически, и на 644, результаты возвращаются в мобильное устройство. В некоторых вариантах осуществления, когда результат поиска является стабильным, результаты возвращаются для представления на клиентском устройстве 608 в пользовательском интерфейсе, который передает в служебных сигналах то, что поиск является стабильным, как показано на 646. Тем не менее, когда результаты поиска не являются стабильными в течение требуемого времени, процесс поиска продолжается, и на 648 решающий модуль 534 возвращает результаты в устройство 608 таким образом, чтобы указывать то, что поиск не закончен, как показано в пользовательском интерфейсе во время видеозахвата 622.

[0079] В проиллюстрированном примере, клиентское устройство 608, к примеру, мобильное устройство 304 принимает видеоввод через микрофон и камеру, чтобы инициировать видеозапрос, как показано на 622. Система использует модуль аудиоизвлечения, к примеру, модуль 426, чтобы извлекать цифровой аудиоотпечаток, к примеру, LBAF, как показано на 628. Система также использует модуль видеоизвлечения, к примеру, модуль 428, чтобы извлекать визуальные хэш-биты, как показано на 626.

[0080] Относительно визуальных хэш-битов, модули видеоизвлечения, к примеру, модуль 428 видеоизвлечения и/или модуль 526 видеоизвлечения, могут использовать способы хэширования для того, чтобы сжимать локальные признаки в хэш-биты. Например, модуль видеоизвлечения может использовать хэширование с минимальными потерями или спектральное хэширование, чтобы распознавать хэш-функцию, к примеру, хэш-функцию, представленную посредством , где X представляет вектор SURF-дескрипторов, v представляет распознаваемую хэш-матрицу, и £ представляет пороговый скаляр, чтобы вычислять , который представляет распознаваемые визуальные хэш-биты. В некоторых вариантах осуществления, модуль видеоизвлечения может ограничивать двоичный код 80 битами. В таких вариантах осуществления, модуль видеоизвлечения может использовать восемь битов, чтобы сохранять значение угла SURF-дескриптора, который используется для геометрической верификации в будущем, как пояснено относительно 634 по фиг. 6. Следовательно, модуль видеоизвлечения может сжимать каждый SURF-признак в , который в поясненном примере может составлять всего 88 битов.

[0081] Модуль видеоизвлечения может масштабировать изображение-запрос до небольшого изображения, чтобы минимизировать различия вследствие различных разрешений камеры на различных мобильных устройствах. Масштабирование изображения-запроса до небольшого изображения позволяет повышать скорость извлечения признаков относительно мобильного устройства, и оно позволяет сокращать число характерных точек, которые должны передаваться. В нескольких реализациях, такое масштабирование повышает скорость запроса с небольшим влиянием на точность. Например, после масштабирования, предусмотрено в среднем 75 SURF-точек для одного кадра, что позволяет мобильному устройству передавать менее 1 Кбайт видеопризнаков на сервер для кадра.

[0082] Фиг. 7 является иллюстративной схемой примера извлечения цифрового аудиоотпечатка. Из числа различных аудиопризнаков, LBAF широко используется во многих способах поиска практически дублированных видео. Его быстрое вычисление, эффективное запоминающее устройство и инвариантная трансляция также являются подходящими для мобильного видеопоиска. В различных реализациях, модуль аудиоизвлечения, к примеру, модуль 426 аудиоизвлечения и/или модуль 524 аудиоизвлечения, извлекает цифровой аудиоотпечаток, к примеру, LBAF. На 702, модуль аудиоизвлечения сегментирует аудиоинформацию на короткие и частично перекрывающиеся кадры с длиной и шагом . На 704, модуль аудиоизвлечения вычисляет спектрограмму для каждого кадра. На 706, модуль аудиоизвлечения задает возможные варианты пиков, к примеру, 708a и 708b на спектрограмме кадра. В нескольких вариантах осуществления, модуль аудиоизвлечения задает возможные варианты пиков на спектрограмме кадра согласно, по меньшей мере, трем критериям: более высокое энергосодержание, чем все соседние узлы, более высокая амплитуда, чем соседние узлы, и критерий плотности. На 710, модуль аудиоизвлечения выбирает точку 712 привязки из пиков и идентифицирует соответствующую целевую зону 714 для точки привязки. Каждая точка 712 привязки последовательно спарена с возможным вариантом пика в своей целевой зоне 714. Пары точек привязки/возможных вариантов пиков могут называться ориентирами. Каждый ориентир может представляться как , где и являются сдвигом по времени и частотой точки привязки, и и являются разностями времен и частот между точкой привязки и спаренной точкой в целевой зоне. Модуль аудиоизвлечения может сжимать цифровой отпечаток в , где является хэш-значением и . Различные могут иметь идентичный .

[0083] В одной реализации, =256 мс и =32 мс, причем предел на хэш-биты составляет менее 25 битов. Поскольку предусмотрено 15 битов для , длина =40 битов. По меньшей мере, в одном варианте осуществления, для односекундного аудиоклипа, модуль аудиоизвлечения может выбирать 100 ориентиров всего. Следовательно, модуль аудиоизвлечения может уменьшать объем данных для передачи всего до 0,5 Кбайт в секунду для снятия цифровых аудиоотпечатков.

[0084] В этом примере, посредством извлечения признаков, мобильное устройство получает 100 точек аудиопризнака и 75 точек видеопризнаков, что посредством эффективного сжатия представляет менее 2 КБ аудиовизуальных подписей в секунду видеоконтента, который должен передаваться по сети.

[0085] Фиг. 8 является иллюстративной схемой примера схемы 800 индексации многоуровневого аудио-видео (LAVE). Как показано на 800, LAVE-схема использует два уровня 802 и 804. Первый уровень 802 представляет элемент индекса, который содержит мультииндекс, состоящий из аудиоиндекса 806 и визуального индекса 808. Второй уровень 804 представляет визуальные хэш-биты, которые включают в себя визуальную индексацию 810 на втором уровне. LAVE-схема использует визуальные хэш-биты визуальной индексации 810 на втором уровне для определения совпадений и комбинирования признаков. После выполнения поиска на первом уровне система может получать уточненные аналогичные точки видеопризнаков из аудиоиндекса и из визуального индекса. Соответственно, комбинация в этом контексте включает в себя слияние уточненных аналогичных точек видеопризнаков из аудиоиндекса и из визуального индекса между собой и выбор наиболее (первых K) похожих точек видеопризнаков из них.

[0086] Предусмотрено два преимущества для этих структур: 1) структуры повышают скорость поиска визуальных точек посредством использования стратегии иерархического разложения, и 2) структуры используют взаимодополняющий характер аудиосигналов и визуальных сигналов.

Различные записи индексации на первом уровне 802 сохраняют отдельную структуру аудиоподписей и визуальных подписей. На втором уровне 804, комбинация аудио и видео может быть взвешена посредством расстояния Хемминга визуальных хэш-битов.

Компоновка LAVE-индекса

[0087] В различных вариантах осуществления, в отличие от видеопризнаков, аудиопризнак может сильно сжиматься, например, всего с помощью 25 битов, чтобы представлять каждую точку. Сжатие дает возможность модулю 528 LAVE-поиска осуществлять линейный поиск аудиоиндекса. Чтобы компоновать LAVE-индекс 516, процесс, такой как процесс, показанный на 618, может использовать аудиоиндекс в качестве части первого уровня 802, и каждый сегмент памяти, например, 806a, , в аудиоиндексе первого уровня может быть ассоциирован со вторым уровнем посредством видеоидентификатора, временного смещения аудио и номера ключевого кадра, например, 806aa, и 806aa', и т.д. для 806b, например, , 806c, например, и т.д. Через аудиоиндексацию, механизм 328 обработки многоуровневого аудио-видео может уточнять число визуальных точек для поиска на втором уровне, что повышает скорость поиска.

[0088] Тем не менее, существенное изменение или пропуск аудиоинформации может затруднять нахождение ближайшего соседнего узла на втором уровне. Механизм 328 обработки многоуровневого аудио-видео использует мультииндекс для того, чтобы разрешать эту проблему. Механизм 328 обработки многоуровневого аудио-видео индексирует хэш-биты из визуального индекса второго уровня посредством m различных хэш-таблиц, которые составляют визуальный индекс первого уровня. Механизм 328 обработки многоуровневого аудио-видео случайно выбирает хэш-биты, визуального индекса на первом уровне, например, 808a , 808a' , 808b , 808b' , 808c , 808c' , 808d , 808d ', 808e , 808e' , 808f , 808f' и т.д., из хэш-битов на втором уровне. Для полученной визуальной точки, записи, которые находятся близко к запросу, по меньшей мере, в одной такой хэш-таблице, считаются соседними возможными вариантами. Механизм 328 обработки многоуровневого аудио-видео затем проверяет возможные варианты на предмет достоверности с использованием индекса 810 второго уровня, например, 810a , 810a' , 810a" , 810b , 810b' , 810a" , 810c , 810c' , 810c" . В отличие от существующих технологий, механизм 328 обработки многоуровневого аудио-видео использует мультииндексы m+1: m визуальных индексов и один аудиоиндекс. Все результаты, уточненные посредством мультииндекса m+1, комбинируются между собой на втором уровне, и выбираются первые N аналогичных результатов. Аудиоиндекс уменьшает число RAT для визуального индекса. По меньшей мере, в одной реализации, средство работает с одним визуальным индексом.

Выполнение поиска LAVE-индекса

[0089] В различных вариантах осуществления, процесс поиска в LAVE-индексации может быть представлен следующим образом. Пусть представляет полученные аудиоточки запроса, и представляет принятые визуальные точки запроса. Через процесс поиска, к примеру, процесс поиска 630, модуль 528 LAVE-поиска может возвращать первые K визуальных точек для каждой визуальной точки запроса.

[0090] Этап 1, для каждой аудиоточки в , модуль 528 LAVE-поиска получает ближайшие аппроксимированные соседние узлы посредством линейного поиска в аудиоиндексе. Затем модуль 528 LAVE-поиска назначает совпадающие пары различным возможным вариантам кластеров . Модуль 528 LAVE-поиска назначает две пары идентичному кластеру, если их ближайшие аппроксимированные соседние узлы исходят из идентичного видео.

[0091] Модуль 528 LAVE-поиска этапа 2 переупорядочивает кластеры посредством временной верификации. Например, модуль 528 LAVE-поиска может представлять временное расстояние посредством , чтобы обозначать разность времен двух LBAF в совпадающих парах. Гистограмма может вычисляться для всех пар в , и количественный показатель равен , где представляет максимальное значение гистограммы. Этот количественный показатель также может использоваться для вычисления подобия. Затем выбираются первые возможных вариантов кластеров. Сегменты памяти, ассоциированные с первыми возможными вариантами кластеров на втором уровне, могут рассматриваться в качестве поднабора.

[0092] Этап 3, для каждого в , модуль 528 K LAVE-поиска может получать ближайшие аппроксимированные соседние узлы следующим образом: a) первые K аппроксимированных соседних узлов могут определяться посредством линейного поиска в поднаборе второго уровня, b) использование способа многоиндексной индексации для того, чтобы выполнять поиск других первых K ближайших соседних точек, c) 2K ближайших соседних точек могут быть переупорядочены посредством аналогичного расстояния, и могут выбираться первые K ближайших точек.

[0093] Этап 4, модуль 528 LAVE-поиска может возвращать первые K ближайших визуальных точек в качестве результатов поиска.

[0094] В общих словах, согласно процессу, модуль 528 LAVE-поиска комбинирует аудиоинформацию и визуальную информацию на двух стадиях. Первая стадия представляет собой этапы 1-3a. На этой стадии, мобильный видеопоиск использует более сжатую аудиоинформацию в качестве первичного фильтра и более отличительную визуальную информацию в качестве точного фильтра, с тем чтобы повышать общую скорость поиска. Кроме того, поскольку подобие вычисляется на отдельных уровнях, комбинированная стадия также может сохранять отдельную структуру каждой подписи. Вторая стадия представляет собой этапы 3b-4. В отличие от первой комбинированной стадии, которая в большой степени зависит от точности аудиопоиска на второй стадии, комбинация аудиоинформации и визуальной информации может быть взвешена посредством расстояния Хемминга визуальных хэш-битов. Две стадии используют взаимодополняющий характер аудиосигналов и визуальных сигналов для надежного мобильного видеопоиска. Вследствие мультииндекса m+1, т.е. m визуальных индексов и одного аудиоиндекса, вычислительная сложность выполнения поиска LAVE-индекса может быть основана на использовании модуля 528 LAVE-поиска на основе способа многоиндексной индексации, чтобы выполнять поиск ближайших визуальных соседних точек.

Геометрическая верификация

[0095] В различных вариантах осуществления, геометрическая верификация, к примеру, геометрическая верификация 634 посредством модуля 530 геометрической верификации, может быть представлена следующим образом. Геометрическая верификация может использовать первые N точек, с использованием способа преобразования Хафа, чтобы получать аналогичные исходные ключевые кадры запроса, и последующая геометрическая верификация 634 (GV) с учетом пространственной согласованности локальных признаков может использоваться для того, чтобы отклонять ложноположительные совпадения. Чтобы уменьшать потребление времени для GV, модуль 530 геометрической верификации может использовать быстрый и эффективный этап ранжирования на основе GV, чтобы находить наиболее похожее изображение. По меньшей мере, в одной реализации, способ использует ориентацию дескрипторов, так что информация местоположения локальных признаков не должна передаваться по сети. Способ выдвигает такую гипотезу, что два совпадающих дескриптора дублированных изображений должны иметь идентичную разность ориентаций. Таким образом, для двух дублированных изображений, модуль 530 геометрической верификации вычисляет расстояние ориентации между каждой совпадающей парой локальных признаков. Затем модуль 530 геометрической верификации квантует все в C элементов выборки, например, C=1,0. Кроме того, модуль 530 геометрической верификации сканирует гистограмму на предмет пика и задает глобальную разность ориентаций в качестве пикового значения. Модуль 530 геометрической верификации получает количественный показатель геометрической верификации из числа пар в пике, которое нормализовано посредством числа полных пар.

Прогрессивный запрос

[0096] В различных вариантах осуществления, процесс прогрессивных запросов, к примеру, прогрессивный запрос 640 выполняется посредством модуля 532 прогрессивных запросов. В отличие от существующих систем мобильного видеопоиска (т.е. поиска после достижения всех данных запроса), процесс прогрессивных запросов, как описано в данном документе, может значительно уменьшать затраты запроса и расширять возможности поиска пользователей. Модуль 532 прогрессивных запросов может переходить к следующему запросу и динамически вычислять результаты извлечения, например, после или в ответ на поступление каждого запроса. Поиск может прекращаться, когда достигается стабильный результат.

[0097] Алгоритм 1 предоставляет примерный процесс прогрессивных запросов, по меньшей мере, для одного варианта осуществления.

Алгоритм 1

Процесс прогрессивных запросов

Входные данные: новый запрос q_k+i.

Выходные данные: первые K ближайших видео

Алгоритм 1

[0098] В системе обработки многоуровневого аудио-видео, как описано в данном документе, процесс прогрессивных запросов может реализовываться через алгоритм преобразования и определения совпадений на основе двухчастного графа. Как показано на фиг. 6, для каждого совпадающего видеозапроса и исходного видео, модуль 532 прогрессивных запросов может использовать двухчастный граф , чтобы представлять совпадения. На двухчастном графе, узел запросов, 636, может быть представлен посредством и обозначает принимаемый запрос во время k, исходный узел, 638, может быть представлен посредством и обозначает m-ый ключевой кадр в исходном видео . Пусть обозначает все возвращаемые аналогичные ключевые кадры запроса . Предусмотрено ребро , если . После каждой секунды временного поиска, модуль 532 прогрессивных запросов может обновлять двухчастный граф , и затем количественный показатель подобия совпадений может прогрессивно вычисляться через .

[0099] Алгоритм 1 иллюстрирует один вариант осуществления подробностей процесса прогрессивных запросов. Если поступает новый запрос, то добавляется новый узел запросов, к примеру, на 636. Затем ребра двухчастного графа обновляются согласно возвращаемому результату. Во время прогрессивного запроса 640, если число ребер двухчастного графа не изменяется, не изменяется количественный показатель подобия совпадающего видео; иначе, количественный показатель подобия совпадающего видео может обновляться следующим образом. Сначала, модуль 532 прогрессивных запросов может вычислять совпадение на основе максимального размера (MSM) . Если , модуль 532 прогрессивных запросов может вычислять количественный показатель подобия согласно уравнению 1.

В уравнении 1, предпочитает подобие аудиоконтента, которое может вычисляться согласно уравнению 2.

(2)

В уравнении 2, представляет аудиоподобие между запросом и видео , и представляет длину запроса. указывает визуальное подобие согласно уравнению 3.

В уравнении 3, представляет визуальное подобие между запросом и видео , и показывает подобие временного порядка. Этот количественный показатель гарантирует то, что совпадающее видео должно иметь аналогичный временной порядок. С учетом MSM , его временное совпадающее число может вычисляться, например, посредством самой длинной общей подпоследовательности (LCSS). LCSS представляет собой варьирование расстояния редактирования, которое модуль 532 прогрессивных запросов может использовать для того, чтобы обозначать число пар кадров , совпадающих вдоль временного порядка, согласно уравнению 4:

Таким образом, может получаться согласно уравнению 5.

[00100] После вычисления всех подобий между Q и V, модуль 532 прогрессивных запросов может возвращать первые K видео в качестве результатов поиска. В различных вариантах осуществления, вычислительная сложность процесса 640 прогрессивных запросов, как описано в данном документе, составляет , где представляет число двухчастных графов, и представляет число вершин, в то время как представляет число ребер на каждом двухчастном графе. Тем не менее, по меньшей мере, в одной реализации, затраченное время для процесса вычисления подобия меньше , поскольку не изменяется в большинстве двухчастных графов.

Примерная работа

[00101] Фиг. 9-11 иллюстрируют примерные процессы для реализации аспектов мобильного видеопоиска набора данных с LAVE-индексацией, как описано в данном документе. Эти процессы проиллюстрированы в качестве совокупностей блоков на логических блок-схемах последовательности операций способа, которые представляют последовательность операций, которая может реализовываться в аппаратных средствах, в программном обеспечении или в комбинации вышеозначенного. В контексте программного обеспечения, блоки представляют машиноисполняемые инструкции на одном или более машиночитаемых носителей, которые, при выполнении посредством одного или более процессоров, инструктируют процессорам выполнять изложенные операции.

[00102] Это подтверждает то, что программное обеспечение может представлять собой ценный отдельно продаваемый актив. Оно имеет намерение охватывать программное обеспечение, которое работает или управляет "неинтеллектуальными" или стандартными аппаратными средствами таким образом, чтобы выполнять требуемые функции. Оно также имеет намерение охватывать программное обеспечение, которое "описывает" или задает конфигурацию аппаратных средств, к примеру, программное обеспечение на HDL (языке описания аппаратных средств), которое используется для конструирования кремниевых кристаллов или для конфигурирования универсальных программируемых кристаллов, чтобы выполнять требуемые функции.

[00103] Следует отметить, что порядок, в котором описываются процессы, не имеет намерение истолковываться в качестве ограничения, и любое число описанных блоков процесса может комбинироваться в любом порядке для того, чтобы реализовывать процессы или альтернативные процессы. Дополнительно, отдельные блоки могут удаляться из процессов без отступления от сущности и объема предмета изобретения, описанного в данном документе. Кроме того, хотя процессы описываются в отношении мобильного устройства 304 и сервера 306, описанных выше со ссылкой на фиг. 1-8, в некоторых вариантах осуществления, другие компьютерные архитектуры, включающие в себя другие облачные архитектуры, как описано выше, могут реализовывать одну или более частей этих процессов, полностью или частично.

[00104] Фиг. 9 иллюстрирует примерный процесс 900 для реализации инструмента мобильного видеопоиска на клиентском устройстве, таком как устройство 304. Хотя процесс 900 описывается как выполняемый на клиентском устройстве, в некоторых вариантах осуществления система, включающая в себя клиентское устройство и сервер, который может включать в себя несколько устройств в сетевой или облачной конфигурации, как описано выше, может выполнять аспекты процесса 900.

[00105] Аспекты инструмента мобильного видеопоиска, как описано в данном документе могут реализовываться как поисковое приложение, работающее на мобильном устройстве, и/или через интерфейс прикладного программирования (API) в некоторых вариантах осуществления. Инструмент мобильного видеопоиска может захватывать видеоввод для запроса и выполнять извлечение цифрового аудиоотпечатка и визуальных хэш-битов, чтобы формировать подпись аудио-видео. В случае приложения, работающего на мобильном устройстве, приложение может отправлять подпись аудио-видео в качестве поискового видеозапроса. В случае API, приложение может показывать цифровой аудиоотпечаток и визуальные хэш-биты, составляющие подпись аудио-видео, через API для другого приложения, чтобы использовать для видеопоиска. В этом случае, приложение, осуществляющее доступ к API для видеопоиска, может отправлять подпись аудио-видео в качестве поискового видеозапроса.

[00106] На этапе 902, устройство, такое как устройство 304, выполненное с возможностью принимать видеоконтент в качестве ввода через инструмент видеопоиска, к примеру, инструмент 316 мобильного видеопоиска, принимает видеоконтент в качестве ввода. В различных вариантах осуществления, прием видеоконтента в качестве ввода включает в себя одно или более устройств или компонентов ввода, таких как микрофон 410 и/или камера 408, ассоциированных с устройством 304, захватывающих аудиоввод из видеоконтента через микрофон и/или захватывающих видеоввод из видеоконтента через камеру во временных интервалах. В некоторых вариантах осуществления, прием видеоконтента в качестве ввода включает в себя прием аудиоввода и/или видеоввода, ассоциированного с видеоконтентом, показанным через API. В нескольких вариантах осуществления, временные интервалы видеоконтента принимаются посредством устройств ввода, ассоциированных с устройством, из устройства видеовывода, не ассоциированного с устройством. В различных вариантах осуществления, длина отдельных временных интервалов включает в себя, по меньшей мере, приблизительно 0,1 секунды и самое большее приблизительно 10,0 секунд. По меньшей мере, в одном варианте осуществления, каждый временной интервал может представлять одну секунду видеоконтента.

[00107] На этапе 904, устройство, такое как устройство 304, выполненное с возможностью извлекать дескриптор аудио-видео для временного интервала видеоконтента через модуль извлечения аудио-видео, к примеру, один или более из модуля 426 аудиоизвлечения и/или модуля 428 видеоизвлечения, выполняет извлечение, включающее в себя дескриптор аудио-видео, для временного интервала видеоконтента. В различных вариантах осуществления, извлечение дескрипторов аудио-видео для временных интервалов видеоконтента включает в себя получение акустических и/или визуальных характеристик видеоконтента, соответствующего временному интервалу.

[00108] В некоторых вариантах осуществления, на этапе 906, устройство, такое как устройство 304, выполненное с возможностью извлекать акустические характеристики для временного интервала видеоконтента через модуль аудиоизвлечения, к примеру, модуль 426 аудиоизвлечения, выполняет извлечение, включающее в себя цифровой аудиоотпечаток видеоконтента, соответствующего временному интервалу, для использования при формировании подписи аудио-видео.

[00109] В некоторых вариантах осуществления, на этапе 908, устройство, такое как устройство 304, выполненное с возможностью извлекать визуальные характеристики для временного интервала видеоконтента через модуль видеоизвлечения, к примеру, модуль 428 видеоизвлечения, выполняет извлечение, включающее в себя, по меньшей мере, один визуальный хэш-бит видеоконтента, соответствующего временному интервалу, для использования при формировании подписи аудио-видео.

[00110] На этапе 910, устройство, такое как устройство 304, выполненное с возможностью формировать подпись аудио-видео через формирователь подписей, к примеру, модуль 430 формирования подписей, формирует подпись аудио-видео, ассоциированную с одним или более временными интервалами видеоконтента, по меньшей мере, частично на основе извлеченного дескриптора аудио-видео. В нескольких вариантах осуществления, подпись аудио-видео включает в себя, по меньшей мере, цифровой аудиоотпечаток и видеохэш-бит, ассоциированный с временным интервалом видеоконтента. В различных вариантах осуществления, формирование подписи аудио-видео на устройстве может выполняться посредством приложения, и сформированная подпись аудио-видео может использоваться посредством приложения для поиска или предоставляться из приложения посредством API. В некоторых вариантах осуществления, формирование подписи аудио-видео на устройстве может включать в себя API, предоставляющий извлечения необработанных дескрипторов из другого приложения, который может находиться в пределах или за пределами устройства, может формировать подпись аудио-видео.

[00111] На этапе 912, устройство, такое как устройство 304, выполненное с возможностью предоставлять подпись аудио-видео через модуль формирования подписей, к примеру, модуль 430 формирования подписей, предоставляет подпись аудио-видео, ассоциированную с одним или более временными интервалами видеоконтента, сформированного, по меньшей мере, частично на основе извлеченного дескриптора аудио-видео, в качестве запроса. В различных вариантах осуществления, предоставление подписи аудио-видео включает в себя отправку подписи аудио-видео в качестве запроса в набор данных. В различных вариантах осуществления, набор данных включает в себя набор данных с индексацией многоуровневого аудио-видео.

[00112] На этапе 914, устройство, такое как устройство 304, выполненное с возможностью принимать возможные варианты результатов в ответ на запрос через модуль приема результатов, к примеру, модуль 432 приема результатов, принимает возможные варианты результатов в ответ на запрос. В различных вариантах осуществления, прием возможных вариантов результатов в ответ на запрос включает в себя прием возможных вариантов результатов в качестве прогрессивного перечня возможных вариантов результатов до достижения конца временных интервалов принимаемого видеоконтента.

[00113] На этапе 916, устройство, такое как устройство 304, выполненное с возможностью представлять возможные варианты результатов в ответ на запрос через модуль пользовательского интерфейса, к примеру, модуль 434 пользовательского интерфейса, инструктирует представление возможных вариантов результатов. В различных вариантах осуществления, представление возможных вариантов результатов включает в себя представление возможных вариантов результатов в пользовательский интерфейс устройства до достижения конца временных интервалов принимаемого видеоконтента. В некоторых вариантах осуществления, представление возможных вариантов результатов включает в себя представление обновленных возможных вариантов результатов в пользовательском интерфейсе устройства до достижения конца временных интервалов принимаемого видеоконтента. Такие обновленные возможные варианты результатов могут представлять прогрессивные возможные варианты результатов для перечня прогрессивных возможных вариантов результатов.

[00114] Фиг. 10 иллюстрирует примерный процесс 1000 для реализации видеопоиска на сервере, таком как сервер 306, с использованием индекса многоуровневого аудио-видео, такого как LAVE-индекс 516.

[00115] Хотя процесс 1000 описывается как выполняемый на сервере, в некоторых вариантах осуществления, система, включающая в себя один или более серверов, которые могут включать в себя несколько устройств в сетевой или облачной конфигурации, как описано выше, и в некоторых случаях, по меньшей мере, одно клиентское устройство, может выполнять процесс 1000.

[00116] На этапе 1002, устройство, такое как сервер 306, выполненный с возможностью принимать подпись аудио-видеозапроса в качестве ввода через механизм обработки многоуровневого аудио-видео, к примеру, механизм 328 обработки многоуровневого аудио-видео, принимает подпись аудио-видеозапроса в качестве ввода. В различных вариантах осуществления, подпись аудио-видеозапроса принимается в качестве ввода для поиска многоуровневого аудио-видео. В некоторых вариантах осуществления, подпись аудио-видеозапроса принимается в качестве ввода для поиска многоуровневого аудио-видео из мобильного устройства, такого как устройство 304.

[00117] На этапе 1004, устройство, такое как сервер 306, выполненный с возможностью осуществлять поиск индекса многоуровневого аудио-видео, чтобы идентифицировать записи, имеющие подобие подписи аудио-видеозапроса, к примеру, модуль 528 LAVE-поиска, выполняет поиск индекса многоуровневого аудио-видео, ассоциированного с механизмом обработки многоуровневого аудио-видео, чтобы идентифицировать записи в индексе многоуровневого аудио-видео, имеющее подобие с подписью аудио-видеозапроса. В различных вариантах осуществления, поиск идентифицирует записи, имеющие подобие с подписью аудио-видеозапроса выше порогового значения. В различных неисключительных случаях, пороговое значение может включать в себя предварительно определенное пороговое значение подобия, переменное пороговое значение подобия, относительное пороговое значение подобия и/или пороговое значение подобия, определенное в реальном времени.

[00118] На этапе 1006, устройство, такое как сервер 306, выполненный с возможностью осуществлять геометрическую верификацию записей, имеющих подобие подписи аудио-видеозапроса, к примеру, модуль 530 геометрической верификации, выполняет геометрическую верификацию записей из индекса многоуровневого аудио-видео, имеющих подобие с подписью аудио-видеозапроса. В различных вариантах осуществления, выполнение геометрической верификации включает в себя выполнение геометрической верификации соответствующих ключевых кадров из подписи аудио-видеозапроса и записей из индекса многоуровневого аудио-видео, имеющих подобие.

[00119] На этапе 1008, устройство, такое как сервер 306, выполненный с возможностью отправлять возможные варианты результатов, к примеру, решающий модуль 534, отправляет возможные варианты результатов, которые являются аналогичными подписи аудио-видеозапроса. В различных вариантах осуществления, отправка возможных вариантов результатов, идентифицированных через геометрическую верификацию, включает в себя отправку возможных вариантов результатов, идентифицированных через геометрическую верификацию, в мобильное устройство, к примеру, в мобильное устройство 304, из которого принята подпись аудио-видеозапроса.

[00120] Фиг. 11 иллюстрирует другой примерный процесс 1100 для реализации видеопоиска на сервере, таком как сервер 306, с использованием индекса многоуровневого аудио-видео, такого как LAVE-индекс 516.

[00121] Хотя процесс 1100 описывается как выполняемый на сервере, в некоторых вариантах осуществления, система, включающая в себя один или более серверов, которые могут включать в себя несколько устройств в сетевой или облачной конфигурации, как описано выше, и в некоторых случаях, по меньшей мере, одно клиентское устройство, может выполнять процесс 1100.

[00122] На этапах 1102, 1104 и 1106, устройство, такое как сервер 306, сконфигурированный так, как описано относительно процесса 1000, к примеру, с механизмом 328 обработки многоуровневого аудио-видео, выполняет операции, соответствующие этапам 1002, 1004 и 1006, соответственно.

[00123] На этапе 1108, устройство, такое как сервер 306, выполненный с возможностью осуществлять прогрессивную обработку, к примеру, модуль 532 прогрессивных запросов, обрабатывает возможные варианты результатов, идентифицированные через геометрическую верификацию. В различных вариантах осуществления, обработка возможных вариантов результатов, идентифицированных через геометрическую верификацию, включает в себя прогрессивную обработку записей, имеющих соответствующие подписи аудио-видео. В некоторых вариантах осуществления, прогрессивная обработка записей, имеющих соответствующие подписи аудио-видео, включает в себя использование преобразования и определения совпадений на основе двухчастного графа.

[00124] На этапе 1110, устройство, такое как сервер 306, выполненный с возможностью отправлять возможные варианты результатов, к примеру, решающий модуль 534, отправляет возможные варианты результатов согласно прогрессивной обработке. В различных вариантах осуществления, отправка возможных вариантов результатов согласно прогрессивной обработке включает в себя отправку возможных вариантов результатов согласно прогрессивной обработке в мобильное устройство, к примеру, в мобильное устройство 304, из которого принята подпись аудио-видеозапроса. В некоторых вариантах осуществления, отправка возможных вариантов результатов согласно прогрессивной обработке включает в себя отправку возможных вариантов результатов в конфигурации, чтобы указывать то, что возможные варианты результатов обновлены, и выполнение поиска должно продолжаться, к примеру, 112. В некоторых вариантах осуществления, отправка возможных вариантов результатов согласно прогрессивной обработке также включает в себя отправку стабилизированных возможных вариантов результатов в конфигурации, чтобы указывать то, что возможные варианты результатов не обновлены, и поиск прекращается, к примеру, 200.

[00125] На этапе 1112, устройство, такое как сервер 306, выполненный с возможностью отправлять возможные варианты результатов, к примеру, решающий модуль 534, определяет то, являются или нет возможные варианты результатов из прогрессивной обработки стабильными. В различных вариантах осуществления, определение того, являются или нет возможные варианты результатов из прогрессивной обработки стабильными, включает в себя определение того, следует или нет обновлять возможные варианты результатов, по меньшей мере, частично на основе того, поддерживаются или нет возможные варианты результатов. В некоторых вариантах осуществления, определение того, являются или нет возможные варианты результатов из прогрессивной обработки стабильными, включает в себя определение того, являются или нет возможные варианты результатов стабильными в течение определенного периода времени. В некоторых вариантах осуществления, период времени измеряется в секундах. В некоторых вариантах осуществления, период времени составляет две секунды. В некоторых вариантах осуществления, период времени составляет три секунды. В некоторых вариантах осуществления, период времени является переменным и/или относительным к числу раз, когда процесс прогрессивных запросов выполнен без прекращения поиска.

[00126] В некоторых вариантах осуществления, в ответ на определение того, что возможные варианты результатов являются стабильными, на этапе 1112, на этапе 1114, устройство, такое как сервер 306, выполненный с возможностью завершать выполнение запроса, к примеру, решающий модуль 534, прекращает поиск, соответствующий контенту аудио-видео. В различных вариантах осуществления, когда возможные варианты результатов определяются как стабильные в течение определенного периода времени на этапе 1112, включает в себя прекращение приема, поиска, выполнения и обработки, соответствующих контенту аудио-видео. В некоторых вариантах осуществления, прекращение поиска на этапе 1114 может включать в себя отправку возможных вариантов результатов согласно прогрессивной обработке в конфигурации, чтобы указывать то, что возможные варианты результатов не обновлены, и поиск прекращается, к примеру, в пользовательском интерфейсе 200.

[00127] В некоторых вариантах осуществления, в ответ на определение того, что возможные варианты результатов не являются стабильными, на этапе 1112, устройство, такое как сервер 306, выполненный с возможностью завершать выполнение запроса, к примеру, решающий модуль 534, продолжает выполнение поиска. В различных вариантах осуществления, когда возможные варианты результатов определяются как нестабильные в течение определенного периода времени на этапе 1112, включает в себя продолжение выполнения поиска посредством возврата последовательности операций к этапу 1102, который может включать в себя повторение приема, поиска, выполнения и обработки, соответствующих контенту аудио-видео. В некоторых вариантах осуществления, продолжение выполнения поиска посредством возврата последовательности операций к этапу 1102 может включать в себя отправку возможных вариантов результатов согласно прогрессивной обработке в конфигурации, чтобы указывать то, обновлены или нет возможные варианты результатов, к примеру, в пользовательском интерфейсе 200.

Дополнительные примеры вариантов осуществления

[00128] Вариант A осуществления включает в себя способ, содержащий: осуществление доступа к набору видеоданных; выполнение извлечения дескрипторов аудио-видео для соответствующих видео из набора видеоданных; формирование последовательности подписей аудио-видео, ассоциированных с временными интервалами соответствующих видео; и компоновку индекса многоуровневого аудио-видео, в который записи включают в себя последовательность подписей аудио-видео.

[00129] Вариант B осуществления включает в себя способ, содержащий: извлечение дескрипторов аудио-видео, соответствующих отдельным видео в наборе видеоданных; получение аудиоиндекса, причем аудиоиндекс включает в себя цифровые аудиоотпечатки из дескрипторов аудио-видео; получение визуального индекса, причем визуальный индекс включает в себя визуальные хэш-биты из дескрипторов аудио-видео; создание первого уровня, включающего в себя мультииндекс, посредством ассоциирования аудиоиндекса и, по меньшей мере, части визуального индекса; создание второго уровня, включающего в себя визуальный индекс; и поддержание временной взаимосвязи между мультииндексом первого уровня и визуальным индексом второго уровня.

[00130] Вариант C осуществления включает в себя способ, как описано относительно вариантов A и/или B осуществления, при этом, по меньшей мере, часть визуального индекса для создания первого уровня включает в себя случайный выбор хэш-битов из второго уровня.

[00131] Вариант D осуществления включает в себя способ, как описано относительно вариантов A, B и/или C осуществления, дополнительно содержащий уточнение числа визуальных точек для поиска на втором уровне через аудиоиндекс.

[00132] Вариант E осуществления включает в себя способ, содержащий: прием подписи аудио-видеозапроса, связанной с видеоконтентом в механизме обработки многоуровневого аудио-видео; выполнение поиска индекса многоуровневого аудио-видео, ассоциированного с механизмом обработки многоуровневого аудио-видео, чтобы идентифицировать записи в индексе многоуровневого аудио-видео, имеющие подобие с подписью аудио-видеозапроса выше порогового значения; выполнение геометрической верификации соответствующих ключевых кадров из подписи аудио-видеозапроса и записей из индекса многоуровневого аудио-видео, имеющих подобие; и отправку возможных вариантов результатов, идентифицированных через геометрическую верификацию.

[00133] Вариант F осуществления включает в себя способ, содержащий: прием подписи аудио-видеозапроса, связанной с видеоконтентом в механизме обработки многоуровневого аудио-видео; выполнение поиска индекса многоуровневого аудио-видео, ассоциированного с механизмом обработки многоуровневого аудио-видео, чтобы идентифицировать записи в индексе многоуровневого аудио-видео, имеющие подобие с подписью аудио-видеозапроса выше порогового значения; выполнение геометрической верификации соответствующих ключевых кадров из подписи аудио-видеозапроса и записей из индекса многоуровневого аудио-видео, имеющих подобие; прогрессивную обработку записей, имеющих соответствующие подписи аудио-видео; определение того, являются или нет возможные варианты результатов стабильными; и определение того, следует или нет обновлять возможные варианты результатов, по меньшей мере, частично на основе того, поддерживаются или нет возможные варианты результатов; отправку возможных вариантов результатов, идентифицированных в соответствии с тем, поддерживаются или нет возможные варианты результатов; в случае если возможные варианты результатов не поддерживаются в течение предварительно определенного периода времени, повторение приема, поиска, выполнения и обработки, соответствующих контенту аудио-видео; и в случае если возможные варианты результатов поддерживаются в течение предварительно определенного периода времени, прекращение приема, поиска, выполнения и обработки, соответствующих контенту аудио-видео.

Заключение

[0134] В силу постоянно растущей функциональности и доступа к данным, доступного через мобильные устройства, такие устройства могут служить в качестве персональных помощников для Интернет-серфинга, которые предоставляют пользователям доступ к постоянно растущим объемам данных в движении. Посредством использования вычислительных ресурсов, заданных доступными посредством мобильного устройства так, как описано в данном документе, инструмент мобильного видеопоиска может эффективно выполнять видеопоиск без отправки клипа самого видео в качестве запроса.

[0135] Хотя система мобильного видеопоиска описана на языке, конкретном для структурных признаков и/или технологических операций, следует понимать, что признаки и операции, заданные в прилагаемой формуле изобретения, не обязательно ограничены описанными характерными признаками или операциями. Наоборот, характерные признаки и операции раскрываются как примерные формы реализации формулы изобретения.

1. Способ поиска видео, содержащий этапы, на которых:

- принимают, через компонент ввода вычислительного устройства, множество временных интервалов видеоконтента;

- выполняют извлечение дескриптора аудио-видео для временных интервалов видеоконтента, чтобы получать акустические и визуальные характеристики временного интервала;

- формируют подпись аудио-видео, ассоциированную с одним или более временными интервалами видеоконтента на основе, по меньшей мере частично, извлекаемого дескриптора аудио-видео, при этом подпись аудио-видео включает в себя хэш-бит видео, ассоциированный с временным интервалом видеоконтента;

- отправляют подпись аудио-видео, ассоциированную с одним или более временными интервалами видеоконтента, в качестве запроса к набору данных;

- принимают возможные варианты результатов запроса, все еще принимая временные интервалы видеоконтента; и

- представляют по меньшей мере некоторые возможные варианты результатов, все еще принимая временные интервалы видеоконтента.

2. Способ по п. 1, в котором временные интервалы видеоконтента принимаются прямо или косвенно посредством по меньшей мере одного из устройства ввода из камеры или устройства микрофонного ввода, ассоциированного с вычислительным устройством.

3. Способ по п. 1 или 2, в котором временные интервалы видеоконтента принимаются из устройства видеовывода, не ассоциированного с вычислительным устройством.

4. Способ по п. 1 или 2, дополнительно содержащий этапы, на которых:

- принимают конечные результаты и информацию, связанную с конечными результатами, в конце выполнения запроса; и

- представляют конечные результаты и информацию, связанную с конечными результатами, с тем чтобы указывать конец выполнения запроса.

5. Способ по п. 1 или 2, в котором набор данных включает в себя набор данных с многоуровневой индексацией аудио-видео.

6. Способ по п. 1 или 2, в котором подпись аудио-видео включает в себя аудиоотпечаток, ассоциированный с временным интервалом видеоконтента.

7. Система поиска видео, выполненная с возможностью осуществлять операции по любому из пп. 1-6.

8. Машиночитаемый носитель, на котором закодированы машиноисполняемые инструкции, причем машиноисполняемые инструкции выполнены с возможностью, при выполнении, программировать устройство для осуществления операций по любому из пп. 1-6.

9. Способ обработки поиска видео, содержащий этапы, на которых:

- принимают запрос с подписью аудио-видео, связанной с видеоконтентом, в механизме многоуровневой обработки аудио-видео;

- выполняют поиск многоуровневого индекса аудио-видео, ассоциированного с механизмом многоуровневой обработки аудио-видео, чтобы идентифицировать записи в многоуровневом индексе аудио-видео, имеющие подобие с подписью аудио-видео в запросе выше порогового значения;

- выполняют геометрическую верификацию соответствующих ключевых кадров из подписи аудио-видео в запросе и записей из многоуровневого индекса аудио-видео, имеющих подобие;

- прогрессивно обрабатывают записи, имеющие соответствующие подписи аудио-видео и идентифицированные с помощью геометрической верификации, чтобы получить возможные варианты результатов;

- отправляют возможные варианты результатов согласно прогрессивной обработке;

- определяют то, являются или нет возможные варианты результатов, обновляемые прогрессивной обработкой, стабильными на протяжении некоторого периода времени;

- отправляют обновленные возможные варианты результатов в соответствии с тем, определяются или нет возможные варианты результатов как стабильные.

10. Машиночитаемый носитель, на котором закодированы машиноисполняемые инструкции, причем машиноисполняемые инструкции выполнены с возможностью, при выполнении, программировать устройство для осуществления операций по п. 9.

Изобретение относится к области цифровой обработки и анализа данных. Технический результат заключается в расширении арсенала технических средств определения относительных размеров отдельных синхронных кластеров сложной сети.

Способ определения относительного размера синхронного кластера в сети по ее макропараметрам // 2647677

Автоматизированные способы и системы выявления на изображениях, содержащих документы, фрагментов изображений для облегчения извлечения информации из выявленных содержащих документы фрагментов изображений // 2647670

Изобретение относится к области обработки изображений и оптическому распознаванию символов. Технический результат – обеспечение выявления содержащих документ фрагментов на изображении.

Способ устранения швов при создании панорамных изображений из видеопотока кадров в режиме реального времени // 2647645

Изобретение направлено на устранение артефактов в виде стыковочных швов на границах сшитых кадров и неоднородности освещения, повышение качества панорамных изображений, ускорение их формирования в режиме реального времени.

Способ контроля телеметрической информации // 2645267

Изобретение относится к технологиям многопараметрического контроля телеметрической информации. Техническим результатом является расширение арсенала технических средств контроля телеметрической информации.

Способ и система выявления живого человека на последовательности кадров путем выявления пульса на отдельных участках лица человека // 2644525

Изобретение относится к вычислительной технике, а именно к области систем безопасности и контроля. Технический результат – повышение точности выявления живого человека на последовательности кадров.

Способ и устройство для выделения признаков // 2644516

Изобретение относится к обработке изображений. Технический результат заключается в выделении гистограммы ориентированных градиентов.

Способ и устройство для выделения признаков // 2644516

Способ детектирования голографических элементов в видеопотоке // 2644513

Изобретение относится к области вычислительной техники и может быть использовано для обнаружения и распознавания голограмм в видеопотоке. Технический результат заключается в повышении точности определения голографических элементов, содержащихся в документе, который представляет собой изображение видеопотока.

Способ и устройство кодирования режима внутрикадрового предсказания для блока предсказания изображений и способ и устройство декодирования режима внутрикадрового предсказания для блока предсказания изображений // 2643476

Изобретение относится к области радиотехники и предназначено для кодирования и декодирования изображений. Технический результат – повышение качества изображений путем повышения эффективности кодирования и декодирования видеосигналов в режиме внутрикадрового предсказания.

Способ и устройство отображения альбома // 2647681

Изобретение относится к отображению альбома. Техническим результатом является обеспечение управления и отображения фотографий согласно лицам.

Способ определения относительного размера синхронного кластера в сети по ее макропараметрам // 2647677

Способ и аппаратура для распознавания отпечатков пальцев и мобильный терминал // 2647638

Изобретение относится к способу и аппаратуре для распознавания отпечатков пальцев и мобильному терминалу. Технический результат заключается в обеспечении одного и того же коэффициента распознавания отпечатков пальцев независимо от различных зарядных состояний.

Способ модификации и идентификации копии документа для установления канала несанкционированного распространения // 2646341

Изобретение относится к способу модификации копий документов и их идентификации для защиты документов от несанкционированного распространения. Техническим результатом является повышение защиты документа от несанкционированного распространения за счет обеспечения возможности идентификации пользователя, допустившего распространение документа.

Улучшенная интерактивность в среде парка развлечений с использованием пассивных отслеживающих элементов // 2646313

Изобретение относится к системам отслеживания. Технический результат направлен на расширение арсенала средств системы для отслеживания посетителей парка.

Бесконтактный ввод // 2644520

Изобретение относится к приему пользовательского ввода. Технический результат – визуализация обнаружения для осуществления пользовательского ввода.

Устройство обнаружения капель воды и устройство обнаружения трехмерных объектов с использованием устройства обнаружения капель воды // 2644518

Изобретение относится к области обнаружения трехмерных объектов и капель воды. Технический результат – обеспечение обнаружения капель воды и повышение точности обнаружения трехмерных объектов.

Способ и устройство для выделения признаков // 2644516

Способ и устройство для обучения классификатора и распознавания типа // 2643500

Изобретение относится к области обработки естественных языков. Техническим результатом является повышение точности результатов распознавания информации.

Способ и устройство отображения альбома // 2647681