Способ и система сравнения видеофайлов

Авторы патента:

Сметанин Никита Алексеевич (RU)

G06F17/30 - информационный поиск; структуры баз данных для этой цели

Владельцы патента RU 2632127:

Общество с ограниченной ответственностью "Яндекс" (RU)

Изобретение относится к способу и устройству для выбора видеокандидата. Технический результат заключается в повышении эффективности определения видеокандидатов, близких к дублированию видео. Устройство содержит интерфейс связи для обмена данными по сети передачи данных с хранилищем видео, причем хранилище видео хранит множество видео, процессор, функционально соединенный с интерфейсом связи, процессор выполнен с возможностью осуществлять получение из хранилища видео множества видеокандидатов, видеокандидат из множества видеокандидатов потенциально является близким к дублированию видео для первого видео, первое видео обладает длительностью первого видео, определение параметра переменной длительности, причем параметр переменной длительности определен на основе длительности первого видео, выбор первого видеокандидата из множества видеокандидатов, первый видеокандидат обладает длительностью первого видеокандидата, сравнение длительности первого видеокандидата с параметром переменной длительности, в ответ на то, что длительность первого видеокандидата находится в пределах параметра переменной длительности, определение того, что первый видеокандидат является действительным кандидатом на близкое к дублированию видео для первого видео. 2 н. и 11 з.п. ф-лы, 4 ил.

Область техники

[01] Настоящее техническое решение относится к способам проведения поисков в целом, и в частности - к способу и системе сравнения видеофайлов.

Уровень техники

[02] Поиск данных - хорошо известная задача в компьютерных технологиях. На современном уровне хранения данных и сетевых технологий иногда требуется искать в больших объемах данных. Хорошим примером является поиск в Интернете, где для конкретного пользовательского поискового запроса поисковая система ищет среди многих миллионов потенциально релевантных сетевых ресурсов для идентификации их подгруппы, которая потенциально более релевантна для пользовательского поискового запроса, чтобы представить ранжированный список потенциально релевантных ресурсов пользователю, который ввел поисковый запрос.

[03] Конкретной задачей в области поиска является поиск видео файлов. Например, в наборе видео ресурсов (таком как хранилище видео NETFLIX™, Neflix Inc, Лос Гатос, Калифорния, Соединенные Штаты Америки или другом онлайн сервисе, которые дают возможность просматривать/транслировать/загружать видео контент), желательно предоставлять пользователю возможность искать видео файлы для идентификации конкретных интересующих видеофайлов.

[04] Для предоставления возможности поиска видео файлов в большом наборе известен способ создания индекса видео файлов, чтобы предоставить возможность эффективного поиска среди них. Одной конкретной трудностью индексирования большого набора видео файлов является индексирование дублированных файлов. Дублированные файлы могут быть представлены по одной из множества причин, например, разные пользователи загрузили то же самое видео, или загрузили почти одинаковые видео, или же одно и то же видео доступно из множества источников. Некоторые из этих дубликатов являются идентичными копиями друг друга (т.е. обладают той же самой длиной и тем же самым содержанием). Другие являются близкими к дублированию и могут отличаться по длине и содержимому (например, один видео файл включает в себя серию сериала без рекламы, а другой включает в себя ту же серию сериала с невырезанной рекламой).

[05] Можно легко понять, что идентификация полных дубликатов - относительно простая задача и может быть легко выполнена с помощью техники дедубликации с использованием хэширования (в качестве примера). Обнаружение близких к дублированию файлов, с другой стороны, - более сложный процесс, и он требует прямого сравнения оригинальных видеофайлов или их сигнатур.

[06] Такой поиск близких к дублированию файлов в данном наборе видео может длиться значительный промежуток времени и требует значительных затрат вычислительных ресурсов (вычислительной мощности и т.д.).

[07] Существует известный подход, описанный в статье, озаглавленной: «Исключение близких к дублированию файлов в реальном времени в веб видео поиске с контентом и контекстом» ("Real-Time Near-Duplicate Elimination for Web Video Search with Content and Context") (Xiao Wu, Chong-Wah Ngo, Alexander G. Hauptmann, Hung-Khoon Tan). В статье описан способ, в котором идентифицируют предварительную группу близких к дублированию видео по длительности видео. Идентификация основной версии осуществляется с помощью анализа распределения длительностей. Для каждой основной версии выбирается исходное видео, которое потенциально является оригинальным источником, из которого появились другие видео. Видео, попадающие в специализированный временной промежуток, который является одним и тем же для всех видео, считаются кандидатами в близкие к дублированию видео.

[08] Существует и другой известный подход, описанный в статье, озаглавленной: «Исключение видеодубликатов с сайтов видеообмена» ("Elimination of Duplicate Videos in Video Sharing Sites") (Авторы: Narednra Kumar S, Murugan S, Krishnavei R, International Conference on Computer Science and Information Technology (ICCSIT'2011) Pattaya Dec. 2011). Описанный способ предусматривает, что для каждого запроса осуществляется идентификация основной версии с помощью сбора длительности всех видео. Таким образом, видео со сходной длительностью собираются в набор. Если 'd' - длительность для запроса, то собираются видео с длительностью 'd±α', где а может находиться в диапазоне от 2 до 4 секунд.

[09] В патенте США №US 8953836 описаны системы и способы, относящиеся к определению дубликатов видеоконтента в реальном времени. Создаются сигнатуры загруженного видео. Сигнатуры могут быть использованы для подбора загруженных видео в набор совпадающих видео. Набор совпадающих видео может быть отфильтрован на основе типа совпадения и качества совпадения. Для загруженного видео может быть создан уникальный идентификатор кластера, включающий в себя время загрузки, и этот уникальный идентификатор кластера может затем быть модифицирован для связи загруженного видео с идентификатором кластера потенциальных дубликатов. Идентификаторы кластера затем могут быть использованы в контексте поиска для фильтрования результатов, которые имеют идентичные идентификаторы кластера. Преимущества использования определения дубликатов в реальном времени могут улучшить пользовательский опыт на сервисе обмена видео, который включает в себя потенциальные дубликаты этого контента. Представлены системы и способы, относящиеся к определению дубликатов видеоконтента в реальном времени.

Раскрытие

[10] Задачей предлагаемого технического решения является устранение по меньшей мере некоторых недостатков, присущих известному уровню техники.

[11] Разработчики настоящего технического решения разработали варианты осуществления настоящего технического решения, принимая во внимание по меньшей мере один недостаток, связанный с известными подходами к идентификации близких к дублированию файлов.

[12] Без попыток выдвинуть какую-то конкретную теорию разработчики настоящего технического решения разработали варианты осуществления настоящего технического решения, принимая во внимание предположение, что поиск может быть ускорен при исключении определенных операций сравнения потенциально близких к дублированию видео, которые изначально очевидно не являются близкими к дублированию. Следовательно, техническая проблема, решаемая вариантами осуществления настоящего технического решения, - это эффективный выбор кандидатов на близкое дублирование, которые будут в итоге использованы в сравнении с первым видео, для которого определяются близкие к дублированию видео. Другими словами, процесс определения близких к дублированию видеофайлов делится на две стадии: (i) выбор кандидатов и (ii) анализ выбранных кандидатов для определения близких к дублированию видеофайлов (т.е. сравнение с первым видеофайлом, для которого определяются близкие к дублированию видео).

[13] Без попыток выдвинуть какую-то конкретную теорию разработчики настоящего технического решения разработали варианты осуществления технического решения на основе предположения, что близкие к дублированию видеофайлы обладают одинаковой или почти одинаковой длительностью, что и первое видео, для которого они являются близкими к дублированию видеофайлами.

[14] Как упоминалось выше, данный набор видеофайлов может обладать дубликатами двумя типов: полностью идентичными копиями видеофайла (полные дубликаты), и копиями, которые обладают почти идентичным контентом, но при этом определенным образом модифицированы - с добавленным или удаленным видеоконтентом. Длительность модифицированных версий (т.е. длительность близких к дублированию видеофайлов) может быть одинаковой или может слегка отличаться от оригинальной из-за их модификаций - например, из-за добавленного контента (рекламы, объявлений и так далее) или удаленных фрагментов (например, титров фильма и так далее).

[15] Таким образом, разработчики настоящего технического решения считают, что схожесть длительности между потенциальным кандидатом в близкие к дублированию видео и оригинальным видеофайлом - хороший индикатор вероятности того, что кандидат в близкие к дублированию видео действительно является близким к дублированию для первого видеофайла, к которому относится это близкое к дублированию видео.

[16] Разработчики также приняли во внимание, что величина различий в длительности близких к дублированию видео зависит от длины первого видеофайла, к которому относится этот(и) близкий(е) к дублированию видеофайл(ы). Например, близкие к дублированию видео для более длинных видео, обычно имеют более большие различия по длительности, чем близкие к дублированию видео для более коротких видео. Это может происходить потому, что к более длинному видео может быть добавлено больше рекламы/объявлений. Аналогичным образом, из относительно более длинного видео могут быть удалены более большие сегменты (например, титры, заставки, и так далее). Таким образом, разработчики приняли во внимание, что различия в длительности близких к дублированию видео для относительно длинных видео более выражены, чем различия в длительности близких к дублированию видео для относительно коротких видео.

[17] Чтобы решить упомянутые выше проблемы, разработчики настоящего технического решения разработали способ выбора кандидатов в близкие к дублированию файлы для первого оригинального видео, с использованием порога переменной длительности временного промежутка (также может быть упомянут как «шаблон переменной длительности» или «маска переменной длительности»), который определяется на основе длительности первого исходного видео, для которого нужно найти близкие к дублированию видео.

[18] Для того, чтобы это сделать, выбирается «видео для сравнения» (которое может быть первым исходным видео или близким к дублированию видео другого видео самим по себе). На основе длительности видео для сравнения определяется шаблон переменной длительности - т.е. определяются приемлемые пределы переменной длительности временного промежутка.

[19] Приемлемые пределы обозначают приемлемые различия в длительности кандидатов в близкие к дублированию видео по сравнению с видео для сравнения. Если длительность близкого к дублированию видео находится в пределах шаблона переменной длительности видео для сравнения, близкое к дублированию видео выбирается как действительный кандидат на близкое к дублированию видео для видео для сравнения.

[20] Этот процесс повторяется для других потенциальных кандидатов в близкие к дублированию видео. Те видео, которые определяются как действительные кандидаты в близкие к дублированию видео, действительно сравниваются с видео для сравнения для определения того, являются ли они близкими к дублированию видео. Сравнение может быть сделано побитно, с помощью сравнения сигнатур видео, сравнением аудиодорожек или с использованием любой другой известной техники. Например, сравнение может быть осуществлено с использованием инвертированного видеоиндекса, включающего в себя визуальные слова как ключи и идентификаторы видео, которое включает в себя эти визуальные слова. Если число совпадающих визуальных слов в данном кандидате на близкое к дублированию видео и в видео для сравнения превышает предварительно определенный порог, они рассматриваются как дубликаты.

[21] Технический эффект вариантов осуществления настоящего технического решения заключается в более эффективном и менее ресурсозатратном процессе определения близких к дублированию видео в большом наборе видео с помощью эффективного исключения тех потенциальных кандидатов на близкие к дублированию видео, которые с малой вероятностью являются близкими к дублированию видео, на основе их длительности, которая выходит за пределы шаблона переменной длительности.

[22] Первым объектом настоящего технического решения является способ выбора видеокандидата, причем видеокандидат потенциально является близким к дублированию видео для первого видео. Первое видео обладает длительностью первого видео. Способ выполняется на электронном устройстве, причем электронное устройство имеет доступ к хранилищу видео. Способ включает в себя: определение параметра переменной длительности, причем параметр переменной длительности определен на основе длительности первого видео; получение из хранилища видео множества видеокандидатов; выбор первого видеокандидата из множества видеокандидатов; первое видеокандидат обладает длительностью первого видеокандидата; сравнение длительности первого видеокандидата с параметром переменной длительности; в ответ на то, что длительность первого видеокандидата находится в пределах параметра переменной длительности, определение того, что первое видеокандидат является действительным кандидатом на близкое к дублированию видео для первого видео.

[23] В некоторых вариантах осуществления способа способ дополнительно включает в себя сравнение первого видеокандидата с первым видео.

[24] В некоторых вариантах осуществления способа первое видео включает в себя сигнатуру первого видео и первое видеокандидат включает в себя сигнатуру первого видеокандидата; сравнение первого видеокандидата с первым видео включает в себя сравнение сигнатуры первого видеокандидата и сигнатуры первого видео.

[25] В некоторых вариантах осуществления способа сравнение сигнатуры первого видеокандидата и сигнатуры первого видео выполняется побитно.

[26] В некоторых вариантах осуществления способа способ дополнительно включает в себя сравнение по меньшей мере одного из: аудиодорожек, мета-данных и заголовков первого видео и первого видеокандидата.

[27] В некоторых вариантах осуществления способа способ дополнительно включает в себя: выбор второго видеокандидата из множества видеокандидатов, причем второе видеокандидат обладает длительностью второго видеокандидата; сравнение длительности второго видеокандидата с параметром переменной длительности; если длительность второго видеокандидата находится за пределами параметра переменной длительности, определение того, что второе видеокандидат не является действительным кандидатом на близкое к дублированию видео для первого видео.

[28] В некоторых вариантах осуществления способа способ дополнительно включает в себя: сравнение первого видеокандидата с первым видео; без сравнения второго видеокандидата с первым видео.

[29] В некоторых вариантах осуществления способа параметр переменной длительности включает в себя: в качестве верхнего предела переменной длительности - длительность первого видео; в качестве нижнего предела переменной длительности - значение, которое является длительностью первого видео за вычетом предварительно определенного окна переменной длительности.

[30] В некоторых вариантах осуществления способа параметр переменной длительности включает в себя: в качестве верхнего предела переменной длительности - значение, которое является длительностью первого видео плюс предварительно определенное окно переменной длительности; в качестве нижнего предела - значение, которое является длительностью первого видео за вычетом предварительно определенного окна переменной длительности.

[31] В некоторых вариантах осуществления способа способ дополнительно включает в себя сравнение первого видеокандидата с первым видео для определения того, является ли первое видеокандидат близким к дублированию видео для первого видео.

[32] В некоторых вариантах осуществления способа в ответ на то, что первое видеокандидат является близким к дублированию видео для первого видео, способ дополнительно включает в себя выполнение по меньшей мере одного действия по меньшей мере либо с первым видеокандидатом, либо с первого видео.

[33] В некоторых вариантах осуществления способа выбор первого видеокандидата из множества видеокандидатов включает в себя: ранжирование множества видеокандидатов в порядке соответствующей длительности видеокандидатов; выбор первого видеокандидата, которое является видеокандидатом с самой короткой длительностью.

[34] Еще одним объектом настоящего технического решения является электронное устройство. Электронное устройство включает в себя: интерфейс связи для обмена данными по сети передачи данных с хранилищем видео, причем хранилище видео хранит множество видео, процессор, функционально соединенный с интерфейсом связи, процессор выполнен с возможностью осуществлять: получение из хранилища видео множества видеокандидатов; видеокандидат из множества видеокандидатов потенциально является близким к дублированию видео для первого видео, первое видео обладает длительностью первого видео; определение параметра переменной длительности, причем параметр переменной длительности определен на основе длительности первого видео; выбор первого видеокандидата из множества видеокандидатов; первое видеокандидат обладает длительностью первого видеокандидата; сравнение длительности первого видеокандидата с параметром переменной длительности; в ответ на то, что длительность первого видеокандидата находится в пределах параметра переменной длительности, определение того, что первое видеокандидат является действительным кандидатом на близкое к дублированию видео для первого видео.

[35] В контексте настоящего описания «сервер» подразумевает под собой компьютерную программу, работающую на соответствующем оборудовании, которая способна получать запросы (например, от клиентских устройств) по сети и выполнять эти запросы или инициировать выполнение этих запросов. Оборудование может представлять собой один физический компьютер или одну физическую компьютерную систему, но ни то, ни другое не является обязательным для данного технического решения. В контексте настоящего технического решения использование выражения «сервер» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована к выполнению одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных устройств может быть вовлечено в прием/передачу, выполнение или инициирование выполнения любого запроса или последствия любого запроса, связанного с клиентским устройством, и все это программное и аппаратное обеспечение может быть одним сервером или несколькими серверами; оба варианта включены в выражение «по меньшей мере один сервер».

[36] В контексте настоящего описания «клиентское устройство» подразумевает под собой аппаратное устройство, способное работать с программным обеспечением, подходящим к решению соответствующей задачи. Таким образом, примерами клиентских устройств (среди прочего) могут служить персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.) смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует иметь в виду, что устройство, ведущее себя как клиентское устройство в настоящем контексте, может вести себя как сервер по отношению к другим клиентским устройствам. Использование выражения «клиентское устройство» не исключает возможности использования множества клиентских устройств для получения/отправки, выполнения или инициирования выполнения любой задачи или запроса, или же последствий любой задачи или запроса, или же этапов любого вышеописанного способа.

[37] В контексте настоящего описания «база данных» подразумевает под собой любой структурированный набор данных, не зависящий от конкретной структуры, программного обеспечения по управлению базой данных, аппаратного обеспечения компьютера, на котором данные хранятся, используются или иным образом оказываются доступны для использования. База данных может находиться на том же оборудовании, выполняющем процесс, на котором хранится или используется информация, хранящаяся в базе данных, или же база данных может находиться на отдельном оборудовании, например, выделенном сервере или множестве серверов.

[38] В контексте настоящего описания «информация» включает в себя информацию любого рода или типа, которая может храниться в базе данных. Таким образом, информация включает в себя, среди прочего, аудиовизуальные произведения (изображения, видео, звукозаписи, презентации и т.д.), данные (данные о местоположении, цифровые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, таблицы и т.д.

[39] В контексте настоящего описания «компонент» подразумевает под собой программное обеспечение (соответствующее конкретному аппаратному контексту), которое является необходимым и достаточным для выполнения конкретной(ых) указанной(ых) функции(й).

[40] В контексте настоящего описания «используемый компьютером носитель компьютерной информации» подразумевает под собой носитель абсолютно любого типа и характера, включая ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB флеш-накопители, твердотельные накопители, накопители на магнитной ленте и т.д.

[41] В контексте настоящего описания слова «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной взаимосвязи между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий «второй сервер» обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание «первого» элемента и «второго» элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.

[42] Каждый вариант осуществления настоящего технического решения преследует по меньшей мере одну из вышеупомянутых целей и/или объектов. Следует иметь в виду, что некоторые объекты данного технического решения, полученные в результате попыток достичь вышеупомянутой цели, могут удовлетворять и другим целям, отдельно не указанным здесь.

[43] Дополнительные и/или альтернативные характеристики, аспекты и преимущества вариантов осуществления настоящего технического решения станут очевидными из последующего описания, прилагаемых чертежей и прилагаемой формулы изобретения.

Краткое описание чертежей

[44] Для лучшего понимания настоящего технического решения, а также других его аспектов и характерных черт, сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:

[45] На Фиг. 1 представлена система, выполненная с возможностью реализовать различные варианты осуществления настоящего технического решения.

[46] На Фиг. 2 представлена схема соответствующих длительностей первого видео, второго видео, третьего видео и четвертого видео, которые хранятся в системе, изображенной на Фиг. 1.

[47] На Фиг. 3 представлена схема первого видео, второго видео, третьего видео и четвертого видео с данными обработки, наложенными на них, причем данные обработки были определены индексирующим видео приложением системы, изображенной на Фигуре 1, и данные обработки определены в соответствии с вариантами осуществления настоящего технического решения.

[48] На Фиг. 4 представлена блок-схема способа выбора кандидатов на близкие к дублированию видео, способ выполнен в соответствии с неограничивающими вариантами осуществления настоящего технического решения и выполняется индексирующим видео приложением системы, изображенной на Фигуре 1.

Осуществление

[49] На Фиг. 1 представлена система 100, реализованная в соответствии с вариантами осуществления настоящего технического решения. Важно иметь в виду, что нижеследующее описание системы 100 представляет собой описание показательных вариантов осуществления настоящего технического решения. Таким образом, все последующее описание представлено только как описание показательного примера настоящего технического решения. Это описание не предназначено для определения объема или установления границ настоящего технического решения. Некоторые полезные примеры модификаций системы 100 также могут быть охвачены нижеследующим описанием. Целью этого является также исключительно помощь в понимании, а не определение объема и границ настоящего технического решения. Эти модификации не представляют собой исчерпывающий список, и специалистам в данной области техники будет понятно, что возможны и другие модификации. Кроме того, это не должно интерпретироваться так, что там, где не были изложены примеры модификаций, никакие модификации невозможны, и/или что то, что описано, является единственным вариантом осуществления этого элемента настоящего технического решения. Как будет понятно специалисту в данной области техники, это, скорее всего, не так. Кроме того, следует иметь в виду, что система 100 представляет собой в некоторых конкретных проявлениях достаточно простой вариант осуществления настоящего технического решения, и в подобных случаях этот вариант представлен здесь с целью облегчения понимания. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью.

[50] Система 100 включает в себя электронное устройство 102. Электронное устройство 102 обычно связано с пользователем (не показан) и, таким образом, иногда может упоминаться как «клиентское устройство». Следует отметить, что тот факт, что электронное устройство 102 связано с пользователем, не подразумевает какого-либо конкретного режима работы, равно как и необходимости входа в систему, регистрации, или чего-либо подобного.

[51] Варианты электронного устройства 102 конкретно не ограничены, но в качестве примера электронного устройства 102 могут использоваться персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.), устройства беспроводной связи (мобильные телефоны, смартфоны, планшеты и т.п.), а также сетевое оборудование (маршрутизаторы, коммутаторы или шлюзы). На Фиг. 1 электронное устройство 102 реализовано в виде персонального компьютера (настольного компьютера).

[52] Электронное устройство 102 соединено с сетью 106 передачи данных. В некоторых вариантах осуществления настоящего технического решения, не ограничивающих его объем, сеть 106 передачи данных может представлять собой интернет. В других вариантах осуществления настоящего технического решения сеть 106 передачи данных может быть реализована иначе - в виде глобальной сети передачи данных, локальной сети передачи данных, частной сети передачи данных и т.п.

[53] К сети передачи данных также присоединен сервер 108. Сервер 108 может представлять собой обычный компьютерный сервер. В примере варианта осуществления настоящего технического решения сервер 108 может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™. Излишне говорить, что сервер 108 может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, сервер 108 является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность сервера 108 может быть разделена и может выполняться с помощью нескольких серверов.

[54] В альтернативных вариантах осуществления настоящего технического решения электронное устройство 102 и сервер 108 могут быть реализованы как часть одного и того же аппаратного обеспечения (т.е. как единственное компьютерное устройство), причем в этом случае сеть 106 передачи данных может быть реализована как BUS (общая шина) и так далее.

[55] Также предусмотрено хранилище 110 видео. В некоторых вариантах осуществления настоящего технического решения хранилище 110 видео может быть реализовано как хранилище множества видеофайлов. В других вариантах осуществления настоящего технического решения хранилище 110 видео может быть реализовано как распределенный субъект, включающий в себя множество видеофайлов. Например, хранилище 110 видео может представлять собой скопление нескольких или всех видеофайлов, доступных на различных серверах (не показаны) в рамках сети 106 передачи данных.

[56] Как вариант, хранилище 110 видео может представлять собой скопление видеофайлов, доступных в конкретном субъекте, например, в библиотеке или научно-исследовательском учреждении. Другими словами, варианты осуществления настоящего технического решения могут быть полезны для индексирования и поиска видео, хранящихся на компьютерном устройстве (жестком диске, сервере и т.п.), удаленном компьютерном устройстве (сервере и т.п.) или распределенном хранилище (хранилище видео, распределенном по нескольким серверам и т.п.).

[57] Для примера пусть в хранилище 110 видео есть четыре видео - первое видео 112, второе видео 114, третье видео 116 и четвертое видео 118. Очевидно, четвертое видео, описанное здесь, - не последнее, и в разных вариантах осуществления технического решения хранилище 110 видео будет хранить больше видео в дополнение к первому видео 112, второму видео 114, третьему видео 116 и четвертому видео 118.

[58] Источник видеофайлов, хранящихся в хранилище 110 видео никак конкретно не ограничивается. Например, все или некоторые из первого видео 112, второго видео 114, третьего видео 116 и четвертого видео 118 могли быть загружены различными пользователями системы 100. Альтернативно все или некоторые из первого видео 112, второго видео 114, третьего видео 116 и четвертого видео 118 могут быть загружены оператором сервера 108 (например, сервер 108 может быть частью потокового сервиса или сервиса загрузки, например, Netflix).

[59] В альтернативных вариантах осуществления настоящего технического решения, хранилище 110 видео может быть поисковым индексом видео вертикали или поисковой системой общего поиска. Альтернативно хранилище 110 видео может быть частью сервиса, агрегирующего видео, и так далее.

[60] Видеофайлы, хранящиеся на сервере 108 (а именно первое видео 112, второе видео 114, третье видео 116 и четвертое видео 118) не обязательно все должны быть в одном и том же формате (хотя могут быть и в одном). Форматы кодирования видеоинформации могут различаться, некоторые примеры форматов видеофайлов включают в себя (без введения ограничений): Audio Video Interleaved (AVI), Windows Media Video (WMV), MPEG, GIF, Advanced Systems Format (ASF), и так далее. В альтернативных вариантах осуществления настоящего технического решения сервер может хранить множество версий одного и того же видеофайла, причем каждый видеофайл из множества версий может быть закодирован в соответствии со своим соответствующим стандартом кодирования.

[61] Каждое из первого видео 112, второго видео 114, третьего видео 116 и четвертого видео 118 связано с длительностью - т.е. указанием времени длительности соответствующего первого видео 112, второго видео 114, третьего видео 116 и четвертого видео 118. Исключительно в качестве примера на Фиг. 2 изображена схема соответствующих длительностей первого видео 112, второго видео 114, третьего видео 116 и четвертого видео 118 относительно временной шкалы 202 (в минутах, часах и т.д.) Исключительно с целью иллюстрации пусть соответствующие длительности первого видео 112, второго видео 114, третьего видео 116 и четвертого видео 118 будут таковы: первое видео 112 длится девятнадцать минут, второе видео 114 длится сорок девять минут, третье видео 116 длится пятьдесят минут и четвертое видео 118 длится сто минут.

[62] На Фиг. 2 первое видео 112, второе видео 114, третье видео 116 и четвертое видео 118 организованы в соответствии с длительностью в порядке увеличения длительности от первого видео 112 до четвертого видео 118. Следует понимать, что первое видео 112, второе видео 114, третье видео 116 и четвертое видео 118 может храниться в хранилище 110 видео в любом конкретном порядке по длительности (или в любом другом конкретном порядке).

[63] Таким образом, первое видео 112, второе видео 114, третье видео 116 и четвертое видео 118 может храниться в хранилище 110 видео в хронологическом

порядке по загрузке, в хронологическом порядке по созданию, в порядке по жанру, по источнику, по пользовательскому идентификатору пользователя, который загрузил видеофайл и так далее.

[64] Электронное устройство 102 включает в себя аппаратное и/или прикладное программное, и/или системное программное обеспечение (или их комбинацию), как известно в данной области техники, для реализации приложения 104 индексирования видео. Приложение 104 индексирования видео выполнено с возможностью создавать информационную базу данных 120, сохранять в ней, иметь к ней доступ и выполнять поиск в ней.

[65] На Фиг. 3 схематически показаны первое видео 112, второе видео 114, третье видео 116 и четвертое видео 118 с наложенными на них данными обработки, причем данные обработки определяются приложением 104 индексирования видео.

[66] Сначала будет пояснено, как приложение 104 индексирования видео создает параметр переменной длительности. Как было описано выше, параметр переменной длительности вычисляется для каждого видеофайла, т.е. для каждого из первого видео 112, второго видео 114, третьего видео 116 и четвертого видео 118. Другими словами, для данного набора видеофайлов (включающего в себя первое видео 112, второе видео 114, третье видео 116 и четвертое видео 118 и другие видеофайлы) параметр переменной длительности для каждого видеофайла в наборе определяется независимо для каждого первого видеофайла.

[67] Кроме того, при описании процедур анализа ниже и с точки зрения набора видеофайлов как целого (включая первое видео 112, второе видео 114, третье видео 116 и четвертое видео 118 и другие видеофайлы) параметр переменной длительности может упоминаться как «динамический». Используемый тут термин «динамический» подразумевает под собой то, что параметр переменной длительности не является предварительно определенным для всех видеофайлов в наборе видеофайлов, а определяется индивидуально для каждого видеофайла, для которого будут проанализированы близкие к дублированию видео. Как можно видеть на Фигуре 3, соответствующие параметры переменной длительности (обозначенные квадратными скобками и связанными процедурами определения под позицией 302) для второго видео 114, третьего видео 116 и четвертого видео 118 различаются друг с другом.

[68] Для данного одного из первого видео 112, второго видео 114, третьего видео 116 и четвертого видео 118 и других видео параметр переменной длительности

определяется следующим образом. Приложение 104 индексирования видео определяет длительность первого видео (т.е. одного из первого видео 112, второго видео 114, третьего видео 116 и четвертого видео 118). Приложение 104 индексирования видео затем определяет окно переменной длительности.

[69] В некоторых вариантах осуществления настоящего технического решения окно переменной длительности может быть определено на основе параметра окна переменной длительности, который может быть выражен в процентах и может быть предварительно определен как 5%. Значение 5% выбрано исключительно в качестве примера, возможны другие значения. В некоторых вариантах осуществления настоящего технического решения значение параметра окна переменной длительности определяется эмпирически.

[70] Приложение 104 индексирования видео сначала определяет окно переменной длительности. Возьмем в качестве примера второе видео 114 и учтем, что длительность второго видео 114 составляет сорок девять минут; приложение 104 индексирования видео определяет окно переменной длительности следующим образом:

[71] где Δ1 - окно переменной длительности, а 0,05 - параметр окна переменной длительности, который составляет 5%.

[72] Далее приложение 104 индексирования видео определяет нижний предел и верхний предел параметра переменной длительности. В некоторых вариантах осуществления настоящего технического решения верхний предел установлен как длительность данного видео. В примере со вторым видео 114 верхний предел установлен следующим образом: t2=49 мин. Приложение 104 индексирования видео определяет нижний предел параметра переменной длительности следующим образом:

[73] где t2 - длительность данного видео (в примере, описанном здесь -длительность второго видео 114), а Δ1 - окно переменной длительности. Следовательно, для второго видео 114 параметр переменной длительности определяется как интервал между 46,15 минутами и 49 минутами.

[74] Следует понимать, однако, что приведенное выше описание предоставлено исключительно как пример и возможны другие пути определения параметра переменной длительности и/или окна переменной длительности.

[75] В другом примере для второго видео 114 может быть применен альтернативный подход к определению параметра переменной длительности. В некоторых альтернативных вариантах осуществления настоящего технического решения окно переменной длительности может быть определено на основе параметра окна переменной длительности, которое выражается в процентах и может быть предварительно определено как 5%. Значение 5% выбрано исключительно в качестве примера, возможны другие значения. В некоторых вариантах осуществления настоящего технического решения параметр переменной длительности окна определяется эмпирически.

[76] Приложение 104 индексирования видео сначала определяет окно переменной длительности. Возьмем в качестве примера второе видео 114 и учтем, что длительность второго видео 114 составляет сорок девять минут; приложение 104 индексирования видео определяет окно переменной длительности следующим образом:

[77] где Δ1 - окно переменной длительности.

[78] Приложение 104 индексирования видео может определить нижний предел параметра переменной длительности в основном так, как было описано выше:

[79] где t2 - длительность данного видео (в примере, описанном здесь - длительность второго видео 114), а Δ1 - окно переменной длительности.

[80] В некоторых вариантах осуществления настоящего технического решения верхний предел определяется следующим образом:

[81] Следовательно, для второго видео 114 в этих вариантах осуществления

настоящего технического решения параметр переменной длительности определяется как интервал между 46,15 минутами и 51,45 минутами.

[82] Естественно, возможны и другие варианты. Например, параметр окна переменной длительности может быть выражен как постоянное значение, например, 15 секунд, 30 секунд, 1 минута и так далее.

[83] Кроме того, при вычислении нижнего предела и верхнего предела параметра переменной длительности окно переменной длительности, используемое при определении верхнего предела и нижнего предела, может не быть тем же самым. Например, для определения нижнего предела может быть применено первое окно переменной длительности в 5%, а для определения верхнего предела может быть применено второе окно переменной длительности в 3% (или наоборот).

[84] В другом примере для определения нижнего предела может быть применено первое окно переменной длительности в 60 секунд, а для определения верхнего предела может быть применено второе окно переменной длительности в 1,5 минуты (или наоборот).

[85] Естественно, точные значения соответствующих первого и второго окон переменной длительности могут различаться и могут быть определены эмпирически на основе анализа действия верхнего/нижнего пределов на вероятность того, что кандидаты в близкие к дублированию видео действительно являются кандидатами в близкие к дублированию видео.

[86] Ниже будет описан процесс сравнения кандидатов в близкие к дублированию видео. В широком смысле, однако, если длительность данного близкого к дублированию видео попадает в пределы параметра переменной длительности, данное близкое к дублированию видео считается действительным кандидатом в близкие к дублированию видео и выбирается для дальнейшего анализа (посредством побитного сравнения, сравнения сигнатур видео и так далее).

[87] В некоторых вариантах осуществления нестоящего технического решения процедура выбора кандидатов в близкие к дублированию видео может быть реализована следующим образом. Следует отметить, что процедура выбора кандидатов в близкие к дублированию видео может быть выполнена приложением 104 индексирования видео.

[88] Этап ранжирования/организации [89] В некоторых вариантах осуществления настоящего технического решения первое видео 112, второе видео 114, третье видео 116 и четвертое видео 118 сначала ранжируются/организовываются по их длительности. В некоторых вариантах осуществления настоящего технического решения приложение 104 индексирования видео ранжирует/организует первое видео 112, второе видео 114, третье видео 116 и четвертое видео 118 в порядке по возрастанию длительности, как, например, изображено на Фигуре 2.

[90] Итерационный процесс определения кандидатов в близкие к дублированию видео

[91] Далее приложение 104 индексирования видео начинает итерационный процесс определения кандидатов в близкие к дублированию видео.

[92] Второе видео 114 выбирается как данное видео, для которого будут выбраны кандидаты в близкие к дублированию видео. Приложение 104 индексирования видео затем определяет параметр переменной длительности для второго видео 114, как было описано выше. Напомним, что в данном примере параметр переменной длительности для второго видео 114 был определен как 46,15 минут и 49 минут. Поскольку длительность первого видео 112 составляет девятнадцать минут (t1=19 мин), приложение 104 индексирования видео определяет, что длительность первого видео 112 меньше нижнего предела параметра переменной длительности второго видео 114 (и, таким образом, находится вне параметра переменной длительности второго видео 114). Таким образом, приложение 104 индексирования видео не выбирает первое видео 112 как действительный кандидат в близкие к дублированию видео для второго видео 114.

[93] Приложение 104 индексирования видео затем выбирает третье видео 116 как данное видео, для которого будут выбраны кандидаты в близкие к дублированию видео. Аналогично процессу определения параметра переменной длительности, описанного выше, приложение 104 индексирования видео определяет окно переменной длительности следующим образом: Δ2=0,05*50 мин=2,5 мин. Приложение 104 индексирования видео затем определяет верхний предел и нижний предел параметра переменной длительности для третьего видео 116. Приложение 104 индексирования видео определяет верхний предел параметра переменной длительности как длительность третьего видео 116 (t3=50 мин), а нижний предел параметра переменной длительности определяется как t3 - Δ2=47,5 мин. Таким образом, параметр переменной длительности для третьего видео 116 устанавливается между 47,5 мин и 50 мин.

[94] Далее приложение 104 индексирования видео определяет, какие из потенциальных кандидатов в близкие к дублированию видео являются действительными кандидатами в близкие к дублированию видео для второго видео 114. Возвращаясь к примеру, представленному здесь, длительность первого видео 112 составляет t1=19 мин, что меньше, чем нижний предел третьего видео 116, и, таким образом, приложение 104 индексирования видео определяет, что первое видео 112 не является действительным кандидатом в близкие к дублированию видео для третьего видео 116.

[95] Длительность второго видео 114 превышает нижний предел параметра переменной длительности и находится ниже, чем верхний предел параметра переменной длительности, и, таким образом, приложение 104 индексирования видео определяет, что длительность второго видео 114 находится в пределах параметра переменной длительности третьего видео 116, и, таким образом, приложение 104 индексирования видео выбирает второе видео 114 как действительный кандидат в близкие к дублированию видео для третьего видео 116.

[96] После того, как второе видео 114 определено как действительный кандидат в близкие к дублированию видео для третьего видео 116, приложение 104 индексирования видео затем определяет, действительно ли второе видео 114 является близким к дублированию для третьего видео 116. В некоторых вариантах осуществления настоящего технического решения приложение 104 индексирования видео может сравнивать сигнатуру второго видео 114 с сигнатурой третьего видео 116. В тех вариантах осуществления настоящего технического решения, в которых видео сигнатуры состоят из визуальных слов, приложение 104 индексирования видео определяет число перекрывающихся визуальных слов между сигнатурой второго видео 114 и сигнатурой третьего видео 116.

[97] В ответ на то, что число перекрывающихся визуальных слов превышает предварительно определенный порог совпадения, приложение 104 индексирования видео определяет, что второе видео 114 действительно является близким к дублированию видео для третьего видео 116.

[98] В некоторых дополнительных вариантах осуществления настоящего технического решения, в дополнение или вместо видео сигнатур приложение 104 индексирования видео может сравнить аудиодорожки второго видео 114 и третьего видео 116. В некоторых дополнительных вариантах осуществления настоящего технического решения приложение 104 индексирования видео может дополнительно сравнить заголовки второго видео 114 и третьего видео 116. В некоторых дополнительных вариантах осуществления настоящего технического решения приложение 104 индексирования видео может дополнительно сравнить другие метаданные второго видео 114 и третьего видео 116.

[99] Приложение 104 индексирования видео затем повторяет процесс с четвертым видео 118, а также с другими видео, потенциально присутствующими и наборе.

[100] Следует отметить, что видео, которые не определены как действительные кандидаты в близкие к дублированию видео (например, первое видео 112) не сравниваются с целевым видео, что, таким образом, потенциально приводит к экономии времени и/или вычислительных ресурсов.

[101] В тех вариантах осуществления настоящего технического решения, в которых видео файлы были ранжированы в возрастающем порядке по длительности, может быть достигнут дополнительные технический эффект уменьшения требуемых вычислительных ресурсов с помощью сравнения либо только видео с небольшой длительностью (где верхний предел параметра переменной длительности устанавливается как длительность данного видео), либо видео с небольшой длительность и сразу же более длительных видео (где верхний предел параметра переменной длительности устанавливается с использованием параметра окна переменной длительности).

[102] В некоторых вариантах осуществления настоящего технического решения приложение 104 индексирования видео, после того, как оно выберет все близкие к дублированию видео для данного видео, может выполнить одно или несколько действий в отношении к данному видео и/или нескольким или всем его близким к дублированию видео.

[103] В некоторых вариантах осуществления настоящего технического решения приложение 104 индексирования видео «объединяет» данное видео и по меньшей мере некоторые из его идентифицированных близких к дублированию видео. То, как приложение 104 индексирования видео выполняет объединение, никак не ограничивается и может включать в себя одно или несколько следующих действий.

[104] Приложение 104 индексирования видео может «объединять» мета-данные, связанные с данным видео и по меньшей мере некоторыми из его идентифицированных близких к дублированию видео. Мета-данные могут включать в себя описание, заголовки, аудиодорожки и так далее.

[105] Приложение 104 индексирования видео может «объединять» сигнатуры, связанные с данным видео и по меньшей мере некоторыми из его идентифицированных близких к дублированию видео. Например, визуальные слова из сигнатуры данного видео могут быть добавлены к сигнатуре по меньшей мере некоторых идентифицированных близких к дублированию видео и наоборот.

[106] В некоторых вариантах осуществления настоящего технического решения приложение 104 индексирования видео может создавать кластер, включающий в себя данное видео и по меньшей мере некоторые из его идентифицированных близких к дублированию видео. Таким образом созданный кластер может включать в себя ID кластера, а также ссылки (например, URL и так далее) на данное видео и по меньшей мере некоторые из его идентифицированных близких к дублированию видео. Приложение 104 индексирования видео может хранить информацию о кластере в упомянутой выше базе данных 120 обработанной информации о видео.

[107] С учетом данной архитектуры и примеров, приведенных выше, возможно выполнить способ выбора видеокандидатов (причем видеокандидаты потенциально являются близкими к дублированию видео для данного видео, и данное видео обладает длительностью данного видео). На Фиг. 4 представлена блок-схема способа 400 выбора кандидатов в близкие к дублированию видео, причем способ выполняется в соответствии с неограничивающими вариантами осуществления настоящего технического решения. Способ 400 может быть выполнен вычислительным устройством, например, электронным устройством 102. Более конкретно, способ 400 может быть выполнен приложением 104 индексирования видео.

[108] Этап 402 - определение параметра переменной длительности, причем параметр переменной длительности определяется на основе длительности первого видео

[109] Способ 400 начинается на этапе 402, на котором приложение 104 индексирования видео определяет параметр переменной длительности, причем параметр переменной длительности определяется на основе длительности первого видео (в данном случае длительность первого видео является длительностью видео, для которого будут определены близкие к дублированию видео).

[110] В некоторых вариантах осуществления способа 400 параметр переменной длительности включает в себя: в качестве верхнего предела переменной длительности - длительность первого видео; в качестве нижнего предела - значение, которое является длительностью первого видео за вычетом предварительно определенного окна переменной длительности.

[111] В некоторых вариантах осуществления способа 400 параметр переменной длительности включает в себя: в качестве верхнего предела переменной длительности - значение, которое является длительностью первого видео плюс предварительно определенное окно переменной длительности; в качестве нижнего предела - значение, которое является длительностью первого видео за вычетом предварительно определенного окна переменной длительности.

[112] Этап 404 - получение из хранилища видео множества видеокандидатов

[113] На этапе 404 приложение 104 индексирования видео получает из хранилища 110 видео множество видеокандидатов.

[114] Этап 406 - выбор первого видеокандидата из множества видеокандидатов, причем первое видеокандидат обладает длительностью первого видеокандидата

[115] На этапе 406 приложение 104 индексирования видео выбирает первое видеокандидат из множества видеокандидатов, причем первое видеокандидат обладает длительностью первого видеокандидата.

[116] В некоторых вариантах осуществления способа 400 выбор первого видеокандидата из множества видеокандидатов включает в себя: ранжирование множества видеокандидатов в порядке соответствующей длительности видеокандидатов и выбор первого видеокандидата как видеокандидата с самой маленькой длительностью.

[117] Этап 408 - сравнение длительности первого видеокандидата с параметром переменной длительности

[118] На этапе 408 приложение 104 индексирования видео сравнивает длительность первого видеокандидата с параметром переменной длительности.

[119] Этап 410 - в ответ на то, что длительность первого видеокандидата находится в пределах параметра переменной длительности, определение того, что первое видеокандидат является действительным кандидатом в близкие к дублированию видео для данного видео

[120] На этапе 410, в ответ на то, что длительность первого видеокандидата находится в пределах параметра переменной длительности, приложение 104 индексирования видео определяет, что первое видеокандидат является действительным кандидатом в близкие к дублированию видео для данного видео.

[121] После того, как приложение 104 индексирования видео определяет, что первое видеокандидат является действительным кандидатом в близкие к дублированию видео для данного видео, способ 400 дополнительно включает в себя сравнение первого видеокандидата с данным видео для определения того, является ли первое видеокандидат близким к дублированию видео для данного видео.

[122] В некоторых вариантах осуществления способа 400 данное видео включает в себя сигнатуру данного видео, а первое видеокандидат включает в себя сигнатуру первого видеокандидата. В этих вариантах осуществления настоящего технического решения приложение 104 индексирования видео может сравнить первое видеокандидат с данным видео с помощью сравнения сигнатуры первого видеокандидата и сигнатуры данного видео. Сравнение сигнатуры первого видеокандидата и сигнатуры данного видео может быть выполнено побитно.

[123] В некоторых вариантах осуществления способа 400 приложение 104 индексирования видео может дополнительно (или альтернативно) сравнить по меньшей мере одно из: аудиодорожки, мета-данные или заголовки для данного видео и первого видеокандидата.

[124] В некоторых вариантах осуществления способа 400 способ 400 дополнительно включает в себя: выбор второго видеокандидата из множества видеокандидатов, причем второе видеокандидат обладает длительностью второго видеокандидата; сравнение длительности второго видеокандидата с параметром переменной длительности; если длительность второго видеокандидата находится вне параметра переменной длительности, определение того, что второе видеокандидат не является действительным кандидатом в близкие к дублированию видео для данного видео. В некоторых вариантах осуществления способа 400 способ 400 дополнительно включает в себя сравнение первого видеокандидата с данным видео (поскольку было определено, что первое видеокандидат является действительным кандидатом в близкие к дублированию видео) без сравнения второго видеокандидата с данным видео (поскольку было определено, что второе видеокандидат не является действительным кандидатом в близкие к дублированию видео).

[125] В некоторых вариантах осуществления способа 400 в ответ на то, что первое видеокандидат было определено как действительный кандидат в близкие к дублированию видео, способ 400 дополнительно включает в себя выполнение по меньшей мере одного действия по меньшей мере либо с первым видеокандидатом, либо с данным видео.

[126] Таким образом, варианты осуществления настоящего технического решения можно изложить следующим образом, структурированно, пронумерованными пунктами.

[127] ПУНКТ 1. Способ (400) выбора видеокандидата (112, 114, 116, 118), причем видеокандидат (112, 114, 116, 118) потенциально является близким к дублированию видео для данного видео (112, 114, 116, 118), данное видео обладает длительностью данного видео, способ (400) выполняется на электронном устройстве (102), причем электронное устройство (102) имеет доступ к хранилищу (110) видео, способ (400) включает в себя:

[128] определение (402) параметра переменной длительности, причем параметр переменной длительности определен на основе длительности (112, 114, 116, 118) первого видео;

[129] получение (404) из хранилища (110) видео множества видеокандидатов (112, 114, 116, 118);

[130] выбор (406) первого видеокандидата (112, 114, 116, 118) из множества видеокандидатов (112, 114, 116, 118), первое видеокандидат (112, 114, 116, 118) обладает длительностью первого видеокандидата;

[131] сравнение (408) длительности первого видеокандидата с параметром переменной длительности;

[132] в ответ на то, что длительность первого видеокандидата находится в пределах параметра переменной длительности, определение (410) того, что первое видеокандидат (112, 114, 116, 118) является действительным кандидатом на близкое к дублированию видео для данного видео (112, 114, 116, 118).

[133] ПУНКТ 2. Способ (400) по п. 1, в котором способ дополнительно включает в себя сравнение первого видеокандидата (112, 114, 116, 118) сданным видео.

[134] ПУНКТ 3. Способ (400) по п. 2, в котором данное видео (112, 114, 116, 118) включает в себя сигнатуру данного видео и первое видеокандидат (112, 114, 116, 118) включает в себя сигнатуру первого видеокандидата; сравнение первого видеокандидата (112, 114, 116, 118) с данным видео (112, 114, 116, 118) включает в себя сравнение сигнатуры первого видеокандидата и сигнатуры данного видео.

[135] ПУНКТ 4. Способ (400) по п. 3, в котором сравнение сигнатуры первого видеокандидата и сигнатуры данного видео выполняется побитно.

[136] ПУНКТ 5. Способ (400) по п. 3, в котором способ дополнительно включает в себя сравнение по меньшей мере одного из: аудиодорожек, мета-данных и заголовков данного видео и первого видеокандидата.

[137] ПУНКТ 6. Способ (400) по по любому из пп. 1-5, дополнительно включающий в себя:

[138] выбор второго видеокандидата (112, 114, 116, 118) из множества видеокандидатов (112, 114, 116, 118), причем второе видеокандидат (112, 114, 116, 118) обладает длительностью второго видеокандидата;

[139] сравнение длительности второго видеокандидата с параметром переменной длительности;

[140] если длительность второго видеокандидата находится за пределами параметра переменной длительности, определение того, что первое видеокандидат (112, 114, 116, 118) не является действительным кандидатом на близкое к дублированию видео для данного видео (112, 114, 116, 118).

[141] ПУНКТ 7. Способ (400) по п. 6, дополнительно включающий в себя:

[142] сравнение первого видеокандидата (112, 114, 116, 118) с данным видео (112, 114, 116, 118)

[143] без сравнения второго видеокандидата (112, 114, 116, 118) с данными видео (112, 114, 116, 118).

[144] ПУНКТ 8. Способ (400) по любому из пп. 1-7, в котором параметр переменной длительности включает в себя:

[145] в качестве верхнего предела переменной длительности - длительность первого видео (112);

[146] в качестве нижнего предела переменной длительности - значение, которое является длительностью первого видео (112) за вычетом предварительно определенного окна переменной длительности.

[147] ПУНКТ 9. Способ (400) по любому из пп. 1-7, в котором параметр переменной длительности включает в себя:

[148] в качестве верхнего предела переменной длительности - значение, которое является длительностью первого видео (112) плюс предварительно определенное окно переменной длительности;

[149] в качестве нижнего предела - значение, которое является длительностью первого видео (112) за вычетом предварительно определенного окна переменной длительности.

[150] ПУНКТ 10. Способ (400) по любому из пп. 1-9, в котором способ дополнительно включает в себя сравнение первого видеокандидата (112, 114, 116, 118) с данным видео для определения того, является ли первое видеокандидат (112, 114, 116, 118) близким к дублированию видео для данного видео (112, 114, 116, 118).

[151] ПУНКТ 11. Способ (400) по п. 10, в котором в ответ на то, что первое видеокандидат (112, 114, 116, 118) является близким к дублированию видео для данного видео (112, 114, 116, 118), способ дополнительно включает в себя выполнение по меньшей мере одного действия по меньшей мере либо с первым видеокандидатом (112, 114, 116, 118), либо сданным видео (112, 114, 116, 118).

[152] ПУНКТ 12. Способ (400) по любому из пп. 1-11, в котором выбор первого видеокандидата (112, 114, 116, 118) из множества видеокандидатов (112, 114, 116, 118) включает в себя:

[153] ранжирование множества видеокандидатов (112, 114, 116, 118) в порядке соответствующей длительности видеокандидатов (112, 114, 116, 118);

[154] выбор первого видеокандидата (112, 114, 116, 118), которое является видеокандидатом с самой короткой длительностью.

[155] ПУНКТ 13. Электронное устройство (102), включающее в себя:

[156] интерфейс связи для обмена данными по сети (106) передачи данных с хранилищем (108) видео, причем хранилище (110) видео хранит множество видео (112, 114, 116, 118),

[157] процессор, функционально соединенный с интерфейсом связи, процессор выполнен с возможностью осуществлять способ (400) по любому из пп. 1-11.

[158] Важно иметь в виду, что варианты осуществления настоящего технического решения могут быть реализованы с проявлением и других технических результатов.

[159] Модификации и улучшения вышеописанных вариантов осуществления настоящего технического решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения.

1. Способ выбора видеокандидата, причем видеокандидат потенциально является близким к дублированию видео для первого видео, первое видео обладает длительностью первого видео, способ выполняется на электронном устройстве, причем электронное устройство имеет доступ к хранилищу видео, способ включает в себя:

определение параметра переменной длительности, причем параметр переменной длительности определен на основе длительности первого видео;

получение из хранилища видео множества видеокандидатов;

выбор первого видеокандидата из множества видеокандидатов, первый видеокандидат обладает длительностью первого видеокандидата;

сравнение длительности первого видеокандидата с параметром переменной длительности;

в ответ на то, что длительность первого видеокандидата находится в пределах параметра переменной длительности, определение того, что первый видеокандидат является действительным кандидатом на близкое к дублированию видео для первого видео.

2. Способ по п. 1, в котором дополнительно выполняют сравнение первого видеокандидата с первым видео.

3. Способ по п. 2, в котором первое видео включает в себя сигнатуру первого видео и первый видеокандидат включает в себя сигнатуру первого видеокандидата; сравнение первого видеокандидата с первым видео включает в себя сравнение сигнатуры первого видеокандидата и сигнатуры первого видео.

4. Способ по п. 3, в котором сравнение сигнатуры первого видеокандидата и сигнатуры первого видео выполняется побитно.

5. Способ по п. 3, в котором способ дополнительно включает в себя сравнение по меньшей мере одного из: аудиодорожек, метаданных и заголовков первого видео и первого видеокандидата.

6. Способ по п. 1, в котором дополнительно выполняют:

выбор второго видеокандидата из множества видеокандидатов, причем второй видеокандидат обладает длительностью второго видеокандидата;

сравнение длительности второго видеокандидата с параметром переменной длительности;

если длительность второго видеокандидата находится за пределами параметра переменной длительности, определение того, что второй видеокандидат не является действительным кандидатом на близкое к дублированию видео для первого видео.

7. Способ по п. 5, в котором дополнительно выполняют:

сравнение первого видеокандидата с первым видео

без сравнения второго видеокандидата с первым видео.

8. Способ по п. 1, в котором параметр переменной длительности включает в себя:

в качестве верхнего предела переменной длительности - длительность первого видео;

в качестве нижнего предела переменной длительности - значение, которое является длительностью первого видео за вычетом предварительно определенного окна переменной длительности.

9. Способ по п. 1, в котором параметр переменной длительности включает в себя:

в качестве верхнего предела переменной длительности - значение, которое является длительностью первого видео плюс предварительно определенное окно переменной длительности;

в качестве нижнего предела - значение, которое является длительностью первого видео за вычетом предварительно определенного окна переменной длительности.

10. Способ по п. 1, в котором дополнительно выполняют сравнение первого видеокандидата с первым видео для определения того, является ли первый видеокандидат близким к дублированию видео для первого видео.

11. Способ по п. 9, в котором в ответ на то, что первый видеокандидат является близким к дублированию видео для первого видео, дополнительно выполняют по меньшей мере одно действие по меньшей мере либо с первым видеокандидатом, либо с первым видео.

12. Способ по п. 1, в котором выбор первого видеокандидата из множества видеокандидатов включает в себя:

ранжирование множества видеокандидатов в порядке соответствующей длительности видеокандидатов;

выбор первого видеокандидата, который является видеокандидатом с самой короткой длительностью.

13. Электронное устройство для выполнения выбора видеокандидата, включающее в себя:

интерфейс связи для обмена данными по сети передачи данных с хранилищем видео, причем хранилище видео хранит множество видео,

процессор, функционально соединенный с интерфейсом связи, процессор выполнен с возможностью осуществлять:

получение из хранилища видео множества видеокандидатов; видеокандидат из множества видеокандидатов потенциально является близким к дублированию видео для первого видео, первое видео обладает длительностью первого видео;

выбор первого видеокандидата из множества видеокандидатов; первый видеокандидат обладает длительностью первого видеокандидата;

сравнение длительности первого видеокандидата с параметром переменной длительности;

в ответ на то, что длительность первого видеокандидата находится в пределах параметра переменной длительности,

определение того, что первый видеокандидат является действительным кандидатом на близкое к дублированию видео для первого видео.

Изобретение относится к средствам предоставления контекстуальной информации, относящейся к документу. Технический результат заключается в расширении арсенала технических средств.

Способ и сервер создания рекомендованного набора элементов // 2632100

Изобретение относится к средствам создания рекомендованного подмножества элементов для пользователя электронного устройства. Технический результат заключается в повышении релевантности результатов ранжированного списка результатов поиска.

Способ и устройство для управления возвратом к ранее просмотренной странице // 2631770

Изобретение относится к области связи, в частности к способу и устройству для управления возвратом к ранее просмотренной странице. Технический результат заключается в расширении арсенала технических средств для управления возвратом к ранее просмотренной странице.

Самонастраивающаяся интерактивная система, способ и считываемый компьютером носитель данных обмена комментариями между пользователями // 2630741

Группа изобретений относится к технологиям обмена данными в социальных сетях с помощью технологии клиент-сервер. Техническим результатом является создание самонастраивающейся интерактивной системы обмена комментариями между пользователями на веб-страницах с использованием технологии клиент-сервер, которая позволила бы осуществлять оценку доверия комментариям пользователей посредством рейтинга пользователя и автоматическую блокировку пользователя с низким рейтингом.

Способ и устройство принудительной доставки информации // 2630580

Изобретение относится к области коммуникационных технологий. Техническим результатом является принудительная доставка информации в приложение.

Способ, инструментарий и устройство для добавления подключаемого расширения в адресную книгу // 2630553

Изобретение относится к средствам добавления подключаемого расширения в приложение списка контактов. Технический результат заключается в обеспечении возможности импорта подключаемого расширения стороннего приложения.

Система информационной поддержки разработчика программного обеспечения для микроконтроллеров // 2630389

Изобретение относится к системе информационной поддержки разработчика программного обеспечения для микроконтроллеров. Технический результат заключается в автоматизации разработки программного обеспечения для микроконтроллеров.

Способ обработки процессов машиной состояний // 2630383

Группа изобретений относится к технологиям автоматической генерации задач машиной состояний. Техническим результатом является обеспечение автоматической генерации задач для определения состояний.

Использование содержимого страницы для решения задачи точного подбора рекламы // 2630382

Группа изобретений относится к технологиям предоставления пользователям продвигаемой информации. Техническим результатом является обеспечение предпросмотра ссылок предпросмотра за счет предпросмотра продвигаемой информации, посредством шаблонов предпросмотра.

Способ и устройство для кластеризации // 2630373

Изобретение относится, в общем, к кластеризации данных, в частности к кластеризации изображений. Техническим результатом является повышение точности результата кластеризации.

Способ и система предоставления пользователю контента, способ получения пользователем контента // 2632130

Изобретение относится к средствам предоставления пользователю контента. Технический результат заключается в повышении вероятности получения всех частей запрошенного контента. Получают первым сервером запрос пользователем контента. Передают первую часть составного контента и указателя на вторую часть составного контента первым сервером пользователю. Получают первым сервером сообщение о невозможности получения второй части составного контента. Запрашивают первым сервером второй части составного контента у второго сервера, запрос включает по меньшей мере один идентификатор пользователя. Получают от второго сервера второй части составного контента, связанной с по меньшей мере одним идентификатором пользователя. Передают первым сервером по меньшей мере вторую часть составного контента пользователю или запрошенного пользователем контента. 3 н. и 20 з.п. ф-лы, 7 ил.

Способ и устройство для создания рекомендуемого списка содержимого // 2632131

Изобретение относится к средствам создания рекомендаций содержимого для данного пользователя системы рекомендаций. Технический результат заключается в обеспечении извлечения свойств снимков из архива снимков. Указанный результат достигается за счет применения способа создания рекомендаций содержимого для пользователя системы рекомендаций. При этом сервером рекомендаций получают запрос пользователя на рекомендации содержимого. Создают сервером рекомендаций выборку рекомендаций. Модуль предсказаний обучают с помощью обучающей выборки. При этом связанное с пользователем свойство используется как первый вводный параметр для обучения модуля предсказания. Связанное с пользователем свойство извлекают из последней версии архива снимков. При этом версия архива снимков создана до момента времени, когда происходит обучающее событие. Связанное с пользователем свойство используется как второй вводный параметр для обучения модуля предсказания. Передают подмножество из выборки рекомендаций содержимого электронному устройству пользователя. 4 н. и 23 з.п. ф-лы, 9 ил.

Способ и устройство для создания рекомендаций содержимого в системе рекомендаций // 2632132

Изобретение относится к области компьютерной техники и сетевым технологиям и, в частности, к системам рекомендаций содержимого сетевых ресурсов. Технический результат заключается в повышении эффективности рекомендаций содержимого, доступного на сетевых ресурсах. Технический результат достигается за счет получения от электронного устройства запроса на рекомендацию содержимого, рекомендация содержимого включает в себя рекомендуемый элемент содержимого, выполнения модуля первого алгоритма машинного обучения для определения подмножества рекомендуемых источников содержимого из множества возможных источников содержимого, определения подмножества рекомендуемых источников содержимого, включая получение указания на предыдущие взаимодействия пользователей по меньшей мере с одним из: системой рекомендаций и по меньшей мере некоторыми из множества сетевых ресурсов, на основе предыдущих взаимодействий пользователя, определения первого подмножества связанных с пользователем источников содержимого, на основе обученной формулы алгоритма машинного обучения других взаимодействий пользователя с некоторыми другими из множества сетевых ресурсов, и анализа подмножества рекомендуемых источников содержимого для выбора множества потенциально рекомендуемых элементов содержимого. 2 н. и 20 з.п. ф-лы, 5 ил.

Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования // 2632133

Изобретение относится к способу и системе создания модели прогнозирования и определения параметра точности обученной модели прогнозирования в виде дерева принятия решений. Технический результат заключается в повышении точности модели прогнозирования. Способ включает в себя доступ к обученной модели прогнозирования в виде дерева принятия решений, созданной по меньшей мере частично на основе набора обучающих объектов; создание подгруппы случайных параметров интереса; связывание подгруппы случайных параметров интереса с листом дерева принятия решений; определение параметра точности листа на основе параметров интереса, связанных с данным листом и подгруппы случайных параметров интереса данного листа; определение параметра точности обученной модели прогнозирования в виде дерева принятия решений на основе определенного параметра точности листа. 7 н. и 34 з.п. ф-лы, 11 ил.

Способ и система обработки поисковых запросов // 2632134

Изобретение относится к системам и способам обработки поисковых запросов, введенных в сервис поисковой системы. Техническим результатом является уменьшение вычислительных ресурсов за счет того, что разрешается проблема комбинаторного взрыва при обработке длинных поисковых запросов. В способе обработки поисковых запросов получают множество поисковых запросов, введенных в поисковую систему. Обрабатывают каждый поисковый запрос, причем обработка включает получение набора лексем и набора синонимов, вычисление набора нормализованных запросов на основе поисковых запросов и лексем, вычисление набора обобщенных запросов на основе нормализованных запросов и синонимов и компиляцию индексной структуры на основе набора логических деревьев. Каждый нормализованный запрос связан с соответствующим обобщенным запросом. Компиляция индексной структуры включает вычисление набора логических деревьев, причем каждое логическое дерево представляет собой обобщающий запрос, связанный с обобщенным запросом. 2 н. и 20 з.п. ф-лы, 9 ил.

Система и способ уточнения результатов поиска // 2632135

Изобретение относится к области поисковых систем в целом и конкретно к системе и способу создания уточненной поисковой выдачи для поискового запроса. Техническим результатом является повышение релевантности результатов поиска. В способе создания уточненной страницы результатов поиска (SERP) для поискового запроса, полученного от пользователя, создается набор результатов поиска и отображается пользователю на SERP. На основе взаимодействия с элементом результата поиска на SERP создается параметр пользовательского интереса для элемента результата поиска, на основе суммирования первого и второго весов элемента результата поиска в первом и втором результатах поиска, соответственно. Создается второй поисковый запрос, который включает в себя исходный поисковый запрос, элемент результата поиска, и первый параметр пользовательского интереса в качестве переформулировки начального поискового запроса, указывающий значимость элемента результата поиска. Результаты поиска, созданные в ответ на второй поисковый запрос, отображаются пользователю в виде уточненной SERP. 2 н. и 22 з.п. ф-лы, 5 ил.

Способ (варианты) и сервер ранжирования поисковых результатов на основе параметра полезности // 2632138

Изобретение относится к области поисковых систем в целом и конкретно к системе и устройству ранжирования поисковых результатов и создания страницы результатов поиска (SERP) для поискового запроса. Техническим результатом является расширение арсенала технических средств создания страницы результатов поиска. В способе создания страницы результатов поиска в ответ на получение поискового запроса создается ранжированное множество результатов поиска, включающее в себя результат общего поиска и результат вертикального поиска. Причем множество результатов поиска ранжировано на основе параметра полезности. Параметр полезности указывает на оптимальную позицию результата вертикального поиска в ранжированном множестве поисковых результатов на основе его полезности по отношению к запросу. Параметр полезности предварительно определяется на основе обучающей выборки пользовательских данных о прошлых взаимодействиях с результатом вертикального поиска, когда его исходный ранг был модифицирован таким образом, что результат вертикального поиска оказался ранжирован случайным образом и расположен на предыдущей SERP на случайной позиции. 3 н. и 31 з.п. ф-лы, 4 ил.

Способ и сервер для кластеризации предложений для поисковых запросов // 2632140

Изобретение относится к области создания списка поисковых предложений. Технический результат – обеспечение возможности создания списка поисковых предложений. Способ создания списка поисковых предложений, выполняемый на сервере и включающий в себя получение по меньшей мере части поискового запроса от пользователя; создание ранжированного множества поисковых предложений для части поискового запроса; определение по меньшей мере частично на основе параметра связи, связано ли каждое поисковое предложение с соответствующим поисковым источником, причем параметр связи определяет степень релевантности каждого поискового предложения для каждого соответствующего поискового источника; в ответ на определение того, что поисковое предложение связано с соответствующим поисковым источником, создание группы предложений для каждого соответствующего поискового источника, причем каждая группа предложений предназначена для представления соответствующей подгруппы множества поисковых предложений, и соответствующая подгруппа включает в себя только поисковые предложения, связанные с соответствующим поисковым источником; и создание списка поисковых предложений, в котором каждая соответствующая подгруппа сгруппирована в каждой соответствующей группе предложений, причем каждая группа предложений отображается отдельно. 2 н. и 24 з.п. ф-лы, 4 ил.

Способ обучения модуля ранжирования с использованием обучающей выборки с зашумленными ярлыками // 2632143

Изобретение относится к области компьютерных технологий. Технический результат заключается в оптимизации качества ранжирования. Технический результат достигается за счет извлечения обучающей выборки, включающей в себя множество обучающих объектов, причем каждому обучающему объекту в обучающей выборке назначен ярлык, и каждый обучающий объект связан с вектором характеристик объекта, определения весового параметра для каждого обучающего объекта, причем весовой параметр указывает на качество ярлыка, которое представляет собой уровень достоверности назначения ярлыка обучающему объекту, определения параметра релевантности, выполненное на основе переназначения сервером параметра релевантности, относительно других ярлыков в обучающей выборке, обучения средства ранжирования с использованием множества обучающих объектов из обучающей выборки, определенного параметра релевантности для каждого обучающего объекта из множества обучающих объектов обучающей выборки и определенного весового параметра для каждого объекта из множества обучающих объектов обучающей выборки, ранжировать новый документ. 2 н. и 15 з.п. ф-лы, 4 ил.

Система и способ ранжирования результатов поиска // 2632148

Изобретение относится к серверам и способам создания страницы результатов поиска (SERP). Технический результат заключается в повышении релевантности результатов поиска. В способе выполняют получение от электронного устройства поискового запроса, создание списка результатов поиска, включающего первый и второй результаты поиска, ранжирование списка результатов поиска так, что первый и второй результаты поиска находятся на первой и второй позициях SERP соответственно, прогнозирование первого параметра интереса для первого результата поиска на основе первого алгоритма машинного обучения, прогнозирование второго параметра интереса для второго результата поиска на основе второго алгоритма машинного обучения, отличного от первого алгоритма, прогнозирование параметра полезности для первого результата поиска на основе третьего алгоритма машинного обучения и первого и второго параметров интереса, корректировку позиции первого результата поиска в ранжированном списке результатов поиска на основе спрогнозированного параметра полезности так, что первый результат поиска оказывается на скорректированной позиции в ранжированном списке результатов поиска, создание SERP, включающей первый и второй результаты поиска, причем первый результат поиска расположен на скорректированной позиции SERP. 4 н. и 30 з.п. ф-лы, 11 ил.