Способ и система для выделения ключевых кадров из видео последовательностей



Способ и система для выделения ключевых кадров из видео последовательностей
Способ и система для выделения ключевых кадров из видео последовательностей
Способ и система для выделения ключевых кадров из видео последовательностей
Способ и система для выделения ключевых кадров из видео последовательностей
Способ и система для выделения ключевых кадров из видео последовательностей
Способ и система для выделения ключевых кадров из видео последовательностей
Способ и система для выделения ключевых кадров из видео последовательностей

 


Владельцы патента RU 2493602:

Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." (KR)

Изобретение относится к технологии обработки видео. Заявлены способ и система для решения конкретной задачи преобразования видео из монокулярного в стереоскопическое и из черно-белого - в цветное в полуавтоматическом режиме. При этом способ выделения ключевых кадров и дополнения видео последовательности информацией о глубине или цвете включает в себя следующие операции: получают данные для инициализации объектов каждого ключевого объекта в каждом кадре; выявляют смены сцен во входной видео последовательности и разбивают видео последовательность на сцены; для каждой сцены выявляют данные о деятельности каждого объекта посредством модуля анализа видеоданных и данных глобального движения (GM) по всем кадрам сцены и сохраняют эти данные в накопителе результатов видеоанализа; причем после обработки видео сцены сначала анализируют сохраненные данные о деятельности каждого объекта, выделяют ключевые кадры, затем анализируют данные GM и ключевых кадров объекта, извлекают и выводят ключевые кадры посредством модуля анализа видеоданных; после чего очищают накопитель результатов видеоанализа и переходят к следующей сцене входной видео последовательности до достижения конца видео последовательности. Система состоит из трех основных частей: модуля анализа видеоданных; накопителя результатов видеоанализа; модуля обработки результатов видеоанализа. Технический результат - преобразование видео из монокулярного в стереоскопическое и из черно-белого - в цветное в полуавтоматическом режиме. 2 н. и 19 з.п. ф-лы, 7 ил.

 

Заявляемое изобретение относится к технологии обработки видео, а более конкретно - к устройствам и способам для автоматического извлечения ключевых кадров из видео для дополнения видео с помощью оператора такой информацией, как назначение глубины для последующего преобразования монокулярной видео последовательности в стерео последовательность или для назначения цветовой информации для последующего преобразования черно-белой видео последовательности в цветную видео последовательность.

В последние годы разные производители активно разрабатывали стереоскопические устройства отображения (дисплеи), способные воспроизводить стерео изображения. Для получения ощущения трехмерности (стерео), требуется применение видео последовательности в особом формате. Этот формат включает видео, записанное с разных ракурсов, отдельно для левого и правого глаза. Для формирования изображений с различных ракурсов применяют большое число способов. Например, может использоваться съемка несколькими камерами, или видео на основе трехмерной модели.

Большинство видео изображений, полученных в эпоху синематографа, предназначены для обычных монодисплеев. Чтобы получить ощущение трехмерности на основе старых кинопленок, необходимо преобразовать эти видео изображения в стереоскопическое видео. Это достигается за счет назначения карты глубины для каждого видео кадра, и получения левого и правого ракурсов на основе использования видео кадров и карты глубины.

Системы для преобразования видео могут быть или полностью автоматическими, действующими без вмешательства оператора, или полуавтоматическими, где преобразование выполняется с участием оператора. В последнем варианте, оператор, как правило, выбирает ключевые кадры видео последовательности и вручную назначает (рисует) карты глубины, в ряде случаев используя некоторые специальные вспомогательные способы (см., например, патентную заявку США 2002/0048395)[1]. Такие карты глубины распространяют на остальные части видео кадров (такими, например, способами, как в американских патентных заявках 2010/0194856 [2] и 2009/0116732 [3]). Полуавтоматические системы обеспечивают намного более высокое качество, чем полностью автоматизированные системы.

В последние годы многие старые черно-белые кинофильмы были преобразованы в цветные. В настоящее время потребителю хочется более полных ощущений от просмотра кинофильма, в том числе получения полноценной цветовой видео информации. Однако большое число кино шедевров записывались на черно-белой пленке, в связи с чем была утрачена цветовая информация. Восстановление такого драгоценного наследия в цвете является утомительной и дорогостоящей процедурой. Обычно пленку обрабатывают следующим образом: одному из кадров (ключевому кадру) в видео последовательности добавляют (назначают) информацию, касающуюся цвета (раскрашивание), и эту информацию далее распространяют на соседние кадры, как это описано, например, в патенте США 4755870 [4]. В этом изобретении, однако, такие ключевые кадры выбираются вручную.

Способ выбора ключевых кадров играет важную роль в конвертации видео последовательностей.

В американской патентной заявке 2011/0110649 [5] ключевые кадры выбираются автоматически, но они скорее предназначены для видео резюмирования, то есть для выбора наиболее визуально представительных видео кадров. В американском патенте 7046731 [6] ключевые кадры выбирают автоматически на основе определения направления глобального движения и кластеризации глобального движения, но этот способ выбора ключевых кадров предназначен для эффективного представления и резюмирования видео. В американской патентной заявке 2007/0263128 [7] представлены методики, которые позволяют осуществлять адаптивный процесс извлечения ключевых кадров из видео. Процесс выбора включает оценку качества кадров для отбора кадров с наивысшим качеством на роль ключевых кадров. Ключевые кадры выбираются на основе значений энтропии, четкости и контрастности кадров. Однако в этом подходе рассматривается кадр в целом, т. е. не принимаются во внимание объекты в кадре. В американском патенте 7843512 [8] определяют скорость изменения содержимого кадра (по сравнению со смежным видео кадром), и выбирают видео кадр в качестве ключевого видео кадра, если скорость превышает некое пороговое значение. В американской патентной заявке [3] ключевые кадры выбираются автоматически на основе анализа поля движения объектов. В американском патенте 7158676 [9] ключевые кадры и объекты, представляющих интерес, выбираются вручную. Данные интерактивного содержимого встраиваются вместе с объектом, и объект отслеживается через всю последовательность кадров, и данные интерактивного содержимого встраиваются в каждый из кадров. В целом, современные технологии для выбора ключевых кадров предназначены для визуального резюмирования видео последовательностей, для лучшего визуального понимания.

Американский патент [9] и американскую патентную заявку [3] можно рассматривать в качестве прототипов.

Заявляемый способ предназначен для решения конкретной задачи преобразования видео из монокулярного в стереоскопическое и из черно-белого - в цветное в полуавтоматическом режиме. Заявляемый способ учитывает конкретные характеристики видео последовательностей, такие, как данные о главных персонажах (ключевых кадрах) видеопоследовательности. Это позволяет добиться более целенаправленного выбора видео кадров.

Технический результат достигается за счет разработки усовершенствованного способа выделения ключевого кадра в процессе полуавтоматического дополнения видео последовательности информацией о глубине или цвете, причем заявленный способ предусматривает выполнение следующих операций:

• выявляют смены сцены во входной видео последовательности и осуществляют разбиение видео последовательности на сцены;

• для каждой сцены на модуль анализа видеоданных подают данные об инициализации объектов, выявляют действия каждого объекта и данные GM (глобального движения) на всех кадрах сцены и записывают в накопителе результаты видеоанализа;

• после обработки всех кадров видео сцены с помощью модуля анализа видеоданных сначала анализируют сохраненные данные о деятельности каждого объекта, извлекают ключевые кадры объекта, затем анализируют данные GM и ключевые кадры объекта, извлекают и выводят ключевые кадры; после чего накопитель результатов видеоанализа очищают и загружают модуль анализа видеоданных следующей сценой входной видео последовательности.

Как правило, ключевые кадры выбирают для резюмирования видео визуальной информации. Новизна заявляемого изобретения подтверждается следующими отличительными признаками:

• ключевые кадры выбирают на основе вводимой пользователем информации о содержимом сцены;

• каждый ключевой объект выбирают на одном или нескольких кадрах;

• каждый ключевой объект отслеживают во всех кадрах в вырезанной сцене;

• оценивают качество участков кадра, содержащих ключевой объект;

• анализируют траекторию движения каждого ключевого объекта;

• выбирают ключевые кадры на основе анализа участков кадров и/или точек качества траектории.

В заявляемом способе данные для инициализации объекта включают в себя координаты RBB, а именно координаты {x, y} левого верхнего угла, ширина и высота, кадр для этого RBB f 0 и два кадра f begin и f end для отслеживания промежутка RBB между ними таким образом, что и .

В заявляемом способе для выявления действий объекта RBB объекта отслеживают по всем кадрам в видео сцене, а именно, определяют координаты RBB в видео кадре таким образом, чтобы сравнение областей видео кадров, содержащихся внутри RBB, на текущем и на следующем кадре, давало максимальное значение в терминах предопределенных метрик, и вычисляют параметры объекта, представляющие собой особенности изображения области видео кадра, содержащейся внутри RBB.

В заявляемом способе дополнительные ключевые кадры выбирают в промежутке между ключевыми кадрами объектов, основываясь на анализе данных глобального движения (GM).

В заявляемом способе отслеживают RBB из кадра f 0 инициализации объекта вперед, из кадра f 0 до кадра f end , после чего в обратном направлении, из кадра f 0 до кадра f begin , для получения отслеженных координат RBB.

В заявляемом способе в модуле обработки результатов видеоанализа сравнивают аккумулированные координаты RBB и параметры объекта и выводят ряд ключевых кадров KFo:

,

где f start и f finish - последовательные кадры сцены, для которой вычисляют данные о действиях объекта,

где ƒ1 = max(ƒ-T, ƒstart), ƒ2 = min (ƒ+T, ƒfinish), T - предопределенный порог,

.

В заявляемом способе в модуле обработки результатов видеоанализа анализируют кривизну траектории объекта в видео кадрах и получают на выходе ряд ключевых кадров KFo

k f = | ( x f + 1 x f ) ( y f + 1 2 y f + y f 1 ) ( y f + 1 y f ) ( x f + 1 2 x f + x f 1 ) | [ ( x f + 1 x f ) 2 + ( y f + 1 y f ) 2 ] 3 2 , f = f s t a r t + 1... f f i n i s h 1,

где ƒ1 = max(ƒ-T, ƒstart+1), ƒ2 = min(ƒ+T, ƒfinish-1), T - предопределенный порог, .

В заявляемом способе параметры объектов включают оценку резкости и контрастности.

В заявляемом способе анализируют параметры объекта, такие как контраст C и резкость S, вычисляют функции F и F' C, и S, а T1 и T2 являются предопределенными реальными значениями:

,

где ƒ1 = max(ƒ-T, ƒstart+1), ƒ2 = min(ƒ+T, ƒfinish-1), T - предопределенный порог

.

Кроме того, в заявленном изобретении предлагается система для реализации способа выделения ключевых кадров в процессе полуавтоматического дополнения видео последовательности информацией о глубине или цвете, отличающаяся тем, что состоит из трех основных частей:

модуля анализа видеоданных, выполненного с возможностью извлечения данных из входного видео потока и получения множества инициализационных данных для ключевых объектов в видео через устройство разметки видео;

накопителя результатов видеоанализа, выполненного с возможностью запоминания аккумулированных данных видеоанализа, обнаруженных модулем анализа;

и модуля обработки результатов видеоанализа, выполненного с возможностью проведения анализа аккумулированных данных.

В заявляемой системе модуль анализа видеоданных выполнен с возможностью получения множества координат прямоугольных рамок (RBB), индексов кадра и числа кадров, через устройство разметки видео.

В заявляемой системе модуль анализа видеоданных включает детектор смены кадров, детектор данных глобального движения, детектор действий объекта.

В заявляемой системе накопитель результатов видеоанализа состоит из аккумулятора данных о действиях объекта, запоминающего аккумулированные данные о действиях объекта, и аккумулятора данных глобального движения, запоминающего параметры, описывающие относительное смещение статичных объектов в двух последовательных видео кадрах.

В заявляемой системе модуль обработки результатов видеоанализа включает в себя выделитель данных, детектор ключевых кадров объекта и детектор ключевых кадров.

Для лучшего понимания сущности заявляемого изобретения ниже приводится подробное описание с чертежами.

Фиг. 1. Описывает основные части системы, с помощью которой реализуется способ для выделения ключевых кадров.

Фиг. 2. Иллюстрирует основные шаги видео анализа для выбора ключевых кадров.

Фиг. 3. Объясняет в подробностях этап 203, касающийся обнаружения данных видео анализа в видео сцене.

Фиг. 4. Иллюстрирует процесс выполнения анализа видео последовательности.

Фиг. 5. Объясняет в подробностях этап 303, касающийся обработки конкретного видео кадра и извлечения данных о действиях объекта во время прохождения через видео кадр «вперед».

Фиг. 6. Объясняет в подробностях этап 308, касающийся обработки конкретного видео кадра и извлечения данных о действиях объекта во время прохода через видео кадр «назад».

Фиг. 7. Объясняет в подробностях этап 204, касающийся обработки данных видео анализа, извлечения ключевых кадров и очистки накопителя.

Система, реализующая способ для выделения ключевых кадров в процессе дополнения монокулярного видео глубиной (преобразование из 2D в 3D) или черно-белого видео цветом состоит из трех основных частей: модуль анализа видеоданных, который извлекает данные из входного видео потока и который может получить множество данных для инициализации для ключевых объектов в видео через устройство разметки видео; накопитель результатов видеоанализа, который запоминает аккумулированные данные видеоанализа, обнаруженные модулем анализа; и модуль обработки результатов видеоанализа, который выполняет анализ аккумулированных данных.

Модуль анализа видеоданных может получать множество координат прямоугольных рамок (RBB) и кадров от устройства разметки видео. Накопитель результатов видеоанализа сохраняет данные о деятельности объекта в аккумуляторе данных о деятельности объекта, сохраняет данные глобального движения (GM данные) (параметры, описывающие относительное смещение неподвижных объектов в двух последовательных видео кадрах) в аккумуляторе данных глобального движения. Модуль обработки результатов видеоанализа анализирует аккумулированные данные и выделяет ключевые кадры для дальнейшего дополнения видео с помощью оператора.

Способ выделения ключевых кадров в процессе полуавтоматического дополнения видео включает следующие шаги:

получают данные для инициализации объектов каждого ключевого объекта в каждом кадре;

выявляют смены сцен во входной видео последовательности и разбивают видео последовательность на сцены;

для каждой сцены выявляют данные о деятельности каждого объекта посредством модуля анализа видеоданных и данных GM по всем кадрам сцены и сохраняют эти данные в накопителе результатов видеоанализа;

после обработки видео сцены, сначала анализируют сохраненные данные о деятельности каждого объекта, выделяют ключевые кадры, затем анализируют данные GM и ключевых кадров объекта, и извлекают и выводят ключевые кадры посредством модуля анализа видеоданных; после чего очищают накопитель результатов видеоанализа и переходят к следующей сцене входной видео последовательности до достижения конца видео последовательности.

Фиг. 1 показывает схему функционирования основных компонентов системы, которая осуществляет заявляемый способ. Входное видео обрабатывается Модулем 101 анализа видеоданных, который получает данные для инициализации каждого объекта, который необходимо принять во внимание.

Данные для инициализации (идентификатор) конкретного объекта k даны для одного или нескольких видео кадров как {k, RBB, ƒ0, ƒbegin, ƒend}, где:

k - индекс объекта,

RBB - прямоугольная рамка, отмечающая позицию объекта в видео кадре,

ƒ0 - кадр, в котором объект отмечен,

ƒbegin - кадр, от которого начинают вычислять данные о действиях объекта (отслеживание объекта),

ƒend - кадр, на котором заканчивают вычисление данных о действиях объекта (отслеживание объекта).

Такая информация предоставляется оператором вместе с видео последовательностью посредством устройства 100 разметки видео, который может включать, по меньшей мере, устройство отображения (дисплей) и манипулятор, такой как компьютерная мышь. Число объектов оставляют на усмотрение оператора. Модуль 101 анализа видеоданных в процессе обработки видео последовательности дает на выходе данные видеоанализа, такие как действия объекта и данные о глобальном движении (GM). Данные GM включают параметры, описывающие относительное смещение неподвижных (статичных) объектов в двух последовательных видео кадрах. Данные видео анализа аккумулируются в накопителе 102 результатов видеоанализа. Когда модуль 101 анализа видеоданных обнаруживает смену сцены, модуль 108 обработки результатов видеоанализа выделяет и анализирует аккумулированные данные и дает на выходе выявленные ключевые кадры. Модуль 101 анализа видеоданных включает детектор 103 смены кадров, детектор 104 данных GM и детектор 105 действий объекта. Накопитель 102 результатов видеоанализа сохраняет данные о действиях объекта в аккумуляторе 107 данных о действиях объекта и данные GM в аккумуляторе 106 данных глобального движения. Модуль 108 обработки результатов видеоанализа включает в себя выделитель 111 данных, детектор 110 ключевых кадров объекта и детектор 109 ключевых кадров.

Все компоненты данной системы могут быть изготовлены путем применения современных систем проектирования электрических цепей, дополненных исполняемыми программами.

Фиг. 2 описывает основные шаги заявляемого способа. На шаге 201 данные для инициализации вводят для всех объектов. Видео обработка начинается с анализа видео сцена за сценой начиная с первого кадра 202. В каждой видео сцене выявляют данные видеоанализа и заносят их в накопитель результатов видеоанализа, шаг 203. После завершения анализа сцены данные видеоанализа обрабатываются, выделяются ключевые кадры и накопитель результатов видеоанализа очищается, шаг 204. Затем, проверяют выполнение условия 206, в случае если последний обработанный кадр не был последним кадром видео последовательности, процесс переходит к следующему видео кадру, шаг 205. В ином случае обработка продолжается до завершения на шаге 207.

Фиг. 3 объясняет в подробностях процесс обнаружения данных видеоанализа во время обработки сцены, шаг 203. Начиная с первого кадра сцены (CSFI, т. е. кадр текущей сцены, = 0), сцена обрабатывается кадр за кадром, шаг 301. Два прохода выполняют по сцене (см. также Фиг. 4). Сначала сцена обрабатывается в прямом направлении («вперед»), то есть с увеличением CSFI. После достижения конца сцены кадры обрабатываются в обратном порядке («назад»), то есть с CSFI. В каждом кадре извлекаются данные GM, шаг 302. Как было упомянуто выше, данные GM включают параметры, описывающие относительное смещение неподвижных (статичных) объектов в двух последовательных видео кадрах. Есть много способов, известных из уровня техники, для обнаружения такого смещения, например, в американском патенте 7312819 [10]. На шаге 303 данные о действиях объекта извлекают из видео кадра, подробности этого процесса объяснены ниже, на Фиг. 5. На шаге 305 CSFI увеличивается на 1. В случае если условие 306 не выполняется, процесс продолжается в отношении следующего кадра, шаг 304. Условие 306 проверяют с помощью детектора смены сцен, то есть сравнивая текущий кадр со следующим кадром. Есть много способов, известных из уровня техники, для выявления смены сцен, например, в американском патенте 7123769 [11]. В случае если обнаружена смена сцены, текущий кадр определяют как последний кадр сцены. Потом данная сцена анализируется в обратном направлении («назад») начиная с последнего кадра сцены, шаг 307. На шаге 308 извлекают данные о действиях объекта из видео кадра, подробности этого процесса объяснены ниже, на Фиг. 6. Затем CSFI уменьшают на 1, шаг 309. Когда достигается первый кадр сцены, CSFI = 0, то есть тот же самый кадр в видео, как на шаге 301, и обработка видео последовательности продолжается с последнего кадра сцены, как на шаге 307. В ином случае, если условие на шаге 311 не соблюдено, обрабатывают следующий кадр, шаг 310. На шаге 312 индекс текущего видео кадра устанавливается на последнем кадре сцены для того, чтобы начать обработку следующей сцены (шаги 205 и далее).

Фиг. 5 описывает процесс обнаружения данных о действиях объекта. Процесс выполняется в отношении конкретного кадра в сцене, с индексом CSFI, индексом кадра текущей сцены, шаг 501, для всех объектов начиная с объекта с индексом k=0, шаг 502. Данные о действиях объекта могут состоять из, но не ограничиваются, {k, {RBB f }|ƒ, ƒ0, ƒbegin, ƒend, {featuresƒ}}, где:

k - индекс объекта,

{RBBƒ} - множество прямоугольных рамок, отмечающих положение (позицию) объекта в видео кадре с индексом ƒ, 0 <ƒ <N, где N - индекс последнего кадра в сцене.

ƒ0 - кадр, в котором отмечен объект,

ƒbegin - кадр, с которого начинают вычисление данных о действиях объекта (отслеживание объекта),

ƒend - кадр, в котором завершают вычисление данных о действиях объекта (отслеживание объекта),

{featuresƒ} - набор параметров, связанных с кадром ƒ и RBBƒ, таких как особенности изображения, вычисленного для заплаты изображения, содержавшейся в соответствующей RBBƒ. Параметры изображения могут включать резкость, контраст, или тому подобные.

RBB = {x, y, w, h}, где {x, y} - координаты верхнего левого угла, w и h - ширина и высота соответственно.

На шаге 503 инициализационные данные (ID) анализируют на предмет того, присутствуют ли там данные с ƒ0, равным CSFI, и индексом объекта, равным k. В случае если эти данные присутствуют, объект инициализируют, то есть его RBB инициализируют на основе RBB данных для инициализации, шаг 504, и затем параметры объекта вычисляются, шаг 505 (будет объяснено ниже). В случае если условие 503 не выполняется, шаги 504 и 505 пропускают. На шаге 506 проверяют выполнение условия, находится ли кадр текущей сцены (CSFI) между ƒ0 объекта и ƒend объекта. В случае положительного результата на шаге 507 вычисляют координаты объекта RBB, используя координаты этого RBB на предыдущем кадре, CSFI-1. Есть много способов, известных из уровня техники, для вычисления таких координат, например, американские патенты 5099324 [12] и 7620204 [13]. На шаге 505 вычисляют параметры области изображения, содержащей объект, для оценки параметров объекта. На шаге 508 проверяют, имеются ли еще необработанные объекты. В случае если таких объектов больше нет, процесс завершают, шаг 510. В ином случае индекс k объекта увеличивают на 1 (шаг 509) и шаги 503 и последующие повторяют.

Следующие параметры вычисляют на шаге 505: контраст и резкость. Контраст вычисляют как разность между максимальными и минимальными значениями в области изображения, содержащейся в RBB:

Резкость S вычисляют, например, так, как это описано в статье Safonov, I. V.; Rychagov, М. N.; Kang, KiMin; Ким, Sang Ho; “Adaptive sharpening of photos”, Proceedings of the SPIE, Volume 6807, pp. 68070U-68070U-12 (2008) [14].

Фиг. 6 описывает в подробностях процесс выявления данных о действиях объекта во время обратного прохода («назад») через кадр, шаг 308. Процесс выполняют для конкретного кадра в сцене, с индексом CSFI, индекс кадра текущей сцены, шаг 601, для всех объектов начиная с объекта с индексом k=0, шаг 602. Если CSFI оказывается между ƒbegin текущего объекта и ƒ0 текущего объекта, то координаты RBB объекта вычисляют используя координаты этого RBB на предыдущем обработанном кадре, CSFI+1 (поскольку это обратный проход) таким же способом, как это было сделано на шаге 507. На шаге 605 параметры объекта вычисляют тем же способом, как это было сделано на шаге 505. В случае если текущий объект является последним (условие 606), процесс заканчивается, в ином случае он продолжается в отношении следующего объекта, шаг 607, и индекс объекта увеличивают на 1.

Фиг. 7 объясняет более детально шаг 204, касающийся обработки данных видеоанализа, выделения ключевых кадров и очистки накопителя. На шаге 701 выбирают набор ключевых кадров KFo исходя из выявленных данных о действиях объекта, подробности этого процесса объяснены далее. На шаге 702 вводят дополнительные ключевые кадры, если необходимо, между кадрами, которые присутствуют в наборе KFo. Из уровня техники известны способы для этого, например, S. V. Porter, M. Mirmehdi, and B. T. Thomas. A shortest path representation for video summarization. In Proc. of 12th ICIAP, pp. 460-465. IEEE Comp. Soc., Sept. 2003 [15], где данные глобального движения используют для выявления ключевых кадров. Полученный набор ключевых кадров подается на выход, и накопитель результатов видеоанализа очищают для использования при дальнейшей обработке следующей видео сцены, шаг 703. Набор ключевых кадров KFo выбирают на основе данных о действиях обнаруженного объекта, шаг 701, следующим образом. В одном из предложенных вариантов реализации заявляемого изобретения ключевые кадры выбирают на основе скорости движения объекта. Модуль обработки результатов видеоанализа сравнивает аккумулированные координаты RBB и параметры объекта.

,

где ƒstart и ƒfinish - последовательные кадры сцены, для которых вычисляют данные о действиях объекта. Пусть T является заранее заданным порогом,

0<T<

где ƒ1 = max(ƒ-T, ƒstart), ƒ2 = min(ƒ+T, ƒfinish)

В другом варианте реализации заявляемого изобретения выполняют анализ кривизны траектории объекта в видео кадрах.

где ƒ1 = max(ƒ-T, ƒstart+1), ƒ2 = min(ƒ+T, ƒfinish-1)

В еще одном варианте реализации заявленного изобретения проводят анализ параметров изображения, таких, как контраст C и резкость S. Пусть F является функцией C и S, а T1 и T2 являются предопределенными реальными значениями.

,

где ƒ1 = max(ƒ-T, ƒstart+1), ƒ2 = min(ƒ+T, ƒfinish-1),

Специалист в данной области техники поймет, что возможны также и другие варианты реализации данного изобретения и что элементы изобретения могут быть изменены различным образом не выходя за рамки концепции данного изобретения. Поэтому чертежи и описание следует рассматривать лишь в качестве иллюстрации, которая не имеет ограничительного характера.

Заявляемый способ предназначен для реализации в программном обеспечении полуавтоматических систем преобразования "моно-в-стерео" или «черно/белое-в-цветное», используя современное вычислительное оборудование (персональные компьютеры, рабочие станции, компьютерные кластеры или тому подобное). Способ применим для систем преобразования видео "моно-в-стерео" или «черно/белое-в-цветное», оборудованных процессором, памятью, устройствами ввода - вывода и шиной передачи данных.

1. Способ выделения ключевых кадров в процессе полуавтоматического дополнения видео последовательности информацией о глубине или цвете, отличающийся тем, что включает в себя следующие операции:
получают данные для инициализации объектов каждого ключевого объекта в каждом кадре;
выявляют смены сцен во входной видео последовательности и разбивают видео последовательность на сцены;
для каждой сцены выявляют данные о деятельности каждого объекта посредством модуля анализа видеоданных и данных глобального движения (GM) по всем кадрам сцены и сохраняют эти данные в накопителе результатов видеоанализа;
причем после обработки видео сцены, сначала анализируют сохраненные данные о деятельности каждого объекта, выделяют ключевые кадры, затем анализируют данные глобального движения (GM) и ключевых кадров объекта, извлекают и выводят ключевые кадры посредством модуля анализа видеоданных; после чего очищают накопитель результатов видеоанализа и переходят к следующей сцене входной видео последовательности до достижения конца видео последовательности.

2. Способ по п. 1, отличающийся тем, что ключевые кадры выбирают на основе вводимой пользователем информации о содержимом сцены.

3. Способ по п. 1, отличающийся тем, что каждый ключевой объект выбирают на одном или нескольких кадрах.

4. Способ по п. 1, отличающийся тем, что каждый ключевой объект отслеживают во всех кадрах в вырезанной сцене.

5. Способ по п. 1, отличающийся тем, что оценивают качество участков кадра, содержащих ключевой объект.

6. Способ по п. 1, отличающийся тем, что анализируют траекторию движения каждого ключевого объекта.

7. Способ по п. 1, отличающийся тем, что выбирают ключевые кадры на основе анализа участков кадров и/или точек качества траектории.

8. Способ по п. 1, отличающийся тем, что смену сцены выявляют посредством сравнений гистограмм, вычисленных в блоках изображения.

9. Способ по п. 1, отличающийся тем, что данные для инициализации объекта включают в себя координаты RBB, а именно координаты {x, y} левого верхнего угла, ширина и высота, кадр для этого RBB f 0, и два кадра, f begin и f end для отслеживания промежутка RBB между ними, таким образом что и .

10. Способ по п. 9, отличающийся тем, что отслеживают RBB из кадра f 0 инициализации объекта вперед, из кадра f 0 до кадра f end, после чего в обратном направлении из кадра f 0 до кадра f begin, для получения отслеженных координат RBB.

11. Способ по п. 1, отличающийся тем, что для выявления действий объекта, RBB объекта отслеживают по всем кадрам в видео сцене, а именно, определяют координаты RBB в видео кадре таким образом, чтобы сравнение областей видео кадров, содержащихся внутри RBB, на текущем и на следующем кадре давало максимальное значение в терминах предопределенных метрик, и вычисляют параметры объекта, представляющие собой особенности изображения области видео кадра, содержащейся внутри RBB.

12. Способ по п. 1, отличающийся тем, что дополнительные ключевые кадры выбирают в промежутке между ключевыми кадрами объектов, основываясь на анализе данных глобального движения GM.

13. Способ по п. 1 отличающийся тем, что в модуле обработки результатов видеоанализа сравнивают аккумулированные координаты RBB и параметры объекта и выводят ряд ключевых кадров KFo:
,
где f start и f finish - последовательные кадры сцены, для которой вычисляют данные о действиях объекта,

где f 1 = max(f-T, f start), f 2 = min (f+T, f finish), T - предопределенный порог,
KFo = {f: D 'f = D f }

14. Способ по п. 1, отличающийся тем, что в модуле обработки результатов видеоанализа анализируют кривизну траектории объекта в видео кадрах и получают на выходе ряд ключевых кадров KFo
k f = | ( x f + 1 x f ) ( y f + 1 2 y f + y f 1 ) ( y f + 1 y f ) ( x f + 1 2 x f + x f 1 ) | [ ( x f + 1 x f ) 2 + ( y f + 1 y f ) 2 ] 3 2 , f = f s t a r t + 1... f f i n i s h 1,

где f 1 = max(f-T, f start+1), f 2 = min(f+T, f finish-1), T - предопределенный порог,
KFo = {f: k 'f = k f }

15. Способ по п. 1, отличающийся тем, что параметры объектов включают оценку резкости и контрастности.

16. Способ по п. 15, отличающийся тем, что анализируют параметры объекта, такие как контраст C и резкость S, вычисляют функции F и F' C, и S, а T1 и T2 являются предопределенными реальными значениями:
,

где f 1 = max(f-T, f start+1), f 2 = min(f+T, f finish-1), T - предопределенный порог
KFo = {f: F 'f = F f }

17. Система для реализации способа выделения ключевых кадров в процессе полуавтоматического дополнения видео последовательности информацией о глубине или цвете, отличающаяся тем, что состоит из трех основных частей:
модуля анализа видеоданных, выполненного с возможностью извлечения данных из входного видео потока и получения множества инициализационных данных для ключевых объектов в видео через устройство разметки видео;
накопителя результатов видеоанализа, выполненного с возможностью запоминания аккумулированных данных видеоанализа, обнаруженных модулем анализа;
и модуля обработки результатов видеоанализа, выполненного с возможностью проведения анализа аккумулированных данных.

18. Система по п. 17, отличающаяся тем, что модуль анализа видеоданных выполнен с возможностью получения множества координат прямоугольных рамок (RBB), индексов кадра и числа кадров, через устройство разметки видео.

19. Система по п. 17, отличающаяся тем, что модуль анализа видеоданных включает детектор смены кадров, детектор данных глобального движения, детектор действий объекта.

20. Система по п. 17, отличающаяся тем, что накопитель результатов видеоанализа состоит из аккумулятора данных о действиях объекта, выполненного с возможностью запоминания аккумулированных данных о действиях объекта, и аккумулятора данных глобального движения, выполненного с возможностью запоминания параметров, описывающих относительное смещение статичных объектов в двух последовательных видео кадрах.

21. Система по п. 17, отличающаяся тем, что модуль обработки результатов видеоанализа включает в себя выделитель данных, детектор ключевых кадров объекта и детектор ключевых кадров.



 

Похожие патенты:

Изобретение относится к области обработки и отображения пространственной информации. .

Изобретение относится к области реконструкции трехмерных объектов и сцен путем обработки их двухмерных изображений, полученных с разных точек наблюдения. .

Изобретение относится к геологии, строительству и архитектуре, медицине, робототехнике, фотовидеотехнике, киноиндустрии, управлению движением транспорта. .

Изобретение относится к вычислительной технике и, в частности, к системе отображения на экране цифрового макета объекта в виде синтезированного изображения. .

Изобретение относится к фильтрации данных. .

Изобретение относится к средствам формирования ультразвукового медицинского изображения. .

Изобретение относится к созданию компьютерной графики. .

Изобретение относится к графической обработке для устройств обработки интегральных схем. .

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности кодирования. Способ локальной коррекции изменения яркости и контрастности опорного кадра для кодирования многоракурсной видеопоследовательности, в котором: получают значения пикселей текущего кодируемого блока, принадлежащего кодируемому кадру, и значения пикселей опорного блока, принадлежащего опорному кадру; получают восстановленные значения пикселей, соседних по отношению к текущему блоку кодируемого кадра, и значения пикселей, соседних по отношению к опорному блоку опорного кадра; определяют числовые соотношения между значениями пикселей опорного блока и значениями пикселей, соседних по отношению к опорному блоку, и соотношения между восстановленными значениями пикселей, соседних по отношению к текущему кодируемому блоку, и значениями пикселей, соседних по отношению к опорному блоку; на основе найденных на предыдущем шаге числовых соотношений определяют параметры коррекции яркости и контрастности для коррекции различия в яркости и контрастности для опорного блока в сравнении с текущим кодируемым блоком; выполняют коррекцию различия в яркости и контрастности для опорного блока, используя найденные параметры коррекции. 3 н. и 10 з.п. ф-лы, 10 ил.

Изобретение относится к средствам объемной визуализации медицинских данных. Техническим результатом является оптимизация отображения объемных изображений интересующей структуры за счет автоматического определения ее положения на изображении. В способе автоматически определяют первые параметры с учетом выбранного пользователем положения и вторых параметров, характеризующих объект, интересующую структуру, текущее отображаемое изображение (12, 22) среза и предыдущие объемные визуализации интересующей структуры, получают оптимизированное изображение интересующей структуры, выводят информацию для вторых параметров, касающуюся качества точек обзора, на основании вторых параметров, и путем вычисления деформированной сферы (27, 42, 46, 55, 57, 61, 62) обзора для этого второго параметра, при этом положения точек обзора с большим расстоянием по радиусу от сферы обзора считаются лучшими, чем точек обзора с меньшим расстоянием по радиусу от сферы обзора. 2 н. и 28 з.п. ф-лы, 11 ил.

Изобретение относится к средствам обработки сигналов для генерации трехмерных изображений. Техническим результатом является формирование единого изображения из двух изображений за счет сведения по фазе двух сигналов изображения. Процессор включает: блок согласования фазы, выполненный с возможностью сведения в фазу двух сигналов изображения, подаваемых из двух камер; блок регулирования фазы, изменяющий горизонтальную фазу сигнала левого и/или правого изображения на основе ее смещения для перемещения левого и/или правого изображений горизонтально на заданное расстояние и вывода сигналов изображения с измененным параллаксом между левым и правым изображениями; блок считывания, выполненный с возможностью вывода сигнала левого и/или правого изображения, в котором из областей, отображаемых трехмерно, и других областей, где двумерно отображается только левое или правое изображение, изображение в двумерно отображаемых областях заменено изображением, отличающимся от изображения в трехмерно отображаемых областях. 4 н. и 7 з.п. ф-лы, 70 ил.

Изобретение относится к вычислительной технике, а именно к области широковещательной передаче спортивных состязаний. Техническим результатом является ускорение автоматического детектирования места, где произошло событие, что позволяет пользователю быстрее перейти к соответствующим кадрам. Способ генерирования регистрационной записи событий для игровых событий, ассоциированных с физическим объектом, присутствующим в спортивном событии. Способ включает в себя этап отслеживания в пределах последовательности видеоизображений особенностей изображения, которые соответствуют соответствующим физическим объектам в спортивном событии. Далее согласно способу отображают на устройстве отображения последовательность видеоизображений, которая включает отслеживаемые особенности изображения. Выбирают из отслеживаемых особенностей изображения первую отображаемую особенность изображения, которая соответствует одному из физических объектов, для обозначения этого физического объекта в качестве выбранного физического объекта, при этом при выборе выделяют первую особенность изображения. Отображают при выборе первой особенности изображения заданный список событий возможных игровых событий, рядом с выделенной, выбранной первой особенностью изображения и наложенным на отображаемую последовательность видеоизображений. 5 н. и 12 з.п. ф-лы, 21 ил.

Изобретение относится к воспроизведению трехмерного видеоизображения. Техническим результатом является повышение эффективности отображения субтитров при воспроизведении трехмерного видеоизображения. Способ обработки сигнала включает в себя извлечение трехмерной информации воспроизведения из данных текстовых субтитров. При этом данные текстовых субтитров содержат информацию об области, в которой отображают субтитр. Информация трехмерного воспроизведения содержит значение смещения, указывающее значение глубины и направление смещения. Направление смещения указывает направление, в котором применяют значение смещения для каждой из упомянутой, по меньшей мере, одной области. 3 н. и 1 з.п. ф-лы, 30 ил., 35 табл.

Изобретение относится к вычислительной технике, а именно к технологиям обработки цифровых сигналов. Техническим результатом является повышение эффективности кодирования. Предложен способ адаптивной локальной коррекции изменения яркости опорного кадра для кодирования многоракурсной видеопоследовательности, в котором получают значения пикселей текущего кодируемого блока, принадлежащего кодируемому кадру, и значения пикселей опорного блока, принадлежащего опорному кадру. Далее согласно способу получают восстановленные, то есть закодированные и затем декодированные, значения пикселей, соседних по отношению к текущему блоку кодируемого кадра, и значения пикселей, соседних по отношению к опорному блоку опорного кадра. А также исключают из рассмотрения пиксели, которые отличаются от общей совокупности полученных восстановленных пикселей по заранее заданному критерию. 3 н. и 18 з.п. ф-лы, 10 ил.

Изобретение относится к способу и устройству для предоставления многослойной модели с глубиной трехмерной сцены. Техническим результатом является уменьшение артефактов, получающихся в результате уменьшения многослойной модели с глубиной. Способ предоставления многослойной модели, содержащей информацию основного вида для основного вида сцены с основного направления просмотра (PVD) и информацию окклюзии, связанную с информацией основного вида для использования при отображении других видов сцены, в котором информация основного вида содержит сегменты слоя модели, которые являются ближайшими по глубине по отношению к основному направлению просмотра, и информация окклюзии содержит дополнительные сегменты слоя модели и при этом информация окклюзии содержит область безопасности (SR), прилегающую к переходу глубины, для которого предоставляется информация окклюзии (J1, J2, J3, J4), и при этом область безопасности содержит соответствующие сегменты информации основного вида, и при этом область безопасности расположена на той стороне соответствующего перехода глубины, которая является самой дальней по глубине по отношению к основному направлению просмотра. 3 н. и 10 з.п. ф-лы, 17 ил.

Изобретение относится к системам для анализа и отслеживания состояний кожи субъекта с помощью фотографий данного субъекта. Техническим результатом является обеспечение отслеживания и анализа изменения состояний кожи и отображение таких состояний в формате RGB изображений для облегчения исследования. Система включает в себя создание каталога, библиотеки или базы данных состояний кожи в форме наборов данных, взятых из спектральных изображений, которые включают в себя рассматриваемые состояния кожи. Для каждого набора данных спектральных изображений, идентифицирующего рассматриваемое состояние кожи, соответствующий RGB набор данных вычисляют и накапливают в базе данных. База данных вычисленных RGB наборов данных используется для диагностирования состояния кожи субъектов с помощью анализа RGB или спектральных фотографий субъекта. Спектральные или RGB наборы данных могут также использоваться для предсказания воздействия предполагаемого лечения, и результирующее изменение состояния кожи можно отображать на RGB изображениях, которые легко понять. 2 н. и 4 з.п. ф-лы, 2 ил.

Изобретение относится к способам создания и визуализации трехмерных (3D) изображений. Техническим результатом является повышение четкости и снижение диспаратности при отображении 3D изображений, содержащих субтитры. Способ создания сигнала трехмерного изображения включает в себя этап приема первого и второго компонентов изображения для создания трехмерного изображения. Способ также включает в себя этап приема текстового компонента для включения в трехмерное изображение и этап приема компонента данных, содержащего информацию о местоположении, описывающую местоположение текстового компонента в пределах трехмерного изображения. Далее согласно способу осуществляют создание сигнала трехмерного изображения, который содержит первый компонент изображения, второй компонент, текстовый компонент и компонент данных. 6 н. и 11 з.п. ф-лы, 10 ил., 2 табл.

Изобретение относится к способу и устройству обработки изображений. Техническим результатом является снижение вероятности возникновения параллакса при отображении двух панорамных изображения из множества снятых неподвижных изображений. Устройство обработки изображений генерирует первое синтетическое изображение и второе синтетическое изображение, используемые для отображения стереоскопического синтетического изображения и имеющие несоответствие относительно друг друга, на основе множества снятых изображений, полученных в результате съемки с использованием средства формирования изображений, при перемещении средства формирования изображения. Устройство обработки изображений содержит первое и второе средства генерирования синтетических изображений. Устройство обработки изображений включает в себя средство управления несоответствием, предназначенное для регулировки несоответствия первого синтетического изображения и второго синтетического изображения. 3 н. и 2 з.п. ф-лы, 12 ил.
Наверх