Способ уменьшения искажения сжатого видеоизображения и устройство для его реализации

Авторы патента:

Свириденко Владимир Александрович (RU)

Петухов Андрей Сергеевич (RU)

ЖЕОН Сеун-хан (KR)

H04N7/30 - с использованием кодирования с преобразованием (H04N 7/50 имеет преимущество; цифровые компьютеры для осуществления сложных математических операций, например преобразованием Фурье, Уолша и прочими G06F 17/14)

H04N7/26 - с использованием уменьшения ширины полосы частот (информационное уменьшение кодовым преобразованием вообще H03M 7/30)

Владельцы патента RU 2305377:

Корпорация "Самсунг Электроникс Ко., Лтд." (KR)
СПИРИТ Корп. (RU)

Изобретение относится к области радиотехники и может быть использовано для цифровой обработки видеосигналов, передающих изображение. Технический результат заключается в улучшении качества сжатого видеоизображения при незначительных вычислительных затратах. Способ заключается в том, что разбивают обрабатываемое изображение на блоки с последующим преобразованием каждого блока с помощью ДКП, квантуют и кодируют получившиеся коэффициенты, вычисляют опорные точки и осуществляют линейную интерполяцию, причем перед этапом вычисления опорных точек осуществляют выбор одной из опорных точек на крайней границе блока и опорную точку на противоположной границе блока вычисляют с использованием дополнительных низкочастотных фильтров, после чего проводят линейную интерполяцию между вычисленными таким образом опорными точками. 2 н.п. ф-лы, 4 ил., 1 табл.

Изобретение относится к области радиотехники и может быть использовано для цифровой обработки видеосигналов, передающих изображение.

Ограниченная пропускная способность телекоммуникационных каналов затрудняет качественную передачу изображений, в особенности динамических. Поэтому при передаче видеосигналов прибегают к их сжатию за счет изъятия повторяющихся или практически малоизменяющихся фрагментов с последующим их восстановлением при воспроизведении видеосигналов.

Действующие международные стандарты на представление видеосигнала (MPEG-1, MPEG-2, MPEG-4, Н-261, Н-263 и др.) не регламентируют способов сжатия видеосигнала, а только определяет, как должен выглядеть битовый поток кодированного видеосигнала, поэтому конкретные алгоритмы являются интеллектуальной собственностью фирм - производителей оборудования. Например, компания Сименс АГ запатентовала «Способ декодирования сжатых видеоданных с уменьшенной потребностью в памяти» (опубликованная заявка-аналог RU 97104164) [1]. Известна также американская разработка «Способ низкошумового кодирования и декодирования» (российский патент-аналог RU 2201654) [2], в которой требования к ширине полосы цифрового видеодекодера снижены за счет того, что стандартному МРЕG2-кодеру предшествует адаптивный процессор цифрового изображения, который адаптивно фильтрует сигнал по низким частотам. Японские специалисты предложили «Схему коррекции качества изображения», описанную в российской заявке-аналоге RU 2000133250 [3], в которой реализована схема, содержащая счетчик частоты появления уровня яркости, линейный интерполятор и корректор качества изображения. Известны отечественные разработки способов цифровой обработки видеосигналов, при которых осуществляется сжатие видеосигналов, передающих динамическое изображение. В патенте RU 2131172 описан «Интерполяционный способ сжатия телевизионного сигнала» [4], суть которого заключается в искусственном исключении сигналов строк и их восстановлении с помощью интерполяции по фрагментам не исключенных частей строк, что позволяет сократить избыточность телевизионного сигнала.

Известно, что в ходе разработки международных стандартов определились общие принципы обработки видеосигналов и их сжатия (см. Стандарт ISO-11172 и Стандарт ISO-13818, части 1, 2, 3, ноябрь 1994 г.) [5]. В частности, было установлено, что процесс сжатия цифрового видеосигнала может быть разбит на ряд последовательных операций: преобразование аналогового сигнала в цифровую форму, предварительная обработка, дискретное косинусное преобразование, квантование, кодирование.

Основная идея стандарта MPEG состоит в том, что из всего потока видеокадров изображения полностью передаются только избранные (опорные) кадры, для остальных же передаются лишь их изменения по отношению к опорным.

На самом деле в подвижном изображении от кадра к кадру в большинстве случаев меняется только его часть. Например, при выступлении диктора в новостях меняется только его мимика. Полная же смена кадра, когда очередной кадр нельзя восстановить как изменение предыдущего (в этом случае проще передать сам кадр), происходит относительно редко. Например, в американских фильмах это обычно 4-5 секунд, в европейских (и особенно в отечественных) этот интервал значительно больше.

По этой причине в MPEG-2 определено три типа кадров:

I-кадры (intra frames); Р-кадры (predicted frames); В-кадры (bidirectional frames).

I-кадры несут полноценное неподвижное изображение и вдобавок используются для построения Р- и В-кадров. P-кадры, то есть "предсказуемые", строятся на базе последнего (с точки зрения приемника) принятого I- или P-кадра. Правда если он сильно от него отличается (например, произошла смена плана), то P-кадр кодируется как I-кадр.

Наиболее сложно восстанавливаются В-кадры или "интерполируемые". Такой кадр может строиться либо как продолжение предыдущего I(Р)-кадра, либо как предшественник следующего за ним I(Р)-кадра, либо как интерполяция между обоими. При этом если В-кадр значительно отличается и от первого, и от второго, то он кодируется как I-кадр.

Все типы кадров группируются в определенной последовательности. Группа из 12 кадров образует так называемую GOP (Group of Pictures). Таким образом, при частоте 25 кадров в секунду новый I-кадр приходит максимум через 12×(1/25)=0,48 секунды. Вместе с ним восстанавливается полная (в известном смысле) идентичность передаваемого и принимаемого изображения). В связи с тем, что при декодировании для получения В-кадров необходимо уже иметь следующий за ним P-кадр, то при передаче последовательность кадров должна быть строго определенной.

Для кодирования отдельных кадров также существует специальная процедура. Например, для кодирования цветного изображения используется схема YUV, применяемая в обычном телевещании. При этом изображение раскладывается не по трем каналам цветности (схема RGB), а по двум каналам цветности (U, V) и по каналу яркости (Y).

Изображение в канале яркости - это, по существу, черно-белое изображение. Подмечено, что одна из особенностей восприятия изображения человеческим глазом состоит в том, что он обладает большим разрешением по каналу яркости (Y), чем по каналам цветности (U, V). Поэтому расслаивая цветной кадр на эти три составляющие, мы можем подвергнуть слои U и V большему сжатию, чем слой Y. Этот принцип был использован еще при создании цветного аналогового телевидения, где U, V передаются не одновременно, а поочередно.

I-кадр кодируется как статическое изображение следующим образом. Каждый слой кадра разбивается на блоки размером 8×8 точек и повергается дискретному косинус-преобразованию (ДКП, DCT). ДКП является полностью обратимым преобразованием. По сути ДКП - это частный случай преобразования Фурье для четной функции, когда функция раскладывается только на косинусные гармоники.

При использовании ДКП вместо значения пикселя (то есть уровня цветности и яркости) в ячейке блока ставится коэффициент ДКП. То есть блок преобразуется в свой двумерный спектр. Как правило, энергетический спектр изображения сосредотачивается в низкочастотных гармониках, поэтому коэффициенты, расположенные ближе к верхнему левому углу, имеют большие значения, чем остальные. Чем меньше соседние пиксели отличаются друг от друга в исходном блоке, тем ближе к нулю значения большинства коэффициентов ДКП.

Для пикселей монотонного изображения коэффициенты ДКП равны нулю, за исключением коэффициента в левом верхнем углу, который задает интенсивность изображения.

Полученные коэффициенты квантуются (то есть округляются до некоторой степени 2). Главная задача при этом - увеличить количество нулевых коэффициентов. По сути отбрасываются высокочастотные гармоники. Как показывает опыт, обычно это практически не влияет на качество изображения.

Полученный набор двоичных векторов (коэффициентов) сжимается известным кодом Хаффмана. Так формируется сжатый I-кадр, который с известной потерей качества можно восстановить независимо от других кадров. Р- и В-кадры кодируются с учетом их отличия от опорных I- и P-кадров. Поэтому они поддаются более сильному сжатию, чем I- кадры. При кодировании P-кадра (В-кадры кодируются практически аналогичным образом), он также разбивается на блоки 8х8 и сравнивается с исходным кадром (будем считать, что это I-кадр, хотя может быть и предшествующий P-кадр). Если некоторый блок в кодируемом P-кадре совпадает с аналогичным блоком в опорном кадре, то достаточно указать, что он тот же самый. Другим случаем является нахождение точно такого же блока в опорном I-кадре, но в другой позиции, поэтому вместо блока P-кадра можно указать лишь ссылку на другой блок I-кадра в виде вектора смещения. Остальные блоки кодируются так же, как в случае I-кадра.

Заметим, что если в подвижном изображении часть объектов будет двигаться поступательно (а это бывает часто), то несколько блоков будут закодированы одним и тем же вектором смещения. При последующем сжатии по методу Хаффмана это даст дополнительное увеличение степени компрессии P-кадра. С другой стороны, при увеличении степени сжатия большая часть коэффициентов становится равной нулю в результате квантования и, таким образом, блок кодируется либо только средним значением яркости, либо небольшим количеством низкочастотных коэффициентов ДКП. Поскольку блоки не перекрываются, то из-за разности средних значений яркости соседних блоков между ними возникает хорошо заметный перепад яркости, причем перепады яркости, как правило, в целом образуют регулярную клеточную структуру на декодированном изображении. В случае если при сжатии видео использовалась компенсации движения, блочная структура может меняться со временем, теряя регулярность расположения блоков, в связи с тем, что блоки из опорных кадров могут смещаться в предсказанных кадрах.

Каждая из вышеуказанных разработок [1-5] позволяет решать лишь некоторые аспекты комплексной проблемы «запись/воспроизведение качественного видеоизображения», при этом любое, даже незначительное, повышение качества сжатого видеоизображения требует значительных вычислительных затрат, что препятствует широкому внедрению этих разработок. Особенно сложным является устранение искажения динамического изображения в виде клетчатой структуры.

Представляется, что сочетание низкочастотной фильтрации с линейной или билинейной интерполяцией может обеспечить существенное улучшение сжатого динамического видеоизображения при достаточно скромных вычислительных затратах. Преимущество линейной интерполяции заключается в простоте вычислений, а именно: она может быть вычислена с использованием операции полусуммы либо с использованием предварительно рассчитанных таблиц. Недостаток линейной интерполяции заключается в том, что она менее эффективно устраняет блочные искажения по сравнению с низкочастотным фильтром, либо по сравнению с интерполяцией полиномами более высоких порядков.

Наиболее близким к предлагаемому является способ, описанный в диссертации Joceli Mayer, "Blending Models for Image Enhancement and Coding", Ph.D. Thesis, University of California, Santa Cruz, Advisor: Prof. Glen G. Langdon, Ph.D., December 1999 [6]; в которой предусмотрено использование интерполяции второго порядка (в частности полиномами Безье). Однако, использование интерполирующих полиномов более чем первого порядка требует значительно больших вычислительных затрат, чем линейная интерполяция (т.е. интерполяция полиномом первого порядка).

Предлагаемое изобретение решает задачу улучшения качества сжатого видеоизображения при незначительных вычислительных затратах.

Для достижения названного технического результата в предлагаемом способе, включающем разбивание обрабатываемого изображения на блоки с последующим преобразованием каждого блока с помощью ДКП, с квантованием и кодированием получившихся коэффициентов, осуществляют вычисление корректирующих характеристических точек, обычно называемых опорными точками, при помощи низкочастотной фильтрации и затем проводят линейную интерполяцию между вычисленными таким образом опорными точками. Эта процедура несколько напоминает выбор опорного кадра в стандарте MPEG. При этом, поскольку число опорных точек интерполяции меньше числа обрабатываемых точек изображения, суммарная вычислительная сложность, вызванная введением низкочастотной фильтрации, увеличивается незначительно.

Отличительными признаками предложенного способа является процедура выбора опорных точек с помощью низкочастотной фильтрации и замена обработки точек изображения обработкой значительно меньшего количества вычисленных таким образом опорных точек. При этом освобождающиеся вычислительные мощности направляются на осуществление одного из типов интерполяции - по строкам, столбцам или даже билинейной интерполяции, требующей наибольших вычислительных затрат.

Предлагаемый способ поясняется чертежами, на которых приведены:

На фиг.1 - схема разбиения обрабатываемого изображения на блоки и порядок обработки блоков.

На фиг.2 - схема использования линейной интерполяции для обработки строк блока изображения.

На фиг.3 - схема использования билинейной интерполяции для обработки блока изображения.

На фиг.4 - функциональная схема устройства, реализующего настоящее изобретение.

На фиг.1 показана схема разбиения обрабатываемого изображения 1 на обрабатываемые блоки 3 и очередность 4 обработки блоков 3. При обработке все изображение 1 разбивают на квадратные блоки 3 с размером, меньшим, чем размер блока 2 ДКП, использованного при кодировании. Наиболее выгодно использовать блок 3 с линейными размерами в два раза меньше блока 2 ДКП (т.е. блок 4×4 при размере блока 2 ДКП 8×8). Блоки 3 обрабатывают последовательно и результатом вычислений замещают обработанный блок 3. Хотя очередность 4 обработки не имеет значения, везде в дальнейшем предполагается очередность 4 обработки блоков 3 слева-направо-сверху-вниз.

На фиг.2 показана схема использования линейной интерполяции для уменьшения блочных искажений на строке обрабатываемого блока 3. При этом предполагается, что блочные искажения на столбцах отсутствуют или незначительны. Левую опорную точку 7 выбирают на крайней правой границе левого (возможно обработанного на предыдущем шаге) блока 3. Правую опорную точку 7 вычисляют при помощи низкочастотной фильтрации пикселей, лежащих по обе стороны от границы блока 3. С точки зрения эффективности вычислений в качестве низкочастотного фильтра целесообразно использовать фильтр длиной 2 и весами {0.5; 0.5}, или иными словами, подсчитывать полусумму яркостей пикселей по обе стороны границы блока 3. После вычислений левой и правой опорных точек 7 значения пикселей, находящихся между ними, замещают значениями, вычисленными по формуле линейной интерполяции:

Пиксель[i]=Л+(П-Л)/n·i i=[1,n];

Где Л - значение левой опорной точки, П - значение правой опорной точки, n - число интерполируемых точек, i - номер интерполируемого элемента изображения.

Данную процедуру производят для каждой строки обрабатываемого блока 3.

Уменьшение блочных искажений на столбцах изображения производят аналогично, при этом предполагается, что искажения на строках отсутствуют или незначительны.

На фиг.3 показана схема использования билинейного интерполятора 8 для уменьшения блочных искажений одновременно в строках и столбцах блока изображения.

В случае билинейной интерполяции вычисляют значения четырех опорных точек. Для этого также используют низкочастотные фильтры 5, подключаемые к входам билинейного интерполятора 8. Предпочтительно использовать низкочастотные фильтры 5 со следующими коэффициентами:

Фильтр	Коэффициент левой верхней точки	Коэффициент правой верхней точки	Коэффициент левой нижней точки	Коэффициент правой нижней точки
НЧ фильтр 5₁	0	0.5	0.5	0
НЧ фильтр 5₂	0.5	0	0.25	0.25
НЧ фильтр 5₃	0.5	0.25	0	0.25
НЧ фильтр 5₄	0.5	0.25	0.25	0

При таком выборе коэффициентов точки, обработанные на предыдущем шаге, имеют большие веса.

На фиг.4 показана функциональная схема устройства, реализующего предлагаемый способ.

Устройство состоит из классификатора 10 блоков, анализирующего блоки 3 и выявляющего наличие и тип блочных искажений, и набора низкочастотных фильтров 5 и интерполяторов 11-13, осуществляющих обработку поступивших данных. При отсутствии блочных искажений в обрабатываемом блоке 3 интерполяция не применяется. При наличии блочных искажений блок 3 обрабатывают в зависимости от типа блочных искажений одним из трех интерполяторов: линейным интерполятором 11 по строкам, линейным интерполятором 12 по столбцам, либо билинейным интерполятором 13. Выбор типа классификатора 10 блоков осуществляют, например, исходя из следующего требования:

- наличие блочных искажений по строкам (столбцам) фиксируют в случае, если все строки (столбцы) обрабатываемого блока 3 содержат не более одного перепада яркости и абсолютное значение этого перепада не превосходит удвоенного шага квантования коэффициентов ДКП для данного блока 3.

Фактически, данные от обрабатываемого блока 3, находящегося в буфере 9 изображения, поступают на вход классификатора 10 и на переключатель 14, реагирующий, как и переключатель 15, на команды классификатора 10. При отсутствии блочных искажений переключатели 14 и 15 устанавливаются в крайнее верхнее положение (см. фиг.4), при этом сигналы с обрабатываемого блока 3 минуют блок фильтров 5 и блок интерполяторов 11-13. Это означает, что коррекция блочных искажений в данном случае не требуется. Если классификатор 10 выявляет наличие блочных искажений, то, в зависимости от выявленного типа искажений, переключатели 14 и 15 активируют соответствующую линейку: интерполяцию строк, столбцов или билинейную интерполяцию.

1. Способ уменьшения искажения сжатого видеоизображения, включающий разбивание обрабатываемого изображения на блоки с последующим преобразованием каждого блока с помощью ДКП, квантование и кодирование получившихся коэффициентов, вычисление опорных точек и осуществление линейной интерполяции, отличающийся тем, что перед этапом вычисления опорных точек осуществляют выбор одной из опорных точек на крайней границе блока и опорную точку на противоположной границе блока вычисляют с использованием дополнительных низкочастотных фильтров, после чего проводят линейную интерполяцию между вычисленными таким образом опорными точками.

2. Устройство для уменьшения искажений сжатого видеоизображения, состоящее из классификатора блоков, выявляющего тип блочных искажений на обрабатываемом блоке, и трех интерполяторов, один из которых осуществляет линейную интерполяцию по строкам, второй осуществляет линейную интерполяцию по столбцам, третий осуществляет билинейную интерполяцию по строкам и столбцам, отличающееся тем, что на входе каждого интерполятора установлен низкочастотный фильтр и классификатор осуществляет выбор и включение конкретного интерполятора в зависимости от выявленного типа блочных искажений.

Система и способ маскирования ошибок видеосигнала // 2291586

Способ сжатия и восстановления сообщений // 2288547

Изобретение относится к области электросвязи, а именно к методам цифровых вычислений и обработки данных с сокращением избыточности передаваемой информации. .

Масштабируемое кодирование объектов мультимедиа // 2284671

Изобретение относится к кодированию объектов мультимедиа. .

Способ сигнальной адаптивной фильтрации, сигнальный адаптивный фильтр и машинно-считываемый носитель (варианты) для хранения их программ // 2276472

Изобретение относится к фильтрации данных, и в частности, к сигнальной адаптивной фильтрации для снижения эффекта блокирования и шума окантовки. .

Способ сигнальной адаптивной фильтрации, сигнальный адаптивный фильтр и машинно-считываемый носитель (варианты) для хранения их программ // 2276471

Изобретение относится к фильтрации данных, в частности к сигнальной адаптивной фильтрации для снижения эффекта блокирования и шума окантовки. .

Способ сигнальной адаптивной фильтрации, сигнальный адаптивный фильтр и машинно-считываемый носитель (варианты) для хранения их программ // 2262210

Способ сжатия и восстановления сообщений // 2246798

Изобретение относится к области электросвязи, а именно, к методам обработки данных с сокращением избыточности передаваемой информации. .

Способ поиска векторов движения деталей в динамических изображениях на основе двумерного дискретного спектрального преобразования // 2242094

Изобретение относится к видеоинформационной технике. .

Устройство цифрового камкордера, применяющее сжатие видеосигнала, совместимое со стандартом экспертной группы по подвижным изображениям (эгпи-2) // 2221349

Изобретение относится к устройству цифрового камкордера, а более конкретно к устройству цифрового камкордера, использующего методы сжатия видеосигнала, совместимые с декодирующим устройством MPEG-2.

Устройство кодирования и декодирования видеокадров // 2298885

Изобретение относится к области радиотехники и телевидения и может быть использовано при формировании, передаче и приеме видеокадров. .

Способ и устройство для передачи видеоданных/изображений со встраиванием "водяных знаков" // 2298295

Изобретение относится к системам передачи видеоданных и связанным с ними способам кодирования/декодирования, а также к системе сжатия видеоданных, использующей встраивание в видеоданные «водяных знаков», в которой должна обнаруживаться любая подделка видеоизображения или части изображения.

Гибридное мелкозернистое масштабируемое видеокодирование с зависящим от времени отношением сигнал/шум // 2294058

Изобретение относится к видеокодированию, в частности к методу мелкозернистого кодирования, который включает в себя как качественное, так и временное масштабирование.

Внедрение водяного знака // 2289215

Изобретение относится к способу внедрения водяного знака и к устройству транскодирования и цифровой записи, включающему в себя средство для внедрения водяного знака.

Встраивание водяного знака в сжатый информационный сигнал // 2288546

Изобретение относится к способам встраивания водяного знака (пространственную псевдошумовую последовательность) в информационный сигнал (сжатый видеопоток). .

Способ определения векторов движения в режиме прямого предсказания // 2282948

Изобретение относится к системам кодирования движущегося изображения, а именно к способам кодирования движущегося изображения, направленным на повышение эффективности кодирования с использованием удаленных по времени опорных кадров.

Способ определения вектора движения текущего блока в режиме прямого предсказания // 2282947

Способ уплотнения и распаковки видеоданных // 2276470

Изобретение относится к способу уплотнения и распаковки видеоданных. .

Сжатие изображения с использованием дискретного косинусного преобразования адаптивно определенного размера блока на основании дисперсии // 2273112

Изобретение относится к схеме сжатия для сигналов изображения, использующей блоки и подблоки адаптивно определенных размеров данных коэффициентов дискретного косинусного преобразования (ДКП).

Способ преобразования пакетизированного потока информационных сигналов в поток информационных сигналов с временными отметками и наоборот // 2273111

Изобретение относится к способу и средству для преобразования пакетизированного потока информационных сигналов. .

Компенсация глобального движения для видеоизображений // 2307478

Изобретение относится к области сжатия данных видеосигнала и может быть использовано для кодирования и декодирования видеоданных