Межслойное предсказание для сигналов с улучшенным динамическим диапазоном

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности многослойного кодирования, в частности межслойного предсказания. Способ межслойного предсказания с помощью процессора, в котором осуществляют доступ к первому видеосигналу с первым динамическим диапазоном (EDR); осуществляют доступ ко второму видеосигналу, представляющему собой первый видеосигнал во втором динамическом диапазоне (SDR), при этом второй динамический диапазон меньше, чем первый динамический диапазон; генерируют с помощью процессора функцию предсказания для предсказания пикселей первого видеосигнала в ответ на пиксели второго видеосигнала; определяют порог светлых областей и корректируют функцию предсказания для вывода фиксированного выходного значения для пиксельных значений второго видеосигнала, превышающих этот порог светлых областей; применяют второй видеосигнал к скорректированной функции предсказания для генерации пиксельных значений оцененного первого видеосигнала; определяют остаточный сигнал на основании первого видеосигнала и оцененного первого видеосигнала; определяют порог темных областей; и для пиксельных значений второго видеосигнала ниже порога темных областей задают соответствующие пиксельные значения остаточного сигнала равными нулю. 3 н. и 15 з.п. ф-лы, 6 ил.

 

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

[0001] По этой заявке испрашивается приоритет предварительной заявки на патент США № 62/117076, поданной 17 февраля 2015, которая полностью включена в настоящее описание путем ссылки.

ТЕХНОЛОГИЯ

[0002] Настоящее изобретение относится в общем к изображениям. В частности, вариант осуществления настоящего изобретения относится к межслойному предсказанию для кодирования и декодирования сигналов с улучшенным динамическим диапазоном.

УРОВЕНЬ ТЕХНИКИ

[0003] Сжатие аудио и видео является ключевым компонентом в производстве, хранении, распределении и потреблении мультимедийного содержания. При выборе способа сжатия неизбежны компромиссы между эффективностью кодирования, сложностью кодирования и задержкой. Поскольку отношение вычислительной мощности к стоимости вычислений увеличивается, это позволяет разрабатывать более сложные методики сжатия, которые позволяют осуществлять более эффективное сжатие. Например, в сжатии видео экспертная группа по вопросам движущегося изображения (MPEG) от международной организации по стандартизации (ISO) продолжала улучшать исходный видеостандарт MPEG-1 путем выпуска стандартов кодирования MPEG-2, MPEG-4 (часть 2), H.264/AVC (или MPEG-4, часть 10) и H.265/HEVC.

[0004] Видеосигналы могут характеризоваться несколькими параметрами, такими как битовая глубина, цветовое пространство, цветовая гамма и разрешение. Современные телевизоры и устройства воспроизведения видео (например, проигрыватели Blu-ray) поддерживают множество разрешений, включая стандартную четкость (например, 720×480i) и высокую четкость (HD) (например, 1920×1080p). Сверхвысокая четкость (UHD) является форматом разрешения следующего поколения с разрешением по меньшей мере 3840×2160 (называемым 4K UHD) и опциями вплоть до 7680×4320 (называемого 8K UHD). Сверхвысокая четкость также может упоминаться как Ultra HD, UHDTV или сверхвысокое разрешение. В настоящем описании UHD обозначает любое разрешение выше разрешения HD.

[0005] Другим аспектом характеристики видеосигнала является динамический диапазон. Динамический диапазон (DR) является диапазоном интенсивности (например, светимости, яркости) в изображении, например, от самых темных черных цветов до самых ярких белых цветов. В настоящем описании термин «динамический диапазон» (DR) может относиться к возможности психовизуальной системы человека (HVS) воспринимать диапазон интенсивности (например, светимости, яркости) в изображении, например, от самых темных черных цветов до самых ярких светлых областей. В этом смысле DR относится к «относящейся к сцене» интенсивности. DR также может относится к возможности устройства отображения правильно или приблизительно воспроизводить диапазон интенсивности конкретной ширины. В этом смысле DR относится к «относящейся к дисплею» интенсивности. Если явно не указано, что особую значимость имеет конкретный смысл в любом месте в настоящем описании, то следует полагать, что термин может использоваться в любом смысле, например, взаимозаменяемо.

[0006] В настоящем описании термин расширенный динамический диапазон (HDR) относится к ширине DR, которая охватывает приблизительно 14-15 порядков величины зрительной системы человека (HVS). Например, хорошо адаптированные люди по существу с нормальным зрением (например, в одном или нескольких смыслах: статистическом, биометрическом или офтальмологическом) имеют диапазон интенсивности, который охватывает приблизительно 15 порядков величины. Адаптированные люди могут воспринимать тусклые источники света всего лишь из нескольких фотонов. И тем не менее, те же самые люди могут воспринимать почти болезненно яркую интенсивность полуденного солнца в пустыне, море или среди снега (или даже взгляд на солнце, однако краткий, чтобы предотвратить повреждение). Этот охват, однако, доступен «адаптированным» людям, например, тем, чья HVS имеет период времени на перенастройку и приспособление.

[0007] В противоположность этому, DR, в котором человек может одновременно воспринимать протяженную ширину в диапазоне интенсивности, может быть несколько обрезан относительно HDR. В настоящем описании термины «улучшенный или увеличенный динамический диапазон» (EDR), «визуальный динамический диапазон» или «переменный динамический диапазон» (VDR) могут индивидуально или взаимозаменяемо относится к DR, который может одновременно восприниматься HVS. В настоящем описании EDR может относится к DR, который охватывает 5-6 порядков величины. Таким образом, хотя он несколько более узкий относительно относящегося к истинной сцене HDR, EDR, тем не менее, представляет собой большую ширину DR и может также называться HDR. В настоящем описании термин «одновременный динамический диапазон» может относится к EDR.

[0008] На практике, изображения содержат один или несколько цветовых компонентов (например, яркость Y и цветность Cb и Cr), при этом каждый цветовой компонент представлен с точностью n-битов на пиксель (например, n=8). Используя линейное кодирование светимости, изображения, в которых n≤8 (например, цветные 24-битовые изображения JPEG) считаются изображениями со стандартным динамическим диапазоном, в то время как изображения, в которых n>8, можно считать изображениями с улучшенным динамическим диапазоном. Изображения EDR и HDR также могут храниться и распространяться с использованием низкой битовой глубины, нелинейного кодирования светимости (например, 10-битной и логарифмического кодирования светимости) или высокоточных форматов с плавающей точкой (например, 16-битных), таких как формат файла OpenEXR, разработанный Industrial Light and Magic.

[0009] Для поддержки обратной совместимости с традиционными устройствами воспроизведения, а также новых технологий дисплеев HDR или UHD, может использоваться несколько слоев для доставки видеоданных UHD и HDR (или EDR) с устройства в восходящем направлении на устройства в нисходящем направлении. Учитывая такой многослойный поток, традиционные декодеры могут использовать базовый слой для реконструкции версии HD SDR содержания. Усовершенствованные декодеры могут использовать как базовый слой, так и улучшающие слои для реконструкции версии EDR UHD содержания для его воспроизведения на дисплеях с более широкими возможностями. Как понятно авторам изобретения, требуются усовершенствованные методики для многослойного кодирования видео EDR, в частности, относящиеся к межслойному предсказанию.

[00010] Подходы, описанные в этом разделе, являются подходами, которые можно использовать, но это не обязательно подходы, которые были придуманы или использовались ранее. Поэтому, если не указано иное, не следует полагать, что любой из подходов, описанных в этом разделе, признается предшествующим уровнем техники просто на основании того, что они включены в этот раздел. Аналогично, не следует полагать, что проблемы, идентифицированные относительно одного или нескольких подходов, были решены в любом предшествующем уровне техники на основе этой секции, если не указано иное.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[00011] Вариант осуществления настоящего изобретения проиллюстрирован в качестве примера, а не в качестве ограничения, на фигурах прилагаемых чертежей, на которых одинаковые номера позиций относятся к аналогичным элементам и на которых:

[00012] фиг. 1 изображает иллюстративную реализацию многослойной системы кодирования EDR с межслойным предсказателем в соответствии с вариантом осуществления этого изобретения;

[00013] фигуры 2A-2D изображают примеры вычисленных статистических данных пикселей в соответствии с вариантом осуществления этого изобретения; и

[00014] фиг. 3 изображает иллюстративный процесс для генерации межслойного предсказателя в соответствии с вариантом осуществления этого изобретения.

ОПИСАНИЕ ИЛЛЮСТРАТИВНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

[00015] Здесь описывается межслойное предсказание в применении к многослойному кодированию сигналов с улучшенным динамическим диапазоном. С учетом входного видеосигнал EDR, который может быть закодирован с использованием сигнала SDR базового слоя (BL) и остаточного улучшающего слоя (EL) EDR, межслойный предсказатель между этими двумя слоями конструируется путем учета характеристик светлых областей и темных областей входного видео SDR.

[00016] В следующем ниже описании в целях объяснения изложены многочисленные конкретные подробности, чтобы обеспечить полное понимание настоящего изобретения. Однако будет очевидно, что настоящее изобретение может быть реализовано на практике без этих конкретных подробностей. В других случаях хорошо известные структуры и устройства не описываются с исчерпывающими подробностями, чтобы избежать излишнего загромождения настоящего изобретения.

Краткое описание

[00017] Иллюстративные варианты осуществления, описанные в настоящем описании, относятся к межслойному предсказанию в многослойном кодировании и декодировании видеосигналов с улучшенным динамическим диапазоном. Данные об элементе изображения последовательности видеокадров с улучшенным динамическим диапазоном (EDR) предсказываются на основании данных об элементе изображения соответствующей последовательности видеокадров с традиционным динамическим диапазоном (SDR) и межслойного предсказателя. В условиях усечения светлых областей традиционное предсказание EDR по SDR корректируется следующим образом: a) с учетом порога светлых областей межслойный предсказатель EDR по SDR корректируется так, чтобы выводить фиксированное выходное значение для всех входных пиксельных значений SDR, превышающих порог светлых областей, и b) с учетом порога темных областей остаточные значения между входным сигналом EDR и его предсказанным значением задается равным нулю для всех входных пиксельных значений SDR ниже порога темных областей.

[00018] В одном варианте осуществления решение о том, присутствует ли усечение светлых областей, основано на статистических значениях, полученных из пиксельных значений EDR и SDR.

[00019] В одном варианте осуществления традиционный межслойный предсказатель содержит 8-сегментный предсказатель MSE, и порог светлых областей содержит стартовую точку вращения последнего сегмента в предсказателе MSE.

[00020] В одном варианте осуществления порог темных областей основан на степени изменения, вычисленном на основании значений совокупной дисперсии значений EDR.

Многослойное кодирование сигналов EDR

[00021] Существующие дисплеи и устройства воспроизведения, такие как HDTV, абонентские установки или проигрыватели Blu-ray, обычно поддерживают сигналы вплоть до разрешения 1080p HD (например, 1920×1080 при 60 кадрах в секунду). Для потребительских приложений такие сигналы теперь как правило сжимаются с использованием битовой глубины в 8 бит на пиксель на цветовой компонент в цветовом формате «яркость-цветность», где обычно компоненты цветности имеют более низкое разрешение, чем компонент яркости (например, цветовой формат YCbCr или YUV 4:2:0). Из-за 8-битовой глубины и соответствующего суженного динамического диапазона такие сигналы, как правило, называются сигналами со стандартным динамическим диапазоном (SDR).

[00022] По мере разработки новых телевизионных стандартов, таких как сверхвысокая четкость (UHD), может быть желательно кодировать сигналы с улучшенным разрешением и/или улучшенным динамическим диапазоном в формате, который могут обработать как традиционные декодеры HDTV, так и более новые декодеры UHD.

[00023] Как было описано в заявке PCT № PCT/US2013/073085 «Обратно совместимое кодирование для сигналов сверхвысокой четкости с улучшенным динамическим диапазоном» за авторством G-M Su и др., поданной 04 декабря 2013, которая полностью включена в настоящее описание путем ссылки, фиг. 1 изображает вариант осуществления иллюстративной реализации системы, поддерживающей обратно совместимое кодирование сигналов UHD с улучшенным динамическим диапазоном (EDR). Кодер содержит кодер (130) базового слоя (BL) и кодер (160) улучшающего слоя (EL). В одном варианте осуществления кодер (130) BL является традиционным кодером, таким как кодер MPEG-2 или H.264, а кодер (160) EL является кодером нового стандарта, таким как кодер HEVC. Чтобы поддерживать традиционные декодеры BL, кодер (130) BL как правило является 8-битовым кодером; однако кодер (160) EL может поддерживать входные потоки с более высокой битовой глубиной, например, 10-битовой, как определено стандартами H.264 и HEVC (H.265). Однако эта система применима к кодированию слоев EDR и SDR при любом пространственном разрешении и битовой глубине с использованием любой комбинации либо известных, либо будущих кодеров, независимо от того, основаны ли они на стандартах или являются проприетарными.

[00024] Как изображено на фиг. 1, входной сигнал, такой как фильм или телевизионная передача, может быть представлен двумя сигналами: входным сигналом (102) EDR UHD и входным сигналом (104) SDR UHD. Например, сигнал (102) EDR UHD может быть сигналом с разрешением 4K (например, 3840×2160), захваченным камерой HDR с цветоустановкой для дисплея EDR. Тот же самый сигнал также может проходить через процесс (105) отображения по содержанию для генерации сигнала SDR с тональным отображением или отображением по содержанию путем применения любого из известных в области техники тональных отображений или методик управления дисплеем. Опционально или в комбинации с процессом (105) отображения по содержанию сигнал (104) SDR может генерироваться из сигнала (102) EDR или сигнала (107) SDR художником-колористом с использованием процесса цветоустановки с выполнением регулировки (103). В настоящем описании термин «процесс цветоустановки с выполнением регулировки» обозначает любые ручные подстройки цветов, тона, контраста и динамического диапазона видеосигнала, соответствующие характеристикам целевого дисплея в соответствии с намерениями режиссера.

[00025] Без потери общности оба этих входных сигналов, как правило, могут быть представлены в цветовом пространстве RGB с использованием 16-битового или эквивалентного (например, с плавающей точкой) представления битовой глубины. В настоящем описании термин n-битовый сигнал обозначает сигнал изображения или видеосигнал с одним или несколькими цветовыми компонентами (например, RGB или YCbCr), в котором каждый пиксель в любом из этих цветовых компонентов (например, Y) представлен n-битовым пиксельным значением. Учитывая n-битовое представление, каждый такой пиксель может принимать значения между 0 и 2n-1. Например, в 8-битовом представлении для каждого цветового компонента каждый пиксель может принимать значения между 0 и 255.

[00026] В одном варианте осуществления сигнал (104) SDR UHD может быть субдискретизирован в сигнал SDR HD (например, 1080p), который затем подвергается цветовому преобразованию в цветовой формат, подходящий для кодирования с использованием традиционного 8-битового кодера, например, в 8-битовый цветовой формат YCbCr 4:2:0. Такое преобразование может содержать цветовые преобразования (такие как преобразование 115-C из RGB в YCbCr) и субдискретизацию цветности (например, преобразование 120-C из 4:4:4 в 4:2:0). Таким образом, сигнал (128) SDR HD представляет собой обратно совместимое представление исходного сигнала (102) EDR UHD. Сигнал (128) может быть закодирован кодером (130) BL для генерации обратно совместимого закодированного битового потока (132). Кодер (130) BL может сжать или закодировать сигнал (128) SDR HD с использованием любого из известных или будущих алгоритмов сжатия видео, таких как MPEG-2, MPEG-4, часть 2, H.264, HEVC, VP8, VP9 и т.п.

[00027] С учетом сигнала (102) EDR UHD процессы субдискретизации (110-A) и цветового преобразования (115-B и 120-B) могут преобразовать сигнал (102) EDR UHD в опорный сигнал (124) EDR HD предсказания. В предпочтительном варианте осуществления процессы субдискретизации и цветового преобразования (110-A, 115-B и 120-B) (например, выбранные фильтры и цветовое пространство) на этом этапе должны быть идентичными или настолько близкими, насколько это возможно, к процессам субдискретизации и цветового преобразования (110-B, 115-C и 120-C), использовавшимся для генерации сигнала (128) SDR HD в базовом слое.

[00028] После преобразования EDR UHD в EDR HD выход сигнала (124) EDR HD разделяется на компоненты яркости (Y 124-Y) и цветности (124-C CbCr), которые применяются для определения коэффициентов предсказания для предсказателя (145) яркости и предсказателя (140) цветности.

[00029] С учетом сигнала (128) SDR HD кодер (130) BL генерирует не только кодированный битовый поток (132) BL, но также и сигнал (126) BL, который представляет собой сигнал (128) SDR HD, как он будет декодирован соответствующим декодером BL. В некоторых вариантах осуществления сигнал (126) может генерироваться отдельным декодером BL (не показан) после кодера (130) BL. В некоторых других вариантах осуществления сигнал (126) может генерироваться от контура обратной связи, используемого для выполнения компенсации движения в кодере (130) BL. Как изображено на фиг. 1, выход сигнала (126) EDR HD также может быть разделен на его компоненты яркости (Y 126-Y) и цветности (126-C CbCr), которые применяются к предсказателю (145) яркости и предсказателю (140) цветности для предсказания сигнала (147) EDR HD. В некоторых других вариантах осуществления субдискретизация (110-A, 110-B) может быть пропущена, таким образом вся обработка выполняется в полном разрешении.

[00030] В одном варианте осуществления предсказатель (145) яркости может содержать полиномиальный предсказатель для предсказания компонентов яркости сигнала (147) EDR HD на основании пиксельных значений яркости (126-Y) сигнала SDR HD базового слоя. В таком предсказателе пиксельный компонент яркости может быть предсказан без учета пиксельных значений в любом из других цветовых компонентов сигнала. Например, пусть si обозначает пиксельные значения яркости сигнала (126-Y) SDR HD BL, тогда, без потери общности, полиномиальный предсказатель третьего порядка может быть выражен в виде

, (1)

где , k= от 0 до 3, являются коэффициентами предсказателя. В одном варианте осуществления коэффициенты предсказателя могут быть определены с помощью любой известной в области техники методики минимизации ошибок, таких как минимизация среднеквадратичной ошибки (например, ) между предсказанным значением () и пиксельными значениями яркости в опорном сигнале (124-Y) EDR HD ().

[00031] В одном варианте осуществления предсказатель цветности (140) также может быть полиномиальным предсказателем, аналогичным описанному ранее; однако в предпочтительном варианте осуществления предсказатель (140) цветности содержит предсказатель с несколькими цветовыми каналами с множественной регрессией (MMR), как описанный G-M Su и др. в патенте США № 8,811,490 «Предсказатель с несколькими цветовыми каналами с множественной регрессией», который полностью включен в настоящее описание путем ссылки. Предсказатель MMR предсказывает компоненты цветности сигнала EDR HD с использованием информации из пиксельных значений как яркости, так и цветности в опорном сигнале (124) EDR HD и сигнале (126) SDR HD базового слоя. Коэффициенты предсказания в модели MMR также могут быть определены с использованием методики минимизации среднеквадратичной ошибки путем минимизации MSE между предсказанными значениями цветности и пиксельными значениями яркости и цветности опорного сигнала (124) EDR HD.

[00032] Поскольку как сигнал (126) SDR HD, так и опорный сигнал (124) HDR HD имеют формат YCbCr 4:2:0, в котором пространственное разрешение компонента яркости равно удвоенному пространственному разрешению каждого из компонентов цветности, компоненты яркости обоих этих сигналов субдискретизируются (135-A и 135-B) перед применением к предсказателю (140) цветности. В одном предпочтительном варианте осуществления фильтры, используемые в субдискретизации (135-A) и (135-B) яркости, являются такими же, как фильтры субдискретизации цветности, используемые в обработке (120) от 4:4:4 к 4:2:0. Коэффициенты предсказания яркости и цветности могут обновляться через множество разных промежутков времени, представляющих интерес, например, для каждой сцены, для каждой группы изображений или для каждого кадра. Коэффициенты фильтра с предсказанием могут передаваться видеодекодеру множеством способов, таких как встраивание их значений в битовый поток в качестве вспомогательных данных или метаданных.

[00033] Для данного предсказанного сигнала (147) EDR HD, повышающий дискретизатор (150) генерирует сигнал (152) EDR UHD, который используется для генерации остаточного сигнала (167). Поскольку сигнал EDR UHD находится в предпочтительном формате кодирования (например, YCbCr 4:2:0), могут быть необходимы дополнительные этапы цветового преобразования (115-A) и субдискретизации (120-A) цветности для преобразования исходного сигнала (102) EDR UHD из исходного формата (например, RGB) в сигнал (122) EDR UHD в предпочтительном формате кодирования. Сигналы (122) и (152) вычитаются для создания остаточного сигнала (167) EL.

[00034] В одном варианте осуществления процессы цветового преобразования (115-A) и субдискретизации (120-A) цветности идентичны или настолько близки, насколько это возможно, к процессам цветового преобразования (115-B и 115-C) и субдискретизации (120-B и 120-C) цветности, использовавшимся для генерации кодированного в BL сигнала (128) и сигнала (124) предсказания.

[00035] В одном варианте осуществления перед кодированием сигнала (167) EL кодером (160) EL сигнал может быть обработан нелинейным квантизатором (NLQ) (155). Примеры подходящих нелинейных квантизаторов могут быть найдены в заявке на патент PCT № PCT/US2012/034747 (опубликованной как WO2012/148883) «Нелинейный остаточный квантизатор VDR», поданной 24 апреля 2012, которая полностью включена в настоящее описание путем ссылки. Выход NLQ (155) может быть сжат с использованием кодера (160) EL для генерации кодированного битового потока (162) EL, который может быть передан подходящим декодерам. Кроме того, в некоторых вариантах осуществления остаток (167) также может быть пространственно субдискретизирован модулем субдискретизации (не показан). Такая субдискретизация (например, в два или четыре раза в обоих измерениях) улучшает эффективность кодирования, особенно при очень низких битовых скоростях. Субдискретизация может быть выполнена либо перед, либо после нелинейного квантизатора (155).

[00036] Кодер (160) EL может быть любым подходящим кодером, таким как описанные в спецификациях MPEG-2, MPEG-4, H.264, HEVC и т.п. В одном варианте осуществления закодированный битовый поток (132) BL, закодированный битовый поток (162) EL и метаданные, относящиеся к процессу кодирования (например, параметры предсказателя или таблицы поиска), могут быть мультиплексированы в один битовый поток (не показан).

[00037] В некоторых вариантах осуществления сигнал (128) SDR HD базового слоя уже может быть доступен кодеру (100) с правильным разрешением и цветовым форматом. В таком случае этапы субдискретизации (110-B) и цветового преобразования (115-C и 120-C) могут быть пропущены.

[00038] В некоторых вариантах осуществления сигнал (102) EDR UHD может быть доступен с более низкой или более высокой точностью, чем 16-бит; однако ожидается, что его точность будет выше 8 битов (например, 10 битов или 12 битов). Аналогично, сигнал (104) SDR UHD уже может быть доступен с точностью ниже 16 битов (например, 8 битов или 10 битов).

Межслойное предсказание

Уровень техники и терминология

Пусть sji обозначает i-ый пиксель в кадре j сигнала SDR (например, 126-Y). Пусть vji обозначает соответствующий также расположенный пиксель в сигнале EDR (например, 124-Y). Пусть обозначает соответствующий также расположенный предсказанный пиксель EDR (например, 147). Предположим, что в данном изображении имеется P пикселей. Если имеется, без ограничения, полиномиальный предсказатель 2-го порядка, тогда для i-го пикселя предсказанное значение может быть выражено в виде

, (2)

где mji для i=0, 1 и 2 обозначает коэффициенты предсказания.

[00039] В одном варианте осуществления коэффициенты предсказания могут быть определены так, чтобы минимизировать метрику искажения с использованием стоимостной функции предсказания, такой как среднеквадратичная ошибка (MSE) между исходными и предсказанными пиксельными значениями EDR (например, ). Уравнение (2) может быть выражено в матричной/векторной форме в виде

или

, (3)

где , и .

Тогда решение методом наименьших квадратов может быть получено в виде

, (4)

где

обозначает опорные пиксельные значения (124) EDR. Пусть и заданы в виде:

(5)

и

(6)

Тогда из уравнения (4)

(7)

[00040] В одном варианте осуществления эффективность предсказателя (например, 145) может быть улучшена с использованием кусочно-полиномиального предсказания. В таком варианте осуществления вместо использования одного полиномиального предсказателя (например, такого, как показано в уравнениях (1) или (2)) для всего диапазона возможных пиксельных значений SDR, можно разделить пиксельный диапазон SDR (например, [0, K-1], где K=2B и B обозначает битовую глубину сигнала SDR) на два или более поддиапазона, а затем применить предсказатель к каждому из поддиапазонов. В такой реализации необходимо найти «опорные» или граничные точки, которые разделяют различные кусочно-полиномиальные предсказатели. Например, в предсказании видео, предполагая кусочно-полиномиальное предсказание с использованием двух полиномов, необходимо идентифицировать опорную точку sjv в домене SDR, которая будет разделять диапазон SDR на два диапазона: [0, sjv) и [sjv, K-1). Кусочные полиномы могут быть линейными или нелинейными, все одного и того же порядка или различных порядков.

[00041] Например, заявка PCT/US2015/14482, поданная 4 февраля 2015, которая полностью включена в настоящее описание путем ссылки, описывает способы получения таких кусочно-полиномиальных предсказателей. В предпочтительном варианте осуществления предсказание (145) яркости выполняется с использованием восьми полиномов второго порядка. Хотя такой предсказатель работает хорошо для сигналов SDR, генерируемых только посредством процесса отображения по содержанию (например, (105)), экспериментальные результаты указывают, что способы предсказания должны быть скорректированы, когда сигнал (104) SDR генерируется посредством процесса цветоустановки с выполнением регулировки (103). Было замечено, что использование традиционного или обычного предсказателя (обозначенного здесь, без потери общности, как «предсказатель MSE») с данными с выполненной регулировкой генерирует необычно большие остаточные ошибки в светлых частях входного видеосигнала. Это может быть артефактом ручных коррекций, выполняемых художниками-колористами, которые обычно делают больше коррекций в светлых областях, чем в полутональных или темных областях исходного входного сигнала EDR. Эти большие, чем ожидалось, остаточные значения увеличивают нагрузку на кодер (160) EL и при ограничениях низкой битовой скоростью ухудшают общее качество принятого реконструированного сигнала EDR, например, демонстрируя блочные артефакты. Хотя артефакты могут генерироваться как в темных областях, так и в светлых областях, артефакты в светлых областях намного более заметны. Следовательно, в одном варианте осуществления, при ограничении битовой скоростью, больше битов выделяется светлым областям, чем темным. В одном варианте осуществления предложенное решение для нового предсказателя (далее называемого «предсказателем светлых областей», чтобы отличать его от традиционного предсказателя MSE) включает в себя три главных компонента:

a) определение, имеется ли усечение светлых областей (обычно, но не обязательно, из-за этапа выполнения регулировки)

Если имеется усечение светлых областей, то процесс предсказания EDR по SDR корректируется следующим образом:

b) выход предсказателя задается равным фиксированному значению для входов SDR больше порога светлых областей; и

c) остаточный выходной сигнал задается равным нулю для остаточных значений ниже порога темных областей.

Далее описываются иллюстративные варианты осуществления для детектирования усечения светлых областей и задания этих двух порогов.

Обнаружение усечения светлых областей

[00042] Было замечено, что процесс (103) выполнения регулировки со стандартным предсказателем MSE приводит к большим остаткам или усечениям (167) в светлых областях. В таких случаях, как правило, существует несколько отображений «один во много» из SDR в EDR. В одном иллюстративном варианте осуществления усечение светлых областей (которое вызывает повышенные ошибки предсказания) может быть обнаружено до фактического процесса предсказания на основании собранных статистических данных пиксельных значений во входных сигналах SDR и EDR.

[00043] Предположим, что имеется B битов, выделенных для пиксельного компонента SDR (например, B=8 или B=10). В кадре j для i=0,...2B-1 для пикселей vji EDR и их соответствующих пикселей sji SDR можно измерить следующие значения:

h[i]: гистограмма пиксельных значений SDR, а именно число пикселей, значение SDR которых равно i.

b[i]: сумма значений EDR, соответствующее значение SDR которых равно i.

b2[i]: сумма значений EDR в квадрате, значение SDR которых равно i.

mean[i]: среднее значений EDR, значение SDR которых равно i.

var[i]: дисперсия значений EDR, значение SDR которых равно i.

Например, в Таблице 1 показан иллюстративный процесс вычислений этих значений с использованием псевдокода.

Таблица 1: Процедура для генерации пиксельных статистических данных отображения из SDR в EDR

// ЭТАП 1: собрать статистические данные для каждого пикселя

//K=2B

//Задать h[], b[] и b2[] равными нулю

// ЭТАП 2: вычислить дисперсию для каждого интервала гистограммы

[00044] Пиксельные статистические данные могут быть выражены в виде:

,

,

,

,

для i=0,1,2,…,K-1 и h[i]>0.

[00045] В типичной среде обработки видеоданных дозволенные или допустимые значения SDR могут быть ограничены значением, которое меньше максимально возможного (например, 2B-1). Обозначим это значение как U (например, пиксельные значения больше U можно считать недопустимыми значениями). Например, для SMPTE-кодированных данных в одном варианте осуществления U=235 для B=8 и U=940 для B=10. Пусть Mj обозначает пиксельное значение EDR в кадре j, для которого var[i] максимально. С учетом порога гистограммы Th (например, Th=64) в одном варианте осуществления определяется потенциальное усечение в светлых областях, если значения гистограммы для диапазона значений SDR в пределах Mj (например, , где L является положительным целым числом, например, L=3) выше порога Th. Таблица 2 описывает в псевдокоде иллюстративную процедуру для определения усечения светлых областей.

[00046] Таблица 2: Процедура для определения, присутствует ли усечение светлых областей

// Для каждого кадра j в одной и той же сцене с F кадрами

ЭТАП 1:

ЭТАП 2:

// Dj=1 означает, что обнаружено усечение светлых областей.

// Для сцены с F кадрами и для порога

// сцены Ts окончательное решение принимается

// для всей сцены следующим образом:

if

then применить предсказание светлых областей

else

применить традиционное предсказание

end

[00047] Как отмечено в Таблице 2, в некоторых вариантах осуществления предпочтительно определять усечение светлых областей на уровне сцены, а не на уровне кадра. Например, в одном варианте осуществления усечение светлых областей для целой сцены может быть определено, если по меньшей мере 10% отдельных кадров демонстрируют усечение (например, Ts=0.1). В настоящем описании термины «сцена» или «план» для последовательности видеокадров могут относиться к серии последовательных кадров в видеосигнале, имеющих аналогичные характеристики цветового и динамического диапазона. Из-за последовательной природы предсказания видеоданных в большинстве форматов сжатия видео предпочтительно корректировать параметры предсказания только на границах, которые совпадают с типичными границами видеокодера, такими как смены сцены или новая группа изображений (GOP).

[00048] Специалистам в области техники будет понятно, что var[i] может быть заменено его квадратным корнем (или среднеквадратичным отклонением), и все пороги могут быть соответственно скорректированы. Кроме того, Этап 2 в Таблице 2 может быть легко вычислен для различных значений L (например, L=0, 2 или 3), в зависимости от доступных вычислительных ресурсов. В одном варианте осуществления L=3 для 8-битовых сигналов и L=12 для 10-битовых сигналов.

Варианты осуществления предсказателя светлых областей

[00049] Как было описано ранее, в одном варианте осуществления предсказатель MSE может быть спроектирован как многосегментный предсказатель. Сегменты могут быть либо одинаковой длины, либо разной длины. Например, для 8-сегментного предсказателя MSE опорные точки, задающие эти восемь сегментов, могут быть 0, 31, 62, 93, 124, 155, 186, 217 и 255 для B=8 и 0, 127, 254, 381, 508, 635, 762, 889 и 1023 для B=10. В одном варианте осуществления предсказатель светлых областей идентичен предсказателю MSE для всех сегментов, за исключением его конечной части, которая имеет дело со светлыми областями, например, пиксельными значениями больше TSH.

[00050] Пусть обозначает функцию, характеризующую традиционную функцию предсказания (например, предсказатель MSE), которая не учитывает усечение светлых областей. Было замечено, что когда происходит усечение светлых областей, качество видео может быть улучшено, если такой предсказатель может быть скорректирован для генерации фиксированного выходного значения предсказателя для , то есть:

, (8)

где является порогом, который меньше 2B-1 и sh является фиксированным значением. На интуитивном уровне можно утверждать, что этот подход даст более плохую эффективность, потому что с фиксированным предсказанным значением остаточная ошибка должна увеличиться; однако в действительности этот подход заставляет большую часть светлых областей быть закодированными в улучшающем слое как "изображение" вместо случайных остатков, следовательно кодирование с помощью стандартных видеокодеров является более эффективным, и общее качество улучшается.

[00051] В одном варианте осуществления значение sh может быть определено следующим образом:

1. Выбрать порог <U<2B-1 (например, начальная точка последнего сегмента в многосегментном предсказателе или значение, близкое приблизительно к 80% полного динамического диапазона)

2. Собрать все пиксели SDR меньше и их соответствующие пиксели EDR

3. Сконструировать многосегментный предсказатель MSE на основе вышеупомянутых выборок

4. Задать . Например, для B=10 предсказатель MSE может быть предназначен для пиксельных значений SDR от 0 до 889, тогда .

5. Скорректировать предсказатель так, чтобы он выводил фиксированное значение (sh) для всех пиксельных значений SDR, больше или равных .

[00052] Например, для B=8 =217, а для B=10 =889.

Маскирование остатка в темных областях

[00053] Экспериментальные результаты показали, что значения дисперсии (например, var[i]) являются, как правило, монотонными, увеличиваясь от малых пиксельных значений (темные области) к большим пиксельным значениям (светлые области). В одном варианте осуществления чтобы выделить больше битов светлым областям, чем темным, и улучшить общее качество, все остатки ниже заранее заданного порога значения SDR маскируются и задаются равными нулю (или любому другому очень маленькому фиксированному значению). Другими словами, пусть TSL<TSH обозначает порог SDR. Пусть

,

Тогда в одном варианте осуществления:

. (9)

Альтернативно, если обозначает выход предсказателя для , то

.

[00054] В одном варианте осуществления порог может быть идентифицирован с использованием следующего процесса:

1. Интерполировать пропущенные точки в дисперсии var[i];

2. Сгладить значения var[i];

3. Вычислить совокупное среднее var[i];

4. Задать как функцию изменения в вычисленных совокупных средних значениях.

Иллюстративный процесс в псевдокоде дается в Таблице 3.

[00055] Таблица 3: Иллюстративный процесс для идентифицикации порога темных областей

// ЭТАП 1: заполнить кодовое слово без каких-либо данных о дисперсии

// K=2B

// нет данных, требуется интерполяция

(A) найти ближайшего допустимого соседа слева

(B) найти ближайшего допустимого соседа справа

(C) линейная интерполяция

// ЭТАП 2: сглаживание;

// ЭТАП 2 (a) здесь имеется простая 3-отводная фильтрация

// ЭТАП 2(b): вычислить совокупное среднее: среднее значение в каждом растущем окне

// ЭТАП 2(c): найти разность между каждым гладким значением

// ЭТАП 3: найти в пределах темного окна, кодовое слово которого находится в пределах порога WL и WH

// найти наименьшее кодовое слово (больше WH), значение которого равно α умноженное на

[00056] В их более общем виде уравнения (T3.1) и (T3.2) также могут быть выражены в виде:

, для i=0,1,…,(K-1)-A, (10)

, для d=0,1,2,…,K-1, (11)

где для n=-A,-A+1,…,A-1,A обозначает коэффициенты (2A+1)-отводного фильтра, использованного для сглаживания значений дисперсии.

[00057] В одном варианте осуществления для B=8 WL=45, WH=75 и α=1.5. Для сцены с F кадрами и для значений для j-го кадра общий порог может быть задан в виде

. (12)

[00058] Фигуры 2A-2D изображают примеры этапов вывода процесса, описанного в Таблице 3 для одного кадра. Фиг. 2A изображает пример значений var[i] после этапа интерполяции дисперсии гистограммы. Как изображено на фиг. 2A, эти значения довольно «шумные». Фиг. 2B изображает иллюстративный вывод после применения низкочастотного фильтра к значениям фиг. 2A для генерации сглаженных значений для var[i]. Фиг. 2C изображает соответствующие значения , а фиг. 2D изображает вывод . Порог для 8-битных данных, как видно, удовлетворяет уравнению (T3.5). В некоторых вариантах осуществления фиксированный порог для 8-битных данных, как видно, является удовлетворительным для множества видеороликов. Следовательно, некоторые варианты осуществления могут использовать фиксированный порог темных областей (например, ) и пропускать процесс нахождения оптимального порога.

[00059] Фиг. 3 изображает иллюстративный процесс для генерации межслойного предсказателя в соответствии с вариантом осуществления этого изобретения. Как изображено на фиг. 3, входными данными для этого процесса являются кадры (102, 104) SDR и EDR, каждый из которых представляет собой одну и ту же сцену, но с различным динамическим диапазоном и/или шкалой цветности. На этапе (302) собираются статистические данные, относящиеся к пикселям пар данных SDR и EDR. Примеры таких статистических данных включают в себя гистограмму SDR и соответствующую дисперсию EDR или значения среднеквадратичного отклонения (например, h[i], var[i]), как обсуждалось применительно к алгоритму, приведенному в Таблице 1. Эти статистические данные затем применяются на этапе (304) для определения, должен ли предсказатель быть скорректирован путем применения предсказателя светлых областей. Если усечение светлых областей не обнаружено, то на этапе (320) в качестве межслойного предсказателя может быть применен известный в области техники традиционный предсказатель (например, многосегментный предсказателе MSE). Пример процесса тестирования на усечение светлых областей был представлен в Таблице 2.

[00060] Если обнаружено усечение светлых областей, то, как обсуждалось выше, более эффективный межслойный предсказатель может быть сконструирован следующим образом:

a) На этапе (306), как на этапе (320), определяется функция предсказания . Эта функция основана на любой известной в области техники конструкции (например, многосегментном предсказателе MSE и т.п.).

b) На этапе (308) определяется порог светлых областей. Например, в восьмисегментном предсказателе порог светлых областей может быть задан как начальная точка последнего сегмента или приблизительно 85% динамического диапазона.

c) На этапе (310) с учетом порога светлых областей (например, TSH) корректируется функция предсказания этапа (306) так, что

d) На этапе (312) на основании собранных статистических данных на этапе (302) определяется порог темных областей (например, ). Пример такого процесса был дан в Таблице 3.

e) Наконец, на этапе (314) порог темных областей из этапа d) используется для создания маскировки остатков так, что

.

Альтернативно, если , то

.

Иллюстративная реализация компьютерной системы

[00061] Варианты осуществления настоящего изобретения могут быть реализованы с помощью компьютерной системы, систем, сконфигурированных в электронных схемах и компонентах, устройства на интегральной схеме (IC), такого как микроконтроллер, программируемой пользователем вентильной матрицы (FPGA) или другого конфигурируемого или программируемого логического устройства (PLD), дискретного или цифрового сигнального процессора (DSP), специализированной IC (ASIC) и/или устройства, которое включает в себя одну или несколько таких систем, устройств или компонентов. Компьютер и/или IC могут выполнять, управлять или исполнять инструкции, относящиеся к межслойному предсказанию, такие как инструкции, описанные в настоящем описании. Компьютер и/или IC могут вычислять любые из множества параметров или значений, которые относятся к межслойному предсказанию, как описано в настоящем описании. Варианты осуществления кодирования и декодирования могут быть реализованы в аппаратном обеспечении, программном обеспечении, микропрограммном обеспечении и их различных комбинациях.

[00062] Некоторые реализации изобретения содержат компьютерные процессоры, которые исполняют программные инструкции, которые заставляют процессоры выполнять способ изобретения. Например, один или несколько процессоров в дисплее, кодере, телеприставке, транскодере и т.п. могут реализовывать способы, относящиеся к межслойному предсказанию, как было описано выше, путем исполнения программных инструкций в памяти программы, доступной для процессоров. Изобретение также может быть обеспечено в форме программного продукта. Программный продукт может содержать любой носитель, который несет набор машиночитаемых сигналов, содержащих инструкции, которые при исполнении процессором заставляют процессор исполнять способ изобретения. Программные продукты в соответствии с изобретением могут быть в любой из множества форм. Программный продукт может содержать, например, физические носители, такие как магнитные носители данных, в том числе дискеты, жесткие диски, оптические носители данных, в том числе CD-ROM, DVD, электронные носители данных, в том числе ROM, флэш RAM и т.п. Машиночитаемые сигналы в программном продукте опционально могут быть сжаты или зашифрованы.

[00063] Там, где выше упоминается компонент (например, программный модуль, процессор, узел, устройство, схема и т.д.), если не указано иное, ссылка на этот компонент (в том числе ссылка на «средство») должна интерпретироваться как включающая в себя в качестве эквивалентов этого компонента любой компонент, который выполняет функцию описанного компонента (например, который функционально эквивалентен), включая компоненты, которые структурно не эквивалентны раскрытой структуре, которая выполняет функцию в изображенных иллюстративных вариантах осуществления изобретения.

Эквиваленты, расширения, альтернативы и прочее

[00064] Таким образом, были описаны иллюстративные варианты осуществления, которые относятся к межслойному предсказанию. В приведенном выше описании варианты осуществления настоящего изобретения были описаны со ссылкой на многочисленные конкретные подробности, которые могут варьироваться от реализации к реализации. Таким образом, единственным и исключительным индикатором того, что является изобретением, и того, что авторы считают изобретением, является формула изобретения, которая приведена в этой заявке, в конкретной форме, в которой эта формула изобретения приведена, включая любые последующие исправления. Любые определения, явно изложенные в настоящем описании для терминов, содержащихся в этой формуле изобретения, должны определять значение таких терминов, использующихся в формуле изобретения. Следовательно, никакое ограничение, элемент, свойство, признак преимущество или атрибут, который явно не указан в формуле изобретения, не должен каким-либо образом ограничивать объем формулы изобретения. Соответственно, описание и чертежи должны рассматриваться в иллюстративном, а не ограничительном смысле.

1. Способ межслойного предсказания с помощью процессора, причем способ содержит этапы, на которых:

осуществляют доступ к первому видеосигналу (124) с первым динамическим диапазоном (EDR);

осуществляют доступ ко второму видеосигналу (126), представляющему собой первый видеосигнал во втором динамическом диапазоне (SDR), при этом второй динамический диапазон меньше, чем первый динамический диапазон;

генерируют с помощью процессора функцию предсказания для предсказания пикселей первого видеосигнала в ответ на пиксели второго видеосигнала;

определяют порог светлых областей и корректируют функцию предсказания для вывода фиксированного выходного значения для пиксельных значений второго видеосигнала, превышающих этот порог светлых областей;

применяют второй видеосигнал к скорректированной функции предсказания для генерации пиксельных значений оцененного первого видеосигнала (147);

определяют остаточный сигнал на основании первого видеосигнала и оцененного первого видеосигнала;

определяют порог темных областей; и

для пиксельных значений второго видеосигнала ниже порога темных областей задают соответствующие пиксельные значения остаточного сигнала равными нулю.

2. Способ по п. 1, дополнительно содержащий этапы, на которых:

кодируют с использованием первого видеокодера (130) второй видеосигнал для генерации закодированного сигнала (132) базового слоя; и

кодируют с использованием второго видеокодера (160) функцию остаточного сигнала для генерации закодированного сигнала (162) улучшающего слоя.

3. Способ по п. 1, дополнительно содержащий перед этапом, на котором генерируют с помощью процессора функцию предсказания для предсказания пикселей первого видеосигнала в ответ на пиксели второго видеосигнала, этап, на котором определяют, присутствует ли потенциальное усечение светлых областей в предсказанных пикселях первого видеосигнала или нет,

при этом определение, присутствует ли потенциальное усечение светлых областей, основано на сгенерированных статистических данных, относящихся к пиксельным значениям в первом видеосигнале и втором видеосигнале.

4. Способ по п. 3,

в котором после определения, что присутствует потенциальное усечение светлых областей, остаточный сигнал генерируется в соответствии с этапами в п. 1, и

в противном случае, если не определено, что присутствует потенциальное усечение светлых областей, вместо упомянутых этапов выполняются следующие этапы, на которых:

генерируют с помощью процессора вторую функцию предсказания для предсказания пикселей первого видеосигнала в ответ на пиксели второго видеосигнала, при этом вторую функцию предсказания не корректируют так, чтобы выводить фиксированное выходное значение для пиксельных значений второго видеосигнала, превышающих порог светлых областей;

применяют второй видеосигнал ко второй функции предсказания для генерации пиксельных значений оцененного первого видеосигнала (147); и

определяют остаточный сигнал на основании первого видеосигнала и оцененного первого видеосигнала.

5. Способ по п. 3, в котором сгенерированные статистические данные содержат гистограмму пиксельных значений во втором видеосигнале и дисперсию или среднеквадратичное отклонение пиксельных значений в первом видеосигнале.

6. Способ по п. 5, в котором для j-го кадра потенциальное усечение светлых областей определено, если для некоторого первого значения (U) и некоторого порога Th Dj=1, где

,

первое значение U обозначает верхнюю границу для допустимых пиксельных значений во втором видеосигнале, h[i] обозначает число пикселей во втором видеосигнале, значение которых равно i, L является положительным целым значением, и обозначает это пиксельное значение во втором видеосигнале, для которого соответствующая вычисленная дисперсия в первом видеосигнале является максимальной.

7. Способ по п. 3, в котором этап, на котором определяют, присутствует ли потенциальное усечение светлых областей, основан на сгенерированных статистических данных, относящихся к пиксельным значениям в первом видеосигнале и втором видеосигнале для сцены в первом видеосигнале.

8. Способ по п. 1, в котором функция предсказания содержит многосегментный предсказатель, который использует кусочно-полиномиальное предсказание и который содержит один полиномиальный предсказатель для каждого из нескольких сегментов, при этом коэффициенты предсказания каждого полиномиального предсказателя определяют так, чтобы минимизировать метрику искажения с использованием среднеквадратичной ошибки, MSE, как стоимостной функции предсказания, и в котором порог светлых областей содержит начальную точку последнего сегмента в многосегментном предсказателе.

9. Способ по п. 1, в котором порог светлых областей равен значению 85% максимального пиксельного значения во втором видеосигнале.

10. Способ по п. 1, в котором этап, на котором определяют порог темных областей, содержит этапы, на которых:

вычисляют гистограмму (h[i]) пиксельных значений во втором видеосигнале;

вычисляют для каждого интервала гистограммы значение дисперсии (var[i]) пиксельных значений в первом видеосигнале, соответствующее пиксельное значение которых во втором видеосигнале находится в соответствующем интервале гистограммы;

вычисляют совокупные средние значения дисперсии;

вычисляют значения разности на основании совокупных средних; и

определяют порог темных областей на основании вычисленных значений разности.

11. Способ по п. 10, дополнительно содержащий перед этапом, на котором вычисляют значения дисперсии, этап, на котором генерируют интерполированные значения гистограммы для тех вычисленных значений гистограммы, которые равные нулю.

12. Способ по п. 10, дополнительно содержащий этап, на котором применяют сглаживающий фильтр к вычисленным значениям дисперсии перед вычислением значений совокупных средних.

13. Способ по п. 10, в котором этап, на котором вычисляют значения разности, содержит этап, на котором вычисляют значения разности между двумя последовательными совокупными средними.

14. Способ по п. 13, в котором этап, на котором определяют порог (TSL) темных областей, содержит этап, на котором вычисляют:

,

где α обозначает положительное масштабирующее значение, WL и WH обозначают пороговые значения,

,

где обозначает вычисленные значения разности значений совокупных средних.

15. Способ по п. 10, дополнительно содержащий этап, на котором вычисляют порог темных областей для сцены на основании покадрового порога темных областей двух или более видеокадров в сцене.

16. Способ по п. 15, в котором этап, на котором вычисляют порог темных областей для сцены, содержит этап, на котором вычисляют среднее покадровых порогов темных областей этих двух или более видеокадров в сцене.

17. Устройство межслойного предсказания, содержащее процессор, выполненный с возможностью выполнения способов, заявленных в любом из пп. 1-16.

18. Долговременный машиночитаемый носитель данных, хранящий исполнимые компьютером инструкции для исполнения способа в соответствии с любым из пп. 1-16.



 

Похожие патенты:

Изобретение относится к устройству передачи, которое выполняет масштабируемое кодирование для данных изображения, составляющих данные движущегося изображения, и передает кодированные данные изображения.

Изобретение относится к кодированию/декодированию с внутренним предсказанием изображения. Техническим результатом является повышение эффективности сжатия изображения, используя различные направления предсказания.

Изобретение относится к цифровой широковещательной передаче данных стандарта DVB-S2v. Технический результат заключается в обеспечении обработки потока данных при использовании технологии связывания канала (СВ).

Изобретение относится к области телекоммуникаций, в частности к протоколу передачи голоса или видеосигнала по интернету (VoIP). Технический результат заключается в обеспечении высокого качества кодирования голоса и видеосигнала.

Изобретение относится к области декодирования видео. Технический результат – повышение эффективности декодирования видео за счет понижения сложности синтаксического анализа.

Изобретение относится к технологиям кодирования/декодирования видеоданных. Техническим результатом является уменьшение числа битов, сформированных при кодировании.

Изобретение относится к технологиям кодирования/декодирования видеоданных. Техническим результатом является повышение эффективности кодирования/декодирования изображений за счет многократного использования одного и того же опорного изображения для множества изображений.

Изобретение относится к кодированию и декодированию видео. Технический результат изобретения заключается в возможности предотвращения переполнения выходных данных при вспомогательных операциях процесса декодирования.

Изобретение относится к вычислительной технике. Технический результат заключается в подавлении ухудшения эффектов фильтрации.

Группа изобретений относится к технологиям кодирования/декодирования изображения с эффектом глубины. Техническим результатом является повышение эффективности кодирования/декодирования трехмерного видео. Предложен способ декодирования трехмерного видео. Способ содержит этап, на котором принимают остаточную информацию текущего блока в изображении с эффектом глубины из потока битов. Далее, согласно способу, получают значение диспаратности текущего блока в изображении с эффектом глубины на основе опорного вида. А также извлекают информацию движения текущего блока в изображении с эффектом глубины на основе значения диспаратности и формируют выборку предсказания текущего блока на основе информации движения. 2 н. и 7 з.п. ф-лы, 10 ил.

Изобретение относится к области оптического распознавания символов, а именно к способам распознавания символов на изображениях из видеопотока. Технический результат заключается в повышении качества распознавания изображений документов за счет объединения нескольких кадров. Способ включает получение одного или более первых изображений с первой камеры, содержащих первый вид физического объекта из первого пространственного положения, при этом физический объект содержит множество символов, получение одного или более вторых изображений со второй камеры, содержащих второй вид физического объекта из второго пространственного положения, при этом первое пространственное положение отличается от второго пространственного положения, выполнение оптического распознавания символов первых изображений для выявления одного или более первых символов из символов, изображенных на физическом объекте, выполнение оптического распознавания символов вторых изображений для выявления одного или более вторых символов из символов, изображенных на физическом объекте, объединение первых символов со вторыми символами путем сопоставления первых символов со вторыми символами и сохранение объединенных символов. 3 н. и 27 з.п. ф-лы, 9 ил.

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности многослойного кодирования, в частности межслойного предсказания. Способ межслойного предсказания с помощью процессора, в котором осуществляют доступ к первому видеосигналу с первым динамическим диапазоном ; осуществляют доступ ко второму видеосигналу, представляющему собой первый видеосигнал во втором динамическом диапазоне, при этом второй динамический диапазон меньше, чем первый динамический диапазон; генерируют с помощью процессора функцию предсказания для предсказания пикселей первого видеосигнала в ответ на пиксели второго видеосигнала; определяют порог светлых областей и корректируют функцию предсказания для вывода фиксированного выходного значения для пиксельных значений второго видеосигнала, превышающих этот порог светлых областей; применяют второй видеосигнал к скорректированной функции предсказания для генерации пиксельных значений оцененного первого видеосигнала; определяют остаточный сигнал на основании первого видеосигнала и оцененного первого видеосигнала; определяют порог темных областей; и для пиксельных значений второго видеосигнала ниже порога темных областей задают соответствующие пиксельные значения остаточного сигнала равными нулю. 3 н. и 15 з.п. ф-лы, 6 ил.

Наверх