Аппаратный блок, способ и компьютерная программа для расширения сжатого аудио сигнала

Авторы патента:

НЕУЗИНГЕР Маттиас (DE)

РОБИЛЛИАРД Жульен (DE)

ХИЛПЕРТ Йоханнес (DE)

G10L19/008 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2547221:

Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE)

Аппаратный блок для расширения сжатого аудио сигнала в расширенный аудио сигнал, содержащий один или более расширенный аудио канал, включающий в себя модуль обработки параметров, настроенный на применение параметров расширения для расширения сжатого аудио сигнала и получения расширенного аудио сигнала. Модуль обработки параметров настроен на применение сдвига фаз к сжатому аудио сигналу и получение сдвинутой по фазе версии сжатого аудио сигнала при сохранении декоррелированного сигнала неизменным по фазе. Модуль обработки параметров, кроме того, настроен на суммирование сдвинутой по фазе версии сжатого аудио сигнала с декоррелированным сигналом и получение расширенного звукового сигнала. 6 н. и 10 з.п. ф-лы, 4 ил.

Предпосылки создания изобретения

Воплощения в соответствии с изобретением связаны с аппаратной частью, способом и компьютерной программой для расширения сжатого звукового сигнала в расширенный звуковой сигнал, представленный одним или более расширенными аудио каналами. Некоторые воплощения в соответствии с изобретением связаны со способом и компьютерной программой для расширения сжатого аудио сигнала.

Некоторые воплощения изобретения относятся к улучшенной обработке фазы при параметрическом многоканальном аудио кодировании.

Далее будут предоставлены краткий обзор и содержание изобретения. Последние открытия в области параметрического аудио кодирования обеспечивают способы совместного кодирования многоканального (например, 5.1) аудио сигнала в один (или более) сжатый канал плюс поток битов дополнительной информации. Эти способы известны как Binaural Cue Coding (Бинауральное Трековое Кодирование), Parametric Stereo (Параметрическое Стерео Кодирование), MPEG Surround и т.д.

Ряд публикаций описывают так называемое «Бинауральное Трековое Кодирование», использующее подход параметрического многоканального кодирования, см., например, ссылки [1] [2] [3] [4] [5].

«Parametric Stereo» связано со способом параметрического кодирования двухканального стерео сигнала на основе передаваемого моно сигнала плюс параметры дополнительной информации [6] [7]. «MPEG Surround» является стандартом ISO для параметрического многоканального кодирования. Для получения дополнительной информации см. ссылку [8].

Указанные способы основаны на передаче в компактной форме в приемник аудио сигналов в виде соответствующих сжатых моно или стерео сигналов, воспринимаемых пространственным слухом человека. Типичные сигналы могут быть разностными сигналами между каналами (ILD), сигналами корреляции или когерентности между каналами (ICC), а также разностными во времени сигналами между каналами (ITD) и разностными по фазе сигналами между каналами (IPD).

Эти параметры в некоторых случаях передаются с частотным и временным разрешением, адаптированным к слуховому разрешению человека. Чтобы воссоздать свойства исходного сигнала, декодировщик может произвести одну или несколько декоррелированных версий передаваемого сжатого сигнала. Кроме того, в декодировщике может быть осуществлено изменение фазы выходного сигнала для восстановления исходных межканальных фазовых соотношений.

Пример бинаурального кодирования сигнала по фиг.4

Далее со ссылкой на фиг.4 будет описана общая схема кодирования бинаурального сигнала. На фиг.4 показана блок-схема схема передающей системы 400 бинаурального кодирования сигнала, которая включает кодировщик 410 бинаурального кодирования сигнала и декодировщик 420 бинаурального кодирования сигнала. Например, кодировщик 410 бинаурального кодирования сигнала может получить множество звуковых сигналов 412а, 412b и 412с. Кроме того, кодировщик 410 бинаурального кодирования сигнала настроен на сжатие входных аудио сигналов 412а-412с с использованием блока сжатия 414 для получения сжатого сигнала 416, который может быть, например, суммарным сигналом. Кроме того, кодировщик 410 бинаурального кодирования сигнала может быть сконфигурирован для анализа входных аудио сигналов 412а-412с с использованием блока анализа 418 для получения сигнала дополнительной информации 419. Суммарный сигнал 416 и сигнал дополнительной информации 419 передаются от кодировщика 410 бинаурального кодирования сигнала на декодировщик 420 бинаурального кодирования сигнала. Декодировщик 420 бинаурального кодирования сигнала может быть сконфигурирован для синтеза многоканального выходного аудио сигнала, включающего, например, аудио каналы y1, y2,…, y_N, с использованием суммарного сигнала 416 и сигналов между каналами 424. Для этой цели декодировщик 420 бинаурального кодирования сигнала может включать в себя синтезатор бинаурального кодирования сигнала 422, который получает суммарный сигнал 416 и межканальные сигналы 424, и формирует звуковые сигналы y1, y2,…, y_N. Кроме того, декодировщик 420 бинаурального кодирования сигнала включает процессор дополнительной информации 426, который настроен на получение дополнительной информации 419 и, кроме того, входных данных пользователя 427. Процессор дополнительной информации 426 настроен на получение межканальных сигналов 424 на основе дополнительной информации 419 и входных данных пользователя 427.

Подводя итог, входные аудио сигналы анализируются и сжимаются в ВСС кодировщике 410 бинаурального кодирования сигнала. Суммарный сигнал вместе с дополнительной информацией передаются на ВСС декодировщик 420. Межканальные сигналы генерируются на основе дополнительной информации и входных данных локального пользователя. Бинауральное кодирование сигнала синтеза генерирует многоканальный аудио сигнал на выходе.

Для получения дополнительной информации приводится ссылка на статью «Binaural Cue Coding Part II: Schemes and applications», by C.Faller and F.Baumgarte (опубликована: IEEE Transactions on Speech and Audio Processing, vol. 11, no. 6, Nov. 2003).

Обсуждение традиционных подходов

В описанных выше подходах трудно надлежащим образом управлять соотношениями между каналами.

Следовательно, желательно создать концепцию расширения сжатого сигнала, которая обеспечивает хорошую точность по отношению к корреляции между каналами.

Краткое содержание изобретения

Воплощения в соответствии с изобретением позволяют создать аппаратный блок для расширения сжатого аудио сигнала в расширенный аудио сигнал, представленный одним или более расширенными аудио каналами. Аппаратный блок для расширения включает в себя модуль обработки параметров, настроенный на применение параметров расширения для расширения сжатого аудио сигнала с целью получения расширенного звукового сигнала. Модуль обработки параметров настроен на использование фазового сдвига сжатого аудио сигнала для получения сдвинутой по фазе версии сжатого звукового сигнала при сохранении неизменным по фазе декоррелированного сигнала. Модуль обработки параметров также настроен на суммирование сдвинутой по фазе версии сжатого звукового сигнала с декоррелированным сигналом для получения расширенного сигнала.

Некоторые варианты изобретения основаны на выводе, что соотношения между различными расширенными аудио сигналами каналов ухудшаются при использовании фазового сдвига декоррелированного сигнала (например, при использовании изменяющегося во времени фазового сдвига, который зависит от пространственного восприятия). Соответственно, было обнаружено, что желательно сохранить декоррелированный сигнал неизменным по отношению к фазовым сдвигам, которые применяются к сжатому сигналу, для получения соответствующих межканальных сдвигов фаз между различными расширенными аудио каналами.

Соответственно, улучшение обработки фазы в соответствии с изобретением способствует предотвращению неправильной межканальной корреляции (для расширенных аудиоканалов) на выходе, которая вызвана сдвигом фазы части декоррелированного сигнала.

В предпочтительном варианте аппаратный блок для расширения настроен на получение декоррелированного сигнала таким образом, что декоррелированный сигнал является декоррелированной версией сжатого аудио сигнала. Таким образом, декоррелированный сигнал может быть легко получен из сжатого сигнала. Однако в некоторых других вариантах могут быть использованы различные концепции для получения декоррелированного сигнала. В самом простом решении в качестве декоррелированного сигнала может быть использован шумовой сигнал.

В предпочтительном варианте аппаратный блок для расширения настроен для расширения сжатого аудио сигнала в расширенный аудио сигнал, содержащий множество расширенных аудио каналов. В этом случае модуль обработки параметров настроен на применение параметров расширения для расширения сжатого звукового сигнала с помощью декоррелированного сигнала с целью получения первого расширенного сигнала аудио канала и второго расширенного сигнала аудио канала. Модуль обработки параметров настроен на использование переменного во времени фазового сдвига для сжатого аудио сигнала и получения по крайней мере двух версий сжатого звукового сигнала, имеющих по отношению друг к другу изменяющийся во времени фазовый сдвиг. Модуль обработки параметров также настроен на суммирование по крайней мере двух версий сжатого звукового сигнала с декоррелированным сигналом для получения по меньшей мере двух расширенных звуковых сигналов каналов, так, что декоррелированный сигнал не зависит от изменяющегося во времени фазового сдвига. Соответственно, могут быть получены сигналы многих каналов расширенного звукового сигнала, в которых декоррелированные части сигнала в пределах нескольких расширенных каналов (расширенного аудио сигнала) не зависят от относительных фазовых сдвигов, введенных между коррелированными частями сигнала. Следовательно, межканальными соотношениями между расширенными аудио каналами можно управлять с хорошей точностью.

В варианте изобретения модуль обработки параметров настроен на суммирование по крайней мере двух версий сжатого звукового сигнала с декоррелированным сигналом так, что часть сигнала первого расширенного аудио канала, представляющая собой декоррелированный сигнал, и часть сигнала второго расширенного аудио канала, представляющая собой декоррелированный сигнал, находятся в постоянном во времени соотношении фаз, например, в одной фазе или 180° разностью по фазе по отношению друг к другу. Следовательно, части сигнала, представляющие декоррелированный сигнал, могут эффективно использоваться для настройки соотношений расширенных сигналов аудио каналов. И наоборот, если части сигнала, представляющие декоррелированный сигнал, будут произвольно или с изменениями во времени сдвинуты по фазе относительно друг друга в различных расширенных сигналах аудио каналов, будет уменьшаться или даже исключаться возможность регулировки необходимой межканальной корреляции.

В одном из вариантов изобретения, модуль обработки параметров настроен на получение по крайней мере двух версий сжатого звукового сигнала, имеющих по отношению друг к другу изменяющийся во времени сдвиг фаз перед суммированием по крайней мере двух версий сжатого звукового сигнала (имеющих по отношению друг к другу изменяющийся во времени фазовый сдвиг), с декоррелированным сигналом, который не зависит от изменяющегося во времени фазового сдвига. При использовании изменяющегося во времени фазового сдвига перед суммированием этого декоррелированного сигнала, декоррелированный сигнал не зависит от изменяющегося во времени фазового сдвига. Следовательно, можно точно подстроить корреляционные характеристики результирующих расширенных звуковых сигналов каналов.

В одном из вариантов изобретения, аппаратный блок для расширения включает определитель параметров, настроенный на определение фазового сдвига используемых сжатых аудио сигналов на основе параметра разности фаз между каналами. Таким образом, сдвиг фаз адаптирован, чтобы соответствовать желаемому для человека впечатлению при прослушивании.

В одном из вариантов изобретения, модуль обработки параметров включает в себя умножитель матрицы на вектор, настроенный на умножение элементного вектора, представляющего одну или несколько выборок сжатого сигнала, и одной или более выборок декоррелированного сигнала с матрицей, элементы матрицы которой представляют собой параметры расширения. Умножение выполняется для получения, в результате, выходного вектора, представляющего собой одну или более выборок первого расширенного звукового сигнала канала и одну или более выборок второго расширенного звукового сигнала канала. Аппаратный блок для расширения включает в себя определитель параметров, настроенный на получение элементов матрицы на основе пространственных сигналов, связанных со сжатым аудио сигналом. Определитель параметров настроен на применение изменяющихся во времени сдвигов фазы только для элементов матрицы, которые соответствуют одной или более выборкам сжатого сигнала, оставляя без изменения фазы элементов матрицы, которые соответствуют одной или более выборкам декоррелированного сигнала с неизменяющимися во времени сдвигами фазы. Оставляя некоторые элементы матрицы, а именно те, которые соответствуют декоррелированному сигналу, не зависящими от изменяющихся во времени сдвигов фазы, может быть получена эффективная реализация идеи изобретения. Необходимые вычислительные затраты могут быть уменьшены при наличии некоторых элементов матрицы, которые представляют собой фиксированное значение фазы (или которые, например, могут быть действительными и независящими от пространственных сигналов). Кроме того, определение элементов матрицы является относительно простым, если значения фазы постоянны.

В варианте изобретения умножитель матрицы на вектор настроен на получение выборок сжатого аудио сигнала и выборок декоррелированного сигнала в комплекснозначном представлении. Кроме того, умножитель матрицы на вектор настроен на использование комплекснозначных элементов матрицы элементного вектора для выполнения фазового сдвига и получения выборок каналов расширенного аудио сигнала в комплекснозначном представлении. В этом случае определитель параметров настроен на вычисление действительных значений или значений магнитуды элементов матрицы на основе параметров разности межканальных уровней и/или параметров корреляции между каналами и/или параметров согласования между каналами (или межканальной корреляции или параметров согласованности), связанных со сжатым звуковым сигналом. Кроме того, определитель параметров настроен для вычисления значения фаз элементов матрицы, которые должны применяться к одной или более выборкам сжатого сигнала на основе параметров межканальной разности фаз, связанных со сжатым аудио сигналом. Кроме того, определитель параметров настроен на применение комплексного вращения значений магнитуды элементов матрицы, применяемого к одной или более выборкам сжатого сигнала, в зависимости от соответствующих значений фазы для получения элементов матрицы, которые соответствуют одному или нескольким выборкам сжатого сигнала. Следовательно, может быть реализовано эффективное многоступенчатое определение элементов матрицы. Действительные значения или значения магнитуды элементов матрицы могут быть вычислены без учета межканальной разности фаз. Аналогично, значения фазы элементов матрицы могут быть получены без учета параметров межканальной разности уровней или корреляции параметров согласованности между каналами, что, кроме того, позволяет проводить вычисления параллельно. Также элементы матрицы могут быть эффективно адаптированы таким образом, что соотношение между каналами для расширенных звуковых сигналов может быть скорректировано с хорошей точностью.

Воплощение в соответствии с изобретением создает способ расширения сжатого аудио сигнала в расширенный звуковой сигнал. Другой вариант изобретения включает в себя компьютерную программу для выполнения функциональных возможностей предлагаемого способа.

Краткое описание фигур.

Далее будут описаны воплощения изобретения с ссылкой на приложенные фигуры, на которых:

на фиг.1 показана блок-схема аппаратного блока для расширения сжатого аудио сигнала в расширенный звуковой сигнал, в соответствии с вариантом осуществления изобретения,

на фиг.2 показана подробная схема аппаратного блока для расширения сжатого аудио сигнала в расширенный звуковой сигнал, по другому варианту изобретения;

на фиг.3А приведена блок-схема способа расширения сжатого аудио сигнала в расширенный звуковой сигнал, в соответствии с вариантом осуществления изобретения,

на фиг.3В показана блок-схема способа получения набора параметров расширения, в соответствии с вариантом осуществления изобретения, а также

на фиг.4 показана блок-схема - общая схема кодирования бинаурального сигнала.

Подробное описание воплощений изобретения

Воплощение согласно фиг.1

На фиг.1 показана блок-схема аппаратного блока 100 для расширения в соответствии с вариантом осуществления изобретения. На фиг.1 для простоты изложения показано расширение одного канала. Естественно, концепция, описанная здесь, может быть применена в многоканальных системах так же успешно, как, например, будет описано со ссылкой на фиг.2.

Аппаратный блок 100 для расширения настроен на прием сжатого аудио сигнала 110 и расширение сжатого аудио сигнала 110 в расширенный аудио сигнал 120, содержащий один или более расширенных аудио каналов.

Аппаратный блок для расширения включает модуль обработки параметров 130, который настроен на применение параметров расширения для расширения сжатого аудио сигнала 110 и получение расширенного аудио сигнала 120. Модуль обработки параметров 130 настроен на выполнение фазового сдвига (показанного цифрой 140) сжатого аудио сигнала 110 и получение сдвинутой по фазе версии 142 сжатого аудио сигнала 110, в то время как декоррелированный сигнал 150 сохраняет фазу неизменной. Модуль обработки параметров 130, кроме того, настроен на суммирование (показанное цифрой 160) сдвинутой по фазе версии 142 сжатого аудио сигнала 110 с декоррелированным сигналом 150 для получения расширенного аудио сигнала 120.

При применении фазового сдвига только к сжатому аудио сигналу 110, но не к некоррелированному сигналу 150 (который, например, может быть декоррелированной версией сжатого аудио сигнала 110), расширенный аудио сигнал 120 включает в себя декоррелированную часть, причем декоррелированная часть расширенного аудио сигнала 120 основана на декоррелированном сигнале 150, и фаза декоррелированной части не зависит от фазового сдвига, использованного для сжатого аудио сигнала 110. Соответственно, часть расширенного аудио сигнала 120, которая коррелирует со сжатым аудио сигналом 110, сдвинута по фазе (например, с изменением во времени) в зависимости от приложенного фазового сдвига, в то время как часть расширенного аудио сигнала 120, которая декоррелирована со сжатым аудио сигналом 110, не зависит от фазового сдвига. Таким образом, подстройка межканальных корреляционных характеристик расширенного аудио сигнала (по отношению к последующим расширенным звуковым сигналам) может быть выполнена с высокой точностью, без использования изменяющихся во времени фазовых сдвигов, примененных к сжатому аудио сигналу.

Воплощение согласно фиг.2А и 2В

На фиг.2А и 2В показана подробная схема аппаратного блока 200 в соответствии с другим вариантом осуществления изобретения. Аппаратный блок 200 настроен на прием сжатого аудио сигнала 210 и расширение сжатого аудио сигнала 210 в расширенный аудио сигнал 220. Расширенный аудио сигнал 220 может, например, содержать первый расширенный аудио канал 222а и второй расширенный аудио канал 222в.

Сжатый аудио сигнал 210 может быть, например, суммарным сигналом, полученным с помощью пространственного аудио кодировщика (например, суммарный сигнал 416, предоставленный кодировщиком 410 бинаурального кодирования сигнала). Сжатый аудио сигнал 210 может быть, например, представлен в виде разложения по комплексным частотам. Например, сжатый аудио сигнал может состоять из одной выборки в каждом диапазоне частот (из множества частотных диапазонов) для каждого интервала обновления аудио выборки (указанного текущим индексом k).

Далее будет описана обработка выборок в одном диапазоне частот. Тем не менее аудио выборки в других диапазонах частот могут быть обработаны аналогичным образом. Другими словами, в некоторых вариантах в соответствии с изобретением, различные частотные диапазоны могут обрабатываться независимо. Кроме того, предполагается, что первый расширенный аудио сигнал канала 222а представляет собой аудио контент [содержание] в виде комплекснозначных выборок в определенном диапазоне частот расширенного аудио сигнала 220. Кроме того, предполагается, что второй расширенный аудио сигнал канала 222в представляет собой аудио контент в виде комплекснозначных выборок в определенном рассматриваемом диапазоне частот. Однако расширенные звуковые сигналы канала для различных частотных диапазонов также могут быть получены согласно концепции, описанной в настоящем документе.

Поэтому обработка диапазона частот (то есть генерация расширенного сигнала для одного диапазона частот) в аппаратном блоке 200 настроена на получение потока x(k), представленного последовательностью последовательных комплекснозначных выборок аудио контента в рассматриваемом диапазоне частот. В этих обозначениях, k является индексом времени. Далее x(k) будет кратко называться «сжатым аудио сигналом», имея в виду, что x(k) просто описывает аудио содержание одного рассматриваемого диапазона частот из целого (мультичастотного) сжатого аудио сигнала.

Обработка диапазона частот включает в себя модуль декорелляции 230, который настроен на прием сжатого аудио сигнала x(k) и формирование на его основе декоррелированной версии q(k) сжатого аудио сигнала x(k). Декоррелированная версия q(k) может быть представлена последовательностью комплекснозначных выборок. Обработка диапазона частот также включает модуль обработки параметров 240, который настроен на прием сжатого аудио сигнала x(k) и декоррелированной версии сжатого аудио сигнала q(k) и представление на его основе первого расширенного аудио сигнала канала 222а и второго расширенного аудио сигнала канала 222в.

В варианте на фиг.2, модуль обработки параметров 240 включает в себя умножитель матрицы на вектор 242 (или любые другие подходящие средства), который настроен на выполнение взвешенной линейной комбинации сжатого аудио сигнала x(k) и декоррелированной версии сжатого аудио сигнала q(k) и получение расширенных звуковых сигналов канала 222а, 222в. Взвешивание x(k) и q(k) определяется элементами весовой матрицы H(k), причем элементы весовой матрицы могут быть зависящими от времени (то есть зависящими от индекса времени k). В общем случае, некоторые элементы весовой матрицы H(k) могут быть комплекснозначными, как будет подробно рассмотрено далее.

В варианте на фиг.2, выборка y₁(k) первого расширенного аудио сигнала канала 222а может быть получена путем добавления выборки x(k) сжатого аудио сигнала, взвешенной в соответствии с комплекснозначным элементом Н₁₁ матрицы, и зависящей от времени соответствующей выборки q(k) декоррелированного сигнала, взвешенной с элементом матрицы H₁₂ (не обязательно, но, как правило, действительным). Кроме того, выборка y₂(k) второго расширенного аудио сигнала канала 222в получается путем добавления выборки x(k) сжатого аудио сигнала, взвешенной в соответствии комплекснозначным элементом матрицы Н₂₁, и зависящей от времени соответствующей выборки q(k) декоррелированного сигнала, взвешенной с элементом матрицы Н₂₂ (как правило, действительным).

Соответственно, сдвиг или вращение фазы применяется для выборок x(k) (коррелированных) сжатого аудио сигнала при получении выборок y₁(k), y₂(k) из расширенных звуковых сигналов канала 222а, 222в. В противоположность этому, можно избежать использование сдвига или вращения фазы с помощью вычисления вклада выборок q(k) декоррелированного сигнала в выборки расширенных звуковых сигналов канала 222а, 222в.

Далее будет описано, как могут быть получены элементы матрицы Н₁₁, Н₁₂, Н₂₁, Н₂₂ матрицы Н.

Для этого аппаратный блок 200 включает в себя блок дополнительной обработки информации 260, который настроен на получение дополнительной информации 262, представляющей собой параметры расширения. Дополнительная информация 262 может содержать пространственные сигналы, такие как, например, параметры разности уровней между каналами, параметры межканальной корреляции или согласованности, параметры межканальной разности во времени или параметры разности фаз между каналами. Названные параметры ILD, ICC, ITD, IPD хорошо известны в области пространственного кодирования и здесь не будут подробно описываться.

Блок обработки дополнительной информации 260 настроен на формирование (завершенных) элементов матрицы Н₁₁, H₁₂, H₂₁, H₂₂ (которые показаны соответствующей цифрой 264) для умножителя матрицы на вектор 242. Блок обработки дополнительной информации 260 поэтому может также рассматриваться как «определитель параметров». Блок обработки дополнительной информации 260 включает в себя определитель действительных параметров расширения 270, который настроен на прием пространственных сигналов, описываемых отношением амплитуд или отношением мощности между различными компонентами сигнала в расширенных звуковых сигналах канала 222а, 222в. Например, определитель действительных параметров расширения 270 настроен на прием параметров межканальной разности уровней и/или параметров корреляции или согласованности между каналами. Определитель действительных параметров расширения 270 настроен на формирование с использованием вышеназванных пространственных сигналов (например, ILD, ICC) действительных элементов матрицы. Определитель действительных параметров расширения 270 настроен на формирование действительных элементов матрицы , , , на основе полученных пространственных сигналов (например, ILD, ICC). Вещественные элементы матрицы обозначены цифрой 272. Так как вычисление действительных элементов матрицы 272 хорошо известно в данной области пространственного декодирования, здесь будет опущено подробное описание. Для простоты сделаем ссылку на документы, приведенные в разделе под названием «Литература», и к любой другой публикации, хорошо известной специалистам в данной области.

Блок обработки дополнительной информации 260 дополнительно включает определитель сдвига фазы параметров расширения 280, который настроен на прием пространственных сигналов, представляющих собой сдвиг фаз между различными компонентами расширенных звуковых сигналов канала 222а, 222в. Например, определитель сдвига фазы параметров расширения 280 настроен на прием параметров межканальной разности фаз 282. Определитель сдвига фазы параметров расширения 280 также настроен на использование значений сдвига фаз α1, α2, связанных со сжатым аудио сигналом, которые также обозначаются номером 284. Вычисление значений сдвига фазы на основе параметров межканальной разности фаз 282 хорошо известно в данной области, поэтому здесь опускается подробное описание. Сделаем ссылку на документы, приведенные в разделе под названием «Ссылки», а также любые другие издания, хорошо известные специалистам в данной области.

Блок обработки дополнительной информации 260 дополнительно включает фазовращатель элементов матрицы 290, который настроен на получение действительных элементов матрицы 272 и значений сдвига фаз 284 и вычисление, на этой основе, (завершенных) элементов матрицы Н (также обозначаемых H(k) для указания временных зависимостей). Для этого фазовращатель элементов матрицы 290 может быть настроен на использование значений сдвига фазы α₁, α₂ тех (и, желательно, только тех) действительных элементов матрицы 272, которые предназначены для применения к сжатому аудио сигналу x(k). В противоположность этому предпочтительно, чтобы фазовращатель элементов матрицы 290 был настроен на исключение тех действительных элементов матрицы, которые применяются к выборкам декоррелированного сигнала q(k), и не влияют на значения сдвига фаз α₁, α₂. Следовательно, те элементы матрицы, которые предназначены для применения (умножителем матрицы на вектор 242) к выборкам декоррелированного сигнала q(k), сохраняют действительные значения, как это предусмотрено в определителе действительных параметров расширения 270. Тем не менее, в некоторых вариантах может произойти инверсия знака.

В варианте, показанном на фиг.2, могут использоваться следующие соотношения:

Соответственно, фазовращатель элементов матрицы 290 настраивается на получение (завершенных) элементов матрицы Н и передачу этих (завершенных) элементов матрицы на умножитель матрицы на вектор 242.

Обычно элементы матрицы Н могут быть изменены во время работы аппаратного блока 200. Например, элементы матрицы Н 264 могут обновляться всякий раз, когда новая порция дополнительной информации 262 поступает в аппаратный блок 200. В других вариантах изобретения может быть выполнена интерполяция. Таким образом, элементы матрицы 264 могут обновляться один раз за интервал обновления аудио выборки k, причем в некоторых вариантах может быть применена интерполяция.

Далее будет подробно описана со ссылкой на фиг.2А и 2В концепция настоящего изобретения, и будут кратко представлены выводы. Воплощения изобретения, повышающие эффективность способа расширения путем использования улучшенной фазы, предотвращают неправильную межканальную корреляцию на выходе, вызванную сдвигом фаз декоррелированной части сигнала.

Для простоты, вариант изобретения, показанный на фиг.2, а также последующее описание ограничиваются случаем расширения от одного до двух каналов. Процедура расширения в декодировщике, например, от одного канала до двух, осуществляется с помощью матричного умножения вектора, состоящего из сжатого сигнала х, называемого «сухой сигнал», и декоррелированной версии сжатого сигнала q, называемого «мокрый сигнал», на матрицу расширения Н. Мокрый сигнал q может быть получен путем подачи сжатого сигнала х на фильтр декорреляции (например, в виде модуля декорелляции 230). Выходной сигнал у является вектором, содержащим первый и второй канал вывода (например, первый расширенный аудио сигнал канала 222а и второй расширенный аудио канал 222в).

Все сигналы х, q, y могут быть доступны в разложении по комплекснозначным частотам. Матричная операция может быть выполнена для всех поддиапазонов выборок в каждом диапазоне частот. Следующая матричная операция может быть выполнена:

Указанная матричная операция, которая может быть выполнена умножителем матрицы на вектор 242, также показана на фиг.2, где индекс времени k показывает, что входные выборки х, y, расширенные выборки выхода y₁, y₂, а также матрица расширения Н, как правило, изменяются во времени.

Коэффициенты (или элементы матрицы) Н₁₁, H₁₂, H₂₁, H₂₂ матрицы расширения Н получены из пространственных сигналов, например, с помощью блока обработки дополнительной информации 260. Матричные операции (которые выполняются умножителем матрицы на вектор 242) выполняют смешивание сухого сигнала х и мокрого сигнала q в соответствии с ICCs и взвешивание выходных каналов 222а, 222в в соответствии с ILDs. С использованием комплексных коэффициентов может быть применен (как будет описано далее) дополнительный сдвиг фазы в соответствии с IPDs.

Мокрый сигнал q создается путем передачи сжатого сигнала х через фильтр декорреляции (например, модуль декорреляции 230), который разработан таким образом, что корреляция между х и q достаточно близка к нулю. Для воссоздания исходного состояния корреляции между двумя каналами, которое описывается переданными ICCs, сигналы х и q смешивают по-разному для двух выходных каналов 222а, 222в. Коэффициенты смешивания (например, элементы матрицы Н) рассчитываются таким образом, что соотношение выходных каналов соответствует переданным ICCs.

Фазовые соотношения между двумя каналами, которые описываются переданными IPDS, воссоздаются с применением фазовых сдвигов для выходных сигналов. Два сигнала, как правило, поворачиваются на разные углы.

Обычные декодировщики применяют сдвиги фаз ко всему выходному сигналу, при этом будут обработаны обе компоненты сигнала, сухая и мокрая.

Переданные IPDS описывают разности фаз между двумя каналами. Было установлено, что так как разность фаз не может быть определена для некоррелированных сигналов, значения IPD всегда основаны на коррелированных составляющих сигнала. Было установлено, что вследствие этого не стоит применять сдвиг фаз в мокрой части сигнала выходных каналов. Кроме того, было установлено, что применение различных фазовых сдвигов для двух каналов (включая декоррелированные части сигнала) может даже привести к неправильному уровню корреляции выхода, так как вычисление сухого и мокрого смешивания может быть основано на предположении, что этот же декоррелированный сигнал смешивается в обоих каналах.

Общий подход при смешивании сухих и мокрых сигналов заключается в смешении одинаковых порций мокрых сигналов обоих каналах с разными знаками. Было установлено, что, если для выходных каналов применяются различные сдвиги фаз (например, после объединения сухого сигнала х и мокрого сигнала q), фазовые свойства мокрой части сигнала теряются, что приводит к потере декорреляции.

В противоположность этому, предложенное в изобретении решение помогает поддерживать желаемую степень декорреляции. Далее будут изложены подробности, касающиеся описанного выше воплощения. В одном из вариантов изобретения используется измененный способ расширения (по сравнению с традиционными), позволяющий избежать потери декорреляции при сдвиге фаз, связанных с разностью фаз между каналами (IPDs). Как указывалось выше, было установлено, что сдвиг фаз мокрой части сигнала может привести к потере декорреляции и не является необходимым для реконструкции исходного соотношения фаз между каналами. При применении фазового сдвига к матрице расширения Н с использованием комплексных коэффициентов, обработка сухого сигнала может ограничиваться только вращением этих коэффициентов с умножением на них сухого сигнала.

Далее будет описан способ, который может быть использован для получения матрицы расширения Н или параметров расширения (например, элементов матрицы расширения Н).

На первом этапе, действительная матрица (или ее элементы) вычисляется с использованием переданной разности уровней между каналами (ILDs) и параметрами согласованности или корреляции между каналами (ICCs), из которых могут быть получены пространственные сигналы с помощью аппаратного блока 200 в виде части дополнительной информации 262. Это вычисление (которое может быть выполнено с помощью определителя действительных параметров расширения 270) может быть сделано таким же образом, как в случае отсутствия разности фаз между каналами (IPDs).

На следующем этапе (который может выполняться параллельно с первым этапом, или даже до «первого этапа»), обычным образом вычисляются сдвиги фаз углов, например, двух выходных каналов α1 и α2 (например, в определителе сдвига фазы параметров расширения 280), на основе переданных IPDs.

Наконец, выполняется комплексное вращение этих элементов (или записей) матрицы , которые умножаются на сухой сигнал, то есть первый столбец матрицы, для получения матрицы расширения Н (например, с помощью фазовращателя элементов матрицы 290):

При использовании этой модифицированной матрицы расширения, вращение фаз применяется только к сухой части сигналов (например, в умножителе матрицы на вектор 242 с применением матрицы Н), в то время как мокрая часть сигнала не изменяется и сохраняется правильная декорреляция.

Способ согласно фиг.3А

На фиг.3А приведена блок-схема способа 300 для расширения сжатого аудио сигнала в расширенный аудио сигнал, представленный одним или более расширенными аудио каналами. Способ 300 обычно включает применение параметров расширения 310 к сжатому аудио сигналу с целью получения расширенного звукового сигнала. Применение параметров расширения 310 включает этап 320, с применением фазового сдвига к сжатому аудио сигналу для получения сдвинутой по фазе версии сжатого звукового сигнала с сохранением неизменным фазового сдвига декоррелированного сигнала. Применение параметров расширения 310 также включает этап 330 суммирования сдвинутой по фазе версии сжатого аудио сигнала с декоррелированным сигналом и получения расширенного звукового сигнала. Следует отметить, что способ 300 и аппаратный блок изобретения могут быть дополнены любыми описанными здесь функциями.

Способ согласно фиг.3В

На фиг.3В показан способ 350 для получения набора параметров расширения, согласно одному из вариантов изобретения. Способ 350 включает в себя первый этап 360 получения действительных параметров расширения (например, действительных элементов матриц), представляющих вклад сжатого сигнала (например, сигнала х) и декоррелированного сигнала (например, сигнала q) в требуемую интенсивность расширенных звуковых сигналов каналов (например, y₁, y₂) в зависимости от одного или более пространственных сигналов (например, ILD, ICC), представляющих распределение интенсивности. Способ 350 дополнительно содержит второй этап 370 получения значений угла сдвига фаз (например, α₁, α₂), описывающих желаемый сдвиг фаз между компонентами сжатого аудио сигнала в разных расширенных звуковых сигналах каналов (например, y₁, y₂) в зависимости от одного или более пространственных сигналов, представляющих сдвиг фаз между каналами (например, IPD). Способ 350 дополнительно включает этап 380 вращения (т.е. сдвига фаз) действительных параметров расширения, который должен применяться для сжатого аудио сигнала в зависимости от значений угла сдвига фаз, оставляя действительные параметры расширения, предназначенные для применения в декоррелированном сигнале, не зависящими от значений угла сдвига фаз, для получения завершенных параметров расширения из набора параметров расширения.

Способ 350 и аппаратный блок изобретения могут быть дополнены любыми из характеристик и функций, описанными здесь.

Выполнение программ для ЭВМ

В зависимости от определенных требований реализации, воплощения изобретения могут быть реализованы в оборудовании или в программном обеспечении. Реализация может быть выполнена с помощью цифровых носителей, например дискет, DVD, CD, ROM, FROM, EPROM, EEPROM или FLASH памяти, имеющих читаемые электронным способом управляющие сигналы, хранящиеся на них, которые совместимы (или способны работать совместно) с программной системой компьютера, так, что выполняется соответствующий способ.

Некоторые воплощения изобретения содержат носитель с читаемыми электронным способом управляющими сигналами, которые способны работать совместно с программной системой компьютера, например, так, что выполняется один из описанных здесь способов.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, способным при запуске его на компьютере выполнять один из способов. Программный код может быть сохранен, например, на машиночитаемых носителях.

Другие варианты включают компьютерную программу для выполнения одного из описанных здесь способов, хранящихся на машиночитаемых носителях. Иными словами, воплощение предлагаемого способа является компьютерной программой, имеющей программный код для выполнения одного из описанных здесь способов, когда компьютерная программа работает на компьютере.

Еще один вариант реализации изобретения, таким образом, является носителем информации (цифровым или машиночитаемым носителем), включающим записанную на нем компьютерную программу для выполнения одного из описанных в данном изобретении способов.

Еще один вариант осуществления предлагаемого способа является, таким образом, потоком данных или последовательностью сигналов, представляющим компьютерную программу для выполнения одного из описанных в данном изобретении способов. Поток данных или последовательность сигналов могут быть приспособлены для передачи через линии передачи данных, например, через Интернет.

Еще один вариант осуществления изобретения содержит средства обработки, например компьютер, или программируемое логическое устройство, настроенные или приспособленные для выполнения одного из описанных в данном изобретении способов.

Еще один вариант осуществления изобретения содержит компьютер с установленной на нем компьютерной программой для выполнения одного из описанных в данном изобретении способов.

В некоторых вариантах программируемое логическое устройство (например, программируемая логическая матрица) может быть использовано для выполнения некоторых или всех описанных в данном изобретении функциональных возможностей. В некоторых вариантах программируемая логическая матрица может взаимодействовать с микропроцессором для выполнения одного из описанных в данном изобретении способов.

Заключение

Подводя итог сказанному выше, был описан усовершенствованный способ расширения для воссоздания исходной межканальной разности фаз, с сохранением правильной декорреляции на выходе. Воплощения в соответствии с изобретением способны заменить другие способы, поскольку позволяют предотвратить потерю декорреляции в выходном сигнале, вызванную нежелательной обработкой фазы на выходе модуля декорелляции.

Список литературы

[1] С.Faller and F.Baumgarte, «Efficient representation of spatial audio using perceptual parametrization», IEEE WASPAA, Mohonk, NY, October 2001.

[2] F.Baumgarte and C.Faller, «Estimation of auditory spatial cues for binaural cue coding», ICASSP, Orlando, FL, May 2002.

[3] С.Faller and F.Baumgarte, «Binaural cue coding: a novel and efficient representation of spatial audio», ICASSP, Orlando, FL, May 2002.

[4] С.Faller and F.Baumgarte, «Binaural cue coding applied to audio compression with flexible rendering», AES 113th Convention, Los Angeles, Preprint 5686, October 2002.

[5] С.Faller and F.Baumgarte, «Binaural Cue Coding - Part II: Schemes and applications», IEEE Trans. on Speech and Audio Proc., vol.11, no. 6, Nov. 2003.

[6] J.Breebaart, S.van de Par, A.Kohlrausch, E.Schuijers, «High-Quality Parametric Spatial Audio Coding at Low Bitrates», AES 116th Convention, Berlin, Preprint 6072, May 2004.

[7] E.Schuijers, J.Breebaart, H.Pumhagen, J.Engdegard, «Low Complexity Parametric Stereo Coding», AES 116th Convention, Berlin, Preprint 6073, May 2004.

[8] ISO/IEC JTC 1/SC 29/WG 11, 23003-1, MPEG Surround.

[9] J.Blauert, Spatial Hearing: The Psychophysics of Human Sound Localization, The MIT Press, Cambridge, MA, revised edition 1997.

1. Аппаратный блок (100; 200) для расширения сжатого аудио сигнала (110, 210) и получения расширенного звукового сигнала (120, 220), содержащего один или несколько расширенных аудио каналов (222а, 22, б), включающий модуль обработки параметров (130; 240), настроенный на применение параметров расширения (H₁₁, H₁₂, H₂₁, H₂₂) для расширения сжатого аудио сигнала (110, 210) с целью получения расширенного звукового сигнала (120, 220), причем модуль обработки параметров (130; 240) настроен на применение сдвига фаз для сжатого аудио сигнала (110; x) и получение сдвинутой по фазе версии сжатого звукового сигнала, оставляя декоррелированный сигнал (150; q) независящим от сдвига фаз, и сложение сдвинутой по фазе версии сжатого звукового сигнала с декоррелированным сигналом (150; q) для получения расширенного звукового сигнала (120, 220).

2. Аппаратный блок для расширения (100, 200) по п.1, причем аппаратный блок для расширения настроен на получение декоррелированного сигнала (150; q) так, что декоррелированный сигнал является декоррелированной версией сжатого аудио сигнала (110; x).

3. Аппаратный блок для расширения (100, 200) по п.1, причем аппаратный блок для расширения (100; 200) настроен на расширение сжатого аудио сигнала (110; x) в расширенный звуковой сигнал (120, 220), содержащий множество расширенных аудио каналов (222а, 222в), в котором модуль обработки параметров (130; 240) настроен на применение параметров расширения (H₁₁, H₁₂, H₂₁, H₂₂) для расширения сжатого аудио сигнала (110; x) с использованием декоррелированного сигнала (150, q) с целью получения первого расширенного аудио сигнала канала (y₁) и второго расширенного аудио сигнала канала (y₂), в котором модуль обработки параметров (130; 240) настроен на применение изменяющегося во времени фазового сдвига (α₁, α₂) к сжатому аудио сигналу (110; x) для получения по крайней мере двух версий (H₁₁ x, H₂₁ x) сжатого аудио сигнала, имеющих по отношению друг к другу изменяющийся во времени фазовый сдвиг (α₁-α₂), и в котором модуль обработки параметров (130; 240) настроен на суммирование по крайней мере двух вариантов сжатого аудио сигнала с декоррелированным сигналом (150, q) для получения по крайней мере двух расширенных звуковых сигналов канала (y₁, y₂), так, что декоррелированный сигнал сохраняет неизменным во времени фазовый сдвиг (α₁-α₂).

4. Аппаратный блок для расширения (100, 200) по п.3, в котором модуль обработки параметров (130; 240) настроен на суммирование по крайней мере двух версий (H₁₁ x, H₂₁ x) сжатого аудио сигнала (110; x) с декоррелированным сигналом (150; q), так, что часть сигнала первого расширенного аудио сигнала канала (y₁), представляющая собой декоррелированный сигнал (150; q), и часть сигнала второго расширенного аудио сигнала канала (y₂), представляющая собой декоррелированный сигнал (150; q), имеют постоянное во времени соотношение фаз.

5. Аппаратный блок для расширения (100, 200) по п.3, в котором модуль обработки параметров (130; 240) настроен на суммирование по крайней мере двух версий (H11 x, H21 x) сжатого аудио сигнала (110; x) с декоррелированным сигналом (150; q), так, что часть сигнала первого расширенного аудио сигнала канала (y₁), представляющая собой декоррелированный сигнал (150; q), и часть сигнала второго расширенного аудио сигнала канала (y₂), представляющая собой декоррелированный сигнал (150; q), находятся в фазе или имеют 180° сдвиг по фазе по отношению друг к другу.

6. Аппаратный блок для расширения (100, 200) по п.3, в котором модуль обработки параметров (130; 240) настроен на получение по крайней мере двух версий (H₁₁ x, H₂₁ x) сжатого аудио сигнала, имеющих по отношению друг к другу изменяющийся во времени фазовый сдвиг, перед суммированием не менее двух версий (H₁₁ x, H₂₁, x) сжатого аудио сигнала с декоррелированным сигналом (150; q), причем декоррелированный сигнал не зависит от изменяющегося во времени фазового сдвига.

7. Аппаратный блок для расширения (100, 200) по п.1, причем аппаратный блок для расширения включает в себя определитель параметров (260), настроенный на определение фазового сдвига (α₁, α₂) на основе параметров межканальной разности фаз (282).

8. Аппаратный блок для расширения (100, 200) по п.1, в котором модуль обработки параметров (130; 240) включает умножитель матрицы на вектор (242), настроенный на умножение входного вектора, содержащего одну или несколько выборок (x) сжатого аудио сигнала (110, 210) и одну или несколько выборок (q) декоррелированного сигнала (150; q), на матрицу (H), содержащую элементы матрицы (H₁₁, H₁₂, H₂₁, H₂₂), представляющие собой параметры расширения, и получение, в результате, выходного вектора, представляющего собой одну или более выборок (y₁) первого расширенного звукового сигнала канала (222а) и одну или более выборок (y₂) второго расширенного аудио сигнала канала (222в), и в котором аппаратный блок для расширения включает в себя определитель параметров расширения (260), настроенный на получение элементов матрицы (H₁₁, H₁₂, H₂₁, H₂₂) на основе пространственных сигналов, связанных со сжатым аудио сигналом (110, 210), и в котором определитель параметров расширения (260) настроен на применение изменяющегося во времени фазового сдвига только для элементов матрицы (H₁₁, H₂₁), который должен применяться к одной или более выборкам сжатого сигнала (x), при этом оставляя неизменной фазу элементов матрицы (H₁₂, H₂₂) и на применение фазового сдвига, который должен применяться к одной или более выборкам декоррелированного сигнала (q), не зависящего от изменяющегося во времени фазового сдвига.

9. Аппаратный блок для расширения (100, 200) по п.8, в котором умножитель матрицы на вектор (242) настроен на получение выборок (x) сжатого аудио сигнала (110, 210) и выборок (q) декоррелированного сигнала (150; x) в комплекснозначном представлении; причем умножитель матрицы на вектор (242) настроен на умножение комплекснозначных элементов матрицы (H₁₁, H₂₁) на один или несколько элементов входного вектора с использованием фазового сдвига, аппаратный блок для расширения настроен на получение выборок (y₁, y₂) расширенных аудио каналов (222а, 222в) в комплекснозначном представлении; и причем определитель параметров расширения (260) настроен на вычисление действительных значений или значений магнитуды (, , , ) элементов матрицы на основе параметров разности уровней между каналами, параметров корреляции или параметров когерентности между каналами, связанными со сжатым аудио сигналом (110, 210), для вычисления значения фазы (α₁, α₂) элементов матрицы (H₁₁, H₂₁), которые должны применяться к одной или более выборкам сжатого сигнала на основе параметров межканальной разности фаз (282), связанными со сжатым аудио сигналом (110, 210), и применение комплексного вращения действительных значений или значений магнитуды элементов матрицы (,), которые должны применяться к одной или нескольким выборкам (x) сжатого сигнала (110; 210) в зависимости от соответствующих значений фазы (α₁, α₂) для получения элементов матрицы (H₁₁, H₂₁), которые должны применяться к одной или нескольким выборкам (x) сжатого сигнала.

10. Аппаратный блок для расширения (100, 200) по п.8, в котором умножитель матрицы на вектор (242) настроен на получение выходного вектора

в соответствии с уравнением

в котором
y_i обозначает комплекснозначную выборку i-го расширенного аудио канала;
α_i обозначает значение фазы, связанное с i-м расширенным звуковым каналом;
обозначает действительную часть значения магнитуды, характеризующую вклад сжатого звукового сигнала в i-м расширенном звуковом канале;
обозначает действительную часть значения магнитуды, характеризующую вклад декоррелированного сигнала q в i-м расширенном звуковом канале;
j обозначает мнимую единицу;
x обозначает выборку сжатого звукового сигнала;
q обозначает выборку декоррелированного сигнала; и
e^... обозначает экспоненциальную функцию.

11. Аппаратный блок (260) для получения набора параметров расширения (H₁₁, H₁₂, H₂₁, H₂₂) для расширения сжатого аудио сигнала (110, 210) в расширенный аудио сигнал (120, 220), содержащий множество расширенных аудио каналов (222а, 222В), аппаратный блок (260), включающий определитель действительных параметров расширения (270), настроенный на получение действительных параметров расширения (, , , ), описывающих требуемое распределение интенсивности сжатого сигнала (x) и декоррелированного сигнала (q) в расширенных сигналах аудио канала (y₁, y₂) в зависимости от одного или более пространственных сигналов, представляющих распределение интенсивности; определитель сдвига фазы параметров расширения (280), настроенный на получение одного или нескольких значений сдвига фаз (α₁, α₂), описывающих желаемый сдвиг фаз между компонентами сжатого аудио сигнала в различных расширенных аудио сигналах канала (y₁, y₂) в зависимости от одного или более пространственных сигналов, представляющих разность фаз между каналами, и фазовращатель параметров расширения (290), настроенный на вращение действительных параметров расширения (,), предоставляемых определителем действительных параметров расширения (270) и предназначенных для применения к сжатому аудио сигналу (x) в зависимости от значений сдвига фаз (α₁, α₂), оставляя без изменения действительные параметры расширения (,); предоставляемые определителем действительных параметров расширения (270) и предназначенные для применения в декоррелированном сигнале (q) не зависящие от значений сдвига фаз, для получения завершенных параметров расширения (H₁₁, H₁₂, H₂₁, H₂₂) из набора параметров расширения.

12. Аппаратный блок (260) по п.11, в котором набор параметров расширения представлен матрицей расширения; причем действительные параметры расширения являются действительными элементами матрицы; и причем завершенные параметры расширения являются завершенными элементами матрицы; и причем аппаратный блок настроен на получение завершенных параметров расширения, так, что параметры расширения, применяемые к сжатого сигналу, включают фазы, которые зависят от пространственных сигналов, полученных аппаратным блоком, в то время как параметры расширения, которые должны применяться к декоррелированному сигналу, имеют предварительно определенное значение фазы, которое не зависит от пространственных сигналов.

13. Способ (300) для расширения сжатого аудио сигнала в расширенный аудио сигнал, содержащий один или более расширенных аудио каналов, включающий применение (310) параметров расширения для расширения сжатого аудио сигнала с целью получения расширенного аудио сигнала; причем применение (310) параметров расширения включает в себя применение (320) сдвига фаз сжатого аудио сигнала для получения сдвинутых по фазе версий сжатого аудио сигнала, оставляя декоррелированный сигнал неизменным по отношению к сдвигу фаз; и причем применение (310) параметров расширения включает в себя суммирование (330) сдвинутой по фазе версии сжатого аудио сигнала с декоррелированным сигналом и получение расширенного звукового сигнала.

14. Способ (350) для получения набора параметров расширения для расширения сжатого аудио сигнала в расширенный звуковой сигнал, содержащий множество расширенных аудио сигналов, включающий получение (360) действительных параметров расширения, описывающих требуемое распределение интенсивности сжатого сигнала и декоррелированного сигнала для расширенных аудио сигналов канала в зависимости от одного или более пространственных сигналов, представляющих распределение интенсивности, получение (370) значений сдвига фаз, описывающих желаемый сдвиг фаз между компонентами сжатого аудио сигнала в разных расширенных аудио сигналах канала в зависимости от одного или более пространственных сигналов, представляющих разность фаз между каналами, а также вращение (380) действительных значений параметров расширения, применяемое к сжатому аудио сигналу в зависимости от значений сдвига фаз, оставляя без изменения действительные параметры расширения, предназначенные для применения к декоррелированному сигналу, не зависящему от от значений сдвига фаз, для получения завершенных параметров расширения из набора параметров расширения.

15. Машиночитаемый носитель информации с записанной на нем компьютерной программой для выполнения способа по п.13, когда компьютерная программа работает на компьютере.

16. Машиночитаемый носитель информации с записанной на нем компьютерной программой для выполнения способа по п.14, когда компьютерная программа работает на компьютере.

Изобретение относится к средствам маскирования аналоговый речевых сигналов и может быть использован в системах связи силовых ведомств. Технический результат заключается в сокращении времени выполнения преобразования.

Способ (варианты) определения психофизиологического состояния // 2546559

Изобретение относится к средствам психофизиологического обследования человека по различным каналам взаимодействия с техническими средствами и может быть использовано для определения психоэмоционального состояния при реализации перцептивных услуг в полимодальных инфокоммуникационных системах, а также при проведении профессионального психофизиологического отбора.

Кодирущее устройство и способ кодирования, декодирующее устройство и способ декодирования, и программа // 2546324

Настоящее изобретение относится к средствам для кодирования и декодирования. Технический результат заключается в улучшении качества звука, вызванном кодированием аудиосигналов.

Способ кодирования и устройство для декодирования основывающегося на объектах аудиосигнала // 2544789

Изобретение относится к средствам кодирования и декодирования основывающихся на объектах аудиосигналов. Технический результат заключается в предоставлении средств кодирования и декодирования аудио.

Аудио декодер, аудио кодер, способ для декодирования аудио сигнала, способ кодирования звукового сигнала, компьютерная программа и аудио сигнал // 2543302

Изобретение относится к области кодирования и декодирования аудио сигналов. Технический результат заключается в обеспечении адаптации правил отображения информации энтропийного декодирования к статике сигнала.

Аудио или видео кодер, аудио или видео и относящиеся к ним способы для обработки многоканальных аудио или видеосигналов с использованием переменного направления предсказания // 2541864

Изобретение относится к средствам обработки многоканальных аудио или видеосигналов с использованием переменного направления предсказания. Технический результат заключается в повышении качества аудио или видео.

Устройство и способ кодирования с использованием сокращенной кодовой книги с адаптивной установкой в исходное положение // 2533439

Изобретение относится к средствам кодирования с использованием сокращенной кодовой книги с адаптивной установкой в исходное положение. Технический результат заключается в снижении объема информации, передаваемой от приемной стороны передающей стороне.

Способ и устройство для кодирования и оптимальной реконструкции трехмерного акустического поля // 2533437

Изобретение относится к средствам кодирования аудиосигналов и относящейся к ним пространственной информации в формат, не зависящий от схемы воспроизведения. Технический результат заключается в обеспечении технологии, способной представлять пространственный аудиоконтент независящим от демонстрационного способа методом.

Способ обновления кодера посредством интерполяции фильтра // 2530327

Изобретение относится к средствам обновления блока обработки кодера или декодера для использования модулированной трансформанты размером, превышающим заданный размер.

Адаптивный дельта кодек // 2530294

Изобретение относится к устройству преобразования речевых сигналов из аналоговой в цифровую форму в цифровых телефонных аппаратах. Технический результат заключается в повышении качества передачи речевого сигнала по цифровым каналам связи с малой скоростью передачи при одновременном упрощении схемы устройства.

Аппаратный блок, способ и компьютерная программа для преобразования расширения сжатого аудио сигнала с помощью сглаженного значения фазы // 2550525

Группа изобретений относится к расширению сжатого аудио сигнала, состоящего из одного или нескольких сжатого аудио каналов, в расширенный звуковой сигнал. Технический результат заключается в повышении качества расширенного звукового сигнала. Блок расширения настроен на использование текущих переменных параметров расширения для расширения сжатого аудио сигнала с целью получения расширенного звукового сигнала, в котором текущие переменные параметры расширения содержат текущие переменные сглаженных значений фазы. Определитель параметров настроен на получение одного или нескольких текущих сглаженных параметров расширения для использования в блоке расширения на основе входной информации о дискретизированных параметрах расширения. Определитель параметров настроен на объединение масштабированной версии предыдущего сглаженного значения фазы и масштабированной версии информации входной фазы, с использованием алгоритма ограничения изменения фазы для определения текущего сглаженного значения фазы на основе предыдущего сглаженного значения и информации входной фазы. 3 н. и 10 з.п. ф-лы, 7 ил.

Устройство и способ для оценки уровня кодированных аудио кадров в области битового потока // 2553084

Изобретение относится к средствам оценки аудио сигнала. Техническим результатом является повышение эффективности кодирования аудио сигнала. Устройство содержит модуль определения кодовой книги из множества кодовых книг в качестве идентифицированной кодовой книги. В устройстве аудио сигнал кодируется, используя идентифицированную кодовую книгу, и модуль оценки, сконфигурированный для получения значения уровня, ассоциированного с идентифицированной кодовой книгой, в качестве полученного значения уровня и для оценивания оценки уровня аудио сигнала, используя полученное значение уровня. 8 н. и 11 з.п. ф-лы, 11 ил.

Стереофоническое кодирование на основе mdct с комплексным предсказанием // 2554844

Изобретение относится к средствам для стереофонического кодирования и декодирования с использованием комплексного предсказания в частотной области. Технический результат заключается в обеспечении высокого качества звука при уменьшении вычислительных затрат. В одном из вариантов осуществления изобретения способ декодирования, предназначенный для получения выходного стереофонического сигнала из входного стереофонического сигнала, закодированного посредством стереофонического кодирования с комплексным предсказанием и включающего первые представления двух входных каналов в частотной области, включает следующие этапы повышающего микширования: вычисление второго представления первого входного канала в частотной области и вычисление выходного канала на основе первого и второго представлений первого входного канала в частотной области, первого представления второго входного канала в частотной области и коэффициента комплексного предсказания. Способ включает выполнение модификаций в частотной области селективно перед повышающим микшированием или после повышающего микширования. 3 н. и 12 з.п. ф-лы, 19 ил.

Аудиокодер и декодер // 2562375

Изобретение относится к средствам кодирования и декодирования. Технический результат заключается в повышении качества кодированного и декодированного сигналов при пониженной скорости передачи данных. Система аудикодирования содержит блок линейного предсказания для фильтрации входного сигнала на основе адаптивного фильтра; блок преобразования для преобразования кадра отфильтрованного входного сигнала в область преобразования; блок квантования для квантования сигнала в области преобразования. На основе характеристик входного сигнала блок квантования принимает решение кодировать сигнал в области преобразования с помощью устройства квантования, основанного на статистической модели, или устройства квантования, не основанного на статистической модели. Предпочтительно решение основывается на размере кадра, примененном блоком преобразования. 5 н. и 13 з.п. ф-лы, 34 ил.

Ограничение понижающего микширования // 2565015

Изобретение относится к области микширования. Технический результат - обеспечение совместимости уровня речевого сигнала, в то же время позволяя избегнуть клиппинга выходного (выходных) сигнала (сигналов), а также предоставление способов понижающего микширования, имеющих данные общие свойства и являющихся подходящими для сохранения динамических, временных и/или пространственных свойств звукового сигнала. Способ понижающего микширования множества входных звуковых сигналов включает этапы, на которых: определяют значения коэффициентов понижающего микширования как произведения упомянутых максимальных значений коэффициентов понижающего микширования и значения ограничивающего фактора, которое является общим в пределах каждой подгруппы, для удовлетворения с учетом входных данных условию попадания в диапазон для упомянутого по меньшей мере одного выходного звукового сигнала; и применяют значения коэффициентов понижающего микширования для осуществления понижающего микширования множества входных звуковых сигналов по меньшей мере в два выходных звуковых сигнала, относящихся к пространственно связанным каналам, при этом значения коэффициентов понижающего микширования определяют как произведения упомянутых максимальных значений коэффициентов понижающего микширования и значения ограничивающего фактора, при этом значение ограничивающего фактора является общим в пределах каждой подгруппы и для всех выходных звуковых сигналов, для удовлетворения совместно условию попадания в диапазон для каждого из упомянутых по меньшей мере двух выходных звуковых сигналов, соответствующих пространственно связанным каналам. 8 н. и 15 з.п. ф-лы, 5 ил.

Адаптивная обработка несколькими узлами обработки медиаданных // 2568372

Изобретение относится к адаптивной обработке медиаданных. Технический результат - улучшение представления и обработки содержимого медиаданных. Способ обработки медиаданных, включающий этапы, на которых: определяют первым устройством в цепочке обработки медиаданных то, выполнялась ли на выходной версии медиаданных операция обработки медиаданных; в ответ на определение первым устройством того, что операция обработки медиаданных была выполнена на выходной версии медиаданных, выполняют: создание или модифицирование первым устройством состояния медиаданных, где состояние указывает тип обработки медиаданных, выполненной на выходной версии медиаданных; передачу выходной версии медиаданных и состояния медиаданных из первого устройства во второе устройство в нисходящем направлении по цепочке обработки медиаданных. 6 н. и 24 з.п. ф-лы, 26 ил.

Устройство для декодирования сигнала, содержащего переходные процессы, используя блок объединения и микшер // 2573774

Изобретение относится к средствам для генерирования декоррелированного сигнала. Технический результат заключается в повышении эффективности генерирования декоррелированного сигнала. Устройство содержит блок отделения сигнала переходного процесса, декоррелятор переходного процесса, второй декоррелятор, блок объединения и микшер, в котором блок отделения сигнала переходного процесса приспособлен для разделения входного сигнала на первый компонент сигнала и на второй компонент сигнала таким образом, чтобы первый компонент сигнала содержал части сигнала переходного процесса входного сигнала, и таким образом, чтобы второй компонент сигнала содержал части сигнала без переходного процесса входного сигнала. Блок объединения и микшер скомпонованы таким образом, чтобы декоррелированный сигнал из блока объединения выводился в микшер в качестве входного сигнала. 3 н. и 11 з.п. ф-лы, 10 ил.

Гибридное кодирование многоканального звука // 2581782

Изобретение относится к средствам кодирования и декодирования многоканального звукового сигнала. Технический результат заключается в повышении качества кодированного сигнала. Способ кодирования многоканального входного звукового сигнала включает этапы формирования понижающего микширования низкочастотных составляющих подмножества каналов входного сигнала, кодирования формы сигнала каждого канала понижающего микширования, формируя тем самым подвергнутые понижающему микшированию данные с кодированной формой сигнала, выполнения параметрического кодирования по меньшей мере некоторых верхних частотных составляющих каждого канала входного сигнала, формируя тем самым параметрически кодированные данные, и формирования кодированного звукового сигнала (например, кодированного сигнала в формате E-AC-3), указывающего на подвергнутые понижающему микшированию данные с кодированной формой сигнала и параметрически кодированные данные. Другие аспекты представляют собой способы декодирования такого кодированного сигнала и системы, выполненные с возможностью выполнения любого варианта осуществления способа согласно изобретению. 4 н. и 26 з.п. ф-лы, 4 ил., 1 табл.

Расположение элемента кадра в кадрах потока битов, представляющего аудио содержимое // 2589399

Изобретение относится к области кодирования. Технический результат - обеспечение компромисса между слишком высоким потоком битов и расходами на декодирование. Цифровой носитель данных имеет сохраненные на нем данные, для выполнения способа позиционирования элемента кадра, причем данные представляют поток битов, содержащий: блок конфигурации и последовательность кадров, соответственно представляющие последовательные периоды времени аудио содержимого, при этом блок конфигурации, содержит поле, указывающее количество N элементов в кадре на кадр, и часть синтаксиса индикации типа, указывающую, для каждой позиции элемента для последовательности из N позиций элемента, тип элемента из множества типов элемента; и при этом каждый кадр из последовательности кадров содержит последовательность из N элементов кадра, в которой каждый элемент кадра имеет тип элемента, указанный частью синтаксиса индикации типа, для соответствующей позиции элемента, в которой соответствующий элемент кадра позиционирован в последовательности из N элементов кадра соответствующего кадра в потоке битов. 7 н. и 21 з.п. ф-лы, 39 ил., 16 табл.

Процессор аудиосигналов для обработки кодированных многоканальных аудиосигналов и способ для этого // 2595910

Изобретение относится к области одновременного воспроизведения многоканальных сигналов. Техническим результатом является обеспечение улучшенной обработки, снижение сложности и/или уменьшение вычислительной нагрузки, повышение качества звука, повышение производительности. Процессор аудиосигналов принимает множество кодированных многоканальных аудиосигналов. Многоканальный декодер декодирует первый кодированный многоканальный сигнал, чтобы формировать первый декодированный многоканальный сигнал. Формирователь формирует кодированный дополнительный аудиосигнал посредством выбора данных кодирования аудио. Дополнительный декодер формирует дополнительный декодированный сигнал посредством декодирования дополнительного кодированного аудиосигнала. Процессор вывода комбинирует первый декодированный многоканальный сигнал и дополнительный декодированный сигнал, чтобы формировать многоканальный выходной сигнал. 2 н. и 13 з.п. ф-лы, 4 ил.