Способы и устройства для эффективного использования поэтапно передаваемой информации в кодировании и декодировании звука

Авторы патента:

ГРИЛЛ Бернард (DE)

ХИЛЬПЕРТ Йоханес (DE)

НЕЙЗИНГЕР Матиас (DE)

РОБИЛЬИАРД Жульен (DE)

ЛУИС-ВАЛЕРО Мария (DE)

G10L19 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2491657:

Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE)

Заявленное изобретение имеет отношение к кодированию звука и декодированию звука, в частности к схеме кодирования и декодирования, селективно извлекаемой и/или передаваемой фазовой информации, когда восстановление такой информации перцепционно релевантно. Технический результат - эффективно кодированное представление первого и второго входного звукового сигнала. Для этого оно может быть получено посредством использования корреляционной информации, показывающей корреляцию между первым и вторым входными звуковыми сигналами, когда дополнительно учитывается характеристическая информация сигнала, показывающая, по крайней мере, первую или вторую, отличную характеристику входного звукового сигнала. Фазовая информация, показывающая фазовое соотношение между первым и вторым входными звуковыми сигналами, получается, когда входные звуковые сигналы имеют первую характеристику. Фазовая информация и показатель корреляции включаются в кодированное представление, когда входные звуковые сигналы имеют первую характеристику, и только корреляционная информация включается в кодированное представление, когда входные звуковые сигналы имеют вторую характеристику, 9 н. и 17 з.п. ф-лы, 14 ил.

Описание

Данное изобретение имеет отношение к кодированию звука и декодированию звука, в частности, к схеме кодирования и декодирования, селективно извлекаемой и/или передаваемой фазовой информации, когда восстановление такой информации перцепционно релевантно.

Современные параметрические многоканальные кодирующие схемы, такие как бинауральное кодирование реплики (ВСС), параметрическое стерео (PS) или MPEG объемное (MPS), используют компактное параметрическое представление реплик слуховой системы человека для пространственного восприятия. При этом учитывается скорость эффективного представления звукового сигнала, имеющего два или более звуковых каналов. В завершение, кодирующее устройство выполняет понижающее микширование от М-входных каналов до N-выходных каналов и передает извлеченные реплики вместе с сигналом понижающего микширования. Реплики, кроме того, квантуются согласно принципам человеческого восприятия, то есть, информация, которая не слышима или не различима слуховой системой человека, может удаляться или грубо квантоваться.

Поскольку сигнал понижающего микширования является «родовым» звуковым сигналом, полоса пропускания, потребляемая таким кодированным представлением оригинального звукового сигнала, может быть далее уменьшена посредством уплотнения сигнала понижающего микширования или каналов сигнала понижающего микширования посредством использования одноканальных звуковых компрессоров. Различные типы этих одноканальных звуковых компрессоров будут рассмотрены как базовые кодирующие устройства в следующих параграфах.

Типичные реплики, используемые для описания пространственной взаимосвязи между двумя или более звуковыми каналами, являются межканальными разностями уровней (ILD) параметризирующими соотношения уровней между входными каналами, межканальными взаимными корреляциями/когерентностями (ICC), параметризирующими статистическую взаимозависимость между входными каналами, и межканальными разностями времени/фазы (ITD или IPD), параметризирующими разность времени или фазы между подобными сегментами сигнала входных каналов.

Чтобы поддержать высокое перцепционное качество сигналов, представленных понижающим микшированием и ранее описанными репликами, индивидуальные реплики обычно вычисляются для различных частотных диапазонов. Таким образом, для данного временного сегмента сигнала передаются множественные реплики, параметризующие то же самое свойство, и каждый параметр реплики, представляющий предопределенный частотный диапазон сигнала. Реплики могут быть вычислены в зависимости от времени и частоты в масштабе, близком к частотному решению человека. Всякий раз, когда представлены многоканальные звуковые сигналы, соответствующий декодер выполняет повышающее микширование от M до N каналов, основанное на переданных пространственных репликах и переданных сигналах понижающего микширования (переданный сигнал понижающего микширования, поэтому, часто назвается сигналом-переносчиком). Обычно, получающийся канал повышающего микширования может быть описан как уровневая - и фазовая взвешенная версия переданного понижающего микширования. Декорреляция, произошедшая во время кодирования сигналов, может быть синтезирована посредством микширования и взвешивания переданного сигнала понижающего микширования («сухой» сигнал) с декоррелированным сигналом («влажный» сигнал), полученным из сигнала понижающего микширования как обозначено переданными параметрами корреляции (ICC). Тогда микшированные с повышением каналы имеют более сходную корреляцию относительно друг друга, чем имели оригинальные каналы. Декоррелированный сигнал (то есть сигнал, имеющий коэффициент взаимной корреляции близкий к нулю при взаимной корреляции с переданным сигналом) может быть произведен посредством подачи сигнала понижающего микширования на цепочку фильтров, таких как, например, всечастотные фильтры и линии задержки. Однако могут использоваться и дополнительные способы получения декоррелированного сигнала.

Очевидно, что в конкретном выполнении вышеупомянутой схемы кодирования/декодирования должен быть достигнут компромисс между проходящей скоростью передачи битов (в идеале являющейся насколько возможно низкой) и достижимым качеством (в идеале являющимся насколько возможно высоким) кодируемого сигнала. Поэтому может быть принято решение не передавать полный набор пространственных реплик, а опустить передачу одного конкретного параметра. На это решение может дополнительно повлиять выбор соответствующего повышающего микширования. Соответствующее повышающее микширование может, например, воспроизводить пространственную реплику, обычно не передаваемую. Таким образом, по крайней мере, для долговременного сегмента сигнала с полной полосой пропускания сохраняется среднее пространственное свойство. В частности, не все параметрические многоканальные схемы используют межканальную временную или межканальную фазовую разности, таким образом, избегая соответствующего вычисления и синтеза. Схемы, такие как MPEG объемная, рассчитаны только на синтез ILDs и ICCs. Межканальные разности фаз неявно аппроксимируются посредством синтеза декорреляции, который смешивает два представления декоррелированного сигнала с переданным сигналом понижающего микширования, где эти два представления имеют относительный фазовый сдвиг, равный 180°. Передача IPDs опускается, таким образом, уменьшается необходимое количество параметрической информации, в то же самое время, допускается деградация качества воспроизведения. Поэтому, существует потребность обеспечить лучшее качество восстановления сигнала без значительного увеличения необходимой скорости передачи битов. Одно осуществление данного изобретения достигает этой цели посредством использования фазового компаратора, который получает фазовую информацию, показывающую фазовое соотношение между первым и вторым входным звуковым сигналом, когда фазовый сдвиг между входными звуковыми сигналами превышает предварительно определенный порог. Связанный выходной интерфейс, который включает пространственные параметры и сигнал понижающего микширования в кодированное представление входных звуковых сигналов, действительно включает только полученную фазовую информацию, когда передача фазовой информации является необходимой, с перцепционной точки зрения. Чтобы сделать это, может непрерывно выполняться определение фазовой информации и только решение о том, должна ли фазовая информация быть включена или нет, может быть принято, основываясь на пороге. Порог может, например, описывать максимально допустимый фазовый сдвиг, для которого для достижения приемлемого качества восстановленного сигнала не нужна дополнительная обработка фазовой информации. Альтернативно, фазовый сдвиг между входными звуковыми сигналами может быть независимо получен из фактического генерирования фазовой информации таким образом, чтобы фазовый анализ, подходящий для получения фазовой информации, имел место только тогда, когда превышается фазовый порог. Альтернативно, может быть выполнен пространственный блок выбора выходного режима, который получает непрерывно производимую фазовую информацию, и который регулирует выходной интерфейс таким образом, чтобы включать фазовую информацию только тогда, когда соблюдается условие фазовой информации, то есть, например, когда разность фаз между входными сигналами превышает предварительно определенный порог. То есть, выходной интерфейс преимущественно включает параметры ICC и ILD, а так же сигнал понижающего микширования, только в кодированное представление входного звукового сигнала. При наличии сигнала, имеющего специфические характеристики (динамические особенности) сигнала, установленная фазовая информация дополнительно включается таким образом, что сигнал, восстанавливаемый при использовании кодированного представления, может быть восстановлен с более высоким качеством. Однако это может быть достигнуто только при минимальном количестве дополнительной переданной информации, так как фазовая информация действительно передается только для тех частей сигнала, которые важны. Это обеспечивает, с одной стороны, высокое качество восстановления и, с другой стороны, реализацию низкой скорости передачи битов.

Дальнейшее осуществление изобретения анализирует сигнал, чтобы получить характеристическую информацию о сигнале; характеристическая информация о сигнале, различает входные звуковые сигналы, имеющие различные типы или характеристики сигнала. Это могут, например, быть различные характеристики речевых и музыкальных сигналов. Фазовый компаратор может потребоваться только тогда, когда входные звуковые сигналы имеют первую характеристику, тогда как, когда входные звуковые сигналы имеют вторую характеристику, оценка фазы может быть устаревшей. Выходной интерфейс, поэтому, включает только фазовую информацию, когда кодируется сигнал, который требует синтеза фазы, чтобы обеспечить приемлемое качество восстановленного сигнала.

Другие пространственные реплики, такие как, например, корреляционная информация (например, параметры ICC), постоянно включены в кодированное представление, так как их присутствие может быть важным для обоих типов сигнала или характеристик сигнала. Это может, например, также быть верно для межканальной разности уровней, которая, по существу, описывает энергетическое соотношение между двумя восстановленными каналами. В дальнейшем осуществлении оценка фазы может быть выполнена, основываясь на других пространственных репликах, таких, как корреляция ICC между первым и вторым входным звуковым сигналом. Это может стать возможным, когда присутствует характеристическая информация, которая включает некоторые дополнительные ограничения на характеристики сигнала. Тогда, параметр ICC может использоваться, чтобы извлечь, кроме статистической информации, также фазовую информацию.

Согласно дальнейшему осуществлению, фазовая информация может быть включена чрезвычайно эффективно относительно битов только в том случае, когда выполняется единственное переключение фазы, сигнализирующее о применении фазового сдвига предварительно определенного размера. Тем не менее, грубое восстановление фазового соотношения при воспроизведении может быть достаточным для определенных типов сигнала, что более подробно будет рассмотрено ниже. В дальнейших осуществлениях фазовая информация может быть подана в значительно более высоком разрешении (например, 10 или 20 различных фазовых сдвигов) или даже как непрерывный параметр, дающий возможные относительные углы фазового сдвига между -180° и +180°.

Когда известна характеристика сигнала, фазовая информация может быть передана только для небольшого количества частотных диапазонов, которое может быть намного меньше, чем число частотных диапазонов, используемых для получения ICC и/или ILD параметров. Когда, например, известно, что входные звуковые сигналы имеют речевую характеристику, только одна единственная фазовая информация может быть необходимой для целой полосы пропускания. В дальнейшем осуществлении единственная фазовая информация может быть получена для частотного диапазона между, скажем, 100 гц и 5 кГц, так как предполагается, что мощность сигнала громкоговорителя, главным образом, распределяется в этом частотном диапазоне. Общий параметр фазовой информации для полной полосы пропускания может, например, быть допустимым, когда фазовый сдвиг превышает 90 градусов или 60 градусов. Когда известна характеристика сигнала, фазовая информация может, кроме того, быть получена непосредственно из уже существующих параметров ICC или параметров корреляции посредством применения порогового критерия к указанным параметрам. Например, когда параметр ICC меньше - 0.1, можно прийти к заключению, что этот параметр корреляции соответствует фиксированному фазовому сдвигу, поскольку речевая характеристика входных звуковых сигналов ограничивает другие параметры, что ниже будет описано более подробно. В дальнейшем осуществлении данного изобретения параметр ICC (параметр корреляции), полученный из сигнала, кроме того, изменяется или подвергается постобработке, когда фазовая информация включается в битовый поток. При этом используется тот факт, что ICC параметр (корреляции) может фактически включать информацию о двух характеристиках, а именно, о статистической зависимости между входными звуковыми сигналами и о фазовом сдвиге между этими сигналами. Когда передается дополнительная фазовая информация, параметр корреляции может, поэтому, быть изменен таким образом, что фаза и корреляция, отдельно, учитываются настолько, насколько возможно, во время восстановления сигнала. В обратном полностью совместимом сценарии такое изменение корреляции может также выполняться посредством осуществления изобретательного декодера. Он может активизироваться, когда декодер получает дополнительную фазовую информацию.

Чтобы обеспечить такое перцепционно высококачественное восстановление, осуществления изобретательных звуковых декодеров могут включать дополнительный процессор сигнала, работающий на промежуточных сигналах, произведенных внутренним микшером повышающего микширования звукового декодера. Микшер повышающего микширования получает, например, сигнал понижающего микширования и все пространственные реплики, кроме фазовой информации (ICC и ILD). Микшер повышающего микширования получает первый и второй промежуточный звуковой сигнал, имеющий такие свойства сигнала, как описано пространственными репликами. В заключение, может быть спрогнозировано генерирование дополнительного сигнала реверберации (декоррелированного), чтобы микшировать части декоррелированного сигнала (влажные сигналы) и переданный канал понижающего микширования (сухой сигнал). Однако, промежуточный постпроцессор сигналов применяет дополнительный фазовый сдвиг, по крайней мере, к одному из промежуточных сигналов, когда фазовая информация принимается звуковым декодером. Таким образом, промежуточный постпроцессор сигналов эффективен только тогда, когда передается дополнительная фазовая информация. Таким образом, осуществления изобретательных звуковых декодеров полностью совместимы с обычным звуковым декодером. Обработка в некоторых осуществлениях декодеров, так же как на стороне кодирующего устройства, может быть выполнена способом временной и частотной селекции. Таким образом, может быть обработан последовательный ряд соседних интервалов времени, имеющих множественные частотные диапазоны. Поэтому, некоторые осуществления звуковых кодирующих устройств включают блок объединения сигнала, чтобы объединить генерированные промежуточные звуковые сигналы и обработать в постпроцессоре промежуточные звуковые сигналы таким образом, чтобы кодирующее устройство производило непрерывный во времени звуковой сигнал. Таким образом, для первой структуры (временной сегмент) блок объединения сигнала может использовать промежуточные звуковые сигналы, полученные микшером повышающего микширования, и для второй структуры блок объединения сигнала может использовать обработанный в постпроцессоре промежуточный сигнал, поскольку он получается промежуточным постпроцессором сигнала. В дополнение к введению фазового сдвига, конечно, можно выполнить также более сложную обработку сигнала в промежуточном пост процессоре сигнала.

Альтернативно или дополнительно, осуществления звуковых декодеров могут включать процессор корреляционной информации, например такой, чтобы обработать в постпроцессоре полученную корреляционную информацию ICC, когда дополнительно получена фазовая информация. Обработанная в постпроцессоре корреляционная информация может затем использоваться обычным микшером повышающего микширования, чтобы генерировать промежуточные звуковые сигналы таким образом, что в комбинации с фазовым сдвигом, введенным постпроцессором сигналов, может быть достигнуто естественно звучащее воспроизведение звуковых сигналов.

Несколько осуществлений данного изобретения будут описаны в дальнейшем со ссылкой на приложенные рисунки, где:

фиг.1 показывает микшер повышающего микширования, генерирующий два выходных сигнала из сигнала понижающего микширования;

фиг.2 показывает пример использования параметров ICC микшером повышающего микширования фиг.1;

фиг.3 показывает примеры характеристик (динамических особенностей) входных звуковых сигналов, подлежащих кодированию;

фиг.4 показывает осуществление звукового кодирующего устройства;

фиг.5 показывает дальнейшее осуществление звукового кодирующего устройства;

фиг.6 показывает пример кодированного представления звукового сигнала, генерированного одним из кодирующих устройств фиг.4 и 5;

фиг.7 показывает дальнейшее осуществление кодирующего устройства;

фиг.8 показывает дальнейшее осуществление кодирующего устройства для кодирования речи/музыки;

фиг.9 показывает осуществление декодера;

фиг.10 показывает дальнейшее осуществление декодера;

фиг.11 показывает дальнейшее осуществление декодера;

фиг.12 показывает осуществление декодера речи/музыки;

фиг.13 показывает осуществление способа кодирования; и фиг.14 показывает осуществление способа декодирования. Фиг.1 показывает микшер повышающего микширования, поскольку он может использоваться в рамках осуществления декодера для генерирования первого промежуточного звукового сигнала 2 и второго промежуточного звукового сигнала 4 посредством использования сигнала понижающего микширования 6. Кроме того, дополнительная межканальная корреляционная информация и межканальная информация о разности уровней используется в качестве параметров регулирования усилителей, чтобы контролировать повышающее микширование.

Микшер повышающего микширования включает декоррелятор 10, три зависящих от корреляции усилителя 12а-12с, первый узел микширования 14а, второй узел микширования 14b, а так же первый и второй, зависящие от уровня, усилители 16а и 16b. Звуковой сигнал понижающего микширования 6 является моно сигналом, который распределяется на декоррелятор 10, а так же на вход зависящих от декорреляции усилителей 12a и 12b. Декоррелятор 10 создает, посредством использования звукового сигнала понижающего микширования 6, декоррелированную версию того же самого посредством использования алгоритма декорреляции. Декоррелированный звуковой канал (декоррелированный сигнал) вводится в третий из зависящих от корреляции усилитель 12c. Можно отметить, что компоненты сигнала микшера повышающего микширования, которые включают только образцы звуковых сигналов понижающего микширования, часто также называются «сухими» сигналами, тогда как компоненты сигнала, включающие только образцы декоррелированного сигнала, часто называются «влажными» сигналами. Зависящие от ICC усилители 12а-12c масштабируют влажные и сухие компоненты сигнала, согласно правилу масштабирования в зависимости от переданного параметра ICC. По существу, энергия этих сигналов регулируется до суммирования сухих и влажных компонентов сигнала узлами суммирования 14a и 14b. В заключение, выход зависящего от корреляции усилителя 12a предоставляется первому входу первого узла суммирования 14a, а выход зависящего от корреляции усилителя 12b предоставляется первому входу узла суммирования 14b. Выход зависящего от корреляции усилителя 12c, связанный с влажным сигналом, предоставляется второму входу первого узла суммирования 14a, а так же второму входу второго узла суммирования 14b. Однако, как показано на рис.1, знак влажного сигнала на узлах суммирования отличается тем, что это вход в первый узел суммирования 14a с отрицательным знаком, тогда как влажный сигнал с его оригинальным знаком вводится во второй узел суммирования 14b. Таким образом, декоррелированный сигнал микшируется с первым сухим компонентом сигнала с оригинальной фазой, принимая во внимание то, что он микшируется со вторым сухим компонентом сигнала с перевернутой фазой, то есть, с фазовым сдвигом, равным 180°. Соотношение энергии, как уже было объяснено, предварительно регулировалось в зависимости параметра корреляции таким образом, что сигналы, произведенные узлами суммирования 14a и 14b, имеют корреляцию, подобную корреляции первоначально кодированных сигналов (которая параметризована переданным параметром ICC). Наконец, соотношение энергии между первым каналом 2 и вторым каналом 4 регулируется посредством использования зависящих от энергии усилителей 16a и 16b. Соотношение энергии параметризуется параметром ILD таким образом, что оба усилителя регулируются функцией, зависящей от параметра ILD. Таким образом генерированные левый и правый каналы 2 и 4 имеют статистическую зависимость, подобную статистической зависимости первоначально кодированных сигналов. Однако, добавления в генерированный первый (левый) и второй (правый) выходные сигналы 2 и 4, происходящие непосредственно от переданного звукового сигнала понижающего микширования 6, имеют идентичные фазы. Хотя фиг.1 предполагает широкополосное выполнение повышающего микширования, дальнейшие выполнения могут осуществлять повышающее микширование индивидуально для множества параллельных частотных диапазонов таким образом, что микшер повышающего микширования рис.4 может работать на представлении с ограниченной полосой пропускания оригинального сигнала. Восстановленный сигнал с полным диапазоном затем может быть усилен посредством добавления всех выходных сигналов с ограниченной полосой пропускания к заключительной синтезирующей смеси. Фиг.2 показывает пример зависящей от параметра ICC функции, используемой для регулирования зависящих от корреляции усилителей 12a-12C. Используя эту функцию и соответствующим образом получая параметр ICC из оригинальных каналов, подлежащих кодированию, можно грубо воспроизвести (в среднем) фазовый сдвиг между первоначально кодированными сигналами. Для этого обсуждения важно понимание генерирования переданного параметра ICC. Основой для этого обсуждения может быть комплексный межканальный параметр когерентности, дифференцированный между двумя соответствующими сегментами сигнала двух входных звуковых сигналов, подлежащих кодированию, который определяется следующим образом:

$I C C_{c o m p l e x} = \frac{\sum_{k} \sum_{l} X_{1} (k, l) X_{2}^{*} (k, l)}{\sqrt{\sum_{k} \sum_{l} {| X_{1} (k, l) |}^{2} \sum_{k} \sum_{l} {| X_{2} (k, l) |}^{2}}} .$

В предыдущем уравнении 1 показывает число образцов в пределах обработанного сегмента сигнала, тогда как дополнительный индекс k обозначает один из нескольких поддиапазонов, который, согласно некоторым определенным осуществлениям, может быть представлен одним единственным параметром ICC. Другими словами, X₁ и Х₂ - комплекснозначные образцы поддиапазона этих двух каналов, k - индекс поддиапазона, и l - индекс времени. Комплекснозначные образцы поддиапазона могут быть получены посредством подачи первоначально отобранных входных сигналов в QMF (квадратурный зеркальный фильтр) -гребенку фильтров, получая, например, 64 поддиапазона, где образцы в пределах каждого из поддиапазонов представлены комплекснозначным числом. При вычислении комплексной взаимной корреляции посредством предыдущей формулы два соответствующих сегмента сигнала характеризуются одним комплекснозначным параметром, параметром ICC_complex, имеющим следующие свойства:

Его длина |ICC_complex| представляет когерентность двух сигналов. Чем длиннее вектор, тем больше статистическая зависимость между двумя сигналами.

Таким образом, всякий раз, когда длина или абсолютная величина ICC_complex равняется 1, оба сигнала, кроме одного глобального масштабного коэффициента, идентичны. Однако, они могут иметь относительную разность фаз, которая тогда задается фазовым углом ICC_complex. В этом случае, угол ICC_complex, относительно действительной оси, представляет фазовый угол между двумя сигналами. Однако, когда выполняется дифференцирование ICC_complex с использованием более одного поддиапазона (то есть, k>=2), фазовый угол, следовательно, является средним углом для всех обработанных параметрических диапазонов.

Другими словами, когда два сигнала статистически сильно зависимы (|ICC_complex|≈1), действительная часть Re {ICC_complex} является приблизительно косинусом фазового угла, и, таким образом, косинусом разности фаз между сигналами.

Когда абсолютная величина ICC_complex значительно ниже 1, угол Θ между вектором ICC_complex и действительной осью больше не может интерпретироваться как фазовый угол между идентичными сигналами. Тогда это, скорее, - лучшая фаза согласования между статистически довольно независимыми сигналами.

Фиг.3 дает три примера 20а, 20b и 20 с возможных векторов ICC_complex - Абсолютная величина (длина) вектора 20a близка к единице, что означает, что два сигнала, представленные вектором 20a, являются почти одинаковыми, но сдвинуты по фазе относительно друг друга. Другими словами, оба сигнала высоко когерентны. В этом случае, фазовый угол 30 (Θ) прямо соответствует фазовому сдвигу между почти идентичными сигналами. Однако, если в результате оценки ICC_complex получается вектор 20b, значение фазового угла Θ уже больше не является вполне определенным. Так как комплексный вектор 20b имеет абсолютную величину значительно ниже 1, обе проанализированные части сигнала или сигналы статистически довольно независимы. Таким образом, сигнал в пределах наблюдаемых временных сегментов не имеет общей формы. Однако, фазовый угол 30 представляет своего рода фазовый сдвиг, соответствующий лучшему согласованию обоих сигналов. Однако, когда сигналы некогерентны, общий фазовый сдвиг между двумя сигналами едва ли имеет значение. Вектор 20 с, снова, имеет абсолютную величину близкую к единице, так что его фазовый угол 32 (Ф) может снова быть однозначно идентифицирован как разность фаз между двумя подобными сигналами. Кроме того, очевидно, что фазовый сдвиг, больше 90°, соответствует действительной части вектора ICC_complex, которая меньше 0.

В схемах звукового кодирования, сосредотачивающихся на правильном построении статистической зависимости двух или более кодированных сигналов, возможная процедура повышающего микширования для создания первого и второго выходного канала из переданного канала понижающего микширования, проиллюстрирована на фиг.1.

Поскольку зависящая от ICC функция для управления зависящими от корреляции усилителями 20a-20c, часто используется функция, проиллюстрированная на фиг.2, чтобы обеспечивать гладкий переход от полностью коррелированных к полностью декоррелированным сигналам, без введения каких-либо неоднородностей. Фиг.2 показывает, как энергии сигнала распределяются между сухими компонентами сигнала (посредством управляющих усилителей 12a и 12b) и влажным компонентом сигнала (посредством управляющего усилителя 12c). Чтобы достигнуть этого, действительная часть комплекса ICC передается как мера длины ICC_complex и, таким образом, подобия между сигналами.

На фиг.2 ось-х показывает величину переданного параметра ICC, а ось-y показывает количество энергии сухого сигнала (сплошная линия 30a) и влажного сигнала (пунктирная линия 30b), смешанных узлами суммирования 14a и 14b микшера повышающего микширования. Таким образом, когда сигналы полностью коррелированы (та же самая форма сигнала, та же самая фаза), переданный параметр ICC будет равен единице. Поэтому, микшер повышающего микширования распределяет полученный звуковой сигнал понижающего микширования 6 на выходы, не добавляя влажных частей сигнала. Поскольку звуковой сигнал понижающего микширования, по существу, - сумма кодированных оригинальных каналов, воспроизведение является соответствующим в отношении фазы и корреляции.

Однако, если сигналы анти коррелированы (фаза=180°, та же самая форма сигнала), переданный параметр ICC равен -1. Поэтому, восстановленный сигнал не будет включать части сухого сигнала, а только компоненты влажного сигнала. Поскольку влажная часть сигнала добавляется к первому звуковому каналу и вычитается из генерированного второго звукового канала, фазовый сдвиг между сигналами восстановливается должным образом, чтобы быть равным 180°. Однако, сигнал вообще не включает сухие части сигнала. Это не очень хорошо, так как сухой сигнал фактически включает полную прямую информацию, переданную декодеру. Поэтому, качество восстановленного сигнала может ухудшиться. Однако, ухудшение может зависеть от типа кодированного сигнала, то есть, от храктеристики (динамических особенностей) базового сигнала. В общих чертах, коррелированые сигналы, произведенные декоррелятором 10, имеют подобную реверберации звуковую характеристику. Таким образом, например, слышимое искажение от использования только декоррелированного сигнала довольно низкое для музыкальных сигналов по сравнению с речевыми сигналами, где восстановление от реверберированного звукового сигнала приводит к неестественному звучанию. Итак, ранее описанная схема декодирования только грубо приближает свойства фазы, так как они, в лучшем случае, восстанавливаются в среднем. Это - чрезвычайно грубое приближение, так как достигается только посредством изменения энергии добавленного сигнала, где добавленные части сигнала имеют относительную разность фаз. равную 180°. Для сигналов, которые являются ясно декоррелированными или даже антикоррелированными (ICC≤0), необходимо значительное количество декоррелированного сигнала, чтобы восстановить эту декорреляцию, то есть, статистическую независимость между сигналами. Поскольку, как правило, декоррелированный сигнал, как выход всечастотных фильтров, имеет «подобный реверберации» звук, достижимое качество в целом значительно ухудшается. Как уже было упомянуто, для некоторых типов сигнала восстановление фазового соотношения может быть менее важным, а для других типов сигнала правильное восстановление может быть перцепционно релевантным. В частности, может потребоваться восстановление оригинального фазового соотношения, когда фазовая информация, полученная из сигналов, удовлетворяет определенным перцепционно мотивированным критериям фазового восстановления. Некоторые осуществления данного изобретения, поэтому, включают фазовую информацию в кодированное представление звуковых сигналов, когда реализуются определенные свойства фазы. Таким образом, фазовая информация передается только эпизодически, когда выгода (при оценке искажения в зависимости от скорости передачи) является существенной. Кроме того, переданная фазовая информация может грубо квантоваться таким образом, что требуется только незначительное количество дополнительной скорости передачи битов.

Учитывая переданную фазовую информацию, можно восстановить сигнал с правильным фазовым соотношением между сухими компонентами сигнала, то есть, между компонентами сигнала, полученными непосредственно из оригинальных сигналов, которые, поэтому, перцепционно высоко релевантны.

Если, например, сигналы кодируются с ICC_complex-вектором 20c, переданный параметр ICC (действительная часть ICC_complex) равна приблизительно - 0.4. Таким образом, при повышающем микшировании более 50% энергии будут получены из декоррелированного сигнала. Однако, поскольку значительное количество энергии все еще происходит из звукового канала понижающего микширования, фазовое соотношение между компонентами сигнала, происходящими из звукового канала понижающего микширования, все еще важно, поскольку слышимо. Таким образом, может возникнуть необходимость более близко аппроксимировать фазовое соотношение между сухими частями восстановленного сигнала. Поэтому, дополнительная фазовая информация передается, как только определяется, что фазовый сдвиг между оригинальными звуковыми каналами больше предварительно определенного порога. Примеры для такого порога могут быть 60°, 90° или 120°, в зависимости от определенного выполнения. В зависимости от порога фазовое соотношение может передаваться с высоким разрешением, то есть, сообщается один из множества предопределенных фазовых сдвигов, или передается непрерывно меняющийся фазовый угол. В некоторых осуществлениях данного изобретения передается только одиночный индикатор фазового сдвига или фазовая информация, указывающая на то, что фаза восстановленных сигналов будет сдвинута на предварительно определенный фазовый угол. Согласно одному осуществлению, этот фазовый сдвиг применяется только, когда параметр ICC находится в пределах предварительно определенного отрицательного диапазона. Этот диапазон может, например, быть диапазоном от - 1 до - 0.3 или от - 0.8 до - 0.3 в зависимости от критерия фазового порога. Таким образом, может потребоваться один единственный бит фазовой информации.

Когда действительная часть ICC_complex положительна, фазовое соотношение между восстановленными сигналами, в среднем, соответствующим образом аппроксимируется микшером повышающего микширования фиг.1 благодаря идентичной - фазе обработки сухих компонентов сигнала. Если, однако, переданный параметр ICC ниже 0, фазовый сдвиг оригинальных сигналов, в среднем, больше 90°. В то же самое время, все еще слышимые части сухого сигнала используются микшером повышающего микширования. Поэтому, в области, начинающейся с ICC=0 до, скажем, ICC приблизижающегося к - 0.6, фиксированный фазовый сдвиг (соответствующий, например, фазовому сдвигу, соответствующему середине ранее введенного интервала), может предусмотреть значительно увеличенное перцепционное качество восстановленного сигнала, за счет только одного единственного переданного бита. Когда параметр ICC двигается к еще меньшим величинам, например, ниже - 0.6, только небольшое количество энергии сигнала в первом и втором выходных каналах 2 и 4 происходит из сухого компонента сигнала. Поэтому, восстановление соответствующих свойств фазы между этими перцепционно менее релевантными частями сигнала снова может быть пропущено, так как сухие части сигнала едва ли вообще слышимы. Фиг.4 показывает одно осуществление изобретательного кодирующего устройства для генерирования кодированного представления первого входного звукового сигнала 40а и второго входного звукового сигнала 40b. Звуковое кодирующее устройство 42 включает блок оценки пространственных параметров 44, фазовый компаратор 46, выходной блок выбора рабочего режима 48 и выходной интерфейс 50. Первый и второй входные звуковые сигналы 40a и 40b распределяются блоку оценки пространственных параметров 44, а так же фазовому компаратору 46. Блок оценки пространственных параметров приспособлен для получения пространственных параметров, показывающих характеристику сигнала (динамическую особенность) двух сигналов относительно друг друга, такую как, например, параметр ICC и параметр ILD. Предполагаемые параметры предоставляются выходному интерфейсу 50. Фазовый компаратор 46 приспособлен для получения фазовой информации двух входных звуковых сигналов 40a и 40b. Такая фазовая информация может, например, быть фазовым сдвигом между двумя сигналами. Фазовый сдвиг может, например, быть оценен непосредственно посредством выполнения фазового анализа непосредственно двух входных звуковых сигналов 40a и 40b. В дальнейшем альтернативном осуществлении параметры ICC, полученные блоком оценки пространственных параметров 44, могут быть предоставлены фазовому компаратору через дополнительную сигнальную линию 52. Фазовый компаратор 46 может тогда выполнять определение разности фаз, используя так или иначе полученные параметры ICC. Это может привести к выполнению с более низкой сложностью, по сравнению с осуществлением с полным фазовым анализом двух выходных звуковых сигналов.

Полученная фазовая информация предоставляется выходному блоку выбора рабочего режима 48, который может переключать выходной интерфейс 50 между первым выходным режимом и вторым выходным режимом. Полученная фазовая информация предоставляется на выходной интерфейс 50, который создает кодированное представление первого и второго входных звуковых сигналов 40a и 40b посредством включения определенных подмножеств генерированных ICC, ILD или РГ (фазовая информация) параметров в кодированное представление. В первом рабочем режиме выходной интерфейс 50 включает ICC, ILD и фазовую информацию PI в кодированное представление 54. Во втором рабочем режиме выходной интерфейс 50 включает только ICC и ILD параметр в кодированное представление 54.

Блок выбора рабочего режима 48 определяет для первого выходного режима, когда фазовая информация показывает разность фаз между первым и вторым звуковыми сигналами 40a и 40b, который из них больше предварительно определенного порога. Разность фаз может, например, быть определена посредством выполнения полного фазового анализа сигнала. Он может, например, быть выполнен посредством перемещения входных звуковых сигналов относительно друг друга и вычисления взаимной корреляции для каждого перемещения сигналов. Взаимная корреляция с самой большой величиной соответствует фазовому сдвигу.

В альтернативном осуществлении фазовая информация оценивается от параметра ICC. Предполагается существенная разность фаз, когда параметр ICC (действительная часть ICC_complex) ниже предварительно определенного порога. Возможные для обнаружения фазовые сдвиги могут, например, быть фазовым сдвигом более 60°, 90° или 120°. Наоборот, критерием для параметра ICC может быть порог 0.3, 0 или - 0.3.

Фазовая информация, введенная в представление, может, например, быть единственным битом, указывающим предварительно определенный фазовый сдвиг. Альтернативно, переданная фазовая информация может быть более точной при передаче фазовых сдвигов при более тонкой квантизации до непрерывного представления фазового сдвига. Кроме того, звуковое кодирующее устройство может работать на ограниченной по диапазону копии входных звуковых сигналов, так что несколько звуковых кодирующих устройств 43 фиг.4 осуществляются параллельно; каждое звуковое кодирующее устройство работает на отфильтрованной версии полосы пропускания оригинального широкополосного сигнала.

Фиг.5 показывает дальнейшее осуществление изобретательного звукового кодирующего устройства, включающего блок оценки корреляции 62, фазовый компаратор 46, блок оценки характеристики (динамических особенностей) сигнала 66 и выходной интерфейс 68. Фазовый компаратор 46 соответствует фазовому компаратору, представленному на фиг.4. Дальнейшее обсуждение свойств фазового компаратора, поэтому, опущено, чтобы избежать ненужной избыточности. Обычно, компонентам, имеющим те же самые или подобные функциональные возможности, даются те же самые ссылки. Первый входной звуковой сигнал 40a и второй входной звуковой сигнал 40b распределяются блоку оценки характеристики (динамических особенностей) сигнала 66, блоку оценки корреляции 62 и фазовому компаратору 46.

Блок оценки характеристики (динамических особенностей) сигнала приспособлен, чтобы получать характеристическую информацию сигнала, которая указывает первую или вторую отличную характеристику (особенность) входного звукового сигнала. Например, речевой сигнал может обнаруживаться как первая характеристика (особенность), а музыкальный сигнал может обнаруживаться как вторая характеристика (особенность) сигнала. Дополнительная характеристическая информация сигнала может использоваться, чтобы определить потребность в передаче фазовой информации или, дополнительно, интерпретировать параметр корреляции в терминах фазового соотношения.

В одном осуществлении блок оценки характеристики (динамических особенностей) сигнала 66 является классификатором сигнала, используемым для получения информации, если данное извлечение звукового сигнала, то есть, первый и второй входные звуковые каналы 40a и 40b, является речеподобным или неречевым. В зависимости от полученной характеристики (особенности) сигнала, оценка фазы фазовым компаратором 46 может быть включена и выключена через дополнительную управляющую ссылку 70. Альтернативно, оценка фазы может выполняться постоянно, в то время как выходной интерфейс управляется через дополнительную вторую управляющую ссылку 72, так чтобы, например, включать только фазовую информацию 74, когда определяется первая характеристика (особенность) входного звукового сигнала, то есть, например, речевая характеристика (особенность).

Наоборот, ICC-определение выполняется постоянно, например, так чтобы обеспечить параметр корреляции, требуемый для повышаюа1его микширования кодированного сигнала.

Дальнейшее осуществление звукового кодирующего устройства может, по выбору, включать микшер понижающего микширования 76, приспособленный, чтобы получать звуковой сигнал понижающего микширования 78, который может, по выбору, быть включен в кодированное представление 54, предоставленное звуковым кодирующим устройством 60. В альтернативном осуществлении фазовая информация может основываться на анализе корреляционной информации ICC, как уже обсуждалось для осуществления фиг.4. В заключение, выход блока оценки корреляции 62 может предоставляться фазовому компаратору 46 через дополнительную сигнальную линию 52.

Такое определение может, например, основываться на ICC_complex согласно следующим соображениям, когда сигнал различается тем, что является речевым сигналом или музыкальным сигналом. Когда известно из характеристической информации сигнала 66, что сигнал является речевым сигналом, можно вычислить ICC_complex,

$I C C_{c o m p l e x} = \frac{\sum_{k} \sum_{l} X_{1} (k, l) X_{2}^{*} (k, l)}{\sqrt{\sum_{k} \sum_{l} {| X_{1} (k, l) |}^{2} \sum_{k} \sum_{l} {| X_{2} (k, l) |}^{2}}}$

согласно следующим рассуждениям. Когда определяется речевой сигнал, можно сделать вывод о том, что сигнал, полученный слуховой системой человека, сильно коррелирован, так как источник речевого сигнала является точечным. Поэтому, абсолютная величина ICC_complex близка к 1. Поэтому, фазовый угол Θ (IPD) фиг.3 может быть оценен при использовании только информации относительно действительной части ICC_complex согласно следующей формуле, даже без оценки комплексного вектора ICC_complex:

$Re {I C C_{c o m p l e x}} = \cos (I P D)$

Фазовая информация может быть усилена, будучи основанной на действительной части ICC_complex, которая может быть определена без вычисления воображаемой части ICC_complex.

Таким образом, можно сделать вывод

$| I C C_{c o m p l e x} | \approx 1 - > Re {I C C_{c o m p l e x}} = \cos (I P D)$

Следует отметить, что в вышеупомянутом уравнении cos (IPD) соответствует cos (Θ) фиг.3.

Необходимость выполнить синтез фазы на стороне декодера может, обычно, также возникнуть согласно следующим соображениям. Когерентность (abs (ICC_complex) значительно >0, корреляция (Real (ICC_complex)) значительно <1, или фазовый угол (arg (ICC_complex)) значительно отличается от 0.

Следует отметить, что это - общие критерии, где в присутствии речи безоговорочно предполагается, что abs (ICC_complex) значительно больше 0.

Фиг.6 показывает пример кодированного представления, полученного посредством кодирующего устройства 60 фиг.5. Соответствуя временному сегменту 80а и первому временному сегменту 80b, кодированное представление включает только корреляционную информацию, где для второго временного сегмента 80 с кодированное представление, генерированное выходным интерфейсом 68, включает корреляционную информацию, а так же фазовую информацию PI. Короче говоря, кодированное представление, генерированное звуковым кодирующим устройством, может характеризоваться тем, что оно включает сигнал понижающего микширования (не показанный для простоты), который генерируется, посредством использования первого и второго оригинального выходного канала. Кодированное представление далее включает первую корреляционную информацию 82a, показывающую корреляцию между первым и вторым оригинальными звуковыми каналами в пределах первого временного сегмента 80b. Представление, кроме того, включает вторую корреляционную информацию 82b, показывающую декорреляцию между первым и вторым звуковыми каналами в пределах второго временного сегмента 80с, и первую фазовую информацию 84, показывающую фазовое соотношение между первым и вторым оригинальным звуковым каналом для второго временного сегмента, где фазовая информация для первого временного сегмента 80b не включается. Следует отметить, что для простоты фиг.6 иллюстрирует только дополнительную информацию, тогда как канал понижающего микширования, который также передается, не показан.

Фиг.7 схематично показывает дальнейшее осуществление данного изобретения, в котором звуковое кодирующее устройство 90, кроме того, включает модификатор корреляционной информации 92. Иллюстрация фиг.7 предполагает, что извлечение пространственного параметра, например, параметры ICC и ILD, было уже выполнено таким образом, что пространственные параметры 94 предоставляются вместе со звуковым сигналом 96. Звуковое кодирующее устройство 90, кроме того, включает блок оценки характеристики (особенности) сигнала 66 и фазовый компаратор 46, работающие, как указано выше. В зависимости от результата классификации сигнала и/или анализа фазы, фазовые параметры извлекаются и представляются согласно первому рабочему режиму, обозначенному верхним трактом сигнала. Альтернативно, выключатель 98, который управляется в соответствии с классификацией сигнала и/или анализом фазы, может активизировать второй рабочий режим, где предоставленные пространственные параметры 94 передаются без модификации.

Однако когда выбирается первый рабочий режим, требующий передачи фазовой информацией, модификатор корреляционной информации 92 производит показатель корреляции из полученных ICC-параметров, который передается вместо ICC-параметров. Показатель корреляции выбирается таким образом, чтобы он был больше корреляционной информации, когда определяется относительный фазовый сдвиг между первым и вторым входными звуковыми сигналами, и когда звуковой сигнал классифицируется как речевой сигнал. Дополнительно, фазовые параметры извлекаются и передаются экстрактором фазовых параметров 100.

Дополнительное регулирование ICC или определение показателя корреляции, который должен представляться вместо первоначально полученного ICC-параметра, может привести к еще лучшему перцепционному качеству, так как оно объясняет тот факт, что для ICC s меньше 0, восстановленный сигнал включает только менее 50% сухого сигнала, которые являются фактически единственными сигналами, полученными непосредственно из оригинальных звуковых сигналов. Таким образом, хотя известно, что звуковые сигналы могут значительно отличаться только фазовым сдвигом, восстановление обеспечивает сигнал, который контролируется декоррелированным сигналом (влажный сигнал). Когда ICC-параметр (действительная часть ICC_complex) увеличивается посредством модификатора корреляционной информации, повышающее микширование автоматически использует больше энергии сигнала от сухого сигнала, таким образом, использует большее количество «подлинной» звуковой информации, так что воспроизведенный сигнал становится еще ближе к оригиналу, когда возникает потребность воспроизведения фазы.

Другими словами, переданные ICC-параметры изменяются таким способом, что декодер повышающего микширования добавляет менее декоррелированный сигнал. Одна возможная модификация параметра ICC должна использовать межканальную когерентность (абсолютная величина ICC_complex) вместо межканальной взаимной корреляции, обычно используемой в качестве ICC-параметра. Межканальная взаимная корреляция определяется как:

$I C C = Re {I C C_{c o m p l e x}}$ .

и зависит от фазового соотношения каналов. Межканальная когерентность, однако, не зависит от фазового соотношения и определяется следующим образом:

$I C C = | I C C_{c o m p l e x} |$ .

Межканальная разность фаз вычисляется и передается декодеру вместе с оставшейся пространственной дополнительной информацией. Представление может быть очень грубым при квантизации фактических фазовых величин и может, кроме того, иметь грубое частотное разрешение, где даже широкополосная фазовая информация может быть полезной, что станет ясным из осуществления фиг.8.

Разность фаз может быть получена из комплексных межканальных соотношений следующим образом:

$I P D = \arg (I C C_{c o m p l e x})$ .

Если фазовая информация включается в битовый поток, то есть, в кодированное представление 54, синтез декорреляции, выполняемый декодером, может использовать измененные ICC-параметры (показатели корреляции), чтобы произвести сигнал повышающего микширования с уменьшенной реверберацией.

Если, например, классификатор сигнала отличает речевые сигналы от музыкальных сигналов, решение о том, требуется ли фазовый синтез, может приниматься согласно следующим правилам, как только определяется преобладающая речевая характеристика (особенность) сигнала.

Прежде всего, может быть получена величина широкополосной индикации или индикатор фазового сдвига для нескольких параметрических диапазонов, используемых для генерирования параметров ICC и ILD. Таким образом, например, может оцениваться частотный диапазон, преимущественно заполненный речевыми сигналами (например, между 100 гц и 2 Кгц). Одна возможная оценка должна заключаться в вычислении средней корреляции в пределах этого частотного диапазона, основанного на уже полученных ICC-параметрах частотных диапазонов. Если оказывается, что эта средняя корреляция меньше предварительно определенного порога, можно предположить, что сигнал находится вне фазы, и фазовый сдвиг произошел. Кроме того, могут использоваться множественные пороги, чтобы показывать различные фазовые сдвиги, в зависимости от желательной степени детализации восстановления фазы. Возможные пороговые величины могут, например, быть 0, -0.3 или -0.5.

Фиг.8 показывает дальнейшее осуществление данного изобретения, в котором кодирующее устройство 150 предназначено для кодирования речевых и музыкальных сигналов. Первый и второй входные звуковые сигналы 40а и 40b подаются кодирующему устройству 150, включающему блок оценки характеристики (динамических особенностей) сигнала 66, фазовый компаратор 46, микшер понижающего микширования 152, базовое кодирующее устройство для кодирования музыки 154, базовое кодирующее устройство для кодирования речи 156 и модификатор корреляционной информации 158. Блок оценки характеристики (динамических особенностей) сигнала 66 приспособлен, чтобы отличать речевую характеристику в качестве первой характеристики сигнала от музыкальной характеристики в качестве второй характеристики сигнала. Через управляющую ссылку 160 блок оценки характеристики (динамических особенностей) сигнала 66 управляет выходным интерфейсом 68 в зависимости от полученной характеристики сигнала.

Фазовый компаратор оценивает фазовую информацию, или прямо из входных звуковых каналов 40а и 40b или из ICC-параметра, полученного посредством микшера понижающего микширования 152. Микшер понижающего микширования создает звуковой канал понижающего микширования M (162) и корреляционную информацию ICC (164). Согласно ранее описанным осуществлениям блок оценки фазовой информации 46 может альтернативно получать фазовую информацию непосредственно из предоставленных ICC-параметров 164. Звуковой канал понижающего микширования 162 может быть предоставлен базовому кодирующему устройству для кодирования музыки 154, а так же базовому кодирующему устройству для кодирования речи 156, которые оба связаны с выходным интерфейсом 68, чтобы обеспечить кодированное представление звукового канала понижающего микширования. Корреляционная информация 164, с одной стороны, непосредственно подается на выходной интерфейс 68. С другой стороны, она подается на вход модификатора корреляционной информации 158, приспособленного для изменения предоставленной корреляционную информацию и подачи таким образом полученного показателя корреляции на выходной интерфейс 68.

Выходной интерфейс включает различные подмножества параметров в декодированное представление, в зависимости от характеристики сигнала, оцененной блоком оценки характеристики (динамических особенностей) сигнала 66. В первом (речевом) рабочем режиме выходной интерфейс 68 включает кодированное представление звукового канала понижающего микширования 106, закодированное базовым кодирующим устройством для кодирования речи 156, а так же фазовую информацию PI, полученную из фазового компаратора 46, и показатель корреляции. Показатель корреляции может быть или параметром корреляции ICC, полученным посредством микшера понижающего микширования 152, или, альтернативно, показателем корреляции, измененным посредством модификатора корреляционной информации 158. В заключение, модификатор корреляционной информации 158 может управляться и/или активизироваться блоком оценки фазовой информации 46.

В музыкальном рабочем режиме выходной интерфейс включает звуковой канал понижающего микширования 162, закодированный базовым кодирующим устройством для кодирования музыки 154, и корреляционную информацию ICC, полученную из микшера понижающего микширования 152.

Само собой разумеется, что включение различных подмножеств параметров может быть осуществлено иначе, чем описано выше для конкретного осуществления. Например, кодирующие устройства музыки и/или речи могут быть дезактивированными, пока сигнал активации не переключит их на тракт сигнала, в зависимости от характеристики сигнала, полученной из блока оценки характеристики (динамических особенностей) сигнала 66.

Фиг.9 показывает осуществление декодера согласно данному изобретению. Звуковой декодер 200 приспособлен, чтобы получать первый звуковой канал 202а и второй звуковой канал 202b из кодированного представления 204; кодированное представление 204 включает звуковой сигнал понижающего микширования 206а, первую корреляционную информацию 208 для первого временного сегмента сигнала понижающего микширования и вторую корреляционную информацию 210 для второго временного сегмента сигнала понижающего микширования, где фазовая информация 212 включается только для первого или второго временного сегмента.

Демультиплексор, который не показан, разуплотняет индивидуальные компоненты кодированного представления 204 и предоставляет первую и вторую корреляционную информацию вместе со звуковым сигналом понижающего микширования 206а микшеру повышающего микширования 220. Микшер повышающего микширования 220, например, может быть микшером повышающего микширования, показанным на рис.1. Однако, могут использоваться различные микшеры повышающего микширования с различными внутренними алгоритмами повышающего микширования. Обычно, микшер повышающего микширования приспосабливается, чтобы получить первый промежуточный звуковой сигнал 222а для первого временного сегмента при использовании первой корреляционной информации 208 и звукового сигнала понижающего микширования 206а, а так же, чтобы получить второй промежуточный звуковой сигнал 222b, соответствующий второму временному сегменту, при использовании второй корреляционной информации 210 и звукового сигнала понижающего микширования 206a.

Другими словами, первый временной сегмент восстанавливается посредством использования декорреляционной информации ICC₁, и второй временной сегмент восстанавливается посредством использования ICC₂. Первый и второй промежуточные сигналы 222а и 222b предоставляются промежуточному постпроцессору сигналов 224, приспособленному, чтобы получать промежуточный сигнал, обработанный в постпроцессоре 226, для первого временного сегмента посредством использования соответствующей фазовой информации 212. В заключение, промежуточный постпроцессор сигналов 224 получает фазовую информацию 212 вместе с промежуточными сигналами, генерированными микшером повышающего микширования 220. Промежуточный постпроцессор сигналов 224 приспосабливается, чтобы добавить фазовый сдвиг, по крайней мере, к одному из звуковых каналов промежуточных звуковых сигналов, когда присутствует фазовая информация, соответствующая конкретному звуковому сигналу.

Таким образом, промежуточный постпроцессор сигналов 224 добавляет фазовый сдвиг к первому промежуточному звуковому сигналу 222a, где промежуточный постпроцессор не добавляет фазовый сдвиг к промежуточному звуковому сигналу 222b. Промежуточный постпроцессор сигналов 224 производит промежуточный сигнал, обработанный в постпроцессоре 226, вместо первого промежуточного звукового сигнала, и неизменный второй промежуточный звуковой сигнал 222b.

Звуковой декодер 200 далее включает блок объединения сигналов 230, чтобы объединить сигналы, полученные из промежуточного постпроцессора сигналов 224, и чтобы таким образом получить первый и второй звуковые каналы 202a и 202b, генерированные звуковым декодером 200. В одном конкретном осуществлении блок объединения сигналов связывает сигналы, полученные из промежуточного постпроцессора сигналов, чтобы, в конце концов, получить звуковой сигнал для первого и второго временных сегментов. В дальнейшем осуществлении блок объединения сигналов может осуществлять некоторое взаимное замирание, например, чтобы получить первый и второй звуковые сигналы 202a и 202b посредством замирания между сигналами, полученными из промежуточного постпроцессора сигналов. Конечно, возможны дальнейшие осуществления блок объединения сигналов 230.

Использование осуществления изобретательного декодера, как показано на фиг.9, обеспечивает возможность добавления дополнительного фазового сдвига, что может быть сообщено сигналом кодирующего устройства, или чтобы декодировать сигнал обратно совместимым способом.

Фиг.10 показывает дальнейшее осуществление данного изобретения, в котором звуковой декодер включает схему декорреляции 243, способную функционировать согласно первому правилу декорреляции и согласно второму правилу декорреляции, в зависимости от переданной фазовой информации. Согласно осуществлению рис.10 правило декорреляции, согласно которому декоррелированный сигнал 242 получается из переданного звукового канала понижающего микширования 240, может быть переключено, при этом переключение зависит от существующей фазовой информации.

В первом режиме, в котором передается фазовая информация, используется первое правило декорреляции, чтобы получить декоррелированный сигнал 242. Во втором режиме, в котором фазовая информация не принимается, используется второе правило декорреляции, создающее декоррелированный сигнал, который является более декоррелированным, чем сигнал, созданный при использовании первого правила декорреляции. Таким образом, когда требуется фазовый синтез, может быть получен декоррелированный сигнал, который не так высоко коррелирован, как сигнал, используемый, когда не требуется никакой фазовый синтез. То есть, тогда декодер может использовать декоррелированный сигнал, который более аналогичен сухому сигналу, поскольку он автоматически создает сигнал, имеющий больше компонентов сухого сигнала при повышающем микшировании. Это достигается посредством создания де коррелированного сигнала, более аналогичного сухому сигналу. В дальнейшем осуществлении дополнительное фазовое сдвигающее устройство 246 может применяться к декоррелированному сигналу, генерированному для восстановления посредством фазового синтеза. Оно обеспечивает более близкое восстановление фазовых свойств восстановленного сигнала, обеспечивая декоррелированный сигнал, уже имеющий правильное фазовое соотношения относительно сухого сигнала.

Фиг.11 показывает дальнейшее осуществление изобретательного звукового декодера, включающего анализирующую гребенку фильтров 260 и синтезирующую гребенку фильтров 262. Декодер получает звуковой сигнал понижающего микширования 206 вместе со связанными ICC-параметрами (ICC₀…ICC_n). Однако, на фиг.11, различные ICC-параметры не только связаны с различными временными сегментами, но также и с различными частотными диапазонами звукового сигнала. Таким образом, каждый процесс временного сегмента имеет полный набор связанных параметров ICC (ICC₀…ICC_n). Поскольку обработка выполняется частотно-избирательным способом, анализирующая гребенка фильтров 260 получает 64 представления поддиапазона переданного звукового сигнала понижающего микширования 206. Таким образом, получается 64 сигнала с ограниченной полосой пропускания (в представлении гребенки фильтров), каждый сигнал связан с одним ICC-параметром. Альтернативно, нескольких сигналов с ограниченной полосой пропускания могут делить общий параметр ICC. Каждое из представлений поддиапазона обрабатывается микшером повышающего микширования 264a, 264b,… Каждый из микшеров повышающего микширования может, например, быть микшером повышающего микширования в соответствии с осуществлением фиг.1.

Поэтому, для каждого представления с ограниченной полосой пропускания создается первый и второй звуковой канал (оба с ограниченной полосой пропускания). По крайней мере, один из созданных таким образом звуковых каналов на поддиапазон вводится в промежуточный постпроцессор звуковых сигналов 266a, 266b…, такой как, например, промежуточный постпроцессор звуковых сигналов, показанный на фиг.9. Согласно осуществлению фиг.11, промежуточные постпроцессоры звуковых сигналов 266a, 266b,… управляются той же самой обычной фазовой информацией 212. Таким образом, идентичный фазовый сдвиг применяется к каждому сигналу поддиапазона, прежде чем сигналы поддиапазона будут синтезированы синтезирующей гребенкой фильтров 262, чтобы стать первым и вторым звуковыми каналами 202a и 202b, произведенными декодером.

Фазовый синтез может, таким образом, быть выполнен, запрашивая только одну дополнительную общую фазовую информацию, подлежащую передаче. В осуществлении фиг.11 правильное восстановление свойств фазы оригинального сигнала может, поэтому, быть выполнено без разумного увеличения скорости передачи битов. Согласно дальнейшим осуществлениям число поддиапазонов, для которых используется общая фазовая информация 212, зависит от сигнала. Поэтому, фазовая информация может оцениваться только для поддиапазонов, для которых может быть достигнуто улучшение перцепционного качества, когда применяется соответствующий фазовый сдвиг. Это может далее улучшить перцепционное качество декодированного сигнала.

Фиг.12 показывает дальнейшее осуществление звукового декодера, приспособленного для декодирования кодированного представления оригинального звукового сигнала, который может быть как речевым сигналом, так и музыкальным сигналом. Таким образом, либо характеристическая информация сигнала передается в пределах кодированного представления, указывая, какая характеристика сигнала передается, либо характеристика сигнала может быть получена неявно, в зависимости от присутствия фазовой информации в битовом потоке. В завершение, присутствие фазовой информации показывает речевую характеристику звукового сигнала. Переданный звуковой сигнал понижающего микширования 206, в зависимости от характеристики сигнала, декодируется либо посредством речевого декодера 266, либо посредством музыкального декодера 268. Дальнейшая обработка выполняется, как проиллюстрировано и объяснено на фиг.11. Для дальнейшего рассмотрения деталей выполнения ссылка, поэтому, делается на объяснение фиг.11.

Фиг.13 иллюстрирует осуществление изобретенного способа генерирования кодированного представления первого и второго входного звукового сигнала. На стадии извлечения пространственного параметра 300, ICC-и ILD-параметры получаются из первого и второго входных звуковых сигналов. На стадии оценки фазы 302 получается фазовая информация, показывающая фазовое соотношение между первым и вторым входными звуковыми сигналами. При выборе режима 304 выбирается первый выходной режим, когда фазовое соотношение указывает разность фаз между первым и вторым входным звуковым сигналом, который больше, чем предварительно определенный порог, а второй выходной режим выбирается, когда разность фаз меньше, чем порог. На стадии генерирования представления 306 ICC-параметр, ILD-параметр и фазовая информация включаются в кодированное представление в первом выходном режиме, а ICC- и ILD-параметры без фазового соотношения включаются в кодированное представление во втором выходном режиме.

Фиг.14 показывает осуществление способа генерирования первого и второго звукового канала посредством использования кодированного представления звукового сигнала; кодированное представление включает звуковой сигнал понижающего микширования, первую и вторую корреляционную информацию, показывающую корреляцию между первым и вторым оригинальным звуковым каналом, использовавшуюся для генерирования сигнала понижающего микширования; первую корреляционную информацию, несущую информацию для первого временного сегмента сигнала понижающего микширования, и вторую корреляционную информацию, несущую информацию для второго, другого временного сегмента, и фазовую информацию; фазовая информация показывает фазовое соотношение между первым и вторым оригинальными звуковыми каналами для первого временного сегмента.

На стадии повышающего микширования 400 получается первый промежуточный звуковой сигнал посредством использования сигнала понижающего микширования и первой корреляционной информации; первый промежуточный звуковой сигнал соответствует первому временному сегменту и включает первый и второй звуковой канал. На стадии повышающего микширования 400 также получается второй промежуточный звуковой сигнал посредством использования звукового сигнала понижающего микширования и второй корреляционной информации; второй промежуточный звуковой сигнал соответствует второму временному сегменту и включает первый и второй звуковой канал.

На стадии постобработки 402 промежуточный сигнал, обработанный в постпроцессоре, для первого временного сегмента получается посредством использования первого промежуточного звукового сигнала, где дополнительный фазовый сдвиг, обозначенный фазовым соотношением, добавляется, по крайней мере, к одному - первому или второму - звуковому каналу первого промежуточного звукового сигнала.

На стадии комбинирования (соединения) сигнала 404 генерируется первый и второй звуковые каналы посредством использования постобработанного промежуточного сигнала и второго промежуточного звукового сигнала.

В зависимости от определенных требований выполнения изобретательных способов изобретательные способы могут осуществляться в аппаратных средствах или в программном обеспечении. Выполнение может осуществляться посредством использования цифрового носителя данных, в частности, диска, DVD или компакт-диска, с сохраненными на нем электронно считываемыми управляющими сигналами, которые объединяются с программируемой компьютерной системой таким образом, что реализуются изобретенные способы. В целом, данное изобретение, поэтому, является компьютерным программным продуктом с управляющей программой, сохраненным на машиночитаемом носителе;

управляющая программа реализуется для выполнения изобретательных способов, когда компьютерный программный продукт запущен на компьютере. Другими словами, изобретательные способы, поэтому, являются компьютерной программой, имеющей управляющую программу для выполнения, по крайней мере, одного из изобретательных способов, когда компьютерная программа запущена на компьютере. В то время как все вышеупомянутое было подробно показано и описано со ссылкой на отдельные осуществления, квалифицированные специалисты должны понимать, что различные изменения формы и деталей могут быть сделаны без изменения сущности и объема изобретения. Следует понимать, что различные изменения могут быть сделаны при приспосабливании к различным осуществлениям без отступления от более широких понятий, раскрытых здесь, и должны осмысляться в соответствии с патентной формулой, приведенной ниже.

1. Звуковое кодирующее устройство для генерирования кодированного представления первого и второго входных звуковых сигналов, включающее блок оценки корреляции, приспособленный для получения корреляционной информации, показывающей корреляцию между первым и вторым входными звуковыми сигналами; блок оценки динамических особенностей сигнала, приспособленный для получения характеристической информации сигнала; характеристическая информация сигнала показывает первую или вторую отличную характеристику входного звукового сигнала; фазовый компаратор, приспособленный для получения фазовой информации, когда входные звуковые сигналы имеют первую характеристику; фазовая информация показывает фазовое соотношение между первым и вторым входными звуковыми сигналами; и выходной интерфейс, приспособленный для включения фазовой информации и корреляционной информации в кодированное представление, когда входные звуковые сигналы имеют первую характеристику; или корреляционной информации в кодированное представление, когда входные звуковые сигналы имеют вторую характеристику, где фазовая информация не включается, когда входные звуковые сигналы имеют вторую характеристику.

2. Звуковое кодирующее устройство по п.1, где первая характеристика сигнала, показываемая блоком оценки сигнала, является речевой характеристикой; и вторая характеристика сигнала, показываемая блоком оценки сигнала, является музыкальной характеристикой.

3. Звуковое кодирующее устройство по п.1, где фазовый компаратор приспособлен для получения фазовой информации посредством использования корреляционной информации.

4. Звуковое кодирующее устройство по п.1, где фазовая информация показывает фазовый сдвиг между первым и вторым входными звуковыми сигналами.

5. Звуковое кодирующее устройство по п.3, где блок оценки корреляции приспособлен для генерирования ICC-параметра в качестве декорреляционной информации; ICC-параметр представляется действительной частью комплексной взаимной корреляции ICC_complexвыбранных сегментов сигнала первого и второго входных звуковых сигналов; каждый сегмент сигнала обозначается l выборочными значениями Х(1), где ICC-параметр может быть описан следующей формулой:
$I C C = Re {\frac{\sum_{e} X_{1} (l) X *_{2} (l)}{\sqrt{\sum_{e} {| X_{1} (l) |}^{2} \sum_{e} {| X_{2} (l) |}^{2}}}},$
и где выходной интерфейс приспособлен для включения фазовой информации в кодированное представление, когда корреляционная информация меньше предварительно определенного порога.

6. Звуковое кодирующее устройство по п.5, где предварительно определенный порог равен или меньше 0,3.

7. Звуковое кодирующее устройство по п.5, где предварительно определенный порог для корреляционной информации соответствует сдвигу фазы больше 90°;

8. Звуковое кодирующее устройство по п.1, где блок оценки корреляции приспособлен для получения множественных параметров корреляции в качестве корреляционной информации; каждый параметр корреляции связан с соответствующим поддиапазоном первого и второго входных звуковых сигналов, и где фазовый компаратор приспособлен для получения фазовой информации, показывающей фазовое соотношение между первым и вторым входными звуковыми сигналами, по крайней мере, для двух из поддиапазонов, соответствующих параметрам корреляции.

9. Звуковое кодирующее устройство по п.1, далее включающее модификатор корреляционной информации, приспособленный для получения показателя корреляции из полученных параметров межканальных взаимных корреляций (ICC-параметров), чтобы показатель корреляции обозначал более высокую корреляцию, чем корреляционная информация; и где выходной интерфейс приспособлен, чтобы включать показатель корреляции вместо корреляционной информации.

10. Звуковое кодирующее устройство по п.9, где модификатор корреляционной информации приспособлен для использования абсолютной величины комплексной взаимной корреляции ICC_complex двух выбранных сегментов сигнала первого и второго входных звуковых сигналов в качестве показателя корреляции IСС; каждый сегмент сигнала обозначается l комплексными величинами выборочных значений Х(1); показатель корреляции IСС может быть описан следующей формулой:
$I C C = | \frac{\sum_{e} X_{1} (l) X^{*}_{2} (l)}{\sqrt{\sum_{e} {| X_{1} (l) |}^{2} \sum_{e} {| X_{2} (l) |}^{2}}} | .$

11. Звуковое кодирующее устройство для генерирования кодированного представления первого и второго входных звуковых сигналов, включающее блок оценки пространственных параметров, приспособленный для получения ICC-параметра или параметра межканальных разностей уровней (ILD-параметра); ICC-параметр показывает корреляцию между первым и вторым входными звуковыми сигналами, ILD-параметр показывает соотношение уровней между первым и вторым входными звуковыми сигналами; фазовый компаратор, приспособленный для получения фазовой информации; фазовая информация показывает фазовое соотношение между первым и вторым входными звуковыми сигналами; выходной блок выбора рабочего режима, приспособленный для обозначения первого выходного режима, когда фазовое соотношение показывает разность фаз между первым и вторым входными звуковыми сигналами, которая больше предварительно определенного порога, или второго выходного режима, когда разность фаз меньше предварительно определенного порога; и выходной интерфейс приспособлен для включения ICC- или ILD-параметра и фазовой информации в кодированное представление в первом выходном режиме; и ICC- и ILD-параметра без фазовой информации в кодированное представление во втором выходном режиме.

12. Звуковое кодирующее устройство по п.11, где предварительно определенный порог соответствует фазовому сдвигу в 60°.

13. Звуковое кодирующее устройство по п.11, где блок оценки пространственных параметров приспособлен для получения множественных ICC-или ILD-параметров; каждый ICC-или ILD-параметр связан с соответствующим поддиапазоном представления поддиапазонов первого и второго входных звуковых сигналов, и где фазовый компаратор приспособлен для получения фазовой информации, показывающей фазовое соотношение между первым и вторым входными звуковыми сигналами, по крайней мере, для двух из поддиапазонов представления поддиапазонов.

14. Звуковое кодирующее устройство по п.13, где выходной интерфейс приспособлен для включения одиночного параметра фазовой информации в представление в качестве фазовой информации; одиночный параметр фазовой информации показывает фазовое соотношение для предварительно определенной подгруппы поддиапазонов представления поддиапазонов.

15. Звуковое кодирующее устройство по п.11, где фазовое соотношение представлено единственным битом, показывающим предварительно определенный фазовый сдвиг.

16. Звуковой декодер для генерирования первого и второго звуковых каналов посредством использования кодированного представления звукового сигнала; кодированное представление включает звуковой сигнал понижающего микширования, первую и вторую корреляционные информации, показывающие корреляцию между первым и вторым оригинальными звуковыми каналами, используемую для генерирования звукового сигнала понижающего микширования; первая корреляционная информация несет информацию для первого временного сегмента сигнала понижающего микширования, а вторая корреляционная информация несет информацию для второго, отличного временного сегмента; кодированное представление далее включает фазовую информацию для первого и второго временных сегментов; фазовая информация, показывающая фазовое соотношение между первым и вторым оригинальными звуковыми каналами, включающий микшер повышающего микширования, приспособленный для получения первого промежуточного звукового сигнала посредством использования звукового сигнала понижающего микширования и первой корреляционной информации; первый промежуточный звуковой сигнал соответствует первому временному сегменту и включает первый и второй звуковые каналы; и второго промежуточного звукового сигнала посредством использования звукового сигнала понижающего микширования и второй корреляционной информации; второй промежуточный звуковой сигнал соответствует второму временному сегменту и включает первый и второй звуковые каналы; и промежуточный постпроцессор сигналов, приспособленный для получения промежуточного звукового сигнала, обработанного в постпроцессоре, для первого временного сегмента посредством использования первого промежуточного звукового сигнала и фазовой информации, где промежуточный постпроцессор сигналов приспособлен для добавления дополнительного фазового сдвига, обозначенного фазовым соотношением, по крайней мере, для одного из первого или второго звуковых каналов первого промежуточного звукового сигнала; и блок объединения сигналов, приспособленный для генерирования первого и второго звуковых каналов посредством комбинирования постобработанного промежуточного звукового сигнала и второго промежуточного звукового сигнала.

17. Звуковой декодер по п.16, где микшер повышающего микширования приспособлен для использования множественных параметров корреляции в качестве корреляционной информации; каждый параметр корреляции соответствует одному из множества поддиапазонов первого и второго оригинальных звуковых сигналов; и где промежуточный постпроцессор сигналов приспособлен для добавления дополнительного фазового сдвига, обозначенного фазовым соотношением, по крайней мере, для двух из соответствующих поддиапазонов первого промежуточного звукового сигнала.

18. Звуковой декодер по п.16, дополнительно включает процессор корреляционной информации, приспособленный для получения показателя корреляции; показатель корреляции показывает более высокую корреляцию, чем первая корреляция; и где микшер повышающего микширования использует показатель корреляции вместо корреляционной информации, когда фазовая информация показывает фазовый сдвиг между первым и вторым оригинальными звуковыми каналами, который выше предварительно определенного порога.

19. Звуковой декодер по п.16, дополнительно включает декоррелятор, приспособленный для получения декоррелированного звукового канала из звукового сигнала понижающего микширования согласно первому правилу декорреляции для первого временного сегмента и согласно второму правилу декорреляции для второго временного сегмента, где первое правило декорреляции создает менее декоррелированный звуковой канал, чем второе правило декорреляции.

20. Звуковой декодер по п.19, где декоррелятор далее включает фазовое сдвигающее устройство; фазовое сдвигающее устройство приспособлено для применения дополнительного фазового сдвига к декоррелированному звуковому каналу, генерированному посредством использования первого правила декорреляции; дополнительный фазовый сдвиг зависит от фазовой информации.

21. Способ генерирования кодированного представления первого и второго входных звуковых сигналов, включающий получение корреляционной информации, показывающей корреляцию между первым и вторым входными звуковыми сигналами; получение характеристической информации сигнала; характеристическая информация сигнала показывает первую или вторую, отличную характеристику входных звуковых сигналов; получение фазовой информации, когда входные звуковые сигналы имеют первую характеристику; фазовая информация показывает фазовое соотношение между первым и вторым входными звуковыми сигналами; и включение фазовой информации и корреляционной информации в кодированное представление, когда входные звуковые сигналы имеют первую характеристику; или включение корреляционной информации в кодированное представление, когда входные звуковые сигналы имеют вторую характеристику, где фазовая информация не включается, когда входные звуковые сигналы имеют вторую характеристику.

22. Способ генерирования кодированного представления первого и второго входных звуковых сигналов, включающий получение ICC-параметра или ILD-параметра; ICC-параметр показывает корреляцию между первым и вторым входными сигналами; параметр ILD- показывает соотношение уровней между первым и вторым входными звуковыми сигналами; получение фазовой информации; фазовая информация показывает фазовое соотношение между первым и вторым входными звуковыми сигналами; обозначение первого выходного режима, когда фазовое соотношение показывает разность фаз между первым и вторым входными звуковыми сигналами, которая больше предварительно определенного порога, или обозначение второго выходного режима, когда разность фаз меньше предварительно определенного порога; и включение ICC- или ILD-параметра и фазового соотношения в кодированное представление в первом выходном режиме; или включение ICC- или ILD-параметра без фазового соотношения в кодированное представление во втором выходном режиме.

23. Способ генерирования первого и второго звуковых каналов посредством использования кодированного представления звукового сигнала; кодированное представление включает звуковой сигнал понижающего микширования, первую и вторую корреляционные информации, показывающие корреляцию между первым и вторым оригинальным звуковым каналом, используемую для генерирования звукового сигнала понижающего микширования; первая корреляционная информация несет информацию для первого временного сегмента сигнала понижающего микширования, а вторая корреляционная информация несет информацию для второго, отличного временного сегмента; кодированное представление далее включает фазовую информацию для первого и второго временных сегментов; фазовая информация, показывающая фазовое соотношение между первым и вторым оригинальными звуковыми каналами, включающий получение первого промежуточного звукового сигнала посредством использования звукового сигнала понижающего микширования и первой корреляционной информации; первый промежуточный звуковой сигнал соответствует первому временному сегменту и включает первый и второй звуковые каналы; получение второго промежуточного звукового сигнала посредством использования звукового сигнала понижающего микширования и второй корреляционной информации; второй промежуточный звуковой сигнал соответствует второму временному сегменту и включает первый и второй звуковые каналы; получение промежуточного сигнала, обработанного в постпроцессоре, для первого временного сегмента посредством использования первого промежуточного звукового сигнала и фазовой информации, где промежуточный сигнал, обработанный в постпроцессоре, получается посредством добавления дополнительного фазового сдвига, обозначенного фазовым соотношением, по крайней мере, к одному из первого или второго звуковых каналов первого промежуточного сигнала; и объединение промежуточного сигнала, обработанного в постпроцессоре, и второго промежуточного звукового сигнала для получения первого и второго звуковых каналов.

24. Машиночитаемый носитель, имеющий сохраненную на нем управляющую программу, для осуществления способа по п.21, когда программа запущена на компьютере.

25. Машиночитаемый носитель, имеющий сохраненную на нем управляющую программу, для осуществления способа по п.22, когда программа запущена на компьютере.

26. Машиночитаемый носитель, имеющий сохраненную на нем управляющую программу, для осуществления способа по п.23, когда программа запущена на компьютере.

Компенсатор и способ компенсации потери кадров звукового сигнала в области модифицированного дискретного косинусного преобразования // 2488899

Основанное на преобразовании кодирование/декодирование с адаптивными окнами // 2488898

Кодирующее устройство, декодирующее устройство и способ // 2488897

Изобретение относится к вычислительной технике. .

Кодирующее устройство, декодирующее устройство и способ // 2488897

Изобретение относится к вычислительной технике. .

Микширование входящих информационных потоков и генерация выходящего информационного потока // 2488896

Изобретение относится к области телекоммуникационных систем. .

Звуковое кодирующее устройство и звуковое декодирующее устройство // 2487427

Изобретение относится к области звукового кодирования, в частности к кодированию на основе энтропии. .

Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала // 2487426

Изобретение относится к алгоритмам параметрического кодирования звуковых сигналов. .

Способ кодирования сигнала и способ декодирования сигнала // 2486610

Изобретение относится к способу, устройству и системе для кодирования и декодирования сигналов. .

Квантователь, кодер и их способы // 2486609

Изобретение относится к вычислительной технике. .

Устройство и способ кодирования/декодирования звукового сигнала посредством использования схемы переключения совмещения имен // 2492530

Устройство, способ и компьютерная программа для обеспечения набора пространственных указателей на основе сигнала микрофона и устройство для обеспечения двухканального аудиосигнала и набора пространственных указателей // 2493617

Устройство для обеспечения набора пространственных указателей, связанных с аудиосигналом повышающего микширования, имеющим более двух каналов, на основе двухканального сигнала микрофона, содержит анализатор сигнала и генератор дополнительной пространственной информации. Анализатор сигнала конфигурируют для получения информации энергии компонента и информации направления на основе двухканального сигнала микрофона таким образом, что информация энергии компонента описывает оценки энергий компонента прямого звука двухканального сигнала микрофона и компонента рассеянного звука двухканального сигнала микрофона, и таким образом, что информация направления описывает оценку направления, из которого приходит компонент прямого звука двухканального сигнала микрофона. Генератор дополнительной пространственной информации конфигурируют для сопоставления информации энергии компонента и информации направления с информацией пространственных указателей, которая описывает набор пространственных указателей, связанных с аудиосигналом повышающего микширования, имеющим более двух каналов. Технический результат - создание эффективной в вычислительном отношении концепции для получения информации пространственных указателей, сохраняя усилие на преобразование звука достаточно малым. 5 н. и 8 з.п. ф-лы, 21 ил.

Усовершенствованное гармоническое преобразование // 2493618

Настоящее изобретение относится к преобразованию сигналов во времени и/или по частоте и, в частности, к кодированию звуковых сигналов. Конкретнее, настоящее изобретение относится к способам высокочастотной реконструкции (HFR), включающим гармонический преобразователь в частотной области. Техническим результатом является повышение надежности системы преобразования сигнала, а также обеспечение улучшенного гармонического преобразования при малой дополнительной сложности. Описаны способ и система для генерирования преобразованного выходного сигнала из входного сигнала с использованием коэффициента преобразования Т. Система включает окно анализа длиной La, извлекающее кадр входного сигнала, и блок анализирующей трансформации порядка М, трансформирующий дискретные значения в М комплексных коэффициентов. М зависит от коэффициента преобразования Т. Система также включает блок нелинейной обработки, изменяющий фазу комплексных коэффициентов с использованием коэффициента преобразования Т, блок синтезирующей трансформации порядка М, трансформирующий измененные коэффициенты в М измененных дискретных значений, и окно синтеза длиной Ls, генерирующее кадр выходного сигнала νa(n). 6 н. и 31 з.п. ф-лы, 12 ил.

Способ кодирования аудиосигнала, способ декодирования аудиосигнала, устройство кодирования, устройство декодирования, система обработки аудиосигнала, программа кодирования аудиосигнала и программа декодирования аудиосигнала // 2493619

Изобретение относится к способу и устройству кодирования аудиосигнала и к способу и устройству декодирования аудиосигнала. Сущность состоит в том, что когда кадр, непосредственно предшествующий целевому кадру кодирования, подлежащий кодированию с помощью первого модуля кодирования, работающему согласно схеме кодирования с линейным предсказанием, кодируется с помощью второго модуля кодирования, работающего согласно схеме кодирования, отличной от схемы кодирования с линейным предсказанием, целевой кадр кодирования может быть кодирован согласно схеме кодирования с линейным предсказанием с помощью инициализации внутреннего состояния первого модуля кодирования. Вследствие этого может быть реализована обработка кодирования, выполняемая согласно множеству схем кодирования, включающих в себя схему кодирования с линейным предсказанием и схему кодирования, отличную от схемы кодирования с линейным предсказанием. Технический результат - улучшение качества речи. 7 н.п. ф-лы, 5 ил.

Изобретение относится к способам кодирования и декодирования аудиосигнала, к устройствам кодирования и декодирования и системе обработки аудиосигнала. Сущность способа кодирования заключается в том, что когда кадр, непосредственно предшествующий целевому кадру кодирования, подлежащий кодированию с помощью первого модуля кодирования, работающему согласно схеме кодирования с линейным предсказанием, кодируется с помощью второго модуля кодирования, работающего согласно схеме кодирования, отличной от схемы кодирования с линейным предсказанием, целевой кадр кодирования может быть кодирован согласно схеме кодирования с линейным предсказанием с помощью инициализации внутреннего состояния первого модуля кодирования. Вследствие этого может быть реализована обработка кодирования, выполняемая согласно множеству схем кодирования, включающих в себя схему кодирования с линейным предсказанием и схему кодирования, отличную от схемы кодирования с линейным предсказанием. Технический результат - улучшение качества речи. 7 н.п. ф-лы, 5 ил.

Многоканальный аудиокодек без потерь, который использует адаптивную сегментацию с возможностями точек произвольного доступа (rap) и множества наборов параметров предсказания (mpps) // 2495502

Изобретение относится к аудиокодекам без потерь, а более конкретно, к многоканальному аудиокодеку без потерь, который использует адаптивную сегментацию с возможностью точек произвольного доступа (RAP) и возможностью множества наборов параметров предсказания (MPPS). Аудиокодек без потерь кодирует/декодирует битовый поток с переменной скоростью передачи битов (VBR) без потерь с возможностью точек произвольного доступа (RAP) для инициирования декодирования без потерь в заданном сегменте в пределах кадра и/или возможностью множества набора параметров предсказания (MPPS), разделяемого для подавления влияния транзиентов. Это достигается с помощью методики адаптивной сегментации, которая устанавливает начальные точки сегмента, основываясь на ограничениях, предписываемых наличием необходимой RAP и/или обнаруженным транзиентом в кадре, и выбирает оптимальную продолжительность сегмента в каждом кадре для уменьшения кодированной полезной информации кадра, при условии ограничения кодированной полезной информации сегмента, RAP и MPPS в частности можно применять, чтобы повысить общую производительность для более длительной продолжительности кадра. Технический результат - повышение общей эффективности кодирования. 14. н.п. и 34 з.п. ф-лы, 23 ил.

Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций // 2495503

Изобретение относится к устройству, которое реализует кодирование и декодирование с уменьшенной задержкой, используя методику многоканального кодирования и декодирования звука соответственно. Устройство кодирования звука включает в себя: модуль формирования сигнала понижающего микширования (410), который формирует во временной области первый сигнал понижающего микширования, который является одним из 1-канального звукового сигнала и 2-канального звукового сигнала, из входного многоканального звукового сигнала; модуль кодирования сигнала понижающего микширования (404), который кодирует первый сигнал понижающего микширования; первый модуль преобразования t-f (401), который преобразует входной многоканальный звуковой сигнал в многоканальный звуковой сигнал частотной области; и модуль вычисления пространственной информации (409), который формирует пространственную информацию для формирования многоканального звукового сигнала из сигнала понижающего микширования. Технический результат - обеспечивает передачу и прием сигнала с более высоким качеством и меньшей задержкой и меньшей скоростью битового потока. 8 н. и 9 з.п. ф-лы, 9 ил.

Способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием // 2495504

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов. Техническим результатом предлагаемого способа является уменьшение скорости передачи данных по каналам связи при эффективном кодировании речевых сигналов с сохранением качественных показателей синтезированного сигнала. Поставленная цель в вокодере с линейным предсказанием достигается посредством отказа от передачи по каналу связи информации о сигнале возбуждения. Сигнал возбуждения идентифицируют непосредственно на приеме по данным о параметрах синтезирующей модели при помощи нейронной сети. По каналу связи передают информацию о коэффициентах формирующей модели, коэффициенте усиления, параметрах, характеризующих кодируемый речевой сигнал, которые рассчитывают на каждом квазистационарном сегменте анализа речевого сигнала. 3 ил.

Маскирование ошибки передачи в цифровом аудиосигнале в иерархической структуре декодирования // 2496156

Изобретение относится к обработке цифровых сигналов, например сигналов речи, музыки, в области телекоммуникаций. Объектом изобретения является способ маскирования ошибки передачи в цифровом сигнале, разбитом на множество последовательных фреймов, связанных с различными временными интервалами, в котором при приеме сигнал может содержать стертые фреймы и нормальные фреймы, при этом нормальные фреймы содержат информацию (inf), связанную с маскированием потери фрейма. Способ применяют во время иерархического декодирования с использованием основного декодирования и декодирования по трансформанте, используя окна с короткой задержкой с введением временной задержки, меньшей одного фрейма по сравнению с основным кодированием. Для замены, по меньшей мере, одного последнего фрейма, стертого перед нормальным фреймом, способ содержит: этап (23) маскирования первого набора недостающих выборок для стертого фрейма, применяемый в первом временном интервале; этап (25) маскирования второго набора недостающих выборок для стертого фрейма, учитывающий данные указанного нормального фрейма и применяемый во втором временном интервале, и этап (29) перехода между первым набором недостающих выборок и вторым набором недостающих выборок для получения, по меньшей мере, части недостающего фрейма. Технический результат - улучшение качества декодированных сигналов при потерях блоков данных путем повышения качества маскирования стертых фреймов в системе иерархического кодирования с короткой задержкой. 3 н. и 7.з.п. ф-лы, 7 ил.

Устройство параметрического стереофонического повышающего микширования, параметрический стереофонический декодер, устройство параметрического стереофонического понижающего микширования, параметрический стереофонический кодер // 2497204

Устройство (300, 400) параметрического стереофонического повышающего микширования, генерирующее левый сигнал (206) и правый сигнал (207) из монофонического сигнала (204) понижающего микширования на основе пространственных параметров (205). Упомянутое устройство параметрического стереофонического повышающего микширования характеризуется тем, что содержит средство (310) для предсказания разностного сигнала (311), содержащего разность между левым сигналом (206) и правым сигналом (207), на основе монофонического сигнала (204) понижающего микширования, масштабированного коэффициентом предсказания (321). Упомянутый коэффициент предсказания получается из пространственных параметров (205). Упомянутое устройство (300, 400) параметрического стереофонического повышающего микширования дополнительно содержит арифметическое средство (330) для получения левого сигнала (206) и правого сигнала (207) на основе суммы и разности монофонического сигнала (204) понижающего микширования и упомянутого разностного сигнала (311). 8 н. и 8 з.п. ф-лы, 9 ил.