Устройство и способ извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации

Авторы патента:

ВИЛКАМО Йуха (DE)

ПЛОГШТИЕС Ян (DE)

НЕУГЕБАУЕР Бернхард (DE)

ХЕРРЕ Юрген (DE)

G10L19/00 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2568926:

Фраунхофер-Гезелльшафт цур Фердерунг дер ангевандтен Форшунг Е.Ф., (DE)

Изобретение относится к области обработки звуковых сигналов. Технический результат заключается в обеспечении возможности извлечения части прямого сигнала или части сигнала окружения из сигнала понижающего микширования посредством использования пространственной параметрической информации. Технический результат достигается за счет устройства для извлечения прямого сигнала и/или сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации, которое включает эстиматор прямого сигнала/сигнала окружения и экстрактор прямого сигнала/сигнала окружения. Эстиматор прямого сигнала/сигнала окружения формируется, чтобы оценить информацию об уровне прямой части и/или окружающей части многоканального звукового сигнала, основываясь на пространственной параметрической информации. Экстрактор прямого сигнала/сигнала окружения формируется, чтобы извлечь прямую часть сигнала и/или окружающую часть сигнала из сигнала понижающего микширования, основываясь на информации о предполагаемом уровне прямой части или окружающей части. 3 н. и 13 з.п. ф-лы, 19 ил.

Данное изобретение имеет отношение к обработке звукового сигнала и, в частности, к устройству и способу извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации. Дальнейшие осуществления данного изобретения касаются использования разделения прямого сигнала/сигнала окружения для улучшения бинаурального воспроизведения звуковых сигналов. Дальнейшие осуществления касаются бинаурального воспроизведения многоканального звука, где многоканальный звук означает звук, имеющий два или больше каналов. Типичное звуковое содержание, имеющее многоканальный звук, представляет собой звуковую дорожку из кинофильма и многоканальную запись музыки.

Система пространственного слуха человека имеет тенденцию обрабатывать звук примерно в двух частях. Это, с одной стороны, локализуемая или прямая и, с другой стороны, нелокализуемая или окружающая часть. Существует много применений звуковой обработки, такие как бинауральное звуковое воспроизведение и многоканальное повышающее микширование, где желательно иметь доступ к этим двум звуковым компонентам.

В области техники известны способы разделения прямого сигнала/сигнала окружения, как описано в работе «Разложение первичного окружающего сигнала и основанная на векторе локализация для пространственного звукового кодирования и расширения», Гудвин, Джот, 1ЕЕЕМеждунар. Конференция По Акустике, Речи и Обработке Сигнала, апрель 2007 г.; «Извлечение основанного на корреляции окружения из стерео записи», Меримаа, Гудвин, Джот, AES 123-ье Соглашение, Нью-Йорк, 2007 г.; «Воспроизведение стереосигналов с множественными громкоговорителя», С.Фоллер, Журнал AES, октябрь 2007 г.; «Разложение первичных окружающих стерео звуковых сигналов посредством использования индекса сложного подобия»; Гудвин и др., Публикац. №1182009/0198356 A1, август 2009 г.; «Название патентной заявки: Способ получения многоканального звукового сигнала из стерео сигналов». Изобретатели: Кристоф Фоллер, Агенты: Фиш & Ричардсон П.К., Представители: LGELECTRONICS, INC, Происхождение: МИННЕАПОЛИС, Миннесота, США, 1РС8Класс: AH04R500FI, USPC Класс: 381 1; и «Получение окружения для стерео сигналов», Авендано и др., Дата выпуска: 28 июля 2009 г., Заявка: 10/163,158, зарегистрирована: 4 июня 2002 г., которые могут использоваться для различных применений. Современные алгоритмы разделения прямого сигнала - сигнала окружения основываются на сравнении межканального сигнала стереозвука в частотных диапазонах.

Кроме того, в работе «Бинауральный 3-D Рендеринг Звука, Основанный на Пространственном Кодировании Звуковой Сцены», Гудвин, Джот, AES 123-ье Соглашение, Нью-Йорк 2007 г., исследуется бинауральное воспроизведение с извлечением окружения. Извлечение окружения в связи с бинауральным воспроизведением также упоминается в работе Дж. Ашера и Дж. Бенести, «Повышение качества пространственного звука: новый реверберационно-извлекающий звуковой микшер повышающего микширования», Транс. IEEE. Обработка Звука, Речи, Языка, том 15, стр.2141-2150, сентябрь 2007 г. Последняя работа сосредотачивается на извлечении окружения в стерео записи с микрофона посредством использования адаптивной минимальной среднеквадратической перекрестной между каналами фильтрации прямого компонента в каждом канале. Пространственные звуковые кодер-декодеры, например, MPEG окружающий, обычно состоят из одно- или двухканального звукового потока в комбинации с пространственной дополнительной информацией, которая расширяет звук в множественные каналы, как описано в ISO/IEC 23003-1 - MPEG Окружающий; и в работе Брибаарта, Дж., Герре, Дж., Виллемоуса, Л., Джина, К., Керлинга, К., Плогстиса, Дж., Коппенса, Дж. (2006 г.). «Многоканальный становится мобильным: MPEG Surround науральный рендеринг». Уч. записки 29-й конференция AES, Сеул, Корея.

Однако, современные технологии параметрического звукового кодирования, такие как MPEG-Surround ("пространственное аудиокодирование" - MPS) и параметрическое стерео (PS), обеспечивают только ограниченное число звуковых каналов понижающего микширования - в некоторых случаях только одного - наряду с добавочной пространственной дополнительной информацией. Сравнение между «оригинальными» входными каналами возможно только после предварительного декодирования звука в намеченный выходной формат.

Поэтому, требуется концепция извлечения части прямого сигнала или части сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации. Однако не существует решений извлечения прямого сигнала/сигнала окружения посредством использования параметрической дополнительной информации.

Поэтому, задачей данного изобретения является обеспечение концепции извлечения части прямого сигнала или части сигнала окружения из сигнала понижающего микширования посредством использования пространственной параметрической информации.

Это достигается посредством использования устройства по п.1, способа по п.15 или компьютерной программы по п.16.

Главная идея, лежащая в основе данного изобретения, состоит в том, что вышеупомянутое извлечение прямого сигнала/сигнала окружения может достигаться, когда информация об уровне прямой части или окружающей части многоканального звукового сигнала оценивается, основываясь на пространственной параметрической информации, и часть прямого сигнала или часть сигнала окружения извлекается из сигнала понижающего микширования, основываясь на информации о предполагаемом уровне. Здесь, сигнал понижающего микширования и пространственная параметрическая информация представляют многоканальный звуковой сигнал, имеющий больше каналов, чем сигнал понижающего микширования. Эта мера делает возможным извлечение прямого сигнала и/или сигнала окружения из сигнала понижающего микширования, имеющего один или более входных каналов, при использовании пространственной параметрической дополнительной информации.

Согласно осуществлению данного изобретения, устройство для извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации включает эстиматор (блок оценки) прямого сигнала/сигнала окружения и экстрактор (блок извлечения) прямого сигнала/сигнала окружения. Сигнал понижающего микширования и пространственная параметрическая информация представляют многоканальный звуковой сигнал, имеющий больше каналов, чем сигнал понижающего микширования. Кроме того, пространственная параметрическая информация включает межканальные отношения многоканального звукового сигнала. Эстиматор прямого сигнала/сигнала окружения формируются, чтобы оценить информацию об уровне прямой части или окружающей части многоканального звукового сигнала, основанную на пространственной параметрической информации. Экстрактор прямого сигнала/сигнала окружения формируются, чтобы извлекать часть прямого сигнала или часть сигнала окружения из сигнала понижающего микширования, основанного на информации о предполагаемом уровне прямой части или окружающей части.

Согласно другому осуществлению данного изобретения, устройство для извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации далее включает устройство бинаурального рендеринга прямого звука, устройство бинаурального рендеринга (визуализации) окружающего звука и объединитель. Устройство бинаурального ренденинга прямого звука формируется, чтобы обработать часть прямого сигнала для получения первого бинаурального выходного сигнала. Устройство бинаурального рендеринга окружающего звука формируется, чтобы обработать часть окружающего сигнала для получения второго бинаурального выходного сигнала. Объединитель формируется, чтобы комбинировать первый и второй бинауральные выходные сигналы для получения объединенного бинаурального выходного сигнала. Поэтому, может быть получено бинауральное воспроизведение звукового сигнала, где часть прямого сигнала и часть сигнала окружения звукового сигнала обрабатываются отдельно.

В дальнейшем, осуществления данного изобретения объясняются со ссылкой на сопровождающие рисунки, в которых:

Фиг.1 показывает блок-схему осуществления устройства для извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации, представляющей многоканальный звуковой сигнал;

Фиг.2 показывает блок-схему осуществления устройства для извлечения прямого сигнала/сигнала окружения из моно сигнала понижающего микширования и пространственной параметрической информации, представляющей параметрический стерео звуковой сигнал;

Фиг.3А показывает схематическую иллюстрацию спектрального разложения многоканального звукового сигнала согласно осуществлению данного изобретения;

Фиг.3В показывает; схематическую иллюстрацию вычисления межканальных отношений многоканального звукового сигнала, основанного на спектральном разложении фиг.3А;

Фиг.4 показывает блок-схему осуществления экстрактора прямого сигнала/сигнала окружения с понижающим микшированием информации о предполагаемом уровне;

Фиг.5 показывает блок-схему дальнейшего осуществления экстрактора прямого сигнала/сигнала окружения с применением параметров усиления к сигналу понижающего микширования;

Фиг.6 показывает блок-схему дальнейшего осуществления экстрактора прямого сигнала/сигнала окружения, основанного на решении LMS (алгоритм минимальной среднеквадратичной ошибки) с перекрестным микшированием каналов;

Фиг.7А показывает блок-схему осуществления эстиматора (блока оценки) прямого сигнала/сигнала окружения посредством использования формулы оценки стерео окружения;

Фиг.7В показывает график примерного энергетического отношения прямой-к-общему по отношению к межканальной когерентности;

Фиг.8 показывает блок-схему системы кодирующего устройства/декодера согласно осуществлению данного изобретения;

Фиг.9А показывает блок-схему обзора бинаурального рендеринга прямого звука согласно осуществлению данного изобретения;

Фиг.9В показывает блок-схему деталей бинаурального рендеринга прямого звукафиг.9А;

Фиг.10А показывает блок-схему обзора бинаурального рендеринга окружающего звука согласно осуществлению данного изобретения;

Фиг.10В показывает блок-схему деталей бинаурального рендеринга окружающего звука фиг.10А;

Фиг.11 показывает концептуальную блок-схему осуществления бинаурального воспроизведения многоканального звукового сигнала;

Фиг.12 показывает полную блок-схему осуществления извлечения прямого сигнала/сигнала окружения, включая бинауральное воспроизведение;

Фиг.13А показывает блок-схему осуществления устройства для извлечения прямого сигнала/сигнала окружения из моно сигнала понижающего микширования в области банка фильтров;

Фиг.13В показывает блок-схему осуществления блока извлечения прямого сигнала/сигнала окруженияфиг.13А; и

Фиг.14 показывает схематическую иллюстрацию примерной схемы MPEG Окружающего декодирования согласно дальнейшему осуществлению данного изобретения.

Фиг.1 показывает блок-схему осуществления устройства 100 для извлечения прямого сигнала/сигнала окружения 125-1, 125-2 из сигнала понижающего микширования 115 и пространственной параметрической информации 105. Как показано нафиг.1, сигнал понижающего микширования 115 и пространственная параметрическая информация 105 представляют многоканальный звуковой сигнал 101, имеющий больше каналов Ch₁ … Ch_N, чем сигнал понижающего микширования 115. Пространственная параметрическая информация 105 может включать межканальные отношения многоканального звукового сигнала 101. В частности, устройство 100 включает эстиматор прямого сигнала/сигнала окружения 110 и экстрактор прямого сигнала/ сигнала окружения 120. Эстиматор прямого сигнала/сигнала окружения 110 может формироваться, чтобы оценить информацию об уровне 113 прямой части или окружающей части многоканального звукового сигнала 101, основанную на пространственной параметрической информации 105. Экстрактор прямого сигнала/сигнала окружения 120 может формироваться, чтобы извлечь часть прямого сигнала 125-1 или часть сигнала окружения 125-2 из сигнала понижающего микширования 115, основанного на информации о предполагаемом уровне 113 прямой части или окружающей части.

Фиг.2 показывает блок-схему осуществления устройства 200 для извлечения прямого сигнала/сигнала окружения 125-1, 125-2 из моно сигнала понижающего микширования 215 и пространственной параметрической информации 105, представляющей параметрический стерео звуковой сигнал 201. Устройство 200фиг.2, по существу, включает те же самые блоки, что и устройство 100 фиг.1. Поэтому, идентичные блоки, имеющие подобное выполнение и/или функции, обозначены теми же самыми цифрами. Кроме того, параметрический стерео звуковой сигнал 201 фиг.2 может соответствовать многоканальному звуковому сигналу 101 фиг.1, и моно сигнал понижающего микширования 215 фиг.2 может соответствовать сигналу понижающего микширования 115 фиг.1. В осуществлении фиг.2 моно сигнал понижающего микширования 215 и пространственная параметрическая информация 105 представляют параметрический стерео звуковой сигнал 201. Параметрический стерео звуковой сигнал может включать левый канал, обозначенный «L», и правый канал, обозначенным «R». Здесь, экстрактор прямого сигнала/сигнала окружения 120 формируются, чтобы извлечь часть прямого сигнала 125-1 или часть сигнала окружения 125-2 из моно сигнала понижающего микширования 215, основанного на информации о предполагаемом уровне 113, которая может быть получена из пространственной параметрической информации 105 посредством использования эстиматора (блока оценки) прямого сигнала/сигнала окружения 110.

Практически, пространственные параметры (пространственная параметрическая информация 105) на осуществлении фиг.1 или фиг.2, соответственно, в частности, относятся к MPEG, окружающей (MPS) или параметрический стерео (PS) дополнительной информация. Эти две технологии - современный способ стерео кодирования с низкой скоростью передачи битов или способ кодирования окружающего звука. Со ссылкой на фиг.2, PS предоставляет один звуковой канал понижающего микширования с пространственными параметрами, и со ссылкой на фиг.1, MPS обеспечивает один, два или больше звуковых каналов понижающего микширования с пространственными параметрами.

В частности, осуществления фиг.1 и фиг.2 ясно показывают, что пространственная параметрическая дополнительная информация 105 может легко использоваться в области извлечения прямого сигнала и/или сигнала окружения из сигнала (то есть, сигнала понижающего микширования 115; 215), который имеет один или более входных каналов.

Оценка прямого уровня и/или уровня окружения (информация об уровне 113) основывается на информации о межканальных отношениях или межканальных различиях, таких как разности уровней и/или корреляция. Эти значения могут быть вычислены из стерео или многоканального сигнала. Фиг.3А показывает схематическую иллюстрацию спектрального разложения 300 многоканального звукового сигнала (Ch₁ … Ch_N), используемого для вычисления межканальных отношений соответствующего Ch₁ … Ch_N. Как видно по фиг.3А, спектральное разложение проверенного канала, Ch_i многоканального звукового сигнала (Ch₁ … Ch_N) или линейной комбинации R остальных каналов, соответственно, включает множество 301 под диапазонов, где каждый под диапазон 303 множества 301 под диапазонов расширяется вдоль горизонтальной оси (ось времени 310), имея значения под диапазонов 305, как обозначено маленькими прямоугольниками частотно/временной сетки. Кроме того, под диапазоны 303 располагаются последовательно вдоль вертикальной оси (ось частоты 320), соответствуя различным частотным областям банка фильтров. На фиг.3А соответствующий частотно/временной элемент $X_{i}^{n, k}$ или $X_{R}^{n, k}$ обозначен пунктирной линией. Здесь, индекс i обозначает канал Ch_i и R - линейная комбинация остальной части каналов, в то время как индексы n и k соответствуют определенным временным интервалам банка фильтров 307 и под диапазонам банка фильтра 303. Основанные на этих частотно/временных элементах $X_{i}^{n, k}$ или $X_{R}^{n, k}$ , например, расположенных в той же самой частотно/временной точке (t₀, f₀) относительно частотно/временных осей 310, 320, межканальные отношения 335, такие как межканальные когерентности (ICC_i) или разности уровней канала (CLD_i) проверенного канала Ch_i, могут вычисляться на стадии 330, - как показано на фиг.3В. Здесь, вычисление межканальных отношений ICC_i и CLD_i может быть выполнено при использовании следующих отношений:

$I C C_{i} = \frac{〈 C h_{i} R^{*} 〉}{\sqrt{〈 C h_{i} C h_{i}^{*} 〉 〈 R R^{*} 〉}}$

$σ_{i} = \frac{〈 C h_{i} C h_{i}^{*} 〉}{〈 R R^{*} 〉}$

где Ch_i проверенный канал и R - линейная комбинация остающихся каналов, в то время как <…> обозначает среднее по времени. Примером линейной комбинации R остающихся каналов является их сумма с нормализованной энергией. Кроме того, разность уровней канала (CLD_i) обычно является значением параметра σ_i в децибелах.

Со ссылкой на вышеупомянутые уравнения разность уровней канала (CLD_i) или параметр σ_i может соответствовать уровню P_i канала Ch_i, нормализованному до уровня P_R линейной комбинации R остальных каналов. Здесь, уровни P_i или P_R могут быть получены из параметра разности межканальных уровней ICLD_i канала Ch_i и линейная комбинация ICLD_R параметров разности межканальных уровней ICLD_j (j≠i) остальных каналов.

Здесь, ICLD_i и ICLD_j могут быть, соответственно, связаны с опорным каналом CH_ref. В дальнейших осуществлениях параметры разности межканальных уровней ICLD_i и ICLD_j могут также быть связаны с любым другим каналом многоканального звукового сигнала (Ch₁ … Ch_N), являющимся опорным каналом CH_ref. Это, в конечном счете, приведет к тому же результату для разности уровней канала (CLD_i) или параметра σ_i.

Согласно дальнейшим осуществлениям, межканальные отношения 335 фиг.3В могут также быть получены посредством воздействия на различные или все пары Ch_i, Ch_j входных каналов многоканального звукового сигнала (Ch₁ … Ch_N). В этом случае, могут быть получены попарно вычисленные параметры межканальной когерентности ICC_i,j или разность уровней канала (CLD_i,j) или параметры σ_i,j (или ICLD_i,j), и, соответственно, индексы (i,j), обозначающие определенную пару каналов Ch_i и Ch_j.

Фиг.4 показывает блок-схему осуществления 400 экстрактора прямого сигнала/ сигнала окружения 420, который включает понижающее микширование информации о предполагаемом уровне 113. Осуществление фиг.4, по существу, включает те же самые блоки, что и осуществление фиг.1. Поэтому, идентичные блоки, имеющие подобное выполнение и/или функции, обозначены теми же самыми цифрами. Однако, экстрактор прямого сигнала/сигнала окружения 420 фиг.4, который может соответствовать экстрактору прямого сигнала/сигнала окружения 120 фиг.1, формируются, чтобы микшировать с понижением информацию о предполагаемом уровне 113 прямой части или окружающей части многоканального звукового сигнала для получения микшированной с понижением информации об уровне прямой части или окружающей части и извлечения прямой части сигнала 125-1 или окружающей части сигнала 125-2 из сигнала понижающего микширования 115, основанного на микшированной с понижением информации об уровне. Как показано на фиг.4, пространственная параметрическая информация 105 может, например, быть получена из многоканального звукового сигнала 101 (Ch₁ … Ch_N) фиг.1 и может включать межканальные отношения 335 Ch₁ … Ch_N, представленные на фиг.3В. Пространственная параметрическая информация 105 фиг.4 может также включать информацию о понижающем микшировании 410, которая подается в экстрактор прямого сигнала/сигнала окружения 420. В осуществлениях информация о понижающем микшировании 410 может характеризовать понижающее микширование оригинального многоканального звукового сигнала (например, многоканальный звуковой сигнал 101 фиг.1) в сигнал понижающего микширования 115. Понижающее микширование может, например, быть выполнено посредством использования микшера понижающего микширования (не показан), работающего в любой области кодирования, такой как временной интервал или спектральная область.

Согласно дальнейшим осуществлениям, экстрактор прямого сигнала/сигнала окружения 420 может также формироваться, чтобы выполнить понижающее микширование информации о предполагаемом уровне 113 прямой части или окружающей части многоканального звукового сигнала 101, комбинируя информацию о предполагаемом уровне прямой части с когерентным суммированием и информацию о предполагаемом уровне окружающей части с некогерентным суммированием.

Показано, что информация о предполагаемом уровне может представлять энергетические уровни или уровни мощности прямой части или окружающей части, соответственно.

В частности, понижающее микширование энергий (то есть, информация о предполагаемом уровне 113) прямой/окружающей части может быть выполнено, допуская полную некогерентность или полную когерентность между каналами. Две формулы, которые могут быть применены в случае понижающего микширования, основанного на некогерентном или когерентном суммировании, соответственно, следующие.

Для некогерентных сигналов, микшированная с понижением энергия или информация о микшированном с понижением уровне могут быть вычислены посредством $E_{D M X} = \sum_{i = 1}^{N} g_{i}^{2} E_{C h_{i}}$ .

Для когерентных сигналов, микшированная с понижением энергия или информация о микшированном с понижением уровне могут быть вычислены посредством $E_{D M X} = {(\sum_{i = 1}^{N} g_{i} \sqrt{E_{C h_{i}}})}^{2}$ .

Здесь, g-коэффициент усиления понижающего микширования, который может быть получен из информации о понижающем микшировании, в то время как E (Ch_i) обозначает энергию прямой/окружающей части канала Ch_i многоканального звукового сигнала. В качестве типичного примера некогерентного понижающего микширования для случая понижающего микширования 5.1 каналов в два, энергия левого понижающего микширования может быть:

E_{L_DMX}=E_Left+E_{Left_surround}+0,5*E_Center

Фиг.5 показывает дальнейшее осуществление экстрактора прямого сигнала/сигнала окружения 520 с применением параметров усиления g_D, g_A к сигналу понижающего микширования 115. Экстрактор прямого сигнала/сигнала окружения 520 фиг.5 может соответствовать экстрактору прямого сигнала/сигнала окружения 420 фиг.4. Во-первых, информация о предполагаемом уровне прямой части 545-1 или окружающей части 545-2 может быть получена из эстиматора (блока оценки) прямого сигнала/сигнала окружения как было описано прежде. Полученная информация об уровне 545-1, 545-2 может быть объединенной/микшированной с понижением на этапе 550, чтобы получить микшированную с понижением информацию об уровне прямой части 555-1 или окружающей части 555-2, соответственно. Тогда, на этапе 560, параметры усиления g_D 565-1 или g_A 565-2 могут быть получены из микшированной с понижением информации об уровне 555-1, 555-2 для прямой части или окружающей части, соответственно. Наконец, экстрактор прямого сигнала/сигнала окружения 520 может использоваться, чтобы применить полученные параметры усиления 565-1, 565-2 к сигналу понижающего микширования 115 (этап 570), таким образом, чтобы получить часть прямого сигнала 125-1 или окружающего сигнала 125-2.

Здесь, следует заметить, что в осуществлениях фиг.1; 4; 5, сигнал понижающего микширования 115 может состоять из множества каналов понижающего микширования (Ch₁ … Ch_N), присутствующих на входах экстракторов прямого сигнала/сигнала окружения 120; 420; 520, соответственно.

В дальнейших осуществлениях, экстрактор прямого сигнала/сигнала окружения 520 формируется, чтобы определить энергетическое отношение прямой - к - общему (DTT) или окружающий - к - общему (АТТ) из микшированной с понижением информации об уровне 555-1, 555-2 прямой части или окружающей части и использовать в качестве параметров усиления 565-1, 565-2 параметры извлечения, основанные на определенном энергетическом отношении OTT или ATT.

В дальнейших осуществлениях, экстрактор прямого сигнала/сигнала окружения 520 формируется, чтобы умножить сигнал понижающего микширования 115 на первый параметр извлечения корня квадратного (DTT), чтобы получить часть прямого сигнала 125-1, и на второй параметр извлечения корня квадратного (ATT), чтобы получить часть окружающего сигнала 125-2. Здесь, сигнал понижающего микширования 115 может соответствовать моно сигналу понижающего микширования 215, как показано на фиг.2 осуществления («случай моно понижающего микширования»).

В случае моно понижающего микширования, извлечение окружения может выполняться посредством применения корня квадратного (ATT) и корня квадратного (DTT). Однако, тот же подход действителен также для многоканальных сигналов понижающего микширования, в частности, при применении и корня квадратного (ATT_i) и корня квадратного (DTT_j) для каждого канала Ch_i.

Согласно дальнейшим осуществлениям, в случае, если сигнал понижающего микширования 115 включает множество каналов («случай многоканального понижающего микширования»), экстрактор прямого сигнала/сигнала окружения 520 может формироваться, чтобы применять первое множество параметров извлечения, например, корня квадратного (DTT_i), к сигналу понижающего микширования 115, чтобы получить часть прямого сигнала 125-1, и второе множество параметров извлечения, например, корня квадратного (ATT_i), к сигналу понижающего микширования 115, чтобы получить часть сигнала окружения 125-2. Здесь, первое и второе множество параметров извлечения могут создать диагональную матрицу.

Вообще, экстрактор прямого сигнала/сигнала окружения 120; 420; 520 может также формироваться, чтобы извлечь часть прямого сигнала 125-1 или часть сигнала окружения125-2 посредством применения квадратной M×M матрицы извлечения к сигналу понижающего микширования 115, где размер (M) квадратной M×M матрицы извлечения соответствует числу (M) каналов понижающего микширования (Ch₁ … Ch_N).

Использование извлечения окружения может, поэтому, быть описано посредством применения квадратной M×M матрицы извлечения, где М является числом каналов понижающего микширования (Ch₁ … Ch_N). Это может включать все возможные способы управления входным сигналом для получения выхода прямого сигнала/сигнала окружения, включая относительно простой подход, основанный на параметрах корня квадратного (ATT_i) и корня квадратного (DTT_i), представляющих главные элементы квадратной M×M матрицы извлечения, формируемой как диагональная матрица, или подход LMS (алгоритм минимальной среднеквадратичной ошибки) перекрестного микширования в качестве полной матрицы. Последняя будет описана в дальнейшем. Здесь, следует заметить, что вышеупомянутый подход, использующий M×M матрицу извлечения, покрывает любое число каналов, включая один.

Согласно дальнейшим осуществлениям, матрица извлечения не обязательно должна быть квадратной матрицей матричного размера M×M, потому что у нас может быть меньшее число выходных каналов. Поэтому, матрица извлечения может иметь сокращенное число линий. Примером этого будет извлечение одиночного прямого сигнала вместо M.

Также необязательно всегда брать все M каналы понижающего микширования как входные, соответствующие имеющимся M колонкам матрицы извлечения. Это, в частности, может быть важно для применений, где не обязательно иметь все каналы как входные.

Фиг.6 показывает блок-схему дальнейшего осуществления 600 экстрактора прямого сигнала/сигнала окружения 620, основанного на решении LMS (алгоритм минимальной среднеквадратичной ошибки) с перекрестным микшированием каналов. Экстрактор прямого сигнала/сигнала окружения 620 фиг.6 может соответствовать экстрактору прямого сигнала/сигнала окружения 120 фиг.1. В осуществлении фиг.6 идентичные блоки имеют подобное выполнение и/или функции как, в осуществлении фиг.1, поэтому, обозначены теми же самыми цифрами. Однако, сигнал понижающего микширования 615 фиг.6, который может соответствовать сигналу понижающего микширования 115 фиг.1, может включать множество 617 каналов понижающего микширования Ch₁ … Ch_N, где число каналов понижающего микширования (M) меньше, чем число каналов Ch₁ … Ch_N (N) многоканального звукового сигнала 101, то есть, M<N. А именно, экстрактор прямого сигнала/сигнала окружения 620 формируются, чтобы извлечь часть прямого сигнала 125-1 или часть сигнала окружения 125-2 посредством решения алгоритма минимальной среднеквадратичной ошибки (LMS) с перекрестным микшированием каналов; решение LMS не требует равных уровней окружения. В дальнейшем будет предоставлено решение LMS, не требующее равных уровней окружения и являющееся также растяжимым для любого числа каналов. Только что упомянутое решение LMS не является обязательным, но представляет более точную альтернативу вышеописанному способу.

Символы, используемые в решении LMS для весовых коэффициентов перекрестного микширования для извлечения прямого сигнала/сигнала окружения:

1	Ch_i channel i
2	a_i gain of the direct sound in channel i
3	D and $\hat{D}$ direct part of the sound and its estimate
4	A_i and ${\hat{A}}_{i}$ ambient part of channel i and its estimate
5	P_X=E[XX*] estimated energy of X
6	E[] expectation
7	$E_{\hat{X}}$ estimation error of X
8	$w_{\hat{D} i}$ LMS crossmixing weights for channel i to the direct part
9	$w_{\hat{A} i n}$ LMS crossmixing weights for channel n to ambience of channel i
1	канал i
2	усиление прямого звука в канале i
3	прямая часть звука и ее оценка
4	окружающая часть канала i и ее оценка
5	предполагаемая энергия X
6	(математическое) ожидание
7	погрешность оценки X
8	весовые коэффициенты LMS перекрестного микширования для канала i для прямой части
9	весовые коэффициенты LMS перекрестного микширования для канала n для окружения канала i

В этом контексте следует заметить, что дифференцирование решения LMS может основываться на спектральном представлении соответствующих каналов многоканального звукового сигнала, что означает, что все функционирует в частотных диапазонах.

Модель прохождения сигнала представлена

Ch_i=a_iD+A_i

Дифференцирование сначала имеет дело с a) прямой частью, а затем b) с окружающей частью. Наконец, получается решение для весовых коэффициентов, и описывается способ нормализации весовых коэффициентов.

a) Прямая часть

Оценка весовых коэффициентов прямой части

$\hat{D} = \sum_{i = 1}^{N} w_{\hat{D} i} C h_{i} = \sum_{i = 1}^{N} w_{\hat{D} i} (a_{i} D + A_{i})$

Погрешность оценки читается

$E_{\hat{D}} = D - \hat{D} = D - \sum_{i = 1}^{N} w_{\hat{D} i} (a_{i} D + A_{i})$

Чтобы иметь решение LMS, нам потребуется ортогональ во входных сигналах

$E [E_{\hat{D}} C h_{k}] = 0$ , для всех k

$\begin{array}{l} E [(D - \sum_{i = 1}^{N} w_{\hat{D} i} (a_{i} D + A_{i})) {(a_{k} D + A_{k})}^{*}] \\ = (a_{k} - \sum_{i = 1}^{N} w_{\hat{D} i} a_{i} a_{k}) P_{D} - w_{\hat{D} k} P_{A k} = 0 \\ \Leftrightarrow \sum_{i = 1}^{N} w_{\hat{D} i} a_{i} a_{k} P_{D} + w_{\hat{D} k} P_{A K} = a_{k} P_{D} \end{array}$

В матричной форме вышеприведенное отношение читается

$A \bar{w} = \bar{P}$

$[\begin{matrix} (a_{1} a_{1} P_{D} + P_{A 1}) & a_{1} a_{2} P_{D} & \dots & a_{1} a_{N} P_{D} \\ a_{1} a_{2} P_{D} & (a_{2} a_{2} P_{D} + P_{A 2}) & ⋮ \\ ⋮ & ⋱ \\ a_{1} a_{N} P_{D} & \dots & (a_{N} a_{N} P_{D} + P_{A N}) \end{matrix}] [\begin{matrix} w_{\hat{D} 1} \\ w_{\hat{D} 2} \\ ⋮ \\ w_{\hat{D} N} \end{matrix}] = [\begin{matrix} a_{1} \\ a_{2} \\ ⋮ \\ a_{N} \end{matrix}] P_{D}$

b) Часть окружения

Мы начинаем с той же самой модели прохождения сигнала и оцениваем весовые коэффициенты из

${\hat{A}}_{i} = \sum_{n = 1}^{N} w_{\hat{A} i, n} C h_{i} = \sum_{n = 1}^{N} w_{\hat{A} i, n} (a_{i} D + A_{i})$

Погрешность оценки

$E_{\hat{A} i} = A_{i} - {\hat{A}}_{i} = A_{i} - \sum_{n = 1}^{N} w_{\hat{A} i, n} (a_{i} D + A_{i})$

и ортогональность

$E [E_{\hat{D}} C h_{k}] = 0$ , для всех k

$\begin{array}{l} E [(A_{i} - \sum_{n = 1}^{N} w_{\hat{A} i, n} (a_{n} D + A_{n})) {(a_{k} D + A_{k})}^{*}] \\ = {\begin{array}{l} - \sum_{n = 1}^{N} w_{\hat{A} i, n} a_{n} a_{k} P_{D} - w_{\hat{A} i, k} P_{A k} = 0, i f i! = k \\ - \sum_{n = 1}^{N} w_{\hat{A} i, n} a_{n} a_{k} P_{D} - w_{\hat{A} i, k} P_{A k} + P_{A k} = 0, i f i = = k \end{array} \\ \Leftrightarrow {\begin{array}{l} \sum_{n = 1}^{N} w_{\hat{A} i, n} a_{n} a_{k} P_{D} - w_{\hat{A} i, k} P_{A k} = 0, i f i! = k \\ \sum_{n = 1}^{N} w_{\hat{A} i, n} a_{n} a_{k} P_{D} - w_{\hat{A} i, k} P_{A k} = P_{A k}, i f i = = k \end{array} \end{array}$

В матричной форме вышеприведенное отношение читается

AW=P

$[\begin{matrix} (a_{1} a_{1} P_{D} + P_{A 1}) & a_{1} a_{2} P_{D} & \dots & a {}_{1}a_{N} P_{D} \\ a_{1} a_{2} P_{D} & (a_{2} a_{2} P_{D} + P_{A 2}) & ⋮ \\ ⋮ & ⋱ \\ a_{1} a_{N} P_{D} & \dots & (a_{N} a_{N} P_{D} + P_{A N}) \end{matrix}] [\begin{matrix} w_{\hat{A} 1,1} & w_{\hat{A} 2,1} & \dots & w_{\hat{A} N,1} \\ w_{\hat{A} 1,2} & w_{\hat{A} 2,2} & ⋮ \\ ⋮ & ⋱ \\ w_{\hat{A} 1, N} & \dots & w_{\hat{A} N, N} \end{matrix}] = [\begin{matrix} P_{A 1} & 0 & \dots & 0 \\ 0 & P_{A 2} & ⋮ \\ ⋮ & ⋱ \\ 0 & \dots & P_{A N} \end{matrix}]$

Решение для весовых коэффициентов

Весовые коэффициенты могут быть решены посредством инвертирования матрицы A, которая идентична в вычислении, как прямой части, так и окружающей части. В случае стерео сигналов решение таково:

$w_{D 1} = \frac{a_{1} P_{D} P_{A 2}}{a_{2} a_{2} P_{D} P_{A 1} + a_{1} a_{1} P_{D} P_{A 2} + P_{A 1} P_{A 2}} = \frac{a_{1} P_{D} P_{A 2}}{d i v}$

$w_{D 2} = \frac{a_{2} P_{D} P_{A 1}}{d i v}$

$w_{\hat{A} 1,1} = \frac{a_{2} a_{2} P_{D} P_{A 1} + P_{A 1} P_{A 2}}{d i v}$

$w_{\hat{A} 1,2} = \frac{a_{1} a_{2} P_{D} P_{A 1}}{d i v}$

$w_{\hat{A} 2,1} = \frac{a_{1} a_{2} P_{D} P_{A 2}}{d i v}$

$w_{\hat{A} 2,2} = \frac{a_{1} a_{1} P_{D} P_{A 2} + P_{A 1} P_{A 2}}{d i v}$

где div - делитель a₂a₂P_DP_A1+a₁a₁P_DP_A2+P_A1P_A2.

Нормализация весовых коэффициентов

Весовые коэффициенты предназначены для решения LMS, но так как уровни энергии должны быть сохранены, весовые коэффициенты нормализуются. Это также делает ненужным деление на член div в вышеприведенных формулах. Нормализация производится посредством обеспечения энергий выходных прямых и окружающих каналов, равных P_D и P_Ai, где i - индекс канала.

Это - прямое допущение того, что мы знаем межканальные когерентности, смешивающие коэффициенты и энергии каналов. Для простоты, мы сосредоточимся на случае с двумя каналами и, в частности, для одной пары весовых коэффициентов $w_{\hat{A} 1,1}$ и $w_{\hat{A} 1,2}$ , которые были коэффициентами усиления для получения первого канала окружения из первого и второго входных каналов. Этапы следующие:

Этап 1: Вычисление энергии выходного сигнала (где когерентная часть согласуется поамплитудно, а некогерентная часть - энергетически)

$P_{\hat{A} 1} = {(w_{\hat{A} 1,1} \sqrt{| I C C | \cdot P_{1}} + s i g n (I C C) w_{\hat{A} 1,2} \sqrt{| I C C | \cdot P_{2}})}^{2} + (1 - | I C C |) P_{1} w_{\hat{A} 1,1}^{2} + (1 - | I C C |) P_{2} w_{\hat{A} 1,2}^{2}$

Этап 2: Вычисление коэффициента усиления нормализации

$g = \sqrt{\frac{P_{A 1}}{P_{\hat{A} 1}}}$

и применение результата к весовым коэффициентам перекрестного микширования $w_{\hat{A} 1,1}$ и $w_{\hat{A} 1,2}$ . На эапе 1, абсолютные значения и операторы знака (символа) для ICC включаются, чтобы учесть также случай, когда входные каналы являются отрицательно когерентными. Остальные весовые коэффициенты нормализуются тем же самым способом.

В частности, со ссылкой на вышесказанное, экстрактор прямого сигнала/сигнала окружения 620 может формироваться, чтобы получить решение LMS, при условии, что устойчивая модель прохождения многоканального сигнала, такая как решение LMS, не будет ограничена стерео сигналом канала понижающего микширования.

Фиг.7А показывает блок-схему осуществления 700 эстиматора (блока оценки) прямого сигнала/сигнала окружения 710, основывающегося на формуле оценки стерео окружения. Эстиматор (блока оценки) прямого сигнала/сигнала окружения 710 фиг.7 может соответствовать эстиматору (блоку оценки) прямого сигнала/сигнала окружения 110 фиг.1. В частности, эстиматор прямого сигнала/сигнала окружения 710 фиг.7 формируются, чтобы применить формулу оценки" стерео окружения, используя пространственную параметрическую информацию 105 для каждого канала (Ch_i) многоканального звукового сигнала 101, где формула оценки стерео окружения может быть представлена как функциональная зависимость

DTT_i=f_DTT[σ_i(Ch_i,R),ICC_i(Ch_i,R)],

ATT_i=1-DTT_i

явно показывающая зависимость от разности уровней канала (CLD_i) или параметра σ_i и параметра межканальной когерентности (ICC_i) канала Ch_i. Как изображено на фиг.7, пространственная параметрическая информация 105 подается в эстиматор прямого сигнала/сигнала окружения 710 и может включать параметры межканальных отношений ICC_i и σ_i для каждого канала Ch_i. После применения этой формулы оценки стерео окружения при помощи эстиматора (блока оценки) прямого сигнала/сигнала окружения 710 на его выходе 715 будет получено энергетическое отношение прямого - к - общему (DTT_i) или окружающего - к - общему (ATT_i). Следует заметить, что вышеприведенная формула оценки стерео окружения, используемая для оценки соответствующего DTT или ATT энергетического отношения, не основывается на условии равного окружения.

В частности, оценка отношения прямой сигнал/сигнал окружения может быть выполнена так, что отношение (DTT) энергии прямого сигнала в канале по сравнению с полной энергией того же канала может быть сформулировано так

$R a t i o = \frac{1}{2} [(1 - \frac{1}{σ}) + \sqrt{{(\frac{1}{σ} - 1)}^{2} + 4 \frac{I C C^{2}}{σ}}]$

где $σ \frac{〈 C h C h^{*} 〉}{〈 R R^{*} 〉}$ и $I C C = \frac{〈 C h R^{*} 〉}{\sqrt{〈 C h C h^{*} 〉 〈 R R^{*} 〉}}$ , Ch - проверенный канал, и R - линейная комбинация остальных каналов. 〈 〉 - среднее по времени. Эта формула имеет место, когда уровень окружения предполагается равным в канале и линейной комбинации остальных каналов, и когерентность равна нолю.

Фиг.7В показывает график 750 примерного DTT (прямой-к-общему) энергетического отношения 760 как функции параметра межканальной когерентности ICC 770. На фиг.7В осуществления разность уровней канала (CLD) или параметр σ для примера установлен на 1 (σ=1), таким образом, что уровень Р (Ch_i) канала Ch_i и уровень Р (R) линейной комбинации R остальных каналов будут равны. В этом случае, энергетическое отношение DTT 760 будет линейно пропорциональным параметру ICC, что показано прямой линией 775,обозначенной DTT~ICC. По фиг.7В видно, что в случае ICC=0, который может соответствовать полностью декогерентному межканальному отношению, энергетическое отношение DTT 760 будет равно 0, что может соответствовать ситуации полного окружения (случай «R₁»). Однако, в случае ICC=1, который может соответствовать полностью когерентному межканальному отношению, энергетическое отношение DTT 760 может быть равно 1, что может соответствовать ситуаций полностью прямого сигнала(случай «R₂»). Поэтому, в случае R₁, по существу, нет энергии прямого сигнала, в то время как в случае R₂, нет, по существу, энергии сигнала окружения в канале относительно полной энергии этого канала.

Фиг.8 показывает блок-схему системы кодирующее устройство/декодер 800 согласно дальнейшим осуществлениям данного изобретения. На стороне декодера системы кодирующее устройство/декодер 800 показано осуществление декодера 820, который может соответствовать устройству 100 фиг.1. Ввиду подобия осуществлений фиг.1 и фиг.8 идентичные блоки, имеющие подобное выполнение и/или функции в этих осуществлениях, обозначены теми же самыми цифрами. Как показано в осуществлениях фиг.8, экстрактор прямого сигнала/сигнала окружения 120 может быть эффективным для сигнала понижающего микширования 115, имеющего множество Ch₁ … Ch_N каналов понижающего микширования. Эстиматор прямого сигнала/сигнала окружения 110 фиг.8 может, кроме того, формироваться, чтобы получить, по крайней мере, два канала понижающего микширования825 сигнала понижающего микширования 815(факультативно), таким образом, что информация об уровне 113 прямой части или окружающей части многоканального звукового сигнала 101 будет оценена, основываясь, помимо пространственной параметрической информации 105, на полученных, по крайней мере, двух каналах понижающего микширования825. Наконец, часть прямого сигнала 125-1 или часть сигнала окружения 125-2 будут получены после извлечения экстрактором прямого сигнала/сигнала окружения 120.

На стороне кодирующего устройства системы кодирующее устройство/декодер 800 показано осуществление кодирующего устройства 810, которое может включать микшер понижающего микширования 815 для понижающего микширования многоканального звукового сигнала (Ch₁ … Ch_N) в сигнал понижающего микширования 115, имеющий множество Ch₁ … Ch_N каналов понижающего микширования, где число каналов сокращено cN до M. Микшер понижающего микширования 815 может также формироваться, чтобы выводить пространственную параметрическую информацию 105 посредством вычисления межканальных отношений из многоканального звукового сигнала 101. В системе кодирующее устройство/декодер 800 фиг.8 сигнал понижающего микширования 115 и пространственная параметрическая информация 105 могут передаваться от кодирующего устройства 810 декодеру 820. Здесь, кодирующее устройство 810 может получить кодированный сигнал, основанный на сигнале понижающего микширования 115 и пространственной параметрической информации 105, для передачи со стороны кодирующего устройства на сторону декодера. Кроме того, пространственная параметрическая информация 105 основывается на информации о канале многоканального звукового сигнала 101.

С одной стороны, параметры межканального отношения σ_i (Ch_i, R) и ICC_i (Ch_i, R) могут быть вычислены между каналом Ch_i и линейной комбинацией R остальных каналов в кодирующем устройстве 810 и переданы в кодированном сигнале. Декодер 820 может, в свою очередь, получить кодируемый сигнал и работать на переданных параметрах межканального отношения σ_i (Ch_i, R) и ICC_i (Ch_i, R).

С другой стороны, кодирующее устройство 810 может также формироваться, чтобы вычислить параметры межканальной когерентности ICC_i,j между парами различных каналов (Ch_i, Ch_j), которые должны быть переданы. В этом случае, декодер 810 должен быть в состоянии дифференцировать параметры ICC_i (Ch_i, R) между каналом Ch_i и линейной комбинацией R остальных каналов из переданных попарно вычисленных ICC_i,j (Ch_i, Ch_j) параметров, таким образом, чтобы могли быть реализованы соответствующие осуществления, описанные ранее. В этом контексте следует заметить, что декодер 820 не может восстановить параметры ICC_i (Ch_i, R) из сведений (знания) только об одном сигнале понижающего микширования 115.

В осуществлениях переданные пространственные параметры относятся не только к попарным сопоставлениям каналов.

Например, самый типичный случай MPS-это тот, где имеется два канала понижающего микширования. Первый набор пространственных параметров в MPS декодировании превращает эти два канала в три: Центральный, Левый и Правый. Набор параметров, которые управляют этим отображением, называются центральным коэффициентом прогнозирования (CPC), и параметр ICC является характерным для этой конфигурации два-к-трем.

Второй набор пространственных параметров делит каждый на два: боковые каналы на соответствующий передний и задний канал, и центральный канал на центральный и Lfe канал. Это отображение относится к ICC и CLD параметрам, введенным ранее.

Нецелесообразно создавать правила вычисления для всех видов конфигураций понижающего микширования и всех видов пространственных параметров. Однако, целесообразно, фактически, следовать этапам понижающего микширования. Поскольку мы знаем, как эти два канала превращаются в три, а эти три превращаются в шесть, мы, в конце концов, находим соотношение входа-выхода, как два входных канала разделяются на шесть выходов. Выходы - только линейные комбинации каналов понижающего микширования плюс линейные комбинации их декоррелированных версий. Необязательно действительно декодировать выходной сигнал и измерять его, но, поскольку, мы знаем эту «декодирующую матрицу», мы можем эффективно вычислить ICC и CLD параметры между любыми каналами или комбинацией каналов в параметрической области.

Независимо от конфигурации сигнала понижающего микширования и многоканального сигнала, каждый выход декодированного сигнала является линейной комбинацией сигналов понижающего микширования плюс линейная комбинация декоррелированной версии каждого из них.

$C h_o u t_{i} \sum_{k = 1}^{d m x_c h a n n e l s} (a_{k, i} C h_d m x_{k} + b_{k, i} D [C h_d m x_{k}])$

где оператор D [] соответствует декоррелятору, то есть, процесс, который производит некогерентный дубликат входного сигнала. Факторы a и b известны, так как они могут быть непосредственно получены из параметрической дополнительной информации. Это потому, что по определению, параметрическая информация является руководством для декодера, как создать многоканальный выход из сигналов понижающего микширования. Вышеприведенная формула может быть упрощена до

$C h_o u t_{i} \sum_{k = 1}^{d m x_c h a n n e l s} (a_{k, i} C h_d m x_{k}) + D_{i}$

так как все декоррелированные части могут быть объединены для энергетического/когерентного сравнения. Энергия D известна, так как факторы b также были известны в первой формуле.

Здесь следует заметить, что мы можем произвести любой вид когерентного и энергетического сравнения между выходными каналами, или между различными линейными комбинациями выходных каналов. В случае простого примера с двумя каналами понижающего микширования и ряда выходных каналов, из которых, например, каналы номер 3 и 5 сравниваются друг с другом, сигма вычисляется следующим образом:

$σ_{3,5} = \frac{E [C h_o u t_{3}^{2}]}{E [C h_o u t_{5}^{2}]}$

где Е [] является оператором математического ожидания (на практике: среднее арифметическое). Оба члена могут быть сформулированы следующим образом

$\begin{array}{l} E [C h_o u t_{i}^{2}] = E ⌊ {(\sum_{k = 1}^{2} (a_{k, i} C h_d m x_{k}) + D_{i})}^{2} ⌋ \\ = E [D_{i}^{2}] + \sum_{k = 1}^{2} (a_{k, i}^{2} E [C h_d m x_{k}^{2}]) + 2 a_{1, i} a_{2, i} (E [C h_d m x_{1} C h_d m x_{2}]) \end{array}$

Все приведенные выше параметры известны или могут быть измерены из сигналов понижающего микширования. Перекрестные члены E [Ch_dmx*D] были, по определению, нолем, и поэтому они не находятся в нижнем ряду формулы. Точно так же, формула когерентности

$I C C_{3,5} = \frac{E [C h_o u t_{3} C h_o u t_{5}]}{\sqrt{E [C h_o u t_{3}^{2}] E [C h_o u t_{5}^{2}]}}$

Снова, так как все части вышеприведенной формулы являются линейной комбинацией входов плюс декоррелированный сигнал, решение доступно непосредственно.

Вышеприведенные примеры были со сравнением двух выходных каналов, но так же можно провести сравнение между линейными комбинациями выходных каналов, как в примерном процессе, который будет описан далее.

Чтобы суммировать предыдущие осуществления, представленная технология/концепция может включать следующие этапы:

1. Нахождение межканальных отношений (когерентность, уровень) «оригинального» набора каналов, число которых может быть больше, чем число канала(ов)понижающего микширования.

2. Оценка энергий сигнала окружения и прямого сигнала в этом «оригинальном» наборе каналов.

3. Понижающее микширование энергий сигнала окружения и прямого сигнала этого «оригинального» набора каналов в более низкое число каналов.

4. Использование микшированных с понижением энергий для извлечения прямого сигнала и сигнала окружения в предоставленных каналах понижающего микширования посредством применения коэффициентов усиления или матрицы усиления.

Использование пространственной параметрической дополнительной информации лучше всего объясняется и резюмируется осуществлением фиг.2. В осуществлении фиг.2 мы имеем параметрический стерео поток, который включает одиночный звуковой канал и пространственную дополнительную информацию о межканальных разностях (когерентность, уровень) стерео звука, который она представляет. Теперь, так как мы знаем межканальные разности, мы можем применить к ним вышеприведенную формулу оценки стерео окружения, и получить энергии прямого сигнала и сигнала окружения оригинальных стерео каналов. Тогда мы можем «микшировать с понижением» энергии каналов, добавляя энергии прямого сигнала вместе (с когерентным суммированием) и энергии сигнала окружения (с некогерентным суммированием), и получать энергетические отношения прямой-к-общему и окружающий-к-общему одиночного канала понижающего микширования.

Со ссылкой на осуществление фиг.2, пространственная параметрическая информация, по существу, включает межканальную когерентность (ICC_L, ICC_R) и параметры разности уровней канала (CLD_L, CLD_R), соответствующие левому (L) и правому каналу (R) параметрического звукового стерео сигнала, соответственно. Здесь, следует заметить, что параметры межканальной когерентности ICC_L и ICC_R равны (ICC_L=ICC_R), в то время как параметры разности уровней канала CLD_L и CLD_R связываются CLD_L=-CLD_R. Соответственно, так как параметры разности уровней канала CLD_L и CLD_R обычно являются значениями параметров σ_L и σ_R в децибелах, соответственно, параметры σ_L и σ_R для левого (L) и правого канала (R) связываются σ_L=1/σ_R. Эти параметры межканальной разности могут легко использоваться, чтобы вычислить соответствующие энергетические отношения прямой-к-общему (DTT_L, DTT_R) и окружающий-к-общему (ATT_L, ATT_R) для обоих каналов (L, R), основываясь на формуле оценки стерео окружения. В формуле оценки стерео окружения энергетические отношения прямой-к-общему и окружающий-к-общему (DTT_L, ATT_L) левого канала (L) зависят от параметров межканальной разности (CLD_L, ICC_L) для левого канала L, в то время как энергетические отношения прямой-к-общему и окружающий-к-общему (DTT_R, ATT_R) правого канала (R) зависят от параметров межканальной разности (CLD_R, ICC_R) для правого канала R. Кроме того, энергии (E_L, E_R) для обоих каналов L, R параметрического звукового стерео сигнала могут быть получены, основываясь на параметрах разности уровней канала (CLD_L, CLD_R) для левого (L) и правого канала (R), соответственно. Здесь, энергия (E_L) для левого канала L, может быть получена посредством применения параметра разности уровней канала (CLD_L) для левого канала Lk моно сигналу понижающего микширования, в то время как энергия (E_R) для правого канала R может быть получена посредством применения параметра разности уровней канала (CLD_L) для правого канала Lk моно сигналу понижающего микширования. Тогда, посредством умножения энергии (E_L, E_R) для обоих каналов (L, R) на соответствующие основанные на DTT_L- DTT_R- и ATT_L- ATT_R параметры, будут получены энергии прямого сигнала (E_DL, E_DR) и сигнала окружения (E_AL, E_DR) для обоих каналов (L, R). Тогда, энергии прямого сигнала (E_DL, E_DR) для обоих каналов (L, R) могут быть объединены/добавлены при использовании правила когерентного понижающего микширования для получения микшированной с понижением энергии (E_D,mono) для прямой части моно сигнала понижающего микширования, в то время как энергии сигнала окружения (E_AL, E_AR) для обоих каналов (L, R) могут быть объединены/добавлены при использовании правила когерентного понижающего 1 микширования для получения микшированной с понижением энергии (E_A,mono) для окружающей части моно сигнала понижающего микширования. Тогда, при соотнесении микшированных с понижением энергий (E_D,mono, E_A,mono) для части прямого сигнала и части сигнала окружения с полной энергией (E_mono) моно сигнала понижающего микширования, будет получено энергетическое отношение прямого-к-общему (DTT_mono) и окружающего-к-общему (ATT_mono) моно сигнала понижающего микширования. Наконец, основываясь на этих энергетических отношениях DTT_mono и ATT_mono, часть прямого сигнала или часть сигнала окружения может, по существу, быть извлечена из моно сигнала понижающего микширования.

При воспроизведении звука часто возникает потребность воспроизвести звук через наушники. Прослушивание через наушники имеет специфические особенности, которые решительно отличают его от прослушивания через громкоговоритель и также от любой естественной звуковой окружающей среды. Звук направляется непосредственно в левое и правое ухо. Звуковое содержание (контент) обычно производится для воспроизведения через громкоговоритель. Поэтому, звуковые сигналы не содержат свойства и реплики, которые наша система слуха использует в пространственном звуковом восприятии. Это имеет место, если бинауральная обработка не вводится в систему.

Бинауральная обработка, по существу, является процессом, который забирает входной звук и изменяет его так, чтобы он содержал только такие межакустические и монауральные свойства, которые перцепционно правильны (относительно способа, которым наша система слуха обрабатывает пространственный звук). Бинауральная обработка не прямая задача, и существующие решения, согласно современному уровню техники, имеют много субоптимальностей.

Существует много применений, где уже включена бинауральная обработка для воспроизведения музыки и кино, такие как медиаплеер и устройства обработки, которые разработаны, чтобы преобразовывать многоканальные звуковые сигналы в бинауральный аналог для наушников. Типичный подход состоит в использовании функции моделирования восприятия звука (HRTFs), чтобы создать виртуальные громкоговорители и добавить эффект комнаты к сигналу. Это, в теории, может быть эквивалентным прослушиванию с громкоговорителями в особой комнате.

Однако, на практике уже неоднократно было показано, что этот подход не полностью удовлетворяет слушателей. Кажется, существует компромисс, состоящий в том, что хорошее пространственное расположение, достигаемое при применении этого прямого способа, происходит ценой потери звукового качества, например, нежелательные изменения звуковой окраски или тембра, раздражающее восприятие эффекта комнаты и потеря динамики. Дальнейшие проблемы включают неточную локализацию (например, локализация в голове, путаница перед-зад), нехватку пространственного расстояния звуковых источников и межауральное несоответствие, то есть, слуховое восприятие около ушей из-за неправильных межауральных реплик.

Различные слушатели могут по-разному относиться к этим проблемам. Чувствительность также изменяется в зависимости от входного материала, такого как музыка (жесткие критерии качества в отношении звуковой окраски), кинофильмы (менее жесткие) и игры (еще менее жесткие, но важна локализация). Существуют также типично различные проектные задачи в зависимости от содержания.

Поэтому, следующее описание относится к подходу, позволяющему преодолеть вышеупомянутые проблемы насколько возможно успешно, чтобы максимально улучшить усредненное воспринимаемое общее качество.

Фиг.9А показывает блок-схему обзора 900 устройства бинаурального рендеринга прямого звука 910 согласно дальнейшим осуществлениям данного изобретения. Как показано на фиг.9А, устройство бинаурального рендеринга прямого звука 910 формируется для обработки части прямого сигнала 125-1, которая может присутствовать на выходе экстрактора прямого сигнала/сигнала окружения 120 в осуществлении фиг.1, чтобы получить первый бинауральный выходной сигнал 915. Первый бинауральный выходной сигнал 915 может включать левый канал, обозначенный L, и правый канал, обозначенный R.

Здесь, устройство бинаурального рендеринга прямого звука 910 может формироваться, чтобы подавать часть прямого сигнала 125-1 посредством функции моделирования восприятия звука (HRTFs), чтобы получить преобразованную часть прямого сигнала. Устройство бинаурального рендеринга прямого звука 910 может, кроме того, формироваться, чтобы применить эффект комнаты к преобразованной части прямого сигнала, чтобы, в конце концов, получить первый бинауральный выходной сигнал 915.

Фиг.9В показывает блок-схему деталей 905 устройства бинаурального рендеринга прямого звука 910 фиг.9А. Устройство бинаурального рендеринга прямого звука 910 может включать «преобразователь HRTF», обозначенный блоком 912, и устройство для обработки эффекта комнаты (параллельное искусственное эхо или моделирование ранних отражений), обозначенное блоком 914. Как показано на фиг.9В, преобразователь HRTF 912 и устройство для обработки эффекта комнаты 914 может работать на части прямого сигнала 125-1 при применении функции моделирования восприятия звука (HRTFs) и, параллельно, эффекта комнаты, чтобы получить первый бинауральный выходной сигнал 915.

В частности, со ссылкой на фиг.9В, эта обработка эффекта комнаты может также создать некогерентный отраженный прямой сигнал 919, который может быть обработан последующим фильтром перекрестного микширования 920, чтобы приспособить сигнал к межауральной когерентности диффузных акустических полей. Здесь, объединенный выход фильтра 920 и HRTF преобразователь 912 создают первый бинауральный выходной сигнал 915. Согласно дальнейшим осуществлениям, обработка эффекта комнаты на прямом звуке может также быть параметрическим представлением ранних отражений.

Поэтому, в осуществлениях эффект комнаты может предпочтительно применяться параллельно c HRTFs, а не последовательно (то есть, применение эффекта комнаты после пропускания сигнала через HRTFs). В частности, только звук, который распространяется непосредственно из источника, проходит через или преобразуетсясоответствующимиНКТр8. Непрямой/отраженный звук может быть аппроксимирован, чтобы войти в уши со всех сторон, то есть, статистическим способом (используя контроль когерентности вместо HRTFs). Может также быть последовательное выполнение, но параллельный способ предпочтительнее.

Фиг.10А показывает блок-схему обзора 1000 устройства бинаурального рендеринга звука окружения 1010 согласно дальнейшим осуществлениям данного изобретения. Как показано на фиг.10А, устройство бинаурального рендеринга звука окружения 1010 может формироваться, чтобы обработать выход части сигнала окружения 125-2, например, из экстрактора прямого сигнала/сигнала окружения 120 фиг.1, чтобы получить второй бинауральный выходной сигнал 1015. Второй бинауральный выходной сигнал 1015 может также включать левый канал (L) и правый канал (R).

Фиг.10В показывает блок-схему деталей 1005 устройства бинаурального рендеринга звука окружения 1010 фиг.10А. На фиг.10В видно, что устройство бинаурального рендеринга звука окружения 1010 может формироваться, чтобы применить эффект комнаты, как обозначено блоком 1012, названным «обработка эффекта комнаты», к части сигнала окружения 125-2, таким образом, чтобы получить некогерентный отраженный сигнал окружения 1013. Устройство бинаурального рендеринга звука окружения 1010 может, кроме того, формироваться, чтобы обработать некогерентный отраженный сигнал окружения 1013, применяя фильтр, такой как фильтр перекрестного микширования, обозначенный блоком 1014, таким образом, чтобы обеспечить второй бинауральный выходной сигнал 1015; второй бинауральный сигнал 1015 приспосабливается к межауральной когерентности реальных диффузных акустических полей. Блок 1012, обозначенный «обработка эффекта комнаты», может тоже формироваться так, чтобы он непосредственно производил межауральную когерентность реальных диффузных акустических полей. В этом случае блок 1014 не используется. 1 Согласно дальнейшему осуществлению, устройство бинаурального рендеринга звука окружения 1010 формируется, чтобы применить эффект комнаты и/или фильтр к части сигнала окружения 125-2 для обеспечения второго бинауральный выходного сигнала 1015, так, чтобы второй бинауральный выходной сигнал 1015 приспосабливался к межауральной когерентности реальных диффузных акустических полей.

В вышеупомянутых осуществлениях декорреляция и контроль когерентности может быть выполнен в двух последовательных этапах, но это не обязательное требование. Также можно получить тот же результат в одноэтапном процессе, без промежуточной формулировки некогерентных сигналов. Оба способа одинаково эффективны.

Фиг.11 показывает концептуальную блок-схему осуществления 1100 бинаурального воспроизведения многоканального входного звукового сигнала 101. В частности, осуществление фиг.11 представляет устройство для бинаурального воспроизведения многоканального входного звукового сигнала 101, включающее первый конвертор (преобразователь) 1110 («преобразование частоты»), разделитель (сепаратор) 1120 («разделение прямого сигнала - сигнала окружения»), у бинаурального рендеринга прямого звука 910 («рендеринг прямого источника»), устройство бинаурального рендеринга звука окружения 1010 («рендеринг окружающего звука»), объединитель 1130, как обозначено «плюс», и второй преобразователь 1140 («обратное преобразование частоты»). В частности, первый преобразователь 1110 может формироваться, чтобы преобразовать многоканальный входной звуковой сигнал 101 в спектральное представление 1115. Разделитель (сепаратор) 1120 может формироваться, чтобы извлечь часть прямого сигнала 125-1 или часть окружающего сигнала 125-2 из спектрального представления 1115. Здесь, разделитель (сепаратор) 1120 может соответствовать устройству 100 фиг.1, в частности, включая эстиматор прямого сигнала/сигнала окружения 110 и экстрактор прямого сигнала/сигнала окружения 120 осуществления фиг.1. Как объяснялось ранее, устройство бинаурального рендеринга прямого звука 910 может работать на части прямого сигнала 125-1, чтобы получить первый бинауральный выходной сигнал 915. Соответственно, устройство бинаурального рендеринга звука окружения 1010 может работать на части сигнала окружения 125-2, чтобы получить второй бинауральный выходной сигнал 1015. Объединитель 1130 может формироваться, чтобы объединять первый бинауральный выходной сигнал 915 и второй бинауральный выходной сигнал 1015 для получения объединенного сигнала 1135. Наконец, второй конвертор (преобазователь) 1140 может формироваться, чтобы преобразовать объединенный сигнал 1135 во временной интервал для получения выходного звукового стерео сигнала 1150 («стерео выход для наушников»).

Операция преобразования частоты осуществления фиг.11, иллюстрирует то, что система функционирует в области преобразования частоты, которая является собственной областью в перцепционной обработке пространственного звука. Сама системы не обязательно имеет преобразование частоты, если она используется как дополнение в системе, которая уже функционирует в области преобразования частоты.

Вышеупомянутый процесс разделения прямого сигнала/сигнала окружения может быть подразделена две различные части. В части оценки прямого сигнала/сигнала окружения, уровни и/или отношения прямой - окружающей части оцениваются, основываясь на комбинации модели прохождения сигнала и свойствах звукового сигнала. В части извлечения прямого сигнала/сигнала окружения известные отношения и входной сигнал могут использоваться при создании выходных прямых сигналов в сигналах окружения.

Наконец, фиг.12 показывает полную блок-схему осуществления 1200 оценки/извлечения прямого сигнала/сигнала окружения, включая случай использования бинаурального воспроизведения. В частности, осуществление 1200 фиг.12 может соответствовать осуществлению 1100 фиг.11. Однако, в осуществлении 1200 показаны детали разделителя (сепаратора) 1120 фиг.11, соответствующие блокам 110, 120 осуществления фиг.1, который включает процесс оценки/извлечения, основанный на пространственной параметрической информации 105. Кроме того, в противоположность осуществлению 1100 фиг.11, в осуществлении 1200 фиг.12 никакой процесс преобразования между различными областями не показан. Блоки осуществления 1200 являются также однозначно эффективными для сигнала понижающего микширования 115, который может быть получен из многоканального звукового сигнала 101.

Фиг.13А показывает блок-схему осуществления устройства 1300 для извлечения прямого сигнала/сигнала окружения из моно сигнала понижающего микширования в области банка фильтров. Как показано на фиг.13А, устройство 1300 включает банк фильтров анализа 1310, банк фильтров синтеза 1320 для прямой части и банк фильтров синтеза 1322 для окружающей части.

В частности, банк фильтров анализа 1310 устройства 1300 может быть осуществлена, чтобы выполнить кратковременное преобразование Фурье (STFT) или может, например, формироваться как QMF банка фильтров анализа, в то время как банк фильтров синтеза 1320, 1322 устройства 1300 может быть осуществлена, чтобы выполнить обратное кратковременное преобразование Фурье (ISTFT) или может, например, формироваться, как QMF банка фильтров синтеза.

Банк фильтров анализа 1310 формируется для получения моно сигнала понижающего микширования 1315, который может соответствовать моно сигналу понижающего микширования 215, как показано в осуществлении фиг.2, и чтобы преобразовать моно сигнал понижающего микширования 1315 в множество 1311 поддиапазонов банка фильтров. Как видно на фиг.13А, множество 1311 поддиапазонов банка фильтров соединяется с множеством 1350, 1352 блоков извлечения прямого сигнала/сигнала окружения, соответственно, где множество 1350, 1352 блоков извлечения прямого сигнала/сигнала окружения формируется, чтобы применить основанные на DTT_mono - или ATT_mono параметры 1333,1335 к под диапазонам банка фильтров, соответственно.

Основанные на DTT_mono-ATT_mono параметры 1333, 1335 могут поставляться из DTT_mono, ATT_mono Калькулятора (вычислителя) 1330, как показано на фиг.13В. В частности, DTT_mono, ATT_mono калькулятор (вычислитель) 1330 фиг.13В может формироваться, чтобы вычислить DTT_mono, ATT_mono энергетические отношения или получить основанные на DTT_mono, ATT_mono параметры из предоставленной межканальной когерентности и параметров разности уровней канала (ICC_L, CLD_L, ICC_R, CLD_R) 105, соответствующих левому и правому каналу (L, R) параметрического звукового стерео сигнала (например, параметрического звукового стерео сигнала 201 фиг.2), который, соответственно, был описан ранее. Здесь, для одиночного под диапазона банка фильтров могут использоваться соответствующие параметры 105 и основанные на DTT_mono- ATT_mono параметры 1333, 1335. В этом контексте указано, что эти параметры не постоянны по частоте.

В результате применения основанных на DTT_mono - или ATT_mono параметров 1333, 1335 будет получено множество 1353, 1355 измененных поддиапазонов банка фильтров, соответственно. Впоследствии, множество 1353, 1355 измененных поддиапазонов банка фильтров подается в банк фильтров синтеза 1320, 1322, соответственно, которая формируются, чтобы синтезировать множество 1353, 1355 измененных поддиапазонов банка, чтобы получить часть прямого сигнала 1325-1 или часть окружающего сигнала 1325-2 из моно сигнала понижающего микширования 1315, соответственно. Здесь, часть прямого сигнала 1325-1 фиг.13А может соответствовать части прямого сигнала 125-1 фиг.2, в то время как часть окружающего сигнала 1325-2 фиг.13А может соответствовать части окружающего сигнала 125-2 фиг.2.

Со ссылкой на фиг.13В; экстрактор прямого сигнала/сигнала окружения 1380 множества 1350, 1352 блоков извлечения прямого сигнала/сигнала окруженияфиг.13А, в частности, включает DTT_mono, ATT_mono калькулятор(вычислитель) 1330 и множитель 1360. Множитель 1360 может формироваться, чтобы умножить одиночный поддиапазон банка фильтров 1301 множества поддиапазонов банка фильтров 1311 на соответствующий, основанный на DTT_mono/ATT_mono параметр 1333, 1335 так, чтобы получить одиночный измененный поддиапазон банка фильтров 1365 множества поддиапазонов банка фильтров 1353, 1355. В частности, экстрактор прямого сигнала/сигнала окружения 1380 формируется, чтобы применить основанный на DTT_mono параметр в случае, если блок 1380 принадлежит множеству 1350 блоков, в то время как он формируется, чтобы применить основанный на ATT_mono параметр в случае, если блок 1380 принадлежит множеству 1352 блоков. Одиночный измененный поддиапазон банка фильтров 1365 может, кроме того, поставляться соответствующему банку фильтров синтеза 1320, 1322 для прямой части или окружающей части.

Согласно осуществлениям, пространственные параметры и полученные параметры даются в частотном разрешении согласно критическим полосам системы слухов а человека, например, 28 полос, что обычно меньше, чем разрешение банка фильтров.

Поэтому, извлечение прямого сигнала/сигнала окружения согласно осуществлению фиг.13А, по существу, работает на различных поддиапазонах в области банка фильтров, основанной на по-поддиапазонно вычисленной межканальной когерентности и параметрах разности уровней канала, которые могут соответствовать параметрам межканальных отношений 335 фиг.3В.

Фиг.14 показывает схематическую иллюстрацию примерной MPEG Окружающей схемы декодирования 1400 согласно дальнейшему осуществлению данного изобретения. В частности, осуществление фиг.14 описывает декодирование от стерео понижающего микширования 1410 на шесть выходных каналов 1420. Здесь, сигналы, обозначенные «res», являются остаточными (разностными) сигналами, которые являются дополнительными заменами для декоррелированных сигналов (от блоков, обозначенных «D»). Согласно осуществлению фиг.14, пространственная параметрическая информация или параметры межканальных отношений (ICC, CLD), переданные в MPS потоке от кодирующего устройства, такого как кодирующее устройство 810 фиг.8, декодеру, такому как декодер 820 фиг.8, могут использоваться, чтобы произвести декодирующие матрицы 1430, 1440, обозначенные «pre-decorrelatormatrixM1» (матрица предекоррелятораМ1) и «mixmatrixM2» (матрица смешивания М2), соответственно. Характерно для осуществления фиг.14 то, что получение выходных каналов 1420 (то есть, каналов повышающего микширования L, LS, R, RS, C, LFE) из боковых каналов (L, R) и центрального канала (C) (L, R, C 1435) посредством использования матрицы смешивания M2 1440, по существу, определяется пространственной параметрической информацией 1405, которая может соответствовать пространственной параметрической информации 105 фиг.1, включающей специфические параметры межканальных отношений (ICC, CLD) согласно Стандарту MPS Oкружающий.

Здесь, разделение левого канала (L) на соответствующие выходные каналы L, LS, правого канала (R) на соответствующие выходные каналы R, RS и центрального канала (C) на соответствующие выходные каналы C, LFE, соответственно, может быть представлено конфигурацией один-к-двум (ОТТ), имеющей соответствующий вход для соответствующих ICC, CLD параметров.

Примерная MPEG Окружающая схема декодирования 1400, которая, в частности, соответствует «конфигурации 5-2-5», может, например, включать следующие этапы. На первом этапе пространственные параметры или параметрическая дополнительная информация могут быть выражены в виде декодирующих матриц 1430, 1440, которые показаны нафиг.14, согласно существующему Стандарту MPS Oкружающей. На втором этапе декодирующие матрицы 1430, 1440 могут использоваться в области значений параметра, чтобы предоставить межканальную информацию каналов повышающего микширования 1420. На третьем этапе, посредством таким образом предоставленной межканальной информации могут быть вычислены энергии прямого сигнала/сигнала окружения каждого канала повышающего микширования. На четвертом этапе таким образом полученные энергии прямого сигнала/сигнала окружения могут быть микшированными с понижением до числа каналов понижающего микширования 1410. На пятом этапе могут быть вычислены весовые коэффициенты, которые будут применены к каналам понижающего микширования 1410.

Прежде, чем идти дальше, следует указать, что только что упомянутый примерный процесс требует измерения

E[|L_dmx|²]E[|R_dmx|²]

которые являются средними мощностями каналов понижающего микширования, и

$E [L_{d m x} R_{d m x}^{*}]$

что может рассматриваться как взаимный спектр из каналов понижающего микширования. Здесь, средние мощности каналов понижающего микширования целенаправленно рассматриваются как энергии, так как термин «средняя мощность» не является тем общим термином, который будет использоваться.

Оператор математического ожидания, обозначенный квадратными скобками, может быть заменен в практических применениях средним по времени, рекурсивным или не рекурсивным. Энергии и взаимный спектр могут измеряться непосредственно от сигнала понижающего микширования.

Следует также заметить, что энергия линейной комбинации двух каналов может быть сформулирована из энергий каналов, факторов смешивания и взаимного спектра (все в параметрической области, где не требуются никакие операции с сигналом).

Линейная комбинация

Ch=aL_dmx+bR_dmx

имеет следующую энергию:

$\begin{array}{l} E [{| C h |}^{2}] = E [{| a L_{d m x} + b R_{d m x} |}^{2}] = a^{2} E [{| L_{d m x} |}^{2}] + b^{2} E [{| R_{d m x} |}^{2}] + a b (E [L_{d m x} R_{d m x}^{*}] + E [R_{d m x} L_{d m x}^{*}]) \\ = a^{2} E [{| L_{d m x} |}^{2}] + b^{2} E [{| R_{d m x} |}^{2}] + 2 a b (Re {E [L_{d m x} R_{d m x}^{*}]}) \end{array}$

Далее описываются отдельные этапы примерного процесса (то есть, схема декодирования).

Первый этап (пространственные параметры для матриц смешивания)

Как описано ранее, M1- и M2 матрицы создаются согласно Стандарту MPS Окружающий. Элементы ряда a и колонки b матрицы M1 является M1 (a, b).

Второй этап (матрицы смешивания с энергиями и взаимными спектрами понижающего микширования для межканальной информации каналов, микшированных с повышением)

Теперь мы имеем матрицы смешивания M1 и M2. Мы должны сформулировать, как создаются выходные каналы из левого канала понижающего микширования (L_dmx) и правого канала понижающего микширования (R_dmx). Мы предполагаем, что используются декорреляторы (фиг.14, серая область). Декодирование/повышающее микширование в стандарте MPS, в основном, обеспечивает, в конце концов, следующую формулу для общего отношения вход - выход в полном процессе:

L=a_LL_dmx+b_LR_dmx+cLD₁[S₁]+d_LD₂[S₂]+e_LD₃[S₃]

Вышесказанное является примерным для переднего левого канала, микшированного с повышением. Другие каналы могут быть сформулированы таким же образом. D-элементы - декорреляторы, a-e - весовые коэффициенты, которые могут вычисляться из M1 и M2 элементов матрицы.

В частности, коэффициенты a-e могут формулироваться непосредственно из элементов матрицы:

$a_{L} = \sum_{i = 1}^{3} M 1_{i,1} M 2_{1, i}$

$b_{L} = \sum_{i = 1}^{3} M 1_{i,2} M 2_{1, i}$

c_L=M2_1,4

d_L=M2_1,5

e_L=M2_1,6

и для других каналов соответственно.

S-сигналы являются

S_n=M1_n+3,1L_dmx+M1_n+3,2R_dmx

Эти S-сигналы - входы в декорреляторы из левосторонней боковой матрицы фиг.14. Энергия

E[|D[S_n]|²]=E[|S_n|²]

может быть вычислена, как было объяснено выше. Декоррелятор не воздействует на энергию.

Перцепционно мотивированным способом осуществления извлечения многоканального сигнала окружения является сравнение канала с суммой всех других каналов. (Заметьте, что это - один вариант из многих). Теперь, если мы, для примера, рассмотрим случай канала L, остальные каналы будут читаться:

$X_{L} = \sum_{C h = (R E S T)} a_{C h} L_{d m x} + \sum_{C h = (R E S T)} b_{C h} R_{d m x} + \sum_{C h = (R E S T)} c_{C h} D_{1} [S_{1}] + \sum_{C h = (R E S T)} d_{C h} D_{2} [S_{2}] + \sum_{C h = (R E S T)} e_{C h} D_{3} [S_{3}]$

Мы используем здесь символ «X», потому что использование «R» для «остальных каналов» может привести к путанице.

Тогда энергия канала L

$E [{| L |}^{2}] = a_{L}^{2} E [{| L_{d m x} |}^{2}] + b_{L}^{2} E [{| R_{d m x} |}^{2}] + c_{L}^{2} E [{| S_{1} |}^{2}] + d_{L}^{2} E [{| S_{2} |}^{2}] + e_{L}^{2} E [{| S_{3} |}^{2}] + 2 a b Re {E [L_{d m x} R_{d m x}^{*}]}$

Тогда энергия канала Х

$\begin{array}{l} E [{| X_{L} |}^{2}] = {(\sum_{C h = (R E S T)} a_{C h})}^{2} E [{| L_{d m x} |}^{2}] + {(\sum_{C h = (R E S T)} b_{C h})}^{2} E [{| R_{d m x} |}^{2}] + {(\sum_{C h = (R E S T)} c_{C h})}^{2} E [{| S_{1} |}^{2}] + {(\sum_{C h = (R E S T)} d_{C h})}^{2} E [{| S_{2} |}^{2}] \\ + {(\sum_{C h = (R E S T)} e_{C h})}^{2} E [{| S_{3} |}^{2}] + 2 (\sum_{C h = (R E S T)} a_{C h} \sum_{C h = (R E S T)} b_{C h}) Re {E [L_{d m x} R_{d m x}^{*}]} \end{array}$

И взаимный спектр:

$\begin{array}{l} E [L X_{L}^{*}] = \sum_{C h = (R E S T)} a_{C h} a_{L} E [{| L_{d m x} |}^{2}] + \sum_{C h = (R E S T)} b_{C h} b_{L} E [{| R_{d m x} |}^{2}] + \sum_{C h = (R E S T)} c_{C h} c_{L} E [{| S_{1} |}^{2}] + \sum_{C h = (R E S T)} d_{C h} d_{L} E [{| S_{2} |}^{2}] \\ + \sum_{C h = (R E S T)} e_{C h} e_{L} E [{| S_{3} |}^{2}] + \sum_{C h = (R E S T)} a_{L} b_{C h} E [L_{d m x} R_{d m x}^{*}] + \sum_{C h = (R E S T)} a_{C h} b_{L} E [L_{d m x} R_{d m x}^{*}] \end{array}$

Теперь мы можем сформулировать ICC

$I C C_{L} = \frac{Re {E [L X_{L}^{*}]}}{\sqrt{E [{| L |}^{2}] E [{| X_{L} |}^{2}]}}$

и сигму

$σ_{L} = \frac{E [{| L |}^{2}]}{E [{| X_{L} |}^{2}]}$

Третий этап (межканальная информация в каналах, микшированных с повышением, для параметров DTT каналов, микшированных с повышением)

Теперь мы можем вычислить DTT канала L согласно

$D T T_{L} = \frac{1}{2} [(1 - \frac{1}{σ_{L}}) + \sqrt{{(\frac{1}{σ_{L}} - 1)}^{2} + 4 \frac{I C C_{L}^{2}}{σ_{L}}}]$

Прямая энергия L

E[|D_L|²]=DTT·E[|L|²]

Энергия окружения L

E[|A_L|²]=(1-DTT)·E[|L|²]

Четвертый этап (понижающее микширование энергий прямого сигнала/сигнала окружения)

Если, для примера, используется правило некогерентного понижающего микширования, энергия левого окружающего канала понижающего микширования -

$E [{| A_{L d m x} |}^{2}] = E [{| A_{L} |}^{2}] + E [{| A_{L s} |}^{2}] + \frac{E [{| A_{C} |}^{2}] + E [{| A_{L F} |}^{2}]}{2}$

и аналогично для прямой части и правого канала прямой и окружающей части. Заметьте, что выше приведено только одно правило понижающего микширования. Могут быть и другие правила понижающего микширования.

Пятый этап (вычисление весовых коэффициентов для извлечения окружения в каналах понижающего микширования)

Отношение левого канала понижающего микширования DTT

$D T T_{L d m x} = 1 - \frac{E [{| A_{L d m x} |}^{2}]}{E [{| L_{d m x} |}^{2}]}$

Весовые коэффициенты тогда могут быть вычислены, как описано в осуществлении фиг.5 (то есть, посредством подхода, использующего корень квадратный (DTT) или корень квадратный (1-DTT)) или как в осуществлении фиг.6 (то есть, посредством способа, использующего матрицу перекрестного микширования).

В основном, вышеописанный примерный процесс связывает CPC, ICC и CLD параметры в MPS потоке с отношениями окружения каналов понижающего микширования.

Согласно дальнейшим осуществлениям, обычно имеются другие средства достижения аналогичных целей, а также другие условия. Например, могут быть другие правила для понижающего микширования, другие расположения громкоговорителя, другие способы декодирования и другие способы оценки многоканального окружения, кроме описанного ранее, где определенный канал сравнивается с остальными каналами.

Хотя данное изобретение было описано в контексте блок-схем, где блоки представляют фактические или логические компоненты аппаратных средств, данное изобретение может также быть осуществлено компьютерным способом. В последнем случае блоки представляют соответствующие этапы способа, где эти этапы обозначают функциональные возможности, выполняемые соответствующими логическими или физическими блоками аппаратных средств.

Описанные осуществления просто иллюстрируют принципы данного изобретения. Подразумевается, что модификации и изменения расположения и деталей, описанных здесь, будут очевидны для специалистов, квалифицированных в этой области. Поэтому, цель состоит в том, чтобы ограничиться только приложенной патентной формулой, а не конкретными деталями, представленными посредством описания и объяснения осуществлений.

В зависимости от определенных требований к выполнению способов согласно изобретению, способы согласно изобретению могут быть осуществлены в аппаратных средствах или в программном обеспечении. Выполнение может быть осуществлено посредством использования цифрового носителя данных, в частности, диск, DVD или CD, с сохраненными на них электронно-считываемыми управляющими сигналами, которые взаимодействуют с программируемыми компьютерными системами, таким образом, что выполняются способы согласно изобретению. В общем, данное изобретение может, поэтому, быть осуществлено как компьютерный программный продукт с управляющей программой, сохраненной на машиночитаемом носителе; управляющая программа служит для выполнения способов согласно изобретению, когда компьютерный программный продукт запущен на компьютере. Другими словами, способы согласно изобретению, поэтому, являются компьютерной программой, имеющей управляющую программу для выполнения, по крайней мере, одного из способов согласно изобретению, когда компьютерная программа запущена на компьютере. Кодированный звуковой сигнал согласно изобретению может быть сохранен на любом машиночитаемом носителе данных, таком как цифровой носитель данных.

Преимущество новой концепции и технологии состоит в том, что вышеупомянутые осуществления, то есть, устройство, способ или компьютерная программа, описанные в этой заявке, обеспечивают оценку и извлечение прямых и/или окружающих компонентов из звукового сигнала с помощью параметрической пространственной информации. В частности, новая технология данного изобретения функционирует в частотных диапазонах, обычно в области извлечения окружения. Представленная концепция важна для обработки звукового сигнала, так как имеется много применений, которые требуют разделения прямых и окружающих компонентов звукового сигнала.

В противоположность известным способам извлечения окружения, данная концепция не основывается только на входных стерео сигналах и может также применяться в ситуациях моно понижающего микширования. Для одиночного канала понижающего микширования, обычно нельзы вычислить никакие межканальные разности. Однако, принимая во внимание пространственную дополнительную информацию, извлечение окружения становится возможным в этом случае тоже.

Данное изобретение имеет то преимущество, что оно использует пространственные параметры для оценки уровней окружения «оригинального» сигнала. Оно основывается на концепции о том, что пространственные параметры уже содержат информацию о межканальных разностях «оригинального» стерео или многоканального сигнала.

Сразу после оценки уровней оригинальных стерео сигналов или многоканальных сигналов окружения, можно также получить уровни прямого сигнала и сигнала окружения в предоставленном канале(ах) понижающего микширования. Это может быть сделано посредством линейных комбинаций (то есть, взвешенного суммирования) энергий окружения для части окружения, и прямых энергий или амплитуд для прямой части. Поэтому, осуществления данного изобретения обеспечивают оценку и извлечение окружения с помощью пространственной дополнительной информации.

Отталкиваясь от этой концепции обработки, основанной на дополнительной информации, существуют следующие выгодные свойства или преимущества.

Осуществления данного изобретения обеспечивают оценку окружения с помощью пространственной дополнительной информации и предоставленных каналов понижающего микширования. Такая оценка окружения важна в случаях, когда имеется больше, чем один канал понижающего микширования, предоставленный наряду с дополнительной информацией. Дополнительная информация и информация, которая измерена из каналов понижающего микширования, могут использоваться вместе при оценке окружения. В MPEG окружающем со стерео понижающим микшированием, эти два источника информации вместе предоставляют полную информацию о межканальных отношениях оригинального многоканального звука, и оценка окружения основывается на этих отношениях.

Осуществления данного изобретения также обеспечивают понижающее микширование прямых и окружающих энергий. В описанной ситуации извлечения окружения, основанного на дополнительной информации, имеется промежуточный этап оценки окружения в ряде каналов более высокого порядка, чем предоставленные каналы понижающего микширования. Поэтому, эта информация об окружении должна быть отображена на ряде звуковых каналов понижающего микширования эффективным способом. Этот процесс может рассматриваться как понижающее микширование из-за его соответствия понижающему микшированию звукового канала. Это может быть сделано непосредственно при объединении прямой энергии и энергии окружения таким же образом, как были микшированы с понижением предоставленные каналы понижающего микширования.

Правило понижающего микширования не имеет одного идеального решения, но, вероятно, будет зависеть от применения. Например, в MPEG окружающем может быть выгодным рассматривать каналы по-разному (центральные, передние громкоговорители, задние громкоговорители) из-за их типично различного содержания сигнала.

Кроме того, осуществления обеспечивают оценку многоканального окружения независимо в каждом канале относительно других каналов. Это свойство/подход позволяет просто использовать представленную формулу оценки стерео окружения для каждого канала относительно всех других каналов. Благодаря этому, нет необходимости предполагать равенство уровней окружения во всех каналах. Представленный подход основывается на предположении о пространственном восприятии того, что окружающий компонент в каждом канале является тем компонентом, который имеет некогерентный аналог в некоторых из всех других каналов. Пример, который показывает эффективность этого предположения, это то, что один из двух каналов, испускающих шум (окружение), может быть разделен далее на два канала с половиной энергии каждый без серьезного воздействия на воспринимаемую звуковую сцену.

С точки зрения обработки сигнала выгодно, что фактическая оценка отношения прямого сигнала/сигнала окружения происходит при применении представленной формулы оценки окружения к каждому каналу в сравнении с линейной комбинацией всех других каналов.

Наконец, осуществления обеспечивают применение предполагаемых прямых энергий окружения для извлечения реальных сигналов. Когда уровни окружения в каналах понижающего микширования известны, можно применить два способа согласно изобретению для получения сигналов окружения. Первый способ основывается на простом умножении, где прямая и окружающая части для каждого канала понижающего микширования могут производиться посредством умножения сигнала на корень квадратный («энергетическое отношение прямой-к-общему») и корень квадратный («энергетическое отношение окружающий-к-общему»). Это предусматривает для каждого канала понижающего микширования два сигнала, которые являются когерентными друг другу, но имеют энергии, которые прямая и окружающая часть должна иметь согласно оценке.

Второй способ основывается на решении алгоритма минимальной среднеквадратичной ошибки с перекрестным микшированием каналов, где перекрестное микширование каналов (также возможное с отрицательными знаками) позволяет лучше оценить прямые сигналы окружения, чем вышеупомянутое решение. В отличие от решения алгоритма минимальной среднеквадратичной ошибки для стерео входа и равных окружающих уровней в каналах, описанных в работе «Воспроизведение стерео сигналов с использованием множественных громкоговорителей», К. Фоллер, Журнал AES, октябрь 2007 г. и в патентной заявке под названием «Способ Получения многоканального звукового сигнала из стерео сигналов». Изобретатели: Кристоф Фоллер, Агенты: Фиш & Ричардсон П.К., Представители: LGELECTRONICS, INC, Происхождение: МИННЕАПОЛИС, Миннесота, США, IPC Класс: AH04R500FI, USPC Класс: 381 1, данное изобретение обеспечивает решение алгоритма минимальной среднеквадратичной ошибки, которое не требует равных уровней окружения и может быть легко приспособлено к любому числу каналов.

Дополнительные свойства новой обработки - следующие. В обработке окружения для бинаурального рендеринга окружение может обрабатываться фильтром, который способен обеспечить межауральную когерентность в частотных диапазонах, которая подобна межауральной когерентности в реальных диффузных акустических полях, где фильтр может также включать эффект комнаты. При обработке прямой части для бинаурального рендеринга прямая часть может подаваться через функции моделирования восприятия звука (HRTFs) с возможным дополнением эффекта комнаты, такого как ранние отражения и/или реверберация.

Помимо этого, контроль «уровня разделения», соответствующий сухому/влажному контролю, может реализовываться в дальнейших осуществлениях. В частности, полное разделение может быть нежелательным во многих применениях, поскольку оно может привести к слышимым артефактам, таким как резкие изменения, эффекты модуляции, и т.д. Поэтому, все соответствующие; части описанных процессов могут быть осуществлены посредством контроля «уровня разделения» для управления количеством желательного и полезного разделения. Что касается фиг.11, такой контроль уровня разделения обозначается управляющим входным сигналом 1105 пунктирной рамки для управления разделением прямого сигнала/сигнала окружения 1120 и/или устройствами бинаурального рендеринга 910, 1010, соответственно. Этот контроль может работать аналогично сухому/влажному контролю при обработке звуковых эффектов.

Главные преимущества представленного решения - следующие. Система работает во всех ситуациях, также с параметрическим стерео и MPEG окружающим моно понижающим микшированием, в отличие от предыдущих решений, которые зависят только от информации о понижающем микшировании. Система, кроме того, может использовать пространственную

дополнительную информацию, передаваемую вместе со звуковым сигналом в пространственных звуковых битовых потоках, чтобы более точно оценить энергии прямого сигнала и сигнала окружения, чем с простым межканальным анализом каналов понижающего микширования. Поэтому, многие применения, такие как бинауральная обработка, могут извлечь пользу при применении другой обработки прямой и окружающей частей звука.

Осуществления основываются на следующих психоакустических допущениях. Система слуха человека ограничивает источники, основываясь на межауральных репликах в частотно-временных элементах (области, ограниченные определенной частотой и интервалом времени). Если два или больше некогерентных параллельных источника, которые перекрываются во времени и частоте, представлены одновременно в различных местоположениях, система прослушивания не может воспринимать местоположение источников. Это потому, что сумма этих источников не обеспечивает слушателя достоверными межакустическими репликами. Система прослушивания может, таким образом, быть описана как система, улавливающая из звуковой сцены замкнутые частотно-временные элементы, которые предоставляют достоверную информацию о локализации, и рассматривает остальные как нелокализуемые. Система прослушивания, таким образом, может локализовать источники в сложном звуковом окружении. Одновременные когерентные источники имеют различное действие, они формируют приблизительно те же межауральные реплики, которые сформировал бы одиночный источник между когерентными источниками.

Вот еще одно свойство, которое преимущественно используется осуществлениями. Уровень локализуемого (прямого) и нелокализуемого (окружение) звука может быть оценен, и эти компоненты, затем, будут извлечены. Обработка пространственного сигнала применяется только к локализуемой/прямой части, в то время как обработка диффузности/вместительности/огибаемости (конверта) применяется к нелокализуемой/окружающей части. Это дает существенное преимущество при проектировании системы бинауральной обработки, так как многие процессы могут быть применены только там, где они необходимы, оставляя остальной сигнал незатронутым. Вся обработка происходит в частотных диапазонах, которые приближаются к частотному разрешению человеческого слуха.

Осуществления основываются на разложении сигнала, чтобы получить максимальное перцепционное качество, и минимальные проблемы восприятия. Посредством такого разложения можно получить прямой компонент и компонент окружения звукового сигнала отдельно. Эти два компонента могут далее обрабатываться, чтобы получить желательный эффект или представление.

В частности, осуществления данного изобретения позволяют оценить окружение с помощью пространственной дополнительной информации в кодированной области.

Данное изобретение также имеет то преимущество, что типичные проблемы воспроизведения звуковых сигналов через наушники могут быть уменьшены посредством разделения сигналов на прямой сигнал и окружающий сигнал. Осуществления позволяют улучшать существующие способы извлечения прямого сигнала/сигнала окружения, которые будут применены к бинауральному звуковому рендерингу для воспроизведения через наушники.

Главным случаем использования обработки, основанной на пространственной дополнительной информации, является, естественно, MPEG окружающая и параметрическая стерео (и аналогичные технологии параметрического кодирования).

Типичными применениями, которые пользуются преимуществом извлечения окружения, являются бинауральное воспроизведение благодаря способности применять различную степень эффекта комнаты к различным частям звука, и повышающее микширование до большего числа каналов благодаря способности размещать и обрабатывать различные компоненты звука по-разному. Могут также быть применения, где пользователю может потребоваться изменение уровня прямого сигнала/сигнала окружения, например, чтобы улучшить разборчивость речи.

1. Устройство для извлечения прямого сигнала и/или сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации; сигнал понижающего микширования и пространственная параметрическая информация представляют многоканальный звуковой сигнал, имеющий больше каналов, чем сигнал понижающего микширования, где пространственная параметрическая информация включает межканальные отношения многоканального звукового сигнала; устройство включает:
эстиматор прямого сигнала / сигнала окружения для оценки информации о прямом уровне прямой части многоканального звукового сигнала и/или для оценки информации об уровне окружения окружающей части многоканального звукового сигнала, основанной на пространственной параметрической информации; и
экстрактор прямого сигнала / сигнала окружения для извлечения прямой части сигнала и/или окружающей части сигнала из сигнала понижающего микширования, основанного на информации о предполагаемом прямом уровне прямой части или основанного на информации о предполагаемом уровне окружения окружающей части.

2. Устройство по п.1, где экстрактор прямого сигнала / сигнала окружения сконфигурирован, чтобы микшировать с понижением информацию о предполагаемом прямом уровне прямой части или информацию о предполагаемом уровне окружения окружающей части для получения микшированной с понижением информации об уровне прямой части или окружающей части и для извлечения прямой части сигнала или окружающей части сигнала из сигнала понижающего микширования, основываясь на микшированной с понижением информации об уровне.

3. Устройство по п.2, в котором экстрактор прямого сигнала / сигнала окружения, кроме того, сконфигурирован, чтобы выполнить понижающее микширование информации о предполагаемом прямом уровне прямой части или информации о предполагаемом уровне окружения окружающей части посредством объединения информации о предполагаемом прямом уровне прямой части с когерентным суммированием и информации о предполагаемом уровне окружения окружающей части с некогерентным суммированием.

4. Устройство по п.2 или 3, в котором экстрактор прямого сигнала / сигнала окружения, кроме того, сконфигурирован, чтобы получить параметры усиления из микшированной с понижением информации об уровне прямой части или окружающей части и чтобы применить полученные параметры усиления к сигналу понижающего микширования для получения прямой части сигнала или окружающей части сигнала.

5. Устройство по п.4, в котором экстрактор прямого сигнала / сигнала окружения, кроме того, сконфигурирован, чтобы определить энергетическое отношение прямой-к-общему или окружающий-к-общему из микшированной с понижением информации об уровне прямой части или окружающей части и чтобы использовать в качестве параметров усиления параметры извлечения, основанные на определенном энергетическом отношении DTT или ATT.

6. Устройство по п.1, в котором экстрактор прямого сигнала / сигнала окружения сконфигурирован, чтобы извлечь прямую часть сигнала или окружающую часть сигнала посредством применения квадратной M×M матрицы извлечения к сигналу понижающего микширования, где размер квадратной M×M матрицы извлечения соответствует числу каналов понижающего микширования.

7. Устройство по п.6, в котором экстрактор прямого сигнала / сигнала окружения, кроме того, сконфигурирован, чтобы применить первое множество параметров извлечения к сигналу понижающего микширования для получения прямой части сигнала, и второе множество параметров извлечения к сигналу понижающего микширования для получения окружающей части сигнала; первое и второе множества параметров извлечения составляют диагональную матрицу.

8. Устройство по п.1, в котором эстиматор прямого сигнала / сигнала окружения сконфигурирован, чтобы оценить информацию о прямом уровне прямой части многоканального звукового сигнала или оценить информацию об уровне окружения окружающей части многоканального звукового сигнала, основываясь на пространственной параметрической информации, и по крайней мере двух каналах понижающего микширования сигнала понижающего микширования, полученного эстиматором (блоком оценки) прямого сигнала / сигнала окружения.

9. Устройство по п.1, в котором эстиматор прямого сигнала / сигнала окружения сконфигурирован, чтобы применить формулу оценки стерео окружения, используя пространственную параметрическую информацию для каждого канала многоканального звукового сигнала, где формула оценки стерео окружения выражается
DTT_i=f_DTT[σ_i(Ch_i,R),ICC_i(Ch_i,R)],
ATT_i=1-DTT_i
в зависимости от разности уровней канала, которая является значением в децибелах σ_i, и параметра межканальной когерентности канала Ch_i, и где R является линейной комбинацией остальных каналов.

10. Устройство по п.1, в котором экстрактор прямого сигнала / сигнала окружения сконфигурирован, чтобы извлечь прямую часть сигнала или окружающую часть сигнала посредством решения алгоритма минимальной среднеквадратичной ошибки с каналом перекрестного микширования; решение LMS не требует равных уровней окружения.

11. Устройство по п.9, в котором экстрактор прямого сигнала / сигнала окружения сконфигурирован, чтобы получить решение LMS при условии, что модель прохождения сигнала такова, что решение LMS не ограничивается стерео каналом сигнала понижающего микширования.

12. Устройство по п.1, которое дополнительно включает устройство бинаурального рендеринга прямого звука для обработки прямой части сигнала, чтобы получить первый бинауральный выходной сигнал; устройство бинаурального рендеринга окружающего звука для обработки окружающей части сигнала сконфигурировано, чтобы получить второй бинауральный выходной сигнал; и объединитель для объединения первого и второго бинауральных выходных сигналов для получения объединенного бинаурального выходного сигнала.

13. Устройство по п.12, в котором устройство бинаурального рендеринга окружающего звука сконфигурировано, чтобы применить эффект комнаты и/или фильтр к окружающей части сигнала для получения второго бинаурального выходного сигнала; второй бинауральный выходной сигнал приспосабливается к межауральной когерентности реальных диффузных акустических полей.

14. Устройство по п.12 или 13, в котором устройство бинаурального рендеринга прямого звука сконфигурировано, чтобы подавать прямую часть сигнала через фильтры, основываясь на функциях моделирования восприятия звука, чтобы получить первый бинауральный выходной сигнал.

15. Способ извлечения прямого сигнала и/или сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации; сигнал понижающего микширования и пространственная параметрическая информация представляют многоканальный звуковой сигнал, имеющий больше каналов, чем сигнал понижающего микширования, где пространственная параметрическая информация включает межканальные отношения многоканального звукового сигнала, включающий оценку информации о прямом уровне прямой части многоканального звукового сигнала и/или оценку информации об уровне окружения окружающей части многоканального звукового сигнала, основанную на пространственной параметрической информации; и извлечение прямой части сигнала и/или окружающей части сигнала из сигнала понижающего микширования, основанное на информации о предполагаемом прямом уровне прямой части или основанное на информации о предполагаемом уровне окружения окружающей части.

16. Машиночитаемый носитель информации, содержащий сохраненную на нем компьютерную программу, имеющую управляющую программу для выполнения способа п. 15, когда компьютерная программа выполняется на компьютере.

Изобретение относится к средствам кодирования и декодирования аудиоинформации, использующим оптимизированную кэш-таблицу. Технический результат заключается в повышении скорости передачи информации.

Адаптивная обработка несколькими узлами обработки медиаданных // 2568372

Изобретение относится к адаптивной обработке медиаданных. Технический результат - улучшение представления и обработки содержимого медиаданных.

Способ создания музыкального произведения и устройство его осуществления // 2568265

Изобретение относится к вариантам создания музыкальных произведений, может быть использовано для создания музыки на электронных таблицах из коллекции Word 2007 в ноутбуке.

Ограничение понижающего микширования // 2565015

Изобретение относится к области микширования. Технический результат - обеспечение совместимости уровня речевого сигнала, в то же время позволяя избегнуть клиппинга выходного (выходных) сигнала (сигналов), а также предоставление способов понижающего микширования, имеющих данные общие свойства и являющихся подходящими для сохранения динамических, временных и/или пространственных свойств звукового сигнала.

Способы и системы генерирования коэффициентов фильтра и конфигурирования фильтров // 2562771

Изобретение относится к способам и системам конфигурирования (в том числе путем адаптивного обновления) фильтра с предсказанием. Технический результат заключается в повышении эффективности определения небольших групп наборов возможных коэффициентов фильтра с предсказанием, из которых для конфигурирования фильтра с предсказанием может выбираться требуемый набор коэффициентов для оптимизации фильтра с бесконечной импульсной характеристикой (IIR) при использовании в соответствии со значимыми характеристиками сигнала.

Передискретизация выходных сигналов аудиокодеков на основе квадратурных зеркальных фильтров (qmf) // 2562434

Изобретение относится к средствам передискретизации выходных сигналов аудиокодеков на основе квадратурных зеркальных фильтров. Технический результат заключается в расширении арсенала технических средств для передискретизации аудиосигнала.

Избирательный басовый постфильтр // 2562422

Изобретение относится к кодированию цифрового звука, а именно к способам кодирования звуковых сигналов, содержащих составляющие разного характера. Технический результат заключается в повышении точности воспроизведения звука.

Способ и устройство для обработки аудио сигнала и для обеспечения большей детализации во времени для комбинированного унифицированного кодека речи и аудио (usac) // 2562384

Изобретение относится к обработке аудио сигнала. Технический результат - упрощение устройства и обеспечение большей детализации во времени для комбинированного унифицированного кодека речи и аудио.

Устройство и способ для кодирования и декодирования аудио, применяющие синусоидальную замену // 2562383

Изобретение относится к кодированию, декодированию и к обработке аудиосигнала и, в частности, к кодированию и декодированию аудио, применяющему синусоидальную замену.

Аудиокодер и декодер // 2562375

Изобретение относится к средствам кодирования и декодирования. Технический результат заключается в повышении качества кодированного и декодированного сигналов при пониженной скорости передачи данных.

Передача длины элемента кадра при кодировании аудио // 2571388

Изобретение относится к кодированию аудиосигнала, в частности к передаче длины элемента кадра. Технический результат - повышение точности кодирования аудиосигнала. Для этого элементы кадра, которые должны быть сделаны доступными для пропуска, могут быть переданы более эффективно посредством компоновки так, что информация длины полезных данных по умолчанию передается отдельно внутри блока конфигурации с информацией длины в элементах кадра, в свою очередь, разделяемой на флаг длины полезных данных по умолчанию, с последующим, если этот флаг длины полезных данных по умолчанию не установлен, значением длины полезных данных, явно кодирующим длину полезных данных соответствующего элемента кадра. Однако, если флаг длины полезных данных по умолчанию установлен, явной передачи длины полезных данных можно избежать. Вместо этого любой элемент кадра, флаг длины полезных данных расширения по умолчанию которого установлен, имеет длину полезных данных по умолчанию, и любой элемент кадра, флаг длины полезных данных расширения по умолчанию которого не установлен, имеет длину полезных данных, соответствующую значению длины полезных данных. 6 н. и 13 з.п. ф-лы, 16 табл., 39 ил.

Устройство и способ для кодирования части аудиосигнала с использованием обнаружения неустановившегося состояния и результата качества // 2573231

Изобретение относится к технологиям кодирования аудиосигналов. Техническим результатом является повышение эффективности кодирования аудиосигналов за счет определения алгоритма кодирования, исходя из обнаружения значения результата качества аудиосигнала и обнаружения неустановившегося состояния. Предложено устройство для кодирования части аудиосигнала для получения кодированного аудиосигнала для части аудиосигнала. Устройство содержит детектор неустановившегося состояния для обнаружения того, располагается ли неустановившийся сигнал в части аудиосигнала, чтобы получать результат обнаружения неустановившегося состояния. Устройство также содержит каскад кодировщика для выполнения первого алгоритма кодирования над аудиосигналом, чтобы получить первое значение результата качества адуиосигнала для упомянутой части аудиосигнала, при этом первый алгоритм кодирования имеет первую характеристику, и для выполнения второго алгоритма кодирования над аудиосигналом, чтобы получить второе значение результата качества аудиосигнала, при этом второй алгоритм кодирования имеет вторую характеристику, которая является отличной от первой характеристики. 3 н. и 12 з.п. ф-лы, 8 ил.

Устройство для оптимизации одного или более параметров представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, декодер аудиосигнала, транскодер аудиосигнала, кодер аудиосигнала, аудиобитстрим, способ и компьютерная программа с использованием объектно-ориентированной параметрической информации // 2573738

Изобретение относится к средствам оптимизации одного и более параметров для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации. Технический результат заключается в уменьшении акустических искажений при повышающем микшировании аудиосигнала. Средство включает в себя регулятор параметров. Регулятор параметров принимает один или более входных параметров, на основе которых генерирует один или более скорректированных параметров. Регулятор параметров генерирует один или более скорректированных параметров с использованием одного или более входных параметров и объектно-ориентированной параметрической информации таким образом, что искажение представления сигнала повышающего микширования, вызванного использованием неоптимальных параметров, уменьшается по крайней мере для входных параметров, отклоняющихся от оптимальных параметров на величину, превышающую заданный предел отклонений.13 н. и 23 з.п. ф-лы, 12 ил.

Устройство для декодирования сигнала, содержащего переходные процессы, используя блок объединения и микшер // 2573774

Изобретение относится к средствам для генерирования декоррелированного сигнала. Технический результат заключается в повышении эффективности генерирования декоррелированного сигнала. Устройство содержит блок отделения сигнала переходного процесса, декоррелятор переходного процесса, второй декоррелятор, блок объединения и микшер, в котором блок отделения сигнала переходного процесса приспособлен для разделения входного сигнала на первый компонент сигнала и на второй компонент сигнала таким образом, чтобы первый компонент сигнала содержал части сигнала переходного процесса входного сигнала, и таким образом, чтобы второй компонент сигнала содержал части сигнала без переходного процесса входного сигнала. Блок объединения и микшер скомпонованы таким образом, чтобы декоррелированный сигнал из блока объединения выводился в микшер в качестве входного сигнала. 3 н. и 11 з.п. ф-лы, 10 ил.

Устройство и способ для кодирования и декодирования аудиосигнала с использованием выровненной части опережающего просмотра // 2574849

Изобретение относится к средствам кодирования и декодирования аудиосигнала с использованием выровненной части опережающего просмотра. Технический результат заключается в повышении качества кодированного аудиосигнала. Блок применения оконной функции для применения окна анализа кодирования с предсказанием к потоку дискретных значений аудиосигнала для получения обработанных с помощью оконной функции данных для анализа с предсказанием и для применения окна анализа кодирования с преобразованием к потоку дискретных значений аудиосигнала для получения обработанных с помощью оконной функции данных для анализа с преобразованием, при этом окно анализа кодирования с преобразованием связано с дискретными значениями аудиосигнала в пределах текущего кадра дискретных значений аудиосигнала и с дискретными значениями аудиосигнала заданной части будущего кадра дискретных значений аудиосигнала, являющихся частью опережающего просмотра кодирования с преобразованием. Окно анализа кодирования с предсказанием связано с частью дискретных значений аудиосигнала текущего кадра и с дискретными значениями аудиосигнала заданной части будущего кадра, являющегося частью опережающего просмотра кодирования с предсказанием. 6 н. и 20 з.п. ф-лы, 17 ил.

Аудиокодек с преобразованием и способы кодирования и декодирования временного сегмента аудиосигнала // 2574851

Изобретение относится к средствам для кодирования/декодирования временного сегмента аудиосигнала. Технический результат заключается в повышении эффективности кодирования в аудиокодере с преобразованием. Выводят указатель z положения на частотной шкале остаточного вектора, ассоциированного с временным сегментом аудиосигнала. Выводят показатель Ф, относящийся к величине структуры остаточного вектора. Определяют, удовлетворен ли предварительно заданный критерий, предусматривающий показатель Ф, указатель z и предварительно заданный порог θ, что соответствует оценке, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала. Кодируется соответствующая амплитуда коэффициентов остаточного вектора, и знаки коэффициентов остаточного вектора кодируются, только когда определено, что критерий удовлетворен и, таким образом, что изменение знака будет слышно. 4 н. и 22 з.п. ф-лы, 8 ил.

Кодер аудио и декодер, имеющий гибкие функциональные возможности конфигурации // 2575390

Изобретение относится к кодированию аудио-файлов с высоким качеством и низкой частотой следования битов. Технический результат заключается в оптимизации настроек конфигурации для всех канальных элементов одновременно. Технический результат достигается за счет считывания данных конфигурации для каждого канального элемента в секции конфигурации и считывания данных полезных данных для каждого канального элемента в секции полезных данных, декодирования множества канальных элементов, и конфигурирования конфигурируемого декодера так, чтобы конфигурируемый декодер конфигурировался в соответствии с первыми данными конфигурации декодера при декодировании первого канального элемента и в соответствии со вторыми данными конфигурации декодера при декодировании второго канального элемента. 6 н. и 12 з.п. ф-лы, 28 ил., 32 табл.

Кодирование и декодирование позиций слотов с событиями в кадре аудиосигнала // 2575393

Изобретение относится к области обработки аудиосигнала и аудиокодирования. Технический результат - повышение точности кодирования и декодирования. Раскрыты устройство для декодирования, устройство для кодирования, способ декодирования и способ кодирования позиций слотов, содержащих события в кадре аудиосигнала, и соответствующие программы и кодированные сигналы, при этом устройство для декодирования содержит: анализирующий блок для анализа числа слотов кадра, указывающего общее число слотов кадра аудиосигнала, числа слотов с событиями, указывающего число слотов, содержащих события кадра аудиосигнала, и числа состояний события и блок генерирования для генерирования указания множества позиций слотов, содержащих события в кадре аудиосигнала, с использованием числа слотов кадра, числа слотов с событиями и числа состояний события. 6 н. и 11 з.п. ф-лы, 25 ил., 6 табл.

Кодер, использующий прямое подавление помех дискретизации // 2575809

Изобретение относится к кодеку, поддерживающему переключение между режимом кодирования с преобразованием с подавлением помех дискретизации во временной области и режимом кодирования временной области. Технический результат состоит в том, что кодек сделан менее подверженным потере кадра. Это достигается посредством добавления дополнительного синтаксического участка к кадрам, в зависимости от которого устройство синтаксического анализа декодера может выбрать между первым действием ожидания, что текущий кадр содержит, и, таким образом, считывая данные прямого подавления помех дискретизации из текущего кадра, и вторым действием неожидания, что текущий кадр содержит, и, таким образом, не считывая данные прямого подавления помех дискретизации из текущего кадра. 6 н. и 14 з.п. ф-лы, 27 ил.

Основанная на линейном предсказании схема кодирования, использующая формирование шума в спектральной области // 2575993

Изобретение относится к способу кодирования аудио сигнала и средствам для осуществления этого способа. Технический результат изобретения заключается в создании концепции кодирования, позволяющей уменьшить сложность при сопоставимой или даже увеличенной эффективности кодирования. Концепция кодирования, основанная на линейном предсказании при использовании спектрального разложения входного аудио сигнала для вычисления коэффициентов линейного предсказания, использует формирование шума в спектральной области на основании вычисленных коэффициентов линейного предсказания. Эффективность кодирования может сохраняться, даже если используется такое перекрывающееся преобразование для спектрального разложения, которое вызывает наложение и требует отмены наложения во времени, такое как критически дискретизированное перекрывающееся преобразование, например MDCT. 3 н. и 10 з.п. ф-лы, 4ил.