Способ и устройство для декодирования амбиофонического аудиопредставления звукового поля для проигрывания аудио с использованием 2d-компоновок

Изобретение относится к средствам для декодирования аудиопредставления звукового поля. Технический результат заключается в повышении качества локализации звука. Добавляют по меньшей мере одну позицию по меньшей мере одного виртуального громкоговорителя к позициям громкоговорителей. Генерируют 3D-матрицу декодирования. Причем позиции громкоговорителей и по меньшей мере одна виртуальная позиция используются и 3D-матрица декодирования имеет коэффициенты для упомянутых определенных и виртуальных позиций громкоговорителей. Микшируют с понижением 3D-матрицу декодирования. Причем коэффициенты для виртуальных позиций громкоговорителей взвешиваются и распределяются по коэффициентам, относящимся к определенным позициям громкоговорителей. Получается уменьшенная 3D-матрица декодирования, имеющая коэффициенты для определенных позиций громкоговорителей. Декодируют закодированный аудиосигнал с использованием уменьшенной 3D-матрицы декодирования, причем получается множество декодированных сигналов громкоговорителей. 3 н. и 12 з.п. ф-лы, 7 ил.

 

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Настоящее изобретение относится к способу и устройству для декодирования аудиопредставления звукового поля, и, в частности, амбиофонически форматируемого аудиопредставления, для проигрывания аудио с использованием двухмерной или близкой к двухмерной компоновки.

УРОВЕНЬ ТЕХНИКИ

Точная локализация является ключевой целью для любой системы воспроизведения пространственного аудио. Такие системы воспроизведения успешно применимы для систем конференций, игр или других виртуальных сред, которые получают преимущества от 3D-звука. Звуковые сцены в 3D могут быть синтезированы или захвачены как естественное звуковое поле. Сигналы звукового поля, такие как, например, амбиофония, переносят представление желаемого звукового поля. Процесс декодирования требуется для получения отдельных сигналов громкоговорителей из представления звукового поля. Декодирование амбиофонически форматируемого сигнала также называется "обработкой". Для того чтобы синтезировать аудиосцены, функции панорамирования, которые обращаются к пространственной компоновке громкоговорителей, требуются для получения пространственной локализации заданного источника звука. Для записи естественного звукового поля, матрицы микрофонов требуются для захвата пространственной информации. Амбиофонический подход является очень подходящим инструментом для выполнения этого. Амбиофонически форматируемые сигналы переносят представление желаемого звукового поля на основе сферического гармонического разложения звукового поля. В то время как базовый амбиофонический формат или B-формат использует сферические гармонические функции нулевого и первого порядка, так называемая амбиофония высокого порядка (HOA) также дополнительно использует сферические гармонические функции по меньшей мере 2-го порядка. Пространственное расположение громкоговорителей называется компоновкой громкоговорителей. Для процесса декодирования требуется матрица декодирования (также называемая матрицей обработки), которая является конкретной для некоторой заданной компоновки громкоговорителей и которая генерируется с использованием известных позиций громкоговорителей.

Обычно используемыми компоновками громкоговорителей являются стереокомпоновка, которая задействует два громкоговорителя, стандартная компоновка объемного звучания, которая использует пять громкоговорителей, и расширения компоновки объемного звучания, которые используют более пяти громкоговорителей. Однако эти широко известные компоновки ограничены двумя измерениями (2D), например никакая информация высоты не воспроизводится. Обработка для известных компоновок громкоговорителей, которая может воспроизводить информацию высоты, имеет недостатки в локализации и окраске звука: либо пространственные вертикальные панорамы воспринимаются с очень неравномерной громкостью, либо сигналы громкоговорителей имеют сильные боковые лепестки, что дает недостатки в особенности для смещенных от центра позиций слушания. Таким образом, так называемое сберегающее энергию построение обработки предпочтительно при обработке описания звукового поля HOA для громкоговорителей. Это означает, что обработка одного источника звука дает в результате сигналы громкоговорителей с постоянной энергией независимо от направления источника. Иными словами, входная энергия, переносимая амбиофоническим представлением, сохраняется средством обработки громкоговорителя. Международная патентная публикация WO2014/012945A1 [1] настоящих изобретателей описывает построение средства обработки HOA с хорошими свойствами сбережения энергии и локализации для 3D-компоновок громкоговорителей. Однако, в то время как этот подход хорошо работает для 3D-компоновок громкоговорителей, которые покрывают все направления, некоторые направления источников ослабляются для 2D-компоновок громкоговорителей (как, например объемный звук 5.1). Это происходит в особенности для направлений, где никакие громкоговорители не размещаются, например сверху.

В работе Ф. Зоттера и М. Франка "Круговое амбиофоническое панорамирование и декодирование" ("All-Round Ambisonic Panning and Decoding") [2] "мнимый" громкоговоритель добавляется, если присутствует пустота в выпуклой оболочке, образуемой громкоговорителями. Однако получающийся в результате сигнал для этого мнимого громкоговорителя пропускается в проигрывании через действительный громкоговоритель. Таким образом, источник сигнала с этого направления (т. е. направления, где никакой действительный громкоговоритель не располагается), будет все равно ослаблен. Кроме того, эта работа показывает использование мнимого громкоговорителя только для использования с VBAP (панорамированием амплитуды на векторной основе).

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Таким образом, остается проблемой проектирование сберегающих энергию амбиофонических средств обработки для 2D (двухмерных) компоновок громкоговорителей, в которых источники звука с направлений, где никаких громкоговорителей не размещается, менее ослаблены или вообще не ослаблены. 2D- компоновки громкоговорителей могут быть классифицированы как те, в которых углы возвышения громкоговорителей находятся внутри определенного малого диапазона (например, <10°) так, что они близки к горизонтальной плоскости.

Настоящее техническое описание описывает решение для обработки/декодирования амбиофонически форматируемого аудиопредставления звукового поля для равномерных или неравномерных распределений пространственных громкоговорителей, причем обработка/декодирование обеспечивает сильно улучшенные свойства локализации и окраски и является сберегающим энергию, и причем даже звук с направлений, в которых никакой громкоговоритель не доступен, обрабатывается. Обеспечивает преимущества то, что звук с направлений, в которых никакой громкоговоритель не доступен, обрабатывается с по существу той же самой энергией и воспринимаемой громкостью, какую он имел бы, если бы громкоговоритель был доступен в соответственном направлении. Разумеется, точная локализация этих источников звука невозможна, поскольку никакой громкоговоритель не доступен в этом направлении.

В частности, по меньшей мере некоторые описанные варианты осуществления обеспечивают новый способ для получения матрицы декодирования для декодирования данных звукового поля в формате HOA. Поскольку по меньшей мере формат HOA описывает звуковое поле, которое не относится непосредственно к позициям громкоговорителей, и поскольку сигналы громкоговорителей, которые должны быть получены, обязательно имеют формат аудио на основе каналов, декодирование сигналов HOA всегда непосредственно относится к обработке аудиосигнала. По существу, то же самое также применимо и к другим аудиоформатам звукового поля. Таким образом, настоящее раскрытие относится и к декодированию, и к обработке относящихся к звуковому полю аудиоформатов. Термины "матрица декодирования" и "матрица обработки" используются как синонимы.

Для получения матрицы декодирования для некоторой заданной компоновки с хорошими свойствами сбережения энергии один или несколько виртуальных громкоговорителей добавляется в позициях, где никакой громкоговоритель не доступен. Например, для получения улучшенной матрицы декодирования для 2D-компоновки два виртуальных громкоговорителя добавляется сверху и снизу (в соответствии с углами возвышения +90° и -90°, причем 2D-громкоговорители размещаются приблизительно на возвышении 0°). Для этой виртуальной 3D-компоновки громкоговорителей строится матрица декодирования, которая удовлетворяет свойству сбережения энергии. Наконец, весовые коэффициенты из матрицы декодирования для виртуальных громкоговорителей микшируются с постоянными усилениями для действительных громкоговорителей 2D-компоновки.

Согласно одному варианту осуществления матрица декодирования (или матрица обработки) для обработки или декодирования аудиосигнала в амбиофоническом формате для некоторого заданного набора громкоговорителей генерируется путем генерирования первой предварительной матрицы декодирования с использованием стандартного способа и с использованием модифицированных позиций громкоговорителей, причем модифицированные позиции громкоговорителей включают в себя позиции громкоговорителей заданного набора громкоговорителей и по меньшей мере одну дополнительную виртуальную позицию громкоговорителя, и понижающего микширования первой предварительной матрицы декодирования, причем коэффициенты, относящиеся к по меньшей мере одному дополнительному виртуальному громкоговорителю, удаляются и распределяются по коэффициентам, относящимся к громкоговорителям заданного набора громкоговорителей. В одном варианте осуществления последующий этап нормализации матрицы декодирования следует за этим. Получающаяся в результате матрица декодирования является подходящей для обработки или декодирования амбиофонического сигнала для заданного набора громкоговорителей, причем даже звук от позиций, где никакой громкоговоритель не присутствует, воспроизводится с верной энергией сигнала. Это происходит ввиду строения улучшенной матрицы декодирования. Предпочтительно, первая предварительная матрица декодирования является сберегающей энергию.

В одном варианте осуществления матрица декодирования имеет L строк и O3D столбцов. Количество строк соответствует количеству громкоговорителей в 2D-компоновке громкоговорителей, и количество столбцов соответствует количеству амбиофонических коэффициентов O3D, которое зависит от порядка N HOA согласно O3D=(N+1)2. Каждый из коэффициентов матрицы декодирования для 2D-компоновки громкоговорителей является суммой по меньшей мере первого промежуточного коэффициента и второго промежуточного коэффициента. Первый промежуточный коэффициент получается способом построения 3D-матрицы со сбережением энергии для текущей позиции громкоговорителя 2D-компоновки громкоговорителей, причем способ построения 3D-матрицы со сбережением энергии использует по меньшей мере одну позицию виртуального громкоговорителя. Второй промежуточный коэффициент получается посредством коэффициента, который получается из упомянутого способа построения 3D-матрицы со сбережением энергии для по меньшей мере одной позиции виртуального громкоговорителя, умноженного на весовой коэффициент g. В одном варианте осуществления весовой коэффициент g вычисляется согласно , где L является количеством громкоговорителей в 2D-компоновке громкоговорителей.

В одном варианте осуществления изобретение относится к машиночитаемому носителю данных, имеющему сохраненные на нем исполняемые инструкции, для побуждения компьютера выполнять способ, содержащий этапы способа, раскрываемого выше или в формуле изобретения.

Устройство, которое задействует способ, раскрывается в пункте 9.

Имеющие преимущества варианты осуществления раскрываются в зависимых пунктах формулы изобретения, в последующем описании и на чертежах.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Примерные варианты осуществления изобретения описаны со ссылками на сопроводительные чертежи, которые изображают на

фиг.1 блок-схему способа согласно одному варианту осуществления;

фиг.2 примерное строение микшированной с понижением матрицы декодирования HOA;

фиг.3 блок-схему для получения и модификации позиций громкоговорителей;

фиг.4 структурную схему устройства согласно одному варианту осуществления;

фиг.5 распределение энергии, возникающее в результате стандартной матрицы декодирования;

фиг.6 распределение энергии, возникающее в результате матрицы декодирования согласно вариантам осуществления; и

фиг.7 использование раздельно оптимизированных матриц декодирования для различных полос частот.

ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Фиг.1 изображает блок-схему способа для декодирования аудиосигнала, в частности, сигнала звукового поля, согласно одному варианту осуществления. Декодирование сигналов звукового поля в общем случае требует позиций громкоговорителей, для которых аудиосигнал должен быть обработан. Такие позиции громкоговорителей 1 ... L для L громкоговорителей вводятся i10 в процесс. Следует заметить, что, когда упоминаются позиции, фактически здесь подразумеваются пространственные направления, т. е. позиции громкоговорителей определяются их углами наклона и углами азимута , которые комбинируются в вектор . Затем по меньшей мере одна позиция виртуального громкоговорителя добавляется 10. В одном варианте осуществления все позиции громкоговорителей, которые вводятся в процесс i10, находятся по существу в одной и той же плоскости так, что они составляют 2D-компоновку, и по меньшей мере один виртуальный громкоговоритель, который добавляется, находится вне этой плоскости. В одном особенно выгодном варианте осуществления все позиции громкоговорителей, которые вводятся в процесс i10, находятся по существу в одной и той же плоскости, и позиции двух виртуальных громкоговорителей добавляются на этапе 10. Имеющие преимущества позиции двух виртуальных громкоговорителей описаны ниже. В одном варианте осуществления добавление выполняется согласно ур.(6) ниже. Этап 10 добавления дает в результате модифицированный набор углов громкоговорителей '1 ... 'L+Lвирт на q10. Lвирт является количеством виртуальных громкоговорителей. Модифицированный набор углов громкоговорителей используется на этапе 11 построения 3D-матрицы декодирования. Также порядок N HOA (в общем случае порядок коэффициентов сигнала звукового поля) должен быть обеспечен i11 для этапа 11.

Этап 11 построения 3D-матрицы декодирования выполняет любой известный способ для генерирования 3D-матрицы декодирования. Предпочтительно, 3D-матрица декодирования является подходящей для сберегающего энергию типа декодирования/обработки. Например, способ, описанный в работе PCT/EP2013/065034, может быть использован. Этап 11 построения 3D-матрицы декодирования дает в результате матрицу декодирования или матрицу обработки D', которая подходит для обработки L'=L+Lвирт сигналов громкоговорителей, где Lвирт является количеством виртуальных позиций громкоговорителей, которые были добавлены на этапе 10 "добавления виртуальных позиций громкоговорителей".

Поскольку только L громкоговорителей физически доступно, матрица декодирования D', которая получается в результате этапа 11 построения 3D-матрицы декодирования, должна быть приспособлена под L громкоговорителей на этапе 12 понижающего микширования. Этот этап выполняет понижающее микширование матрицы декодирования D', причем коэффициенты, относящиеся к виртуальным громкоговорителям, взвешиваются и распределяются по коэффициентам, относящимся к существующим громкоговорителям. Предпочтительно, коэффициенты любого конкретного порядка HOA (т.е. столбец матрицы декодирования D') взвешиваются и добавляются к коэффициентам того же самого порядка HOA (т.е. к тому же самому столбцу матрицы декодирования D'). Одним примером является понижающее микширование согласно ур.(8) ниже. Этап 12 понижающего микширования дает в результате микшированную с понижением 3D-матрицу декодирования , которая имеет L строк, т.е. меньше строк, чем матрица декодирования D', но имеет то же самое количество столбцов, что и матрица декодирования D'. Иными словами, размерность матрицы декодирования D' равна (L+Lвирт)×O3D и размерность микшированной с понижением 3D-матрицы декодирования равна L×O3D.

Фиг.2 изображает примерное строение микшированной с понижением HOA-матрицы декодирования из HOA-матрицы декодирования D'. HOA-матрица декодирования D' имеет L+2 строк, что означает, что две виртуальные позиции громкоговорителей были добавлены к L доступным позициям громкоговорителей, и O3D столбцов, где O3D=(N+1)2 и N является порядком HOA. На этапе 12 понижающего микширования коэффициенты строк L+1 и L+2 HOA-матрицы декодирования D' взвешиваются и распределяются по коэффициентам их соответственного столбца, и строки L+1 и L+2 удаляются. Например, первые коэффициенты d'L+1,1 и d'L+2,1 каждой из строк L+1 и L+2 взвешиваются и добавляются к первым коэффициентам всех остальных строк, таким как d'1,1. Получающийся в результате коэффициент 1,1 микшированной с понижением HOA-матрицы декодирования является функцией от d'1,1, d'L+1,1, d'L+2,1 и весового коэффициента g. Тем же самым образом, например, получающийся в результате коэффициент 2,1 микшированной с понижением HOA-матрицы декодирования является функцией от d'2,1, d'L+1,1, d'L+2,1 и весового коэффициента g, и получающийся в результате коэффициент 1,2 микшированной с понижением HOA-матрицы декодирования является функцией от d'1,2, d'L+1,2, d'L+2,2 и весового коэффициента g.

Обычно микшированная с понижением HOA-матрица декодирования будет нормализована на этапе 13 нормализации. Однако этот этап 13 является опциональным, поскольку не нормализованная матрица декодирования также может быть использована для декодирования сигнала звукового поля. В одном варианте осуществления микшированная с понижением HOA-матрица декодирования нормализуется согласно ур.(9) ниже. Этап 13 нормализации дает в результате нормализованную микшированную с понижением HOA-матрицу декодирования D, которая имеет ту же самую размерность L×O3D, что и микшированная с понижением HOA-матрица декодирования .

Нормализованная микшированная с понижением HOA-матрица декодирования D может затем быть использована на этапе 14 декодирования звукового поля, где входной сигнал звукового поля i14 декодируется для L сигналов q14 громкоговорителей. Обычно нормализованная микшированная с понижением HOA-матрица декодирования D не нуждается в модификации, пока компоновка громкоговорителей не модифицируется. Таким образом, в одном варианте осуществления нормализованная микшированная с понижением HOA-матрица декодирования D сохраняется в хранилище матрицы декодирования.

Фиг.3 изображает подробности того, как в одном варианте осуществления позиции громкоговорителей получаются и модифицируются. Этот вариант осуществления содержит этапы определения 101 позиций 1 ... L L громкоговорителей и порядка N коэффициентов сигнала звукового поля, определения 102 из позиций, что L громкоговорителей находятся по существу в 2D-плоскости, и генерирования 103 по меньшей мере одной виртуальной позиции виртуального громкоговорителя.

В одном варианте осуществления по меньшей мере одна виртуальная позиция является одной из и .

В одном варианте осуществления две виртуальных позиции и , соответствующие двум виртуальным громкоговорителям, генерируются 103, где и .

Согласно одному варианту осуществления способ для декодирования закодированного аудиосигнала для L громкоговорителей в известных позициях содержит этапы, на которых определяют 101 позиции 1 ... L L громкоговорителей и порядок N коэффициентов сигнала звукового поля, определяют 102 из позиций, что L громкоговорителей находятся по существу в 2D-плоскости, генерируют 103 по меньшей мере одну виртуальную позицию виртуального громкоговорителя, генерируют 11 3D-матрицу декодирования D', причем определенные позиции 1 ... L L громкоговорителей и по меньшей мере одна виртуальная позиция используются, и 3D-матрица декодирования D' имеет коэффициенты для упомянутых определенных и виртуальных позиций громкоговорителей, микшируют с понижением 12 3D-матрицу декодирования D', причем коэффициенты для виртуальных позиций громкоговорителей взвешиваются и распределяются по коэффициентам, относящимся к определенным позициям громкоговорителей, и причем получается уменьшенная 3D-матрица декодирования , имеющая коэффициенты для определенных позиций громкоговорителей, и декодируют 14 закодированный аудиосигнал i14 с использованием уменьшенной 3D-матрицы декодирования , причем получается множество декодированных сигналов q14 громкоговорителей.

В одном варианте осуществления закодированный аудиосигнал является сигналом звукового поля, например в формате HOA.

В одном варианте осуществления по меньшей мере одна виртуальная позиция виртуального громкоговорителя является одной из и .

В одном варианте осуществления коэффициенты для виртуальных позиций громкоговорителей взвешиваются посредством весового коэффициента .

В одном варианте осуществления способ имеет дополнительный этап нормализации уменьшенной 3D-матрицы декодирования , причем получается нормализованная уменьшенная 3D-матрица декодирования D, и этап 14 декодирования закодированного аудиосигнала i14 использует нормализованную уменьшенную 3D-матрицу декодирования D. В одном варианте осуществления способ имеет дополнительный этап сохранения уменьшенной 3D-матрицы декодирования или нормализованной микшированной с понижением HOA-матрицы декодирования D в хранилище матрицы декодирования.

Согласно одному варианту осуществления, матрица декодирования для обработки или декодирования сигнала звукового поля для некоторого заданного набора громкоговорителей генерируется путем генерирования первой предварительной матрицы декодирования с использованием стандартного способа и с использованием модифицированных позиций громкоговорителей, причем модифицированные позиции громкоговорителей включают в себя позиции громкоговорителей заданного набора громкоговорителей и по меньшей мере одну дополнительную виртуальную позицию громкоговорителя, и понижающего микширования первой предварительной матрицы декодирования, причем коэффициенты, относящиеся к по меньшей мере одному дополнительному виртуальному громкоговорителю, удаляются и распределяются по коэффициентам, относящимся к громкоговорителям из заданного набора громкоговорителей. В одном варианте осуществления последующий этап нормализации матрицы декодирования следует за этим. Получающаяся в результате матрица декодирования подходит для обработки или декодирования сигнала звукового поля для заданного набора громкоговорителей, причем даже звук от позиций, где никакой громкоговоритель не присутствует, воспроизводится с верной энергией сигнала. Это происходит ввиду строения улучшенной матрицы декодирования. Предпочтительно, первая предварительная матрица декодирования является сберегающей энергию.

Фиг.4a) изображает структурную схему устройства согласно одному варианту осуществления. Устройство 400 для декодирования закодированного аудиосигнала в формате звукового поля для L громкоговорителей в известных позициях содержит блок 410 суммирования для добавления по меньшей мере одной позиции по меньшей мере одного виртуального громкоговорителя к позициям L громкоговорителей, блок 411 генератора матрицы декодирования для генерирования 3D-матрицы декодирования D', причем позиции 1 ... L L громкоговорителей и по меньшей мере одна виртуальная позиция используются, и 3D-матрица декодирования D' имеет коэффициенты для упомянутых определенных и виртуальных позиций громкоговорителей, блок 412 понижающего микширования матрицы для понижающего микширования 3D-матрицы декодирования D', причем коэффициенты для виртуальных позиций громкоговорителей взвешиваются и распределяются по коэффициентам, относящимся к определенным позициям громкоговорителей, и причем получается уменьшенная 3D-матрица декодирования , имеющая коэффициенты для определенных позиций громкоговорителей, и блок 414 декодирования для декодирования закодированного аудиосигнала с использованием уменьшенной 3D-матрицы декодирования , причем получается множество декодированных сигналов громкоговорителей.

В одном варианте осуществления устройство дополнительно содержит блок 413 нормализации для нормализации уменьшенной 3D-матрицы декодирования , причем получается нормализованная уменьшенная 3D-матрица декодирования D, и блок 414 декодирования использует нормализованную уменьшенную 3D-матрицу декодирования D.

В одном варианте осуществления, изображенном на фиг.4b), устройство дополнительно содержит первый блок 4101 определения для определения позиций (L) L громкоговорителей и порядка N коэффициентов сигнала звукового поля, второй блок 4102 определения для определения из позиций, что L громкоговорителей находятся по существу в 2D-плоскости, и блок 4103 генерирования позиции виртуального громкоговорителя для генерирования по меньшей мере одной виртуальной позиции () виртуального громкоговорителя.

В одном варианте осуществления устройство дополнительно содержит множество полосовых фильтров 715b для разделения закодированного аудиосигнала на множество полос частот, причем множество раздельных 3D-матриц декодирования Db' генерируется 711b, по одной для каждой полосы частот, и каждая 3D-матрица декодирования Db' микшируется с понижением 712b и опционально нормализуется раздельно, и причем блок 714b декодирования декодирует каждую полосу частот раздельно. В этом варианте осуществления устройство дополнительно содержит множество блоков 716b суммирования, по одному для каждого громкоговорителя. Каждый блок суммирования суммирует полосы частот, которые относятся к соответственному громкоговорителю.

Каждый из блока 410 суммирования, блока 411 генератора матрицы декодирования, блока 412 понижающего микширования матрицы, блока 413 нормализации, блока 414 декодирования, первого блока 4101 определения, второго блока 4102 определения и блока 4103 генерирования позиции виртуального громкоговорителя может осуществляться одним или несколькими процессорами, и каждый из этих блоков может совместно использовать один и тот же процессор с любым другим из этих или других блоков.

Фиг.7 изображает вариант осуществления, который использует раздельно оптимизированные матрицы декодирования для различных полос частот входного сигнала. В этом варианте осуществления способ декодирования содержит этап разделения закодированного аудиосигнала на множество полос частот с использованием полосовых фильтров. Множество раздельных 3D-матриц декодирования Db' генерируется 711b, по одной для каждой полосы частот, и каждая 3D-матрица декодирования Db' микшируется с понижением 712b и опционально нормализуется раздельно. Декодирование 714b закодированного аудиосигнала выполняется для каждой полосы частот раздельно. Это имеет преимущество в том, что зависимые от частоты различия в человеческом восприятии могут быть приняты в расчет и могут приводить к различным матрицам декодирования для различных полос частот. В одном варианте осуществления только одна или несколько (но не все) матриц декодирования генерируется путем добавления виртуальных позиций громкоговорителей и затем взвешивания и распределения их коэффициентов по коэффициентам для существующих позиций громкоговорителей, как описано выше. В другом варианте осуществления каждая из матриц декодирования генерируется путем добавления виртуальных позиций громкоговорителей и затем взвешивания и распределения их коэффициентов по коэффициентам для существующих позиций громкоговорителей, как описано выше. Наконец, все полосы частот, которые относятся к одному и тому же громкоговорителю, суммируются в одном блоке 716b суммирования полос частот для каждого громкоговорителя в операции, обратной к разбиению полос частот.

Каждый из блока 410 суммирования, блока 711b генератора матрицы декодирования, блока 712b понижающего микширования матрицы, блока 713b нормализации, блока 714b декодирования, блока 716b суммирования полос частот и блока 715b полосовых фильтров может осуществляться одним или несколькими процессорами, и каждый из этих блоков может совместно использовать один и тот же процессор с любым другим из этих или других блоков.

Один аспект настоящего раскрытия предназначен для получения матрицы обработки для 2D-компоновки с хорошими свойствами сбережения энергии. В одном варианте осуществления два виртуальных громкоговорителя добавляется сверху и снизу (углы возвышения +90° и -90°, причем 2D-громкоговорители размещены приблизительно на возвышении 0°). Для этой виртуальной 3D-компоновки громкоговорителей строится матрица обработки, которая удовлетворяет свойству сбережения энергии. Наконец, весовые коэффициенты из матрицы обработки для виртуальных громкоговорителей микшируются с постоянными усилениями для действительных громкоговорителей 2D-компоновки.

Далее описывается амбиофоническая (а именно HOA) обработка.

Амбиофоническая обработка является процессом вычисления сигналов громкоговорителей из амбиофонического описания звукового поля. Иногда она также называется амбиофоническим декодированием. Амбиофоническое 3D-представление звукового поля порядка N рассматривается, где количество коэффициентов равно

ZEqn1_O3d (1)

Коэффициенты для временной выборки t представляются вектором b(t) c O3D элементами. Посредством матрицы обработки D сигналы громкоговорителей для временной выборки t вычисляются следующим образом

ZEqn1_HoaRendering (2)

где D , и w , и L является количеством громкоговорителей.

Позиции громкоговорителей определяются через их углы наклона и углы азимута , которые комбинируются в вектор для . Различные расстояния громкоговорителей от позиций прослушивания компенсируются посредством отдельных задержек для каналов громкоговорителей.

Энергия сигнала в области HOA дается следующим образом

(3)

где H обозначает (комплексно-сопряженное) транспонирование. Соответствующая энергия сигналов громкоговорителей вычисляется следующим образом

(4)

Соотношение для сберегающей энергию матрицы декодирования/обработки должно быть постоянным для того, чтобы достигать сберегающего энергию декодирования/обработки.

По существу следующее расширение для улучшенной 2D-обработки предлагается: Для построения матриц обработки для 2D-компоновок громкоговорителей один или несколько виртуальных громкоговорителей добавляется. 2D-компоновки понимаются как те, в которых углы возвышения громкоговорителей находятся внутри определенного малого диапазона так, что они близки к горизонтальной плоскости. Это может быть выражено следующим образом

ZEqn1_2dthreshold (5)

Пороговое значение обычно выбирается для соответствия значению в диапазоне 5°-10° в одном варианте осуществления.

Для построения обработки определяется модифицированный набор углов громкоговорителей . Последние (в этом примере две) позиции громкоговорителей являются позициями двух виртуальных громкоговорителей на северном и южном полюсах (в вертикальном направлении, т.е. сверху и снизу) полярной системы координат:



ZEqn1_virtualLS
(6)

Таким образом, новое количество громкоговорителей, используемое для построения обработки, равно . Из этих модифицированных позиций громкоговорителей матрица обработки строится с подходом сбережения энергии. Например, способ построения, описанный в [1], может быть использован. Теперь окончательная матрица обработки для исходной компоновки громкоговорителей находится из D'. Одной идеей является микшировать весовые коэффициенты для виртуального громкоговорителя, определенные в матрице D', для действительных громкоговорителей. Фиксированный коэффициент усиления используется, который выбирается равным

.ZEqn1_downmixGain (7)

Коэффициенты промежуточной матрицы (также называемой здесь уменьшенной 3D-матрицей декодирования) определяются следующим образом

для и ZEqn1_Ddownmix (8)

где является элементом матрицы в l-й строке и q-м столбце. На опциональном последнем этапе промежуточная матрица (уменьшенная 3D-матрица декодирования) нормализуется с использованием нормы Фробениуса:

ZEqn1_matrixNorm (9)

Фиг.5 и 6 изображают распределения энергии для компоновки громкоговорителей объемного звучания 5.0. На обоих чертежах значения энергии показаны как градации серого, и окружности указывают позиции громкоговорителей. Посредством раскрываемого способа в особенности ослабление сверху (а также снизу, не показано здесь) явным образом уменьшается.

Фиг.5 изображает распределение энергии, возникающее в результате стандартной матрицы декодирования. Малые окружности вокруг плоскости z=0 представляют позиции громкоговорителей. Как можно увидеть, покрывается диапазон энергии [-3,9, ..., 2,1] дБ, что дает в результате различия в энергии, равные 6 дБ. Кроме того, сигналы сверху (и снизу, не показано) единичной сферы воспроизводятся с очень низкой энергией, т.е. не слышны, поскольку никакие громкоговорители здесь не доступны.

Фиг.6 изображает распределение энергии, возникающее в результате матрицы декодирования согласно одному или нескольким вариантам осуществления, причем то же самое количество громкоговорителей находится в тех же самых позициях, что и на фиг.5. По меньшей мере следующие преимущества обеспечены: во-первых, покрывается меньший диапазон энергии [-1,6, ..., 0,8] дБ, что дает в результате меньшие различия в энергии, равные только 2,4 дБ. Во-вторых, сигналы из всех направлений единичной сферы воспроизводятся с их верной энергией, даже если никакие громкоговорители здесь не доступны. Поскольку эти сигналы воспроизводятся через доступные громкоговорители, их локализация не верна, но сигналы слышны с верной громкостью. В этом примере сигналы сверху и снизу (не показано) становятся слышимыми ввиду декодирования посредством улучшенной матрицы декодирования.

В одном варианте осуществления способ для декодирования закодированного аудиосигнала в амбиофоническом формате для L громкоговорителей в известных позициях содержит этапы, на которых добавляют по меньшей мере одну позицию по меньшей мере одного виртуального громкоговорителя к позициям L громкоговорителей, генерируют 3D-матрицу декодирования D', причем позиции 1, ..., L L громкоговорителей и по меньшей мере одна виртуальная позиция используются, и 3D-матрица декодирования D' имеет коэффициенты для упомянутых определенных и виртуальных позиций громкоговорителей, микшируют с понижением 3D-матрицу декодирования D', причем коэффициенты для виртуальных позиций громкоговорителей взвешиваются и распределяются по коэффициентам, относящимся к определенным позициям громкоговорителей, и причем получается уменьшенная 3D-матрица декодирования , имеющая коэффициенты для определенных позиций громкоговорителей, и декодируют закодированный аудиосигнал с использованием уменьшенной 3D-матрицы декодирования , причем получается множество декодированных сигналов громкоговорителей.

В другом варианте осуществления устройство для декодирования закодированного аудиосигнала в амбиофоническом формате для L громкоговорителей в известных позициях содержит блок 410 суммирования для добавления по меньшей мере одной позиции по меньшей мере одного виртуального громкоговорителя к позициям L громкоговорителей, блок 411 генератора матрицы декодирования для генерирования 3D-матрицы декодирования D', причем позиции 1 ... L L громкоговорителей и по меньшей мере одна виртуальная позиция используются, и 3D-матрица декодирования D' имеет коэффициенты для упомянутых определенных и виртуальных позиций громкоговорителей, блок 412 понижающего микширования матрицы для понижающего микширования 3D-матрицы декодирования D', причем коэффициенты для виртуальных позиций громкоговорителей взвешиваются и распределяются по коэффициентам, относящимся к определенным позициям громкоговорителей, и причем получается уменьшенная 3D-матрица декодирования , имеющая коэффициенты для определенных позиций громкоговорителей, и блок 414 декодирования для декодирования закодированного аудиосигнала с использованием уменьшенной 3D-матрицы декодирования , причем получается множество декодированных сигналов громкоговорителей.

В еще одном варианте осуществления устройство для декодирования закодированного аудиосигнала в амбиофоническом формате для L громкоговорителей в известных позициях содержит по меньшей мере один процессор и по меньшей мере одну память, причем память имеет сохраненные инструкции, которые при исполнении в процессоре осуществляют блок 410 суммирования для добавления по меньшей мере одной позиции по меньшей мере одного виртуального громкоговорителя к позициям L громкоговорителей, блок 411 генератора матрицы декодирования для генерирования 3D-матрицы декодирования D', причем позиции 1 ... L L громкоговорителей и по меньшей мере одна виртуальная позиция используются, и 3D-матрица декодирования D' имеет коэффициенты для упомянутых определенных и виртуальных позиций громкоговорителей, блок 412 понижающего микширования матрицы для понижающего микширования 3D-матрицы декодирования D', причем коэффициенты для виртуальных позиций громкоговорителей взвешиваются и распределяются по коэффициентам, относящимся к определенным позициям громкоговорителей, и причем получается уменьшенная 3D-матрица декодирования , имеющая коэффициенты для определенных позиций громкоговорителей, и блок 414 декодирования для декодирования закодированного аудиосигнала с использованием уменьшенной 3D-матрицы декодирования , причем получается множество декодированных сигналов громкоговорителей.

В еще одном варианте осуществления машиночитаемый носитель данных имеет сохраненные на нем исполняемые инструкции для побуждения компьютера выполнять способ для декодирования закодированного аудиосигнала в амбиофоническом формате для L громкоговорителей в известных позициях, причем способ содержит этапы, на которых добавляют по меньшей мере одну позицию по меньшей мере одного виртуального громкоговорителя к позициям L громкоговорителей, генерируют 3D-матрицу декодирования D', причем позиции 1, ..., L L громкоговорителей и по меньшей мере одна виртуальная позиция используются, и 3D-матрица декодирования D' имеет коэффициенты для упомянутых определенных и виртуальных позиций громкоговорителей, микшируют с понижением 3D-матрицу декодирования D', причем коэффициенты для виртуальных позиций громкоговорителей взвешиваются и распределяются по коэффициентам, относящимся к определенным позициям громкоговорителей, и причем получается уменьшенная 3D-матрица декодирования , имеющая коэффициенты для определенных позиций громкоговорителей, и декодируют закодированный аудиосигнал с использованием уменьшенной 3D-матрицы декодирования , причем получается множество декодированных сигналов громкоговорителей. Дополнительные варианты осуществления машиночитаемых носителей информации могут включать в себя любые признаки, описанные выше, в частности признаки, раскрываемые в зависимых пунктах формулы изобретения, ссылающиеся на пункт 1.

Следует понимать, что настоящее изобретение было описано исключительно в качестве примера, и модификации подробностей могут быть осуществлены без выхода за пределы объема изобретения. Например, хотя это описано только в отношении HOA, изобретение может также применяться для других аудиоформатов звукового поля.

Каждый признак, раскрываемый в описании, (где уместно) в формуле изобретения и на чертежах может быть обеспечен независимо или в любой надлежащей комбинации. Признаки могут, где уместно, осуществляться в аппаратных средствах, в программных средствах или в их комбинации. Ссылочные позиции, фигурирующие в формуле изобретения, приведены только в качестве иллюстрации и не должны оказывать ограничивающего эффекта на объем формулы изобретения.

На следующие материалы были сделаны ссылки выше.

[1] Интернациональная патентная публикация № WO2014/012945A1 (PD120032)

[2] Ф. Зоттер и М. Франк, "Круговое амбиофоническое панорамирование и декодирование" ("All-Round Ambisonic Panning and Decoding"), Журнал Общества инженеров по звуковой технике, 2012 г., том 60, стр.807-820.

1. Способ для декодирования закодированного аудиосигнала в амбиофоническом формате для L громкоговорителей в известных позициях, содержащий этапы, на которых

- добавляют (10) по меньшей мере одну позицию по меньшей мере одного виртуального громкоговорителя к позициям L громкоговорителей;

- генерируют (11) 3D-матрицу декодирования (D'), причем позиции (1, ..., L) L громкоговорителей и по меньшей мере одна виртуальная позиция () используются и 3D-матрица декодирования (D') имеет коэффициенты для упомянутых определенных и виртуальных позиций громкоговорителей;

- микшируют с понижением (12) 3D-матрицу декодирования (D'), причем коэффициенты для виртуальных позиций громкоговорителей взвешиваются и распределяются по коэффициентам, относящимся к определенным позициям громкоговорителей и причем получается уменьшенная 3D-матрица декодирования (), имеющая коэффициенты для определенных позиций громкоговорителей; и

- декодируют (14) закодированный аудиосигнал (i14) с использованием уменьшенной 3D-матрицы декодирования (), причем получается множество декодированных сигналов (q14) громкоговорителей.

2. Способ по п.1, в котором коэффициенты для виртуальных позиций громкоговорителей взвешиваются посредством весового коэффициента , где L является количеством громкоговорителей.

3. Способ по п.1 или 2, в котором по меньшей мере одна виртуальная позиция () виртуального громкоговорителя является одной из и .

4. Способ по п.1, дополнительно содержащий этап, на котором нормализуют (13) уменьшенную 3D-матрицу декодирования () с использованием нормы Фробениуса, причем получается нормализованная уменьшенная 3D-матрица декодирования (D), и этап декодирования (14) закодированного аудиосигнала использует нормализованную уменьшенную 3D-матрицу декодирования (D).

5. Способ по п.4, в котором нормализация выполняется согласно ,

причем O3D обозначает количество столбцов матрицы декодирования.

6. Способ по п.1, дополнительно содержащий этапы, на которых

- определяют (101) позиции (1 ... L) L громкоговорителей и порядок N коэффициентов сигнала звукового поля;

- определяют (102) из позиций, что L громкоговорителей находятся в 2D-плоскости; и

- генерируют (103) по меньшей мере одну виртуальную позицию () виртуального громкоговорителя.

7. Способ по п.1, дополнительно содержащий этап, на котором разделяют закодированный аудиосигнал на множество полос частот с использованием полосовых фильтров, причем множество отдельных 3D-матриц декодирования (Db') генерируется (711b), по одной для каждой полосы частот, и каждая 3D-матрица декодирования (Db') микшируется с понижением (712b) и опционально нормализуется раздельно (713b) и причем этап декодирования (714b) закодированного аудиосигнала (i14) выполняется для каждой полосы частот отдельно.

8. Способ по п.1, в котором известные L позиций громкоговорителей находятся в одной 2D-плоскости с возвышениями не более 10°.

9. Устройство для декодирования закодированного аудиосигнала в амбиофоническом формате для L громкоговорителей в известных позициях, содержащее

- блок (410) суммирования для добавления по меньшей мере одной позиции по меньшей мере одного виртуального громкоговорителя к позициям L громкоговорителей;

- блок (411) генератора матрицы декодирования для генерирования 3D-матрицы декодирования (D'), причем позиции (1 ... L) L громкоговорителей и по меньшей мере одна виртуальная позиция () используются и 3D-матрица декодирования (D') имеет коэффициенты для упомянутых определенных и виртуальных позиций громкоговорителей;

- блок (412) понижающего микширования матрицы для понижающего микширования 3D-матрицы декодирования (D'), причем коэффициенты для виртуальных позиций громкоговорителей взвешиваются и распределяются по коэффициентам, относящимся к определенным позициям громкоговорителей, и причем получается уменьшенная 3D-матрица декодирования (), имеющая коэффициенты для определенных позиций громкоговорителей; и

- блок (414) декодирования для декодирования закодированного аудиосигнала (i14) с использованием уменьшенной 3D-матрицы декодирования (), причем получается множество декодированных сигналов (q14) громкоговорителей.

10. Устройство по п.9, дополнительно содержащее блок (413) нормализации для нормализации уменьшенной 3D-матрицы декодирования () с использованием нормы Фробениуса, причем получается нормализованная уменьшенная 3D-матрица декодирования (D), и блок (414) декодирования использует нормализованную уменьшенную 3D-матрицу декодирования (D).

11. Устройство по п.9 или 10, дополнительно содержащее

- первый блок (101) определения для определения позиций (1 ... L) L громкоговорителей и порядка N коэффициентов сигнала звукового поля;

- второй блок (102) определения для определения из позиций, что L громкоговорителей находятся в 2D-плоскости; и

- блок (103) генерирования позиции виртуального громкоговорителя для генерирования по меньшей мере одной виртуальной позиции () виртуального громкоговорителя.

12. Устройство по п.9, дополнительно содержащее множество полосовых фильтров (715b) для разделения закодированного аудиосигнала на множество полос частот, причем множество отдельных 3D-матриц декодирования (Db') генерируется (711b), по одной для каждой полосы частот, и каждая 3D-матрица декодирования (Db') микшируется с понижением (712b) и опционально нормализуется раздельно и причем блок (714b) декодирования декодирует каждую полосу частот раздельно.

13. Машиночитаемый носитель данных, имеющий сохраненные на нем исполняемые инструкции, чтобы побуждать компьютер выполнять способ для декодирования закодированного аудиосигнала в амбиофоническом формате для L громкоговорителей в известных позициях, причем способ содержит этапы, на которых

- добавляют (10) по меньшей мере одну позицию по меньшей мере одного виртуального громкоговорителя к позициям L громкоговорителей;

- генерируют (11) 3D-матрицу декодирования (D'), причем позиции (1, ..., L) L громкоговорителей и по меньшей мере одна виртуальная позиция () используются и 3D-матрица декодирования (D') имеет коэффициенты для упомянутых определенных и виртуальных позиций громкоговорителей;

- микшируют с понижением (12) 3D-матрицу декодирования (D'), причем коэффициенты для виртуальных позиций громкоговорителей взвешиваются и распределяются на коэффициенты, относящиеся к определенным позициям громкоговорителей, и причем получается уменьшенная 3D-матрица декодирования (), имеющая коэффициенты для определенных позиций громкоговорителей; и

- декодируют (14) закодированный аудиосигнал (i14) с использованием уменьшенной 3D-матрицы декодирования (), причем множество декодированных сигналов (q14) громкоговорителей получается.

14. Машиночитаемый носитель данных по п.13, в котором коэффициенты для виртуальных позиций громкоговорителей взвешиваются посредством весового коэффициента , причем L является количеством громкоговорителей.

15. Машиночитаемый носитель данных по п.13 или 14, в котором по меньшей мере одна виртуальная позиция () виртуального громкоговорителя является одной из и .



 

Похожие патенты:

Изобретение относится к средствам обработки аудиосигнала. Технический результат заключается в повышении эффективности фильтрации входного аудиосигнала.

Изобретение относится к средствам для кластеризации аудиообъектов. Технический результат заключается в повышении эффективности кластеризации аудиообъектов.

Изобретение относится к области обработки информации. Технический результат заключается в повышении точности указания позиции объекта дополненной реальности (AR) за пределами области отображения блока отображения изображения.

Изобретение относится к средствам для генерации множества звуковых каналов. Технический результат заключается в повышении гибкости схемы расположения громкоговорителей.

Изобретение относится к области кодирования аудиосигналов и предназначено для преобразования первого и второго входных каналов в один выходной канал, и в частности, предназначено для использования при преобразовании формата между различными конфигурациями каналов громкоговорителей.

Изобретение относится к средствам для представления трехмерных аудиоданных. Технический результат заключается в повышении эффективности представления трехмерных аудиоданных.

Изобретение относится к области обработки аудиосигналов, в частности к области обработки пространственных аудиосигналов. Технический результат – повышение эффективности управления входным аудиосигналом в пределах пространственного аудиосценария.

Изобретение относится к обработке аудиосигналов и предназначено для адаптации рендеринга к неизвестным конфигурациям аудиопреобразователей. Технический результат – обеспечение высококачественного восприятия звука за счет автоматической адаптации к конфигурациям аудиопреобразователей.

Изобретение относится к средствам для кодирования, декодирования и вывода аудиосигнала. Технический результат заключается в повышении качества аудиосигнала.

Изобретение относится к средствам для аудиообработки. Технический результат заключается в улучшенной адаптации к различным конфигурациям громкоговорителей.

Изобретение относится к области обработки аудиосигналов. Технический результат заключается в повышении эффективности обработки аудиосигналов.

Изобретение относится к средствам для генерации множества звуковых каналов. Технический результат заключается в повышении гибкости схемы расположения громкоговорителей.

Изобретение относится к средствам аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования аудиоданных.

Изобретение относится к средствам для аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен.

Изобретение относится к обработке аудиосигналов, в частности к аудиообработке моно- или двойного моносигнала. Технический результат – повышение качества звука аудиосигналов.

Изобретение относится к средствам для формирования одного или более аудиоканалов. Технический результат заключается в повышении эффективности кодирования метаданных.

Изобретение относится к средствам для осуществления понижающего микширования SAOC объемного аудиоконтента. Технический результат заключается в повышении эффективности понижающего микширования аудиоконтента.

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен.

Изобретение относится к средствам для масштабирования центрального сигнала. Технический результат заключается в повышении разборчивости речи.

Изобретение относится к технике связи и предназначено для управления динамическим диапазоном. Технический результат – уменьшение динамического диапазона аудиосигнала.

Изобретение относится к средствам для формирования аудиосигнала. Технический результат заключается в обеспечении возможности формирования и предоставления аудиосигналов, формирующих звуковое поле, имеющее плоскую волну.

Изобретение относится к средствам для декодирования аудиопредставления звукового поля. Технический результат заключается в повышении качества локализации звука. Добавляют по меньшей мере одну позицию по меньшей мере одного виртуального громкоговорителя к позициям громкоговорителей. Генерируют 3D-матрицу декодирования. Причем позиции громкоговорителей и по меньшей мере одна виртуальная позиция используются и 3D-матрица декодирования имеет коэффициенты для упомянутых определенных и виртуальных позиций громкоговорителей. Микшируют с понижением 3D-матрицу декодирования. Причем коэффициенты для виртуальных позиций громкоговорителей взвешиваются и распределяются по коэффициентам, относящимся к определенным позициям громкоговорителей. Получается уменьшенная 3D-матрица декодирования, имеющая коэффициенты для определенных позиций громкоговорителей. Декодируют закодированный аудиосигнал с использованием уменьшенной 3D-матрицы декодирования, причем получается множество декодированных сигналов громкоговорителей. 3 н. и 12 з.п. ф-лы, 7 ил.

Наверх