Устройство для формирования выходного пространственного многоканального аудио сигнала

Изобретение относится к средствам формирования выходного пространственного многоканального аудиосигнала на основе входного аудиосигнала и входного параметра. Технический результат заключается в уменьшении вычислительных затрат процесса декодирования/рендеринга. Раскладывают входной аудио сигнал на основе входного параметра для получения первой компоненты сигнала и второй компоненты сигнала, отличающихся друг от друга. Выполняют рендеринг первой компоненты сигнала для получения первого представления сигнала с первым семантическим свойством и выполняют рендеринг второй компоненты сигнала для получения второго представления сигнала с вторым семантическим свойством, отличающимся от первого семантического свойства. Обрабатывают первое представление сигнала и второе представление сигнала для получения выходного пространственного многоканального звукового сигнала. 3 н. и 12 з.п. ф-лы, 8 ил.

 

Настоящее изобретение относится к области аудиообработки, особенно обработки пространственных свойств аудио.

Аудиообработка и/или кодирование усовершенствовались во многих отношениях. Все большим спросом пользуются создаваемые пространственные аудиоприложения. Во многих приложениях обработка аудиосигнала используется для декорелляции или рендеринга сигналов. Такие приложения могут, к примеру, осуществить преобразования моно в стерео, моно/стерео в многоканальный звук, создавать эффекты искусственной реверберации, расширения стерео (Stereo widening) или пользовательские интерактивные эффекты смешивания/рендеринга.

Для некоторых классов сигналов, например шумоподобных сигналов, таких как сигналы, похожие на аплодисменты, обычные методы и системы имеют недостатки, либо неудовлетворительное качество восприятия, или, если используется объектно-ориентированный подход, высокую вычислительную сложность из-за большого количества акустических событий, которые необходимо моделировать или обработать. Другой пример аудиоматериала, который является проблематичным, это обычно материал окружения, такой как шумы, создаваемые стаей птиц, у морского побережья, скачущей лошадью, подразделением солдат на марше и т.д.

При обычных подходах используют, например, параметрическое стерео или кодирование MPEG-окружения (MPEG=Экспертная группа по вопросам движущегося изображения). На Фиг.6 изображено обычное применение декорреляции для преобразования моносигнала в стерео. На фиг.6 изображен входной моносигнал, подаваемый на декоррелятор 610, который обеспечивает декорреляцию входного сигнала на выходе. На смешивающую матрицу 620 подается входной сигнал вместе с сигналом с декоррелятора. В зависимости от параметров управления смешивающей матрицей 630 формируется выходной стереосигнал. Декореллятор сигнала 610 генерирует декоррелированный сигнал D, поступающий на уровень смешивающей матрицы 620 вместе с чистым моносигналом М. Внутри смешивающей матрицы 620 формируются стереоканалы L (L=левый стереоканал) и R (R=правый стереоканал) в соответствии со смешивающей матрицей Н. Коэффициенты матрицы Н могут быть фиксированы, зависеть от сигнала или находиться под контролем пользователя.

Кроме того, матрица может управляться сторонней информацией, передаваемой с сигналом, содержащей параметрическое описание того, как смешать сигналы для создания желаемого многоканального выходного сигнала. Эта информация обычно генерируется кодировщиком сигнала до процесса преобразования.

Обычно это делается в пространственном параметрическом аудиокодировании, как, например, в параметрическом стерео, см. J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates" in AES 116th Convention, Berlin, Preprint 6072, May 2004 и в MPEG Surround, cf. J. Herre, K. Kjörling, J. Breebaart, et al., "MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding" in Proceedings of the 122nd AES Convention, Vienna, Austria, May 2007. Типичная структура параметрического стереодекодера показана на фиг.7. В этом примере процесс декорреляции выполняется с преобразованным сигналом, сформированным анализирующим банком фильтров 710, который преобразует входной моносигнал в другое представление, например представление в виде ряда частотных диапазонов в частотной области.

В частотной области декоррелятор 720 генерирует соответствующий декореллированный сигнал, который преобразуется в смешивающей матрице 730. Смешивающая матрица 730 управляется параметрами, которые обеспечиваются блоком модификации параметров 740, который в свою очередь получает их с пространственными входными параметрами и объединяет с параметрами уровня контроля 750. В примере, показанном на фиг.7, пространственные параметры могут изменяться пользователем или дополнительными средствами, как, например, постобработка для стереорендеринга/презентации. В этом случае параметры смешивания могут быть объединены с параметрами стереофильтров, чтобы сформировать входные параметры для смешивающей матрицы 730. Измерение параметров может осуществляться блоком изменения параметров 740. Выход смешивающей матрицы 730 соединен с синтезирующим банком фильтров 760, который формирует выходной стереосигнал.

Как описано выше, выходной сигнал L/R смешивающей матрицы H может быть вычислен из входного моносигнала M и декоррелированного сигнала D, например, в соответствии с выражением

[ L R ] = [ h 11 h 12 h 21 h 22 ] [ M D ] .

Декоррелированный звук на выходе матрицы смешивания может управляться на основе передаваемых параметров, таких как ICC (ICC=Межканальная корреляция), и/или смешанных или определяемых пользователем параметров.

Еще один традиционный подход основан на методе временных перестановок. Специальный метод декорреляции таких сигналов, как сигналы, похожие на аплодисменты, можно найти, например, в Gerard Hotho, Steven van de Par, Jeroen Breebaart, "Multichannel Coding of Applause Signals," in EURASIP Journal on Advances in Signal Processing, Vol.1, Art.10, 2008. Здесь монофонический аудиосигнал сегментируется с использованием перекрывающихся временных сегментов, которые временно перестанавливаются псевдослучайным образом в пределах «супер»-блока, чтобы сформировать декоррелированные выходные каналы. Перестановки являются взаимно независимыми для n выходных каналов.

Другой подход - чередующееся переключение оригинальных и задержанных копий каналов, чтобы получить декоррелированный сигнал, см. Немецкий патент 102007018032.4-55. В некоторых известных объектно-ориентированных системах, например, см. Wagner, Andreas; Walther, Andreas; Melchoir, Frank; Strauβ, Michael; "Generation of Highly Immersive Atmospheres for Wave Field Synthesis Reproduction" at 116th International EAS Convention, Berlin, 2004, описывается, как создать эффекты, создающие эффект присутствия, для многих объектов, таких как один хлопок, с применением синтеза поля волн.

Еще одним подходом является так называемое «направленное аудиокодирование» (DirAC), которое является методом рендеринга звука и применимо для различных систем воспроизведения звука, см. Pulkki, Ville, "Spatial Sound Reproduction with Directional Audio Coding" in J. Audio Eng. Soc., Vol.55, No.6, 2007. В части анализа в одном месте оцениваются диффузия и направление прибытия звука, зависящие от времени и частоты. В части синтеза сигналы от микрофонов делятся сначала на диффузные и не диффузные части и затем воспроизводятся с помощью различных методов.

Традиционные подходы имеют ряд недостатков. К примеру, управляемое или неуправляемое смешивание аудиосигналов, таких как аплодисменты, может потребовать сильную декорреляцию. Следовательно, с одной стороны, сильная декорреляция необходима для восстановления атмосферы присутствия, к примеру, в концертном зале. С другой стороны, подходящие декоррелирующие фильтры, как, например, фазовые фильтры, снижают качество воспроизведения переходных событий, таких как один хлопок, путем создания эффектов временного смазывания, таких как пре- и постэхо, и звон фильтра. Кроме того, пространственное расположение событий одиночных хлопков должно быть сделано на временной сетке с хорошим разрешением, в то время как декоррелированное окружение должно быть квазистационарным во времени.

Современные системы согласно J.Breebaart, S. van de Par, A.Kohlrausch, E.Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates" in AES 116th Convention, Berlin, Preprint 6072, May 2004 and J.Herre, K.Kjörling, J.Breebaart, et. al., "MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding" in Proceedings of the 122nd AES Convention, Vienna, Austria, May 2007 представляют собой компромисс между временным разрешением и атмосферой устойчивости, между ухудшением качества переходных процессов и атмосферой декорреляции.

Например, если в системе используется метод временных перестановок, будет чувствоваться ухудшение восприятия звука из-за определенных повторяющихся эффектов выходного аудиосигнала. Это объясняется тем фактом, что один и тот же сегмент входного сигнала появляется не измененным в каждом выходном канале, хотя и в другой момент времени. Более того, чтобы избежать увеличения плотности аплодисментов, некоторые оригинальные каналы не используются при смешивании, и, таким образом, могут быть пропущены некоторые важные события в аудитории.

В известных объектно-ориентированных системах такие звуковые события создаются большой группой распределенных точечных источников, что приводит к реализации сложных вычислительных алгоритмов.

Объектом настоящего изобретения является улучшение концепции пространственной обработки аудио. Это достигается с использованием устройства по п.1 и способа по п.14 формулы изобретения.

В предлагаемом изобретении показано, что звуковой сигнал может быть разложен на несколько компонент, которые обеспечивают пространственный рендеринг, например, с точки зрения декорреляции или с точки зрения пространственного распределения амплитуд. Другими словами, настоящее изобретение основано на обосновании того, что, например, в сценарии с несколькими источниками звука источники переднего плана и фона можно разделить и представить или декоррелировать по-разному. Как правило, можно выделить различные пространственные глубины и/или протяженности аудиообъектов.

Одним из ключевых пунктов настоящего изобретения является разложение сигналов, таких как звук приветствия аудитории, стаи птиц, морского побережья, скачущей лошади, подразделения солдат на марше и т.д., на сигналы переднего плана и заднего плана, где сигналы переднего плана содержат отдельные акустические события, создаваемые, например, близко расположенными источниками и источниками на заднем плане, создающими окружающий фон распределенных вдали событий. До окончательного смешивания эти две части сигнала обрабатываются отдельно, например, для того, чтобы синтезировать корреляции, сформировать пространственное распределение аудиосигнала и т.д.

Предложенные решения не ограничены различением только частей сигнала переднего плана и заднего плана, они могут отличить нескольких различных аудиочастей, которые могут быть представлены или декоррелированы по-разному.

В общем случае аудиосигналы могут быть разбиты на n различных семантических компонент, которые обрабатываются отдельно. Процесс разложения/разделения различных семантических компонент может быть реализован во временной и/или в частотной области.

Предложенное решение может обеспечить наилучшее качество восприятия звука при умеренных вычислительных затратах. Предложенное решение обеспечивает новый метод декорреляции/рендеринга, который обеспечивает высокое качество восприятия по умеренным ценам, особенно при обработке сигналов, похожих на аплодисменты, как критического аудиоматериала или других аналогичных, создающих фон, таких как, например, шум, создаваемый стаей птиц, морским побережьем, скачущей лошадью, подразделением солдат на марше и т.д.

Воплощения настоящего изобретения будут подробно рассмотрены с помощью сопровождающих чертежей, на которых

Фиг.1A показывает воплощение устройства для определения пространственного многоканального аудиосигнала;

Фиг.1B показывает блок-схему другого решения;

Фиг.2 показывает решение, иллюстрирующее множество сигналов разложения;

Фиг.3 иллюстрирует решение с семантическим разложением сигналов переднего плана и фона;

Фиг.4 иллюстрирует пример метода для получения компонент сигнала фона;

Фиг.5 иллюстрирует синтез источников звука, имеющих большую протяженность;

Фиг.6 иллюстрирует одно применение декоррелятора во временной области в преобразователе моносигнала в стерео; и

Фиг.7 показывает другое применение декоррелятора в частотной области в преобразователе моносигнала в стерео.

На фиг.1 представлено устройство 100 для определения выходного пространственного многоканального аудиосигнала, основанного на входном звуковом сигнале. В некоторых вариантах устройство может быть выполнено с возможностью формирования выходного пространственного многоканального аудиосигнала на базе входного параметра. Входной параметр может быть создан локально или обеспечиваться вместе с входным аудиосигналом, например, как внешняя информация.

В решении, изображенном на фиг.1, устройство 100 включает в себя декомпозитор 110 для разложения входного аудио и получения первой компоненты сигнала с первым семантическим свойством и второй компоненты сигнала со вторым семантическим свойством, отличающимся от первого семантического свойства.

Устройство 100 далее включает в себя блок рендеринга 120 для рендеринга первой компоненты сигнала с помощью первой характеристики рендеринга для получения первого сигнала рендеринга, имеющего первое семантическое свойство, и для рендеринга второй компоненты сигнала с помощью второй характеристики рендеринга для получения второго сигнала рендеринга, имеющего второе семантическое свойство.

Семантическое свойство может соответствовать пространственному свойству, такому как близко или далеко, сосредоточено или распределено, и/или динамическому свойству, как например, является ли сигнал тональным, постоянным или переходным, и/или свойству доминирования, как например, является ли сигнал сигналом переднего плана или фоном, и мера этого соответственно.

Кроме того, в решении устройство 100 включает процессор 130 для того, чтобы обработать первый предоставленный сигнал и второй предоставленный сигнал и получить выходной пространственный многоканальный аудиосигнал.

Другими словами, декомпозитор 110 выполнен с возможностью разложения аудиосигнала, в некоторых решениях, работа декомпозитора основана на входном параметре. Разложение аудиосигнала основано на семантических, например пространственных, свойствах различных частей аудиосигнала. Кроме того, рендеринг, осуществляемый в блоке рендеринга 120, в соответствии с первой и второй характеристиками рендеринга может также быть выполнен с возможностью учета пространственных свойств, которые позволяют, например, в сценарии, где первая компонента сигнала соответствует фону аудиосигнала и вторая компонента сигнала соответствует основному аудиосигналу, использовать другой рендеринг или декорреляторы. Далее термин «переднего плана» понимается как ссылка на объект аудио, доминирующей в аудиосреде так, что потенциальный слушатель может заметить объект аудио переднего плана. Аудиообъект переднего плана или источник может быть различен или дифференцирован от фонового звука (звука заднего плана) объекта или источника. Фоновый звук объекта или источника не может быть заметен для потенциального слушателя в аудиосреде, как менее доминирующий, чем аудиообъект или источник переднего плана. Воплощение изобретения на ограничено аудиообъектами или источниками переднего плана, такими как точечный источник звука, где аудиообъектам или источникам заднего плана могут соответствовать пространственно более протяженные аудиообъекты или источники. Другими словами, в воплощении изобретения первая характеристика рендеринга может быть основана или соответствовать первому семантическому свойству и вторая характеристика рендеринга может быть основана или соответствовать второму семантическому свойству. В одном решении первое семантическое свойство и первая характеристика рендеринга соответствуют аудиоисточнику или объекту на переднем плане, и блок рендеринга 120 может быть выполнен с возможностью использования пространственного распределения амплитуд первой компоненты сигнала. Блок рендеринга 120 может быть далее выполнен с возможностью обеспечения в качестве первого сигнала рендеринга двухамплитудной версии первой компоненты сигнала. В этом решении, второму семантическому свойству и второй характеристике рендеринга соответствует множество аудиоисточников или объектов фона, и блок рендеринга 120 может быть выполнен с возможностью применения декорреляции ко второй компоненте сигнала и обеспечения в качестве второго сигнала рендеринга второй компоненты сигнала и его декоррелированной версии. В решении блок рендеринга 120 можно далее приспособить для рендеринга первой компоненты сигнала, так что первая характеристика рендеринга не имеет особенности введения задержки. Другими словами, может не быть декорреляции первой компоненты сигнала. В другом решении первая характеристика рендеринга может иметь задержку, характеризующуюся величиной первой задержки, и вторая характеристика рендеринга может иметь вторую величину задержки, вторая величина задержки, больше, чем первая величина задержки. Другими словами, в этом решении как первая компонента сигнала, так и вторая компонента сигнала могут быть декоррелированы, однако уровень декорреляции может масштабироваться в соответствии с величинами задержек соответствующих компонент сигналов. Поэтому декорреляция может быть сильнее для второй компоненты сигнала, чем для первой компоненты сигнала. В решении первая компонента сигнала и вторая компонента сигнала могут перекрываться и/или могут быть синхронны во времени. Другими словами, обработка сигналов может осуществляться блочным методом, где один блок образцов входного аудиосигнала может разделяться декомпозитором 110 на ряд блоков компонент сигнала. В решении ряд компонент сигнала может, по крайней мере, частично перекрываться во временной области, то есть компоненты могут представлять собой перекрытие образцов во временной области. Другими словами, компоненты сигнала могут соответствовать частям входного аудиосигнала, которые перекрываются, то есть которые представляют, по крайней мере, частично одновременные аудиосигналы. В решении первая и вторая компоненты сигнала могут представлять отфильтрованные или преобразованные версии первоначального входного сигнала. Например, они могут представлять части сигнала, извлеченные из составного пространственного сигнала, например, соответствующие близкому источнику звука или более отдаленному источнику звука. В другом решении они могут соответствовать переходной и стационарной компонентам сигнала и т.д.

В решении блок рендеринга 120 может подразделяться на первый блок рендеринга и второй блок рендеринга, где первый блок рендеринга может быть выполнен с возможностью рендеринга первой компоненты сигнала и второй блок рендеринга может быть выполнен с возможностью рендеринга второй компоненты сигнала. В решении блок рендеринга 120 может осуществляться в виде программного обеспечения, например, как программы, хранящиеся в памяти для выполнения процессором или цифровым сигнальным процессором, который в свою очередь выполнен с возможностью для рендеринга компонент сигнала последовательно.

Блок рендеринга 120 может быть выполнен с возможностью декорреляции первой компоненты сигнала для получения первого декоррелированного сигнала и/или декорреляции второй компоненты сигнала для получения второго декоррелированного сигнала. Другими словами, блок рендеринга 120 может быть выполнен с возможностью декорреляции обеих компонент сигнала, однако с использованием различных характеристик декорреляции или рендеринга. В решении блок рендеринга 120 может быть выполнен с возможностью использования распределения амплитуд одной из первой или второй компонент сигнала вместо или в дополнение к декорреляции.

Блок рендеринга 120 может быть выполнен с возможностью рендеринга первого и второго сигналов, каждый из которых имеет столько компонент сколько каналов в пространственном многоканальном аудиосигнале, и процессор 130 может быть выполнен с возможностью объединения компонент из первого и второго представлений сигналов для получения выходного пространственного многоканального звукового сигнала. В других решениях блок рендеринга 120 может быть выполнен с возможностью рендеринга первого и второго сигналов, каждый из которых имеет меньше компонент, чем выходной пространственный многоканальный звуковой сигнал, и где процессор 130 может быть выполнен с возможностью смешивания компонент первого и второго представлений сигналов для получения выходного пространственного многоканального звукового сигнала.

Фиг.1B иллюстрирует еще одно воплощение устройства 100, включающее аналогичные компоненты, которые были введены с помощью фиг.1A. Однако фиг.1B иллюстрирует решение, имеющее больше деталей. На фиг.1B изображен декомпозитор 110 для получения аудиосигнала и, при необходимости, входного параметра. Как видно из фиг.1B, декомпозитор выполнен с возможностью формирования первой и второй компонент сигнала для блока рендеринга 120, который обозначен пунктирной линией. В решении, иллюстрированном на фиг.1B, предполагается, что первая компонента сигнала соответствует точечному аудиоисточнику, как первому семантическому свойству, и что блок рендеринга 120 выполнен с возможностью выполнения пространственного распределения амплитуды, как первой характеристики рендеринга первой компоненты сигнала. В решении первая и вторая компоненты сигнала являются сменными, то есть в других решениях выполнение пространственного распределения амплитуды может применяться ко второй компоненте сигнала.

В решении на фиг.1B блока рендеринга 120 показаны два масштабируемых усилителя 121 и 122, расположенных на пути прохождения первой компоненты сигнала, усилители выполнены с возможностью усиления двух копий первой компоненты сигнала по-разному. Используемые в решении различные коэффициенты усиления определяются из входного параметра, в других воплощениях они могут быть определены из входного аудиосигнала, они могут быть предустановленны или сформированы локально, возможен также ввод данных пользователем. Выходные сигналы двух масштабируемых усилителей 121 и 122 подаются на процессор 130, информация относительно которого будет представлена ниже.

Как видно из фиг.1B, декомпозитор 110 формирует вторую компоненту сигнала для блока рендеринга 120, который осуществляет другой рендеринг на пути обработки второй компоненты сигнала. В других решениях первая компонента сигнала может быть обработана в соответствии с приведенным путем обработки второй компоненты сигнала или вместо второй компоненты сигнала. Первая и вторая компоненты сигнала могут меняться местами.

В решении на фиг.1B на пути обработки второй компоненты сигнала есть декоррелятор 123, следующий за блоком циклического сдвига или за блоком параметрического стерео, или за модулем смешения 124, как второй характеристики рендеринга. Декоррелятор 123 может быть выполнен с возможностью декорреляции второй компоненты сигнала X[k] и для формирования декоррелированной версии Q[k] второй компоненты сигнала для параметрического стерео или модуля смешения 124. На фиг.1B моносигнал X[k] поступает на блок декоррелятора "D" 123 и на модуль смешения 124. Блок декоррелятора 123 может формировать декоррелированную версию входного сигнала Q[k], имеющую аналогичные частотные характеристики и аналогичную среднюю энергию. Модуль смешения 124 может на базе пространственных параметров вычислять коэффициенты смешивающей матрицы и синтезировать выходные каналы Y1[k] и Y2[k]. Модуль смешения описывается выражением

[ Y 1 [ k ] Y 2 [ k ] ] = [ c l 0 0 c r ] [ cos ( α + β ) sin ( α + β ) cos ( α + β ) sin ( α + β ) ] [ X [ k ] Q [ k ] ] ;

где параметры c1, сr, α и β - константы, или переменные, зависящие от времени или частоты, адаптивно вычисляемые из входного сигнала X[k] или передаваемые как внешняя информация вместе с входным сигналом X[k], например, в формате параметров ILD (ILD=Inter channel Level Difference) и параметов ICC (ICC=Inter Channel Correlation). Сигнал X[k] - принимаемый моносигнал, G[k] - декоррелированный сигнал, являющийся декоррелированной версией сигнала X[k]. Y1[k] и Y2[k] - выходные сигналы.

Декоррелятор 123 может быть реализован как фильтр IIR (IIR=Infinite Impulse Response), произвольный FIR фильтр (FIR=Finite Impulse response) или специальный FIR фильтр, использующий одно подсоединение просто для задержки сигнала.

Параметры c1, сr, α и β могут быть определены различными путями. В некоторых решениях они просто определяются входными параметрами, которые могут быть обеспечены вместе с входным аудиосигналом, например с данными нижнего уровня как внешняя информация. В других решениях они могут формироваться локально или выводиться из свойств входного аудиосигнала.

В решении, представленном на фиг.1B, блок рендеринга 120 выполнен с возможностью рендеринга второго сигнала в виде двух выходных сигналов Y1[k] и Y2[k], формируемых модулем смешения 124 и подаваемых на процессор 130.

В соответствии с маршрутом обработки первой компоненты сигнала две версии пространственного распределения амплитуд первой компоненты сигнала, с выходов двух масштабируемых усилителей 121 и 122 также подаются на процессор 130. В других решениях масштабируемые усилители 121 и 122 могут присутствовать в процессоре 130, где только первая компонента сигнала и параметр пространственного распределения амплитуд (панорамирования) могут формироваться блоком рендеринга 120.

Как можно видеть на фиг. lB, процессор 130 может быть выполнен с возможностью обработки или объединения первого сигнала рендеринга и второго сигнала рендеринга в этом решении просто путем объединения выходов, чтобы обеспечить стереосигнал, имеющий левый канал L и правый канал R, соответствующие выходному пространственному многоканальному звуковому сигналу фиг. lA. B решении на фиг.lB для обоих маршрутов сигналов определены левый и правый каналы стереосигнала. На маршруте первой компоненты сигнала распределение амплитуд осуществляется двумя масштабируемыми усилителями 121 и 122, таким образом формируются две компоненты синфазных звуковых сигналов, которые масштабируются по-разному. Это создает впечатление точечного аудиоисточника как семантического свойства или характеристики рендеринга. На маршруте обработки второй компоненты сигнала выходные сигналы Y 1 [k] и Y 2 [k] подаются на процессор 130 и обеспечивают сигналы левого и правого каналов, определяемые в модуле смешения 124. Параметры с l , с r , α и β определяют пространственную протяженность соответствующего аудиоисточника. Другими словами, параметры с l , с r , α и β могут быть выбраны с использованием метода или в диапазоне так, что для R и L каналов любая корреляция между максимальной корреляцией и минимальной корреляцией может быть получена на втором маршруте обработки сигнала как вторая характеристика рендеринга. Более того, это можно осуществлять независимо для различных частотных полос. Другими словами, параметры с l , с r , α и β могут быть выбраны с использованием метода или в диапазоне так, что L и R каналы будут синфазные, при моделировании точечного аудиоисточника как семантического свойства.

Параметры с l , с r , α и β могут также быть выбраны с использованием метода или в диапазоне так, что каналы L и R на втором маршруте обработки сигнала будут декоррелированы при моделировании пространственно распределенного источника звука как семантического свойства, т.е. моделирование источника звука на заднем плане или пространственно протяженного. Фиг. 2 иллюстрирует другое решение, которое является более общим. На Фиг. 2 изображен блок семантического разложения 210, которому соответствует декомпозитор 110. Выход блока семантического разложения 210 является входом стадии рендеринга 220, которому соответствует блок рендеринга 120. Стадия рендеринга 220 состоит из ряда отдельных модулей рендеринга 221-22n, то есть блок семантического разложения 210 выполнен с возможностью разложения моно/стерео входного сигнала на n компонент сигнала, имеющих n семантических свойств. Разложение может осуществляться на основе параметров контроля разложения, которые могут быть предоставлены вместе с моно/стерео входным сигналом, быть предустановленны, создаваться локально или вводиться пользователем и т.д.

Другими словами, декомпозитор 110 может быть выполнен с возможностью семантического разложения аудиосигнала, основанного на дополнительном входном параметре и/или для определения входного параметра из аудиосигнала. Выходные данные декорреляции или стадии рендеринга 220 подаются затем на блок смешения 230, который формирует многоканальный выходной сигнал на основе декорреляции или рендеринга сигналов и, при необходимости, на основе параметров управления смешением.

Как правило, устройство может разделить звуковой материал на n различных семантических компонент и декоррелировать каждую компоненту отдельно с использованием декорреляторов, D1-Dn, изображенных на фиг.2. Другими словами, в решении характеристики рендеринга соответствуют семантическим свойствам компонент сигналов. Каждый из декорреляторов или блоков рендеринга может быть выполнен с возможностью учета семантически свойств соответствующей компоненты сигнала. Впоследствии обработанные компоненты могут быть смешаны для получения выходного многоканального сигнала. Различные компоненты могут, например, соответствовать моделируемым объектам переднего плана и фона.

Другими словами, блок рендеринга 110 может быть выполнен с возможностью объединения первой компоненты сигнала и первого декоррелированного сигнала для получения стерео или многоканального смешанного сигнала, как рендеринга первого сигнала и/или для объединения второй компоненты сигнала и второго декоррелированного сигнала для получения стерео смешанного сигнала как рендеринга второго сигнала.

Кроме того, блок рендеринга 120 может быть выполнен с возможностью рендеринга первой компоненты сигнала в соответствии с аудиохарактеристикой фона и/или для рендеринга второй компоненты сигнала в соответствии с основной характеристикой аудио или наоборот.

Поскольку, например, сигналы, похожие на аплодисменты, можно рассматривать как сигналы, состоящие из отдельных хлопков и шума, как атмосферы, с очень плотными далекими хлопками, подходящее разложение такого сигнала может быть получено путем разделения изолированных хлопков переднего плана, как одной из компонент, и фонового шума, как другой компоненты. Другими словами, в одном решении n=2. В таком решении, например, блок рендеринга 120 может быть выполнен с возможностью рендеринга первой компоненты сигнала путем обеспечения пространственного распределения амплитуд (амплитудного панорамирования) первой компоненты сигнала. Другими словами, корреляция или рендеринг хлопков переднего плана может в решении достигаться в ячейке D1 амплитудного панорамирования на рассчитанное место каждого отдельного события.

В решении блок рендеринга 120 может быть выполнен с возможностью рендеринга первой и/или второй компоненты сигнала, например, с использованием фазовой фильтрации первой или второй компонент сигнала для получения первого или второго декоррелированного сигнала.

Другими словами, в решении фон может быть декоррелирован или подвергнут рендерингу с использованием m независимых друг от друга фазовых фильтров D 1 m . 2 В решении фазовыми фильтрами может быть обработан только квазистационарный фон, эффектов временного запаздывания, возникающих при использовании традиционных методов, можно таким образом избежать. При применении амплитудного панорамирования к событиям, создаваемым объектом переднего плана, исходная плотность аплодисментов переднего плана может быть примерно восстановлена в отличие от существующих систем, представленных, например, в работах J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates" in AES 116th Convention, Berlin, Preprint 6072, May 2004 and J.Herre, K.Kjorling, J.Breebaart, et al., "MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding" in Proceedings of the 122nd AES Convention, Vienna, Austria, May 2007.

Другими словами, в решении декомпозитор 110 может быть выполнен с возможностью разложения входного аудиосигнала семантически на базе входного параметра, где входной параметр может передаваться вместе с аудиосигналом, как, например, внешняя информация. В таком решении декомпозитор 110 может быть выполнен с возможностью определения входного параметра из аудиосигнала. В других решениях декомпозитор 110 может быть выполнен с возможностью определения входного параметра как параметра управления, независящего от входного аудиосигнала, который может быть создан локально, предустановлен или также может быть введен пользователем.

Конструкция блока рендеринга 120 может быть выполнена с возможностью получения пространственного распределения первого сигнала рендеринга или второго сигнала рендеринга путем применения широкополосного амплитудного панорамирования. Другими словами, в соответствии с описанием фиг.lB, данным выше, вместо создания точечного источника панорамированное местоположение источника может меняться во времени для того, чтобы создать аудиоисточник с определенным пространственным распределением. В решениях блок рендеринга 120 может быть выполнен с возможностью использования локально сформированного низкочастотного шума для амплитудного панорамирования, т.е. коэффициенты усиления амплитуды панорамирования, например, масштабируемых усилителей 121 и 122 на фиг.1B соответствуют значению локально созданного шума, то есть меняются во времени в определенной полосе частот.

Решения могут быть выполнены с возможностью эксплуатации в управляемом или неуправляемом режимах. Например, при управляемом режиме, например, см. блок, обведенный пунктирной линией на фиг. 2, декорреляция может быть достигнута путем применения стандартной технологии декорреляционных фильтров, управляемых на грубой временной сетке только для, например, фона или атмосферы, и может обеспечить корреляцию путем перераспределения каждого отдельного события в, например, области переднего плана с использованием переменного во времени пространственного позиционирования с помощью широкополосного амплитудного панорамирования на гораздо более точной временной сетке. Другими словами, в решении блок рендеринга 120 может быть выполнен с возможностью работы декорреляторов различных компонент сигналов на разных временных сетках, т.е. базирующихся на разных временных масштабах, которые могут выражаться в виде различных частот дискретизации или различных задержек для соответствующих декорреляторов. В одном решении разделения фона и переднего плана, для области на переднем плане может использоваться амплитудное панорамирование, где амплитуда меняется на гораздо более точной временной сетке, чем в операции декорреляции, связанной с обработкой фона.

Кроме того, отметим, что для декорреляции, например, сигналов, похожих на аплодисменты, то есть квазистационарных случайных сигналов, точное пространственное положение каждого одиночного хлопка на переднем плане не может иметь такого значения, как восстановление общего распределения множества хлопков. Решение может иметь преимущество благодаря этому факту и может работать в неуправляемом режиме. В таком режиме упомянутый выше фактор амплитудного панорамирования может контролироваться низкочастотным шумом. Фиг.3 иллюстрирует систему моно - стерео, осуществляющую этот сценарий. На фиг.3 изображен семантический блок разложения 310 соответствующего декомпозитора 110 для разложения входного моносигнала на компоненту переднего плана и компоненту заднего плана.

Как видно на фиг.3, компонента сигнала заднего плана обрабатывается фазовым фильтром D1 320. Декоррелированный сигнал затем поступает вместе с необработанной компонентой заднего плана (фона) в блок смешения 330, соответствующий процессору 130. Компонента сигнала переднего плана поступает на стадию амплитудного панорамирования D2 340, которой соответствует блок рендеринга 120. Локально созданный низкочастотный шум 350 также поступает на стадию амплитудного панорамирования 340, которая формирует входной сигнал переднего плана блока смешения 330. Выходной сигнал стадии амплитудного панорамирования D2 340 может определяться коэффициентом масштабирования k для выбора амплитуды из двух наборов стерео- и аудиоканалов. Выбор коэффициента масштабирования k может быть основан на низкочастотном шуме.

Как видно из фиг.3, есть только одна стрелка между амплитудным панорамирование 340 и блоком смешения 330. Эта стрелка может также представлять амплитудно панорамированные сигналы, то есть в случае стереоблока смешения - левый и правый каналы. Как видно из фиг.3, блок смешения 330, соответствующий процессору 130, может быть выполнен с возможностью обработки или объединения компонент сигналов фона и переднего плана, чтобы получит выходной стереосигнал.

Другие решения могут использовать естественную обработку для получения компонент фона и переднего плана, или входных параметров для разложения. Декомпозитор 110 может быть выполнен с возможностью определения первой компоненты сигнала и/или второй компоненты сигнала на основе метода анализа кратковременных особенностей. Другими словами, декомпозитор 110 может быть выполнен с возможностью определения первой или второй компонента сигнала, основываясь на методе разделения и другой компоненте сигнала, основанной на разнице между определенной компонентой сигнала и полным аудиосигналом. В других решениях первая или вторая компонента сигнала может быть определена на основе метода анализа кратковременных особенностей, и вычисление другой компоненты сигнала может быть основано на разнице между первой или второй компонентой сигнала и полного аудиосигнала.

Декомпозитор 110, и/или блок рендеринга 120, и/или процессор 130 может включать DirAC моностадию, и/или стадию DirAC synthesis, и/или DirAC стадию слияния. В решении декомпозитор 110 может быть выполнен с возможностью разложения входного аудиосигнала, блок рендеринга 120 может быть выполнен с возможностью рендеринга первой и/или второй компонент сигнала, и/или процессор 130 может быть выполнен с возможностью обработки первой и/или второй компонент с блока рендеринга в различных частотных диапазонах.

Решение может использовать следующее приближение для сигналов, похожих на аплодисменты. В то время как компонента переднего плана может быть получена методами обнаружения или разделения кратковременных особенностей, см. Pulkki, Ville; "Spatial Sound Reproduction with Directional Audio Coding" in J.Audio Eng. Soc., Vol.55, No.6, 2007, компонента фона может быть получена с использованием разностного сигнала. На фиг.4 изображен пример, где описан подходящий метод для получения компоненты фона х'(n), например х(n) сигналов, похожих на аплодисменты, для реализации семантического разложения 310, см. фиг.3, то есть воплощение декомпозитора 120. На Фиг.4 изображен дискретизированный во времени входной сигнал х(n), который является входным для блока ДПФ 410 (DFT=дискретное преобразование Фурье). Выходной сигнал блока ДПФ 410 подается на блок сглаживания спектра 420 и блок спектрального отбеливания 430 для спектрального отбеливания на основе результатов ДПФ 410 и выходных данных стадии сглаживания спектра 430.

Выходные данные блока спектрального отбеливания 430 затем подаются на блок сбора спектральных максимумов 440, который разделяет спектр и формирует два выходных сигнала, т.е. шум, переходные сигналы и тональный сигнал. Шум и переходные сигналы подаются на LPC фильтр 450 (LPC=Linear Prediction Coding), выходной сигнал остаточного шума которого подается на блок смешения 460 вместе с выходным тональным сигналом блока сбора спектральных максимумов 440. Выходные данные блока смешения 460 затем подаются на блок формирования спектра 470, который формирует спектр на основе сглаженного спектра, формируемого в блоке сглаживания спектра 420. Выходные данные блока формирования спектра 470 затем предоставляются на фильтр синтеза 480, то есть на блок обратного дискретного преобразования Фурье, для получения сигнала х'(n), представляющего компоненты фона. Основная компонента затем может быть получена как разница входного сигнала и выходного сигнала, то есть как х(n)-х'(n).

Настоящее изобретение может использоваться в приложениях виртуальной реальности, как, например, 3D играх. В таких приложениях синтез источников звука с большой пространственной протяженностью на основе известных решений может быть составным и сложным. Источниками звука могут быть, например, море, стая птиц, скачущая лошадь, подразделение солдат на марше или приветствия аудитории. Как правило, такие звуковые события пространственно формируются, как большая группа точечных источников, что приводит к вычислительно сложным реализациям, см. Wagner, Andreas; Walther, Andreas; Melchoir, Frank; Strauβ, Michael; "Generation of Highly Immersive Atmospheres for Wave Field Synthesis Reproduction" at 116th International EAS Convention, Berlin, 2004.

Предложенное решение может дать метод, который правдоподобно осуществляет синтез протяженных источников звука, но, в то же время, имеет меньшую структурную и вычислительную сложность. Решение может основываться на DirAC (DirAC=Directional Audio Coding),CM. Pulkki, Ville: "Spatial Sound Reproduction with Directional Audio Coding" // J.Audio Eng. Soc., Vol.55, No.6, 2007. Другими словами, решение декомпозитора 110, и/или средств рендеринга 120, и/или процессора 130 может быть выполнено с возможностью обработки сигналов DirAC. Другими словами, декомпозитор 110 может включать стадию DirAC моно, блок рендеринга 120 может включать стадии DirAC синтеза и/или процессор может включать стадию DirAC слияния.

Решение может основываться на DirAC обработке, например, используя только две структуры синтеза, например, один для источников звука переднего плана и один для источников звука фона. Звук переднего плана может быть использован в одном DirAC потоке с данными контроля направления, что приводит к восприятию расположенных вблизи точечных источников. Фоновый звук, также может быть воспроизведен с помощью одного потока с данными дифференциального контроля направления, что приводит к восприятию пространственно распределенных звуковых объектов. Два потока DirAC могут быть объединены и декодированы, например, для произвольной установки громкоговорителей или для наушников.

Фиг.5 иллюстрирует синтез пространственно протяженных источников звука. На фиг.5 показан верхний моноблок 610, который создает DirAC монопоток, ведущий к восприятию близлежащих точечных источников звука, таких как ближайшие хлопки аплодисментов аудитории. Нижний моноблок 620 используется для создания DirAC монопотока, ведущего к восприятию пространственно распределенного звука, который подходит, например, для создания фонового звука аплодисментов от аудитории. Выходные сигналы двух DirAC моноблоков 610 и 620 затем объединяются на этапе DirAC слияния 630. Фиг.5 показывает, что в этом решении используются только два блока DirAC синтеза 610 и 620. Один из них используется для создания звуковых событий, которые находятся на переднем плане, такие как звуки ближайших или расположенных поблизости птиц или ближайших или расположенных поблизости лиц аплодирующей аудитории, и другой создает фоновый звук, непрерывный звук стаи птиц, и т.д.

Звук переднего плана преобразуется в DirAC монопоток DirAC моноблоком 610 способом, при котором азимутальные данные остаются неизменными с частотой, однако изменяются случайно или под контролем внешнего процесса во времени. Параметр диффузии Ψ имеет значение 0, то есть представляет точечный источник. Предполагается, что аудио входные данные блока 610 являются неперекрывающимися во времени звуками, такими как звуки криков отдельных птиц или хлопки аплодисментов, что создает восприятие близлежащих звуков таких источников, как птицы или аплодирующие персоны. Пространственно распределенные звуковые события на переднем плане контролируются подстройкой θ и θrange_foreground, что означает, что отдельные звуковые события будет восприниматься в направлениях θ±θrange_foreground, в то время, как одно событие может быть воспринято как точечное. Другими словами, точечные источники звука создаются в возможных позициях в диапазоне θ±θrange_foreground.

Блок фона 620 принимает входной поток аудиосигналов, который содержит все остальные звуковые события, которые не представлены в аудиопотоке переднего плана, которые включают множество дублированных во времени звуковых событий, например сотни птиц или большое количество далеких аплодисментов. Прилагаемые значения азимута устанавливаются случайно как во времени, так и по частоте в пределах, учитывающих ограничение значений азимута θ±θrange_background. Пространственно протяженные фоновые звуки, таким образом, могут быть синтезированы с низкой сложностью вычислений. Параметром диффузии ψ также можно управлять. Если он был добавлен, DirAC декодер будет применять звук на всех направлениях, которые могут быть использованы, когда источник звука полностью окружает слушателя. Если этого окружения нет, диффузия в решении может оставаться низкой, или близкой к 0, или нулевой.

Решение настоящего изобретения может предоставить преимущество, заключающееся в том, что отличное качество восприятия обработанных звуков может быть достигнуто при умеренных вычислительных затратах. Решение допускает модульную реализацию пространственного представления звука, как, например, показано на фиг.5.

В зависимости от определенных требований осуществления изобретения предложенные методы могут осуществляться в виде аппаратуры или программного обеспечения. Осуществление изобретения может быть выполнено с использованием цифрового носителя и, в частности, флэш-памяти, диска, DVD или CD, с которых могут быть считаны в электронной форме записанные управляющие сигналы, которые с программируемой компьютерной системой обеспечивают выполнение методов предлагаемого изобретения. Таким образом, как правило, настоящее изобретение является компьютерной программой с программным кодом, хранящимся на машиночитаемых носителях. Программный код осуществляет предложенные в изобретении методы, когда программа выполняется на компьютере. Другими словами, предложенные в изобретении методы являются, таким образом, компьютерной программой, имеющей код для выполнения по крайней мере одного из предложенных методов, когда программа выполняется на компьютере.

1. Устройство (100) для определения пространственного выходного многоканального аудиосигнала, основанного на входном аудиосигнале, включающее декомпозитор (110) для разложения входного аудиосигнала, чтобы получить первую компоненту сигнала, имеющую первую семантическую особенность, и вторую компоненту сигнала, имеющую вторую семантическую особенность, отличающуюся от первой семантической особенности, где декомпозитор (110) выполнен с возможностью определения первой компоненты сигнала и/или второй компоненты сигнала; блок рендеринга (120) для рендеринга первой компоненты сигнала, используя первую характеристику рендеринга, чтобы получить первый сигнал рендеринга, имеющий первую семантическую особенность, и для рендеринга второй компоненты сигнала, используя вторую характеристику рендеринга, чтобы получить второй сигнал рендеринга, имеющий вторую семантическую особенность, причем первая характеристика рендеринга и вторая характеристика рендеринга отличаются друг от друга; и процессор (130) для того, чтобы обработать первый сигнал рендеринга и второй сигнал рендеринга и получить пространственный выходной многоканальный аудиосигнал.

2. Устройство (100) по п.1, где первая характеристика рендеринга основана на первой семантической особенности и вторая характеристика рендеринга основана на второй семантической особенности.

3. Устройство (100) по п.1, где блок рендеринга (120) выполнен с возможностью рендеринга первой компоненты сигнала таким образом, что первая характеристика рендеринга не имеет задержки введения характеристики, или таким образом, что первая характеристика рендеринга имеет задержку введения характеристики, имеющую первую величину задержки, и где вторая характеристика рендеринга имеет вторую величину задержки, причем вторая величина задержки больше, чем первая величина задержки.

4. Устройство (100) по п.1, где блок рендеринга (120) выполнен с возможностью рендеринга первой компоненты сигнала путем пространственного распределения амплитуд, как первой характеристики рендеринга, и декорреляции второй компоненты сигнала, как второй характеристики рендеринга, чтобы получить второй декоррелированный сигнал.

5. Устройство (100) по п.1, где блок рендеринга (120) выполнен с возможностью рендеринга первого и второго сигналов рендеринга, каждый из которых включает столько компонент, сколько каналов имеет пространственный выходной многоканальный аудиосигнал, и где процессор (130) выполнен с возможностью объединения компонентов первого и второго сигналов рендеринга, чтобы получить пространственный выходной многоканальный аудиосигнал.

6. Устройство (100) по п.1, где блок рендеринга (120) выполнен с возможностью рендеринга первого и второго сигналов рендеринга, каждый из которых имеет меньшее число компонент, чем пространственный выходной многоканальный аудиосигнал, и где процессор (130) выполнен с возможностью смешения компонент первого и второго сигналов рендеринга, чтобы получить пространственный выходной многоканальный аудиосигнал.

7. Устройство (100) по п.1, где блок рендеринга (120) выполнен с возможностью рендеринга первой компоненты сигнала согласно особенности аудио переднего плана, как первой характеристики рендеринга, и рендеринга второй компоненты сигнала согласно особенности аудио заднего плана, как второй характеристики рендеринга.

8. Устройство (100) по п.4, где блок рендеринга (120) выполнен с возможностью рендеринга второй компоненты сигнала путем фильтрации фазовым фильтром, чтобы получить второй декоррелированный сигнал.

9. Устройство (100) по п.1, где декомпозитор (110) выполнен с возможностью определения из входного аудиосигнала входного параметра, как параметра контроля.

10. Устройство (100) по п.4, где блок рендеринга (120) выполнен с возможностью получения пространственного распределения первого или второго сигнала рендеринга путем применения широкополосного пространственного распределения амплитуд.

11. Устройство (100) по п.1, где блок рендеринга (120) выполнен с возможностью рендеринга первой компоненты сигнала и второй компоненты сигнала, основанного на различных временных сетках.

12. Устройство (100) по п.1, где декомпозитор (110) выполнен с возможностью определения одной из первой компоненты сигнала или второй компоненты сигнала методом разделения перехода и другим методом, основанным на различии между ним и входным аудиосигналом.

13. Устройство (100) по п.1, где декомпозитор (110) выполнен с возможностью анализа входного аудиосигнала, блок рендеринга (120) выполнен с возможностью рендеринга первой и/или второй компоненты сигналов и/или процессор (130) выполнен с возможностью обработки первого и/или второго сигнала рендеринга с точки зрения различных диапазонов частот.

14. Способ для того, чтобы определить пространственный выходной многоканальный аудиосигнал, основанный на входном аудиосигнале и входном параметре, включающий шаги: шаг разложения входного аудиосигнала, чтобы получить первую компоненту сигнала, имеющую первую семантическую особенность, и вторую компоненту сигнала, имеющую вторую семантическую особенность, которая отличается от первой семантической особенности; шаг рендеринга первой компоненты сигнала, используя первую характеристику рендеринга, чтобы получить первый сигнал рендеринга, имеющий первую семантическую особенность; шаг рендеринга второй компоненты сигнала, используя вторую характеристику рендеринга, чтобы получить второй сигнал рендеринга, имеющий вторую семантическую особенность, причем первая характеристика рендеринга и вторая характеристика рендеринга отличаются друг от друга; и шаг обработки первого сигнала рендеринга и второго сигнала рендеринга, чтобы получить пространственный выходной многоканальный аудиосигнал.

15. Машиночитаемый носитель информации с компьютерной программой, имеющей программный код для выполнения способа по п.14, когда код программы выполняется на компьютере или процессоре.



 

Похожие патенты:

Изобретение относится к универсальным пультам дистанционного управления, спроектированным для управления большим количеством бытовых приборов. Техническим результатом является экономия энергии за счет более легкого способа определения кодового набора, который нужно использовать, из нескольких кодовых наборов, в пульте дистанционного управления.

Изобретение относится к средствам формирования выходного пространственного многоканального аудио сигнала на основе входного аудио сигнала. Технический результат заключается в уменьшении вычислительных затрат процесса декодирования/рендеринга.

Описывается бинауральная визуализация многоканального звукового сигнала в бинауральный выходной сигнал (24). Многоканальный звуковой сигнал включает сигнал стерео понижающего микширования (18), в который множество звуковых сигналов микшируется с понижением; и дополнительная информация включает информацию о понижающем микшировании (DMG, DCLD), показывающую для каждого звукового сигнала, до какой степени соответствующий звуковой сигнал был микширован в первый канал и второй канал сигнала стерео понижающего микширования (18) соответственно, а также информацию об уровне объекта множества звуковых сигналов и информацию о межобъектной взаимной корреляции, описывающую сходство между парами звуковых сигналов множества звуковых сигналов.

Изобретение относится к манипулированию зоной наилучшего восприятия для многоканального сигнала, в частности, для многоканального сигнала MPEG системы «окружающего звука».

Изобретение относится к средствам формирования стереофонического сигнала с улучшенным для восприятия качеством, в частности к способу обработки сигнала, представленного центральным сигналом и боковым сигналом, с получением стереофонического сигнала с расширенными характеристиками.

Изобретение относится к области аудио- и звуковоспроизведения, в частности к способам и системам для выравнивания частотных характеристик громкоговорителя в комнате с целью его адаптации.

Изобретение относится к способам и устройствам воспроизведения многоканальных звуковых сигналов. .

Изобретение относится к средствам для определения оценок положений громкоговорителей в системах объемного звука. Технический результат заключается в повышении точности определения оценки положений громкоговорителей в системах объемного звука. Система содержит датчики движения (201, 203, 205), выполненные с возможностью определения данных движения для пользовательского переносного блока, где данные движения описывают перемещение пользовательского переносного блока. Пользовательское устройство ввода (207, 209) принимает пользовательские активизации, которые указывают, что по меньшей мере одно из текущего положения и ориентации пользовательского переносного блока ассоциируется с положением громкоговорителя, когда принимается пользовательская активизация. Пользовательская активизация может возникать в результате, например, нажатия на кнопку пользователем. Анализирующий процессор (211) затем формирует оценки положений громкоговорителей в ответ на данные движения и пользовательские активизации. Система может позволить, например, оценку положений динамиков на основе карманного устройства, например пульта дистанционного управления, направленного на динамик или размещенного на нем. 2 н. и 12 з.п. ф-лы, 6 ил.

Изобретение относится к средствам обработки звука. Технический результат заключается в улучшении пространственного восприятия звукового сигнала. Система обработки звука принимает стереосигнал, который с помощью блока сегментации делится на частотно-временные сегменты стереосигнала, каждый из которых может соответствовать выборке частотной области в данном временном сегменте. Блок разложения разлагает частотно-временные сегменты сигнала, для каждой пары частотно-временных сегментов стереосигнала, путем осуществления этапов: определения меры подобия, указывающей степень подобия частотно-временных сегментов стереосигнала; генерации частотно-временного сегмента суммарного сигнала, как суммы частотно-временных сегментов стереосигнала; и генерации центрального частотно-временного сегмента сигнала из частотно-временного сегмента суммарного сигнала и пары боковых частотно-временных сегментов стереосигнала из пары частотно-временных сегментов стереосигнала в соответствии с мерой подобия. Затем генератор сигнала генерирует многоканальный сигнал, содержащий центральный сигнал, генерируемый из частотно-временных сегментов суммарного сигнала, и боковые сигналы, генерируемые из боковых частотно-временных сегментов стереосигнала. 2 н. и 12 з.п. ф-лы, 5 ил.

Изобретение относится к средствам для обработки звуковых сигналов. Технический результат заключается в уменьшении шумов захваченных звуковых сигналов. Устройство содержит по меньшей мере один процессор и по меньшей мере один модуль памяти, в котором хранится компьютерный программный код, при этом по меньшей мере один модуль памяти и компьютерный программный код сконфигурированы таким образом, чтобы при взаимодействии по меньшей мере с одним процессором обеспечивать выполнение устройством по меньшей мере следующего: предоставления визуального представления по меньшей мере одного параметра звукового сигнала, связанного по меньшей мере с одним звуковым сигналом, при этом указанный по меньшей мере один звуковой сигнал представляет звуковое поле вокруг устройства в реальном времени с использованием по меньшей мере двух микрофонов; обнаружения, с использованием интерфейса, взаимодействия с указанным визуальным представлением параметра звукового сигнала и обработку по меньшей мере одного звукового сигнала, связанного с параметром звукового сигнала, в зависимости от указанного взаимодействия. 2 н. и 18 з.п. ф-лы, 7 ил.

Изобретение относится к средствам для усовершенствованной авторской разработки и представления трехмерных аудиоданных. Технический результат заключается в уменьшении вычислительной сложности обработки трехмерного звука. Представлены усовершенствованные инструментальные средства для авторской разработки и представления данных звуковоспроизведения. Некоторые указанные инструментальные средства авторской разработки позволяют обобщать данные звуковоспроизведения на широкий выбор воспроизводящих сред. Данные звуковоспроизведения могут авторски разрабатываться путем создания метаданных для звуковых объектов. Метаданные могут создаваться со ссылкой на зоны громкоговорителей. В ходе процесса представления данных данные звуковоспроизведения могут воспроизводиться в соответствии со схемой расположения воспроизводящих громкоговорителей конкретной воспроизводящей среды. 6 н. и 36 з.п. ф-лы, 47 ил.

Изобретение относится к средствам для пространственного воспроизведения звука. Технический результат заключается в улучшении пространственного восприятия при прослушивании. Устройство для пространственного воспроизведения звука содержит приемное устройство для приема многоканального аудиосигнала. Анализатор определяет пространственное свойство многоканального аудиосигнала, такое как пространственная сложность или организация. Процессор выбора затем выбирает режим воспроизведения из множества режимов воспроизведения звука, при этом режимы многоканального воспроизведения звука используют различные технологии пространственного рендеринга. Схема воспроизведения затем возбуждает набор громкоговорителей, чтобы воспроизводить многоканальный аудиосигнал с использованием выбранного режима воспроизведения. Переключение между режимами воспроизведения может быть быстрым (например, в порядке от 100 мс до 10 с), тем самым обеспечивая краткосрочную адаптацию режима воспроизведения к характеристикам сигналов. Подход может, в частности, предоставлять улучшенное пространственное восприятие для слушателя. 2 н. и 12 з.п. ф-лы, 3 ил.

Изобретение относится к средствам для воспроизведения аудио сигнала. Технический результат заключается в повышении гибкости расположения громкоговорителей, увеличении уровня звукового давления и увеличении качества пространственного ощущения. Система содержит первую компоновку преобразователя звука, выполненную с возможностью генерировать звук, достигающий номинального положения из первого положения, соответствующего первому направлению; и вторую компоновку преобразователя звука, выполненную с возможностью генерировать звук, достигающий номинального положения из второго положения, соответствующего другому направлению, отличающемуся от первого направления. Компоновки, в частности, могут представлять собой громкоговорители, расположенные в заданных положениях. Схема возбуждения генерирует первый сигнал возбуждения для первой компоновки преобразователя звука и второй сигнал возбуждения для второй компоновки преобразователя звука из аудио сигнала. Первое положение и второе положение расположены на конусе смешения звуков для номинального положения и номинального направления. Можно добиться более гибкого расположения громкоговорителей. 2 н. и 13 з.п. ф-лы, 11 ил.

Изобретение относится к средствам предварительной коррекции аудио с использованием переменного набора поддерживающих громкоговорителей. Технический результат заключается в обеспечении возможности расширенной предварительной коррекции для повышения качества воспроизведения стерео или многоканального аудиоматериала в двух или более громкоговорителях. Определяют контроллер предварительной коррекции аудио для ассоциированной системы формирования звука, содержащей N громкоговорителей. Контроллер предварительной коррекции аудио имеет множество L входов для L входных сигналов и N выходов для N выходных сигналов контроллера, один на каждый громкоговоритель. Оценивают для каждого из подмножества N входов громкоговорителя импульсную характеристику в каждом измерительном положении. Задают для каждого из L входных сигналов один выбранный громкоговоритель из N громкоговорителей в качестве главного громкоговорителя и выбранное подмножество S, включающее в себя один из N громкоговорителей в качестве поддерживающего громкоговорителя. Задают для каждого главного громкоговорителя целевую импульсную характеристику в каждом измерительном положении с целевой импульсной характеристикой, обладающей задержкой в распространении звука. 4 н. и 20 з.п. ф-лы, 11 ил.

Изобретение относится к средствам рендеринга пространственного аудиоконтента в системе, которая сконфигурирована для отражения аудио от одной или нескольких поверхностей среды прослушивания. Технический результат заключается в создании адаптивной аудиосистемы, обеспечивающей полную пространственную информацию, воспроизводимую в среде прослушивания, которая может включать в себя только часть полной группы громкоговорителей, а также может включать использование громкоговорителей отраженного излучения для излучения звука с мест, на которых громкоговорители прямого излучения отсутствуют. Система включает в себя группу звуковых головок, распределенных по периметру комнаты, при этом по меньшей мере одна головка из группы головок сконфигурирована для проецирования звуковых волн к одной или нескольким поверхностям среды прослушивания для отражения к области прослушивания, и рендерер, сконфигурированный для приема и обработки аудиопотоков и одного или нескольких наборов метаданных, которые связаны с каждым из аудиопотоков и которые точно определяют место воспроизведения в среде прослушивания. 2 н. и 15 з.п. ф-лы, 21 ил.

Изобретение относится к кодированию и декодированию аудио сигналов. Технический результат – обеспечение возможности улучшения восстановления звукового объекта. Данная группа изобретений обеспечивает менее сложное и более гибкое регулирование внесенной в систему кодирования звука декорреляции. Согласно раскрытию это достигается посредством вычисления и применения двух весовых коэффициентов, одного для аппроксимированного звукового объекта и одного для декоррелированного звукового объекта, для внесения декорреляции звуковых объектов в систему кодирования звука. 6 н. и 22 з.п. ф-лы, 7 ил.

Изобретение относится к средствам для формирования множества параметрических звуковых потоков. Технический результат заключается в улучшении качества пространственного звука. Устройство для формирования множества параметрических звуковых потоков из входного пространственного звукового сигнала, полученного из записи пространства звукозаписи, содержит устройство сегментации и формирователь. Устройство сегментации выполнено с возможностью предоставления по меньшей мере двух входных сегментированных звуковых сигналов из входного пространственного звукового сигнала, причем по меньшей мере два входных сегментированных звуковых сигнала связаны с соответствующими сегментами пространства звукозаписи. Формирователь выполнен с возможностью формирования параметрического звукового потока для каждого из по меньшей мере двух входных сегментированных звуковых сигналов для получения множества параметрических звуковых потоков. 6 н. и 8 з.п. ф-лы, 12 ил.
Наверх