Устройство для объединения пространственных аудиопотоков

Изобретение относится к средствам объединения нескольких пространственных аудиопотоков. Технический результат заключается в повышении качества объединенного аудиопотока. Оценивают первое волновое представление, содержащее измерение направления первой волны, характеризующее направление первой волны, и измерение поля первой волны, являющееся относительной магнитудой первой волны, для первого пространственного аудиопотока, имеющего первое аудиопредставление, содержащее измерение давления или магнитуды первого аудиосигнала, и первое направление поступления звука. Оценивают второе волновое представление, содержащее направление второй волны, характеризующее направление второй волны, и измерение поля второй волны, являющееся относительной магнитудой второй волны, для второго пространственного аудиопотока, имеющего второе аудиопредставление, содержащее измерение давления или магнитуды второго аудиосигнала, и второе направление поступления звука. Обрабатывают представление первой и второй волны для получения объединенного представления волны, содержащего измерение объединенного волнового поля, измерение объединенного направления поступления и объединенного параметра диффузности. Обрабатывают первое и второе аудиопредставление для получения объединенного аудиопредставления, а также формируют объединенный аудиопоток. 3 н. и 12 з.п. ф-лы, 7 ил.

 

Настоящее изобретение относится к области обработки звука, в частности пространственной обработки звука, и объединения нескольких пространственных аудио потоков.

DirAC (DirAC = Направленное Аудио Кодирование), см. V.Pulkki and С.Faller, Directional audio coding in spatial sound reproduction and stereo upmixing. In AES 28th International Conference, Pitea, Sweden, June 2006, и A method for reproducing natural or modified spatial impression in Multichannel listening. Patent WO 2004/077884 A1, September 2004, является эффективным подходом к анализу и воспроизведению пространственного звука. DirAC использует параметрическое представление звуковых полей на основе особенностей, которые имеют значение для восприятия пространственного звука, а именно направление поступления звука (DOA = направление поступления звука) и диффузное отражение звука (диффузность) в поддиапазонах частот. В самом деле, DirAC предполагает, что интерауральная разница во времени [ITD = интерауральные (межушные) различия времени прихода звука на правое и левое ухо] и интерауральные различия уровня (МН = интерауральные различия уровней) воспринимаются правильно, если правильно выполнено DOA звукового поля, а интерауральная согласованность (IC = интерауральная когерентность) воспринимается правильно, если точно воспроизводится диффузность.

Эти параметры, а именно DOA и диффузность, представляют собой соответствующую дополнительную информацию, которая сопровождает моно сигнал в моно потоке DirAC. DirAC параметры получаются из частотно-временного представления сигналов микрофона. Таким образом, параметры зависят от времени и от частоты. При воспроизведении сигнала эта информация позволяет получить точную пространственную передачу звука. Для воссоздания пространственного звука с желаемым качеством прослушивания требуется установка нескольких громкоговорителей. Однако их расположение является произвольным. Фактически, сигналы для громкоговорителей определяются в зависимости от параметров DirAC.

Есть существенные различия между DirAC и параметрическим кодированием многоканального звука, таким как MPEG Surround, хотя они имеют очень похожие способы обработки аудио структур, см. Lars Villemoes, Juergen Herre, Jeroen Breebaart, Gerard Hotho, Sascha Disch, Heiko Pumhagen, и Kristofer Kjrlingm, MPEG surround: соответствующий стандарт ISO для пространственного кодирования звука принят на AES 28-й Международная конференция, Pitea, Sweden, июнь 2006 года. Хотя кодирование MPEG Surround основано на частотно-временном анализе различных каналов громкоговорителей, DirAC принимает, в качестве входных, каналы совпадающих микрофонов, которые эффективно представляют звуковое поле в одной точке. Таким образом, DirAC также представляет собой эффективный метод для записи пространственного звука.

Другой обычной системой, которая использует пространственный звук, является SAOC (SAOC = кодирование пространственных аудио объектов), см. Jonas Engdegard, Barbara Resch, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Leonid Ternetiev, Jeroen Breebaart, Jeroen Koppens, Erik Schuijer, and Werner Oomen, пространственное аудио кодирование объекта (SAOC) вышеназванного стандарта MPEG параметрического объекта основано на аудио кодировании в соответствии со 124й конвенцией AES, 17-20 мая 2008 года, Amsterdam, The Netherlands, 2008 г., в настоящее время использующий стандарт ISO/MPEG.

Он основан на рендеринге [обработка объекта по модели с помощью компьютерной программы] по модели MPEG Surround и исправляет различные аудио объекты источников звука. Такое кодирование звука обеспечивает очень высокую эффективность по битрейту и дает беспрецедентную свободу для обработки при воспроизведении. Этот подход перспективен в получении новых важных возможностей и функций в устаревших системах, а также ряда других приложений.

Целью настоящего изобретения является получение улучшенного способа объединения пространственных звуковых сигналов.

Поставленная задача решается с помощью аппаратных средств для объединения в соответствии с одним из пп.1 или 14 и метода для объединения в соответствии с одним из пп.13 или 15.

Отметим, что объединение будет простым в случае многоканального потока DirAC, т.е. если 4 аудио канала в В-формате являются доступными. В самом деле, сигналы от разных источников могут непосредственно складываться для получения сигналов объединенного потока в В-формате. Однако, если эти каналы недоступны, непосредственное объединение является проблематичным.

Настоящее изобретение основано на концепции, что пространственные звуковые сигналы могут быть представлены суммой волновых представлений, например представления плоской волны и представления диффузного поля. В результате можно указать направление поступления звука. При слиянии нескольких аудио потоков варианты воплощения изобретения позволяют получить дополнительную информацию об объединенном потоке, например диффузность и направление поступления звука. Воплощения могут получить эту информацию из волновых представлений, а также из входных аудио потоков. При объединении нескольких звуковых потоков все они могут быть смоделированы в виде участка волны или представления и диффузного участка или представления, причем участки волны или компоненты и диффузные участки или компоненты могут быть объединены независимо друг от друга. Объединение участка волны дает объединенный участок волны, для которого объединенное направление может быть получено с использованием направлений представлений участков волны. Кроме того, диффузные участки могут быть объединены в отдельности, и из объединенного диффузного участка может быть получен общий параметр диффузности.

Воплощения могут использоваться в качестве способа объединения двух или нескольких пространственных звуковых сигналов, закодированных в виде моно потоков DirAC. Результирующий объединенный сигнал также может быть представлен как моно поток DirAC. В вариантах изобретения кодирование моно DirAC может использоваться в качестве компактного способа описания пространственного аудио сигнала, так как должен передаваться только один аудио канал вместе с дополнительной информацией.

В качестве вариантов возможного использования может быть, например, телеконференция с количеством участников более двух. Пусть, например, пользователь А общается с пользователями В и С, которые генерируют два отдельных моно потока DirAC. В месте расположения А воплощение позволяет объединить потоки пользователей В и С в единый моно поток DirAC, которые могут быть воспроизведены с помощью обычной методики синтеза DirAC. В варианте использования топологии сети, в которой имеется Сервер многоточечной конференции (MCU = Сервер многоточечной конференции [аппаратно-программное устройство вычислительной техники, предназначенное для объединения аудио- и видеоконференции в многоточечном режиме]), операция объединения будет выполняться самим MCU, так что пользователь А будет получать один моно поток DirAC, уже содержащий речь обоих участников В и С. Ясно, что потоки DirAC для объединения могут быть также созданы синтетически, а это означает, что необходимая дополнительная информация может быть добавлена в моно аудио сигнал. В только что упомянутом примере пользователь А может получить два аудио потока от В и С без какой-либо дополнительной информации. Тогда можно присвоить каждому потоку определенное направление и диффузность, тем самым добавив дополнительную информацию, необходимую для построения потоков DirAC, которые затем могут быть объединены с помощью воплощения изобретения.

Другой возможный сценарий использования вариантов воплощения можно предложить в многопользовательских онлайн-играх и приложениях виртуальной реальности. В этих случаях несколько потоков создаются либо из игроков, либо из виртуальных объектов. Каждый поток характеризуется определенным направлением расположения по отношению к слушателю и поэтому может быть выражен в потоке DirAC. Воплощение может быть использовано для объединения различных потоков в единый поток DirAC, который затем воспроизводится в зависимости от положения слушателя.

Воплощение настоящего изобретения будет подробно рассмотрено с использованием сопровождающих чертежей.

На фиг.1A показан вариант устройства для объединения.

Фиг.1B показывает давление и компоненты вектора скорости частицы в гауссовой плоскости для плоской волны.

На фиг.2 показан вариант кодировщика DirAC.

На фиг.3 показано идеальное объединение аудио потоков.

На фиг.4 показаны входы и выходы воплощения общего DirAC блока выполнения объединения.

На фиг.5 показана блок-схема воплощения.

На фиг.6 показана блок-схема воплощения метода объединения.

На фиг.1A представлен вариант выполнения аппаратного блока 100 для объединения первого пространственного аудио потока со вторым пространственным аудио потоком для получения объединенного аудио потока. Воплощение, показанное на фиг.1A выполняет объединение двух аудио потоков, однако оно не ограничивается двумя аудио потоками, аналогичным образом могут быть объединены несколько пространственных аудио потоков. Первый пространственный аудио поток и второй пространственный аудио поток могут, например, являться моно потоками DirAC, тогда и объединенный аудио поток будет единственным моно аудио потоком DirAC. Как будет подробно описано далее, поток моно DirAC может включать сигнал давления, например, на выбранный всенаправленный микрофон и дополнительную информацию. Поток моно DirAC может содержать зависимость частоты от времени в качестве меры диффузности и направление поступления звука. На фиг.1A показан вариант аппаратного блока 100 для объединения первого пространственного аудио потока со вторым пространственным аудио потоком для получения объединенного аудио потока, включающего блок оценки 120 для оценки первого волнового представления, содержащего направление первой волны и измерение поля первой волны для первого пространственного аудио потока, имеющего первое аудио представление и первое направление поступления звука, и для оценки второго волнового представления, содержащего направление второй волны и измерение поля второй волны для второго пространственного аудио потока, имеющего второе аудио представление и второе направление поступления звука. В вариантах исполнения первое и/или второе представление волны может соответствовать представлению плоской волны.

В варианте, показанном на фиг.1A, аппаратный блок 100 дополнительно включает процессор 130 для обработки представлений первой и второй волны и получения представления объединенной волны, содержащего измерение объединенного поля и объединенное направление поступления звука, и для обработки первого и второго аудио представлений и получения объединенного аудио представления, причем процессор 130 предназначен для формирования объединенного аудио потока, содержащего объединенное аудио представление и объединенное направление поступления звука.

Блок оценки 120 может быть адаптирован для оценки измерения первого волнового поля в терминах амплитуды первого волнового поля, измерения второго волнового поля в терминах амплитуды второго волнового поля и для оценки разности фаз между первым и вторым измерением волнового поля. В вариантах блок оценки может быть адаптирован для оценки фазы поля первой и второй волны. В вариантах, блок оценки 120 может оценить только сдвиг фаз или различие между первым и вторым представлениями волны для первого и второго измерения поля волны, соответственно. Процессор 130 может адаптироваться для обработки первого и второго представления волны и получения представления объединенной волны, содержащего измерение поля объединенной волны, которое может включать амплитуду, фазу и направление объединенного волнового поля, а также для обработки первого и второго аудио представления и получения объединенного аудио представления.

В вариантах изобретения процессор 130 может быть адаптирован для дальнейшей обработки первого и второго представления волны и получения представления объединенной волны, содержащего измерение поля объединенной волны, измерение объединенного направления поступления звука и объединенного параметра диффузности, а также для обеспечения объединения аудио потока, содержащего объединенное аудио представление, объединенное направление поступления звука и объединенный параметр диффузности.

Иными словами, в вариантах изобретения параметр диффузности может быть определен на основе волновых представлений объединенного аудио потока. Параметр диффузности можно определить путем измерения пространственной диффузности аудио потока, то есть путем измерения пространственного распределения, например углового распределения относительно определенного направления. В одном из возможных сценариев можно объединить два синтезированных моно сигнала с точной информацией о направлении.

Процессор 130 может быть адаптирован для обработки первого и второго представления волны и получения представления объединенной волны, в котором объединенный параметр диффузности получен с использованием измерения направлений первой и второй волны. В вариантах исполнения первое и второе представления волны могут иметь различные направления поступления, а объединенное направление поступления может находиться между ними. В этом варианте, хотя первый и второй пространственные аудио потоки не могут передать несколько параметров диффузности, объединенный параметр диффузности можно определить из первого и второго представления волны, т.е. на основе измерения направления первой и второй волны. Например, если две плоские волны приходят из различных направлений, т.е. измеренное направление первой волны отличается от измеренного направления второй волны, объединенное аудио представление может содержать комбинированное объединенное направление поступления с отличающимся от нуля объединенным параметром диффузности, учитывающим измерения направлений первой и второй волны. Иными словами, в то время как два сосредоточенных пространственных аудио потока могут не иметь или не обеспечивать диффузность, объединенный аудио поток может иметь отличающуюся от нуля диффузность, так как он получен с использованием угловых распределений, созданных первым и вторым аудио потоками.

В воплощениях можно оценить параметр диффузности Ψ, например, для объединенного потока DirAC. Вообще, в вариантах изобретения можно установить или вычислить фиксированные значения параметров диффузности отдельных потоков, например 0 или 0.1, или переменное значение, полученное из анализа аудио представлений и/или представлений направления.

В других вариантах, аппаратный блок 100 для объединения первого пространственного аудио потока со вторым пространственным аудио потоком для получения объединенного аудио потока может включать в себя блок оценки 120 для оценки первого волнового представления, содержащего измерение направления первой волны и измерение первого волнового поля для первого пространственного аудио потока, имеющего первое аудио представление, первое направление поступления звука и первый параметр диффузности. Другими словами, первое аудио представление может соответствовать аудио сигналу с определенной пространственной шириной или быть диффузным в определенной степени. В одном из вариантов, это может соответствовать сценарию в компьютерной игре. Первый игрок может быть в сценарии, где первое аудио представление представляет источник звука, такой как, например, проходящий мимо поезд, создающий поле диффузного, в определенной степени, звука. В таком варианте звуки, вызванные самим поездом, могут быть диффузными, а звук, произведенный гудком поезда, т.е. соответствующие ему частотные составляющие, может не быть диффузными.

Блок оценки 120 также может быть адаптирован для оценки второго волнового представления, содержащего измерение направления второй волны и измерение второго волнового поля для второго пространственного аудио потока, имеющего второе аудио представление, второе направление поступления звука и второй параметр диффузности.

Другими словами, второе аудио представление может соответствовать аудио сигналу с определенной пространственной шириной или быть диффузным в определенной степени. Такой случай также может соответствовать сценарию компьютерной игры, когда второй источник звука может быть представлен вторым аудио потоком, например фоновым шумом от другого поезда, проходящего по другому пути. Для первого игрока в компьютерной игре оба источника звука могут быть диффузными, когда он находится на железнодорожной станции.

В вариантах изобретения процессор 130 может быть адаптирован для обработки первого и второго волнового представления и получения представления объединенной волны, содержащего измерение объединенного волнового поля и объединенного направления поступления, и для обработки первого и второго аудио представления для получения объединенного аудио представления и объединенного аудио потока, содержащего объединенное аудио представление и измерение объединенного направления поступления. Другими словами, процессор 130 не может определить объединенный параметр диффузности. Такой случай соответствует звуковому полю, возникающему у второго игрока в описанной выше компьютерной игре. Второй игрок может быть расположен дальше от железнодорожного вокзала, поэтому два звуковых источника не могут восприниматься как диффузные для второго игрока и представляют собой довольно сосредоточенные источники звука из-за большого расстояния.

В вариантах аппаратный блок 100 может дополнительно содержать блок 110 для определения первого аудио представления и первого направления поступления в первом пространственном аудио потоке, а также для определения второго аудио представления и второго направления поступления во втором пространственном аудио потоке. В вариантах в блок для определения 110 может поступать прямой аудио поток, т.е. определение может быть сведено к чтению аудио представления в терминах, например, сигнала давления и DOA и, возможно, также параметров диффузности в качестве дополнительной информации.

Блок оценки 120 может быть адаптирован для оценки первого волнового представления в первом пространственном аудио потоке, содержащего первый параметр диффузности, и/или для оценки второго волнового представления во втором пространственном аудио потоке, содержащего второй параметр диффузности, процессор 130 может быть адаптирован для обработки измерения объединенного волнового поля, первого и второго аудио представлений, первого и второго параметров диффузности для получения объединенного параметра диффузности для объединенного аудио потока, процессор 130 также может быть адаптирован для последующего предоставления аудио потока, содержащего объединенный параметр диффузности. Блок для определения 110 может быть адаптирован для определения первого параметра диффузности из первого пространственного аудио потока и второго параметра диффузности из второго пространственного аудио потока.

Блок оценки 120 может быть адаптирован для оценки первого волнового представления в первом пространственном аудио потоке, содержащего первый параметр диффузности, и/или для оценки второго волнового представления во втором пространственном аудио потоке, содержащего второй параметр диффузности, процессор 130 может быть адаптирован для измерения объединенного волнового поля, содержащего объединенный параметр диффузности, первое и второе аудио представления, первый и второй параметры диффузности, и получения объединенного параметра диффузности для объединенного аудио потока, также процессор 130 может быть адаптирован для последующего предоставления аудио потока, содержащего объединенный параметр диффузности. Блок для определения 110 может быть адаптирован для определения первого параметра диффузности первого пространственного аудио потока, а второй параметр диффузности для второго пространственного аудио потока.

Процессор 130 может быть адаптирован для блочной обработки пространственных звуковых потоков, аудио представлений, DOA и/или параметров диффузности, т.е. в форме сегментов выборок или значений. В некоторых вариантах сегмент может содержать предварительно определенное количество выборок, соответствующих частоте представления в некотором диапазоне частот за определенный промежуток времени пространственного аудио потока. Такой сегмент может соответствовать моно представлению и будет связан с DOA и параметром диффузности.

В вариантах блок для определения 110 может быть адаптирован для определения первого и второго аудио представления, первого и второго направления поступления, первого и второго параметров диффузности в зависимости от частоты и времени и/или процессор 130 может быть адаптирован для обработки первого и второго волновых представлений, параметров диффузности и/или измерения DOA и/или для определения объединенного аудио представления, измерения объединенного направления поступления и/или объединенного параметра диффузности в зависимости от частоты и времени.

В вариантах изобретения первое аудио представление может соответствовать первому моно представлению, второе аудио представление может соответствовать второму моно представлению, а объединенное аудио представление может соответствовать объединенному моно представлению. Иными словами, аудио представление может соответствовать одному аудио каналу.

В вариантах изобретения блок для определения 110 может быть адаптирован для определения и/или процессор может быть адаптирован для обработки первого и второго моно представлений, первого и второго DOA, первого и второго параметров диффузности, а процессор 130 может сформировать объединенное моно представление, обеспечить измерение объединенного DOA и/или объединенного параметра диффузности в зависимости от частоты и времени. В вариантах воплощений первый пространственный аудио поток может быть уже получен, например, в виде представления DirAC, блок для определения 110 может быть адаптирован для определения первого и второго моно представлений, первого и второго DOA, первого и второго параметров диффузности просто путем их извлечения из первого и второго аудио потоков, т.е. в виде дополнительной информации DirAC.

Далее будет рассмотрено подробно воплощение, для которого будут введены обозначения и модели данных. В вариантах блок для определения 110 может быть адаптирован для определения первого и второго аудио представлений и/или процессор 130 может быть адаптирован для получения объединенного моно представления в терминах сигнала давления p(t) или частотно-временного преобразования сигнала давления P(k,n), в котором k обозначает частоту индексирования, а n обозначает индекс времени.

В различных вариантах измерение направления поступления первой и второй волны, а также измерение объединенного направления поступления может проводиться в любых величинах, например таких, как вектор, угол, направление (азимут) и т.д., и они могут быть получены из любого измерения направления, представляющего аудио компонент, например вектора интенсивности, вектора скорости частицы и т.д. Измерение первого и второго волнового поля, а также измерение объединенного волнового поля могут выполняться с помощью любой физической величины, описывающей аудио компонент, которая может иметь действительные или комплексные значения, соответствующие сигналу давления, амплитуды или магнитуды скорости частиц, громкости и т.д. Кроме того, измерения могут проводиться во временной и/или частотной области.

Воплощения могут быть основаны на оценке представления плоских волн для измерения волнового поля волновых представлений входных потоков, которая может проводиться блоком оценки 120 на фиг.1A. Другими словами, измерение волнового поля может быть смоделировано с помощью представления плоской волны. В целом существует несколько эквивалентных исчерпывающих (т.е. полных) описаний плоской волны или волны в целом. Далее будет введено математическое описание для вычисления параметров диффузности и направления поступления или измерения направления для различных компонентов. Хотя только несколько описаний непосредственно связаны с физическими величинами, такими как, например, давление, скорость частицы и т.д., допустимо существование бесконечного числа различных способов описания волновых представлений, из которых только одно будет представлено в качестве примера, что, однако, ни в коей мере не означает ограничение воплощений настоящего изобретения.

Для того чтобы более подробно представить различные возможные описания, рассмотрим два вещественных числа а и b. Информация, содержащаяся в а и b, может быть передана путем отправки с и d,

,

где Ω является известной матрицей 2×2. Например, рассмотрим только линейные комбинации, хотя любые комбинации, т.е. также и нелинейные, допустимы.

Далее скалярные величины представлены маленькими буквами а, b, с, а векторы-столбцы представлены полужирными маленькими буквами a, b, c. Индекс ()T обозначает транспонирование, и, соответственно, и (·) означают комплексное сопряжение. Комплексные обозначения фазы отличаются от временных. Например, давление p(t), являющееся действительным числом, из которого возможно измерение волнового поля, может быть выражено с помощью вектора Р, которое является комплексным числом, с помощью которого возможно получение еще одного измерения волнового поля, по формуле

,

где Re{·} обозначает действительную часть, а угловую частоту. Кроме того, далее для обозначения векторных физических величин использованы прописные буквы. В следующем начальном примере во избежание путаницы следует обратить внимание, что все величины с индексом "PW", рассматриваемые далее, относятся к плоским волнам.

Для идеальной монохроматической плоской волны вектор скорости частиц UPW можно записать в виде

,

где ed - единичный вектор точки в направлении поступления волны, например, соответствующей измеренному направлению. Может быть показано, что

,

Ψ=0

где Ia обозначает действительную часть интенсивности [интенсивность звука - векторная величина, значение потока звуковой энергии, проходящего через единичную площадку за единицу времени в направлении локальной скорости частиц. ГОСТ 30457.3-2006 Акустика. Определение уровней звуковой мощности источников шума по интенсивности звука.], ρ0 обозначает плотность воздуха, с обозначает скорость звука, Е обозначает энергию звукового поля и Ψ обозначает размытие. Интересно отметить, что поскольку все компоненты ed являются вещественными числами, компоненты UPW находятся в фазе с РPW. На фиг.1B показана модель UPW и РPW в гауссовой плоскости. Как указывалось выше, все компоненты UPW имеют одни и те же фазы PPW, а именно θ. Их магнитуды, с другой стороны, связаны следующим образом

.

Даже когда присутствуют несколько источников звука, давление и скорости частиц все еще могут быть выражены в виде суммы отдельных компонент. Без ограничения общности, рассмотрим случай двух источников звука. На практике использование большего количества источников может быть выполнено просто.

Пусть P(1) и P(2) являются значениями давления, которые записаны для первого и второго источника, соответственно, например, пусть они представляют первое и второе измерение волнового поля.

Аналогичным образом, пусть U(1) и U(2) являются комплексными векторами скорости частиц. Учитывая линейность явления распространения, когда источники действуют одновременно, отмечаемые давление Р и скорость частицы U равны

Р=Р(1)(2),

U=U(1)+U(2).

Таким образом, действительная часть интенсивности

,

.

Таким образом,

.

Отметим, что кроме отдельных случаев,

.

Когда имеются два источника, например, плоских волн, волны находятся точно в одной фазе (хотя распространяются по отношению друг к другу по различным направлениям),

P(2)=γ·P(1),

причем γ является вещественным числом. Отсюда следует, что

,

,

и

.

Когда волны находятся в фазе и распространяются в одном направлении, они могут быть четко интерпретированы как одна волна.

Для γ=-1 и произвольного направления давление исчезает, и поток энергии отсутствует, т.е. .

Когда волны строго перпендикулярны, то

P(2)=γ·ejπ/2P(1),

U(2)= γ·ejπ/2U(1),

,

,

,

причем γ является вещественным числом. Отсюда следует, что

,

,

и

.

С использованием этих уравнений может быть легко показано, что для плоской волны каждая из выбранных величин U, Р и еd или Р и Ia может давать эквивалентное и исчерпывающее описание, так же как и все другие физические величины, которые могут быть получены из них, т.е. любая комбинация из них в вариантах изобретения может использоваться вместо измерения волнового поля или направления волны. Например, в вариантах изобретения действительная 2-мерная норма вектора интенсивности может быть использована в качестве измерения волнового поля.

Минимальное описание, которое может быть использовано для выполнения объединения, указано в вариантах изобретения. Давление и векторы скорости частиц для i-й плоской волны могут быть выражены следующим образом:

,

,

причем ∠P(i) представляет фазу P(i). Выражение для объединенного вектора интенсивности, т.е. объединенного измерения волнового поля и объединенного направления поступления в этих переменных, запишется следующим образом:

.

Отметим, что первыми двумя слагаемыми являются и . Уравнение может быть еще более упрощено

.

Подставляя

,

получим

Это уравнение показывает, что информация, необходимая для вычисления Ia, может быть сведена к , , . Другими словами, представление для каждой, например, плоской волны может быть сведено к амплитуде волны и направлению поступления. Кроме того, можно использовать относительную разность фаз между волнами. Когда необходимо объединить более чем две волны, могут быть использованы разности фаз между всеми парами волн. Очевидно, существует несколько других описаний, которые содержат такую же информацию. Например, будет эквивалентно, если известны либо векторы интенсивности, либо разность фаз.

Как правило, энергетического описания плоских волн может быть недостаточно для выполнения правильного объединения. Объединение может быть аппроксимировано в предположении перпендикулярности распространения волн. Исчерпывающего описания волн (т.е. полагая известными все физические величины волны) может быть достаточно для объединения, однако это не является необходимым во всех вариантах. В вариантах изобретения для проведения правильного объединения необходимо принимать во внимание амплитуду каждой волны, направление поступления каждой волны и относительную разность фаз между каждой парой объединяемых волн.

Блок для определения 110 и/или процессор 130 могут быть адаптированы для обработки первого и второго направления поступления и/или для обеспечения измерения объединенного направления поступления в терминах единичного вектора eDOA(k,n), причем

и , где

и

U(k,n)=[Ux(k,n),Uy(k,n)Uz(k,n)]

обозначают частотно-временное преобразование u(t)=[ux(t),uy(t)uz(t)] вектора скорости частиц. Другими словами, мы полагаем, что p(t) и u(t)=[ux(t),uy(t)uz(t)] представляют давление и вектор скорости частицы, соответственно, для конкретной точки пространства, где [·]T обозначает транспонирование. Эти сигналы могут быть преобразованы в частотно-временную область с помощью соответствующего набора фильтров, например быстрого преобразования Фурье (STFT), как это было предложено, например, V.Pulkki и С.Faller, Directional audio coding: Filterbank and STFT-based design, in 120th AES Convention, May 20-23, 2006, Paris, France, May 2006.

Пусть P(k,n) и U(k,n)=[Ux(k,n),Uy(k,n)Uz(k,n)]

обозначают преобразованные сигналы, где k и n показывают частоту (или диапазон частот) и время, соответственно. Действительная часть вектора интенсивности Ia(k,n) может быть определена как

где (·) обозначает комплексное сопряжение и Re{·} выделяет действительную часть. Действительная часть вектора интенсивности выражает чистый поток энергии, характеризующий звуковое поле, см. F.J.Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989, и, таким образом, может быть использована в качестве измерения волнового поля.

Пусть с обозначает скорость звука в рассматриваемой среде и Е определяет энергию звукового поля в соответствии с F.J.Fahy

где вычисленная 2-мерная норма. Далее будет подробно рассмотрено содержание моно потока DirAC.

Моно поток DirAC может состоять из моно сигнала p(t) и дополнительной информации. Эта дополнительная информация может включать частотно-временную зависимость направления поступления и частотно-временную зависимость измерения диффузности. Первая информация обозначается единичным вектором eDOA(k,n), который направлен в сторону поступления звука. Вторая информация, диффузность, обозначается

Ψ(k,n).

В вариантах изобретения блок 110 и/или процессор 130 могут быть адаптированы для предоставления/обработки первого и второго DOAS и/или объединенного DOA в терминах единичного вектора eDOA(k,n). Направления поступления могут быть получены как

eDOA(k,n)=-eI(k,n),

где единичный вектор eI(k,n) указывает направление, в котором направлена действительная часть вектора интенсивности точек, а именно

,

Альтернативный вариант, в вариантах, DOA может быть выражено в терминах азимута и угла возвышения в сферической системе координат. Например, если φ и ϑ являются азимутом и углом возвышения, соответственно, то

В вариантах изобретения, блок для определения 110 и/или процессор 130 могут быть адаптированы для предоставления/обработки первого и второго параметров диффузности и/или объединенного параметра диффузности Ψ(k,n) с помощью частотно-временной зависимости. Блок для определения 110 может быть адаптирован для предоставления первого и/или второго параметра диффузности и/или процессор 130 может быть адаптирован для получения объединенного параметра диффузности в терминах

где <·>t указывает усреднение по времени.

На практике существуют различные стратегии для получения P(k,n) и U(k,n). Одна из возможностей заключается в использовании В-формата микрофона, который обеспечивает 4 сигнала, а именно w(t), x(t), y(t) и z(t). Первый из них, w(t), соответствует давлению, регистрируемому всенаправленным микрофоном. Последние три являются показаниями давления микрофонов, имеющих модели диаграммы направленности в форме восьмерок, направленных вдоль трех осей декартовой системы координат соответственно. Эти сигналы также пропорциональны скоростям частиц. Таким образом, в некоторых вариантах

P(k,n)=W(k,n),

где W(k,n), X(k,n), Y(k,n) и Z(k,n) являются преобразованными сигналами в В-формате. Заметим, что множитель в (6) получен из соглашения, используемого в определении В-формата сигналов, см. Michael Gerzon, Surround sound psychoacoustics. In Wireless World, volume 80, pages 483-486, December 1974.

Альтернативно, P(k,n) и U(k,n) могут быть оценены с помощью всенаправленного микрофона, как это предлагается в J.Merimaa, Applications of a 3-D microphone array, in 112th AES Convention, Paper 5501, Munich, May 2002. Этапы обработки, описанные выше, также показаны на фиг.2.

Фиг.2 показывает кодировщик DirAC 200, который приспособлен для вычисления моно канала аудио и дополнительной информации из соответствующих входных сигналов, например сигналов микрофона. Другими словами, фиг.2 представляет кодировщик DirAC 200 для определения диффузности и направления поступления из соответствующих сигналов микрофона. Фиг.2 представляет кодировщик DirAC 200, включающий блок 210 оценки P/U. Устройство оценки P/U принимает сигналы микрофона в качестве исходной информации, на которой основана оценка Р/U. Так как вся информация доступна, P/U можно просто оценить в соответствии с представленными выше уравнениями. Энергетический этап анализа 220 позволяет оценить направление поступления и параметр диффузности объединенного потока.

В вариантах, аудио потоки, отличающиеся от моно аудио потоков DirAC, могут быть объединены. Иными словами, в вариантах блок для определения 110 может быть адаптирован для преобразования любого другого аудио потока в первый и второй аудио потоки, такие как, например, стерео- или объемные аудио данные. В случае, когда в вариантах изобретения объединяются потоки DirAC, отличающиеся от моно, они могут обрабатываться различным образом. Если поток DirAC передает сигналы в В-формате, как, например, аудио-сигналы, то векторы скорости частиц известны и объединение будет простым, как далее будет показано подробно. Когда поток DirAC передает звуковые сигналы, отличающиеся от В-формата сигналов, или всенаправленный моно сигнал, блок для определения 110 может быть адаптирован, во-первых, для преобразования его в два моно потока DirAC, а затем воплощение изобретения может объединить преобразованные потоки. Таким образом, в вариантах первый и второй пространственный аудио потоки могут представлять преобразованные моно потоки DirAC.

Воплощения могут комбинировать доступные аудио каналы в приближении всенаправленной модели микрофона. Например, в случае стерео потока DirAC это можно достичь путем суммирования левого канала L и правого канала R.

Далее будут показаны физические явления в области генерации нескольких источников звука. Когда присутствуют несколько источников звука, можно аналогичным образом выразить давление и скорость частиц в виде суммы отдельных компонент.

Пусть Р(i)(k,n) и U(i)(k,n) являются давлением и скоростью частиц, которые были бы записаны для i-го источника, если бы он был единственным источником. В предположении линейности распространения, когда источники действуют вместе, давление P(k,n) и скорость частиц U(k,n) равны

и

.

Предыдущие уравнения показывают, что если и давление, и скорость частиц известны, получение объединенного моно потока DirAC будет простым. Такая ситуация представлена на фиг.3. На фиг.3 показан вариант выполнения оптимизированного или, возможно, идеального объединения нескольких звуковых потоков. Фиг.3 предполагает, что известны все векторы давления и скорости частиц. К сожалению, такое тривиальное объединение не представляется возможным для моно потоков DirAC, для которых скорость частиц U(i)(k,n) неизвестна.

Фиг.3 иллюстрирует потоки, для каждого из которых оценка Р/U осуществляется в блоках 301, 302-30N. Результаты блока оценки P/U представляют собой соответствующие частотно-временные представления отдельных сигналов Р(i)(k,n) и U(i)(k,n), которые затем могут быть объединены в соответствии с записанными выше уравнениями (7) и (8) с использованием двух сумматоров 310 и 311. После того как получены объединенные Р(k,n) и U(k,n), на энергетическом этапе анализа 320 можно непосредственно определить параметр диффузности Ψ(k,n) и направление поступления eDOA(k,n).

На фиг.4 показан вариант объединения нескольких моно потоков DirAC. В соответствии с описанным выше, N потоков будут объединены с использованием воплощения блока 100, изображенного на фиг.4. Как показано на фиг.4, каждый из N входных потоков может быть представлен моно представлением Р(i)(k,n) в зависимости от времени и частоты, направлением поступления и Ψ(k,n), где (1) означает первый поток. На фиг.4 также показано соответствующее представление для объединенного потока.

Задача объединения двух или более моно потоков DirAC представлена на фиг.4. Давление P(k,n) можно получить просто путем суммирования известных величин Р(i)(k,n), так же как и в (7), и задача объединения двух или более моно потоков DirAC сводится к определению eDOA(k,n) и Ψ(k,n). Следующее воплощение основано на предположении, что поле каждого источника состоит из плоской волны, суммируемой для диффузного поля. Таким образом, давление и скорость частиц для i-го источника могут быть выражены как

где индексы "PW" и "diff" означают плоскую волну и диффузное поле, соответственно. В следующем воплощении представлена существующая стратегия для оценки направления поступления звука и диффузность. Соответствующие этапы обработки приведены на фиг.5.

Фиг.5 иллюстрирует другой блок 500 для объединения нескольких звуковых потоков, которые будут подробно рассмотрены ниже. Фиг.5 иллюстрирует обработки первого пространственного аудио потока с точки зрения первого моно представления Р(1), первого направления поступления и первого параметра диффузности Ψ(1). В соответствии с фиг.5, первый пространственный аудио поток разбивается на приближенные представления плоских волн , а также второй пространственный аудио поток и, возможно, другие пространственные звуковые потоки, соответственно . Оценки указывают максимальное значение соответствующей формулы представления.

Блок оценки 120 может быть адаптирован для оценки множества N волновых представлений и представлений диффузного поля в виде приближений для множества пространственных звуковых потоков, с 1≤i≤N. Процессор 130 может быть адаптирован для определения объединенного направления поступления на основе оценки

, где

,

,

,

,

,

с вещественными числами α(i)(k,n), β(i)(k,n)∈{0…1}.

На фиг.5 показан пунктирной линией блок оценки 120 и процессор 130. В варианте, показанном на фиг.5, блок для определения 110 отсутствует, так как предполагается, что первый пространственный аудио поток и второй пространственный аудио поток, а также, возможно, другие аудио потоки представлены в моно представлении DirAC, т.e. моно представление DOA и параметры диффузности четко выделены из потока. Как показано на фиг.5, процессор 130 может быть адаптирован для определения объединенного DOA на основе оценки.

Направление поступления звука, т.е. измерение направления, можно оценить величиной , которая определяется как

где позволяет оценить действительную часть вектора интенсивности объединенного потока. Она может быть получена следующим

где и являются оценочными значениями давления и скорости частиц соответствующих плоских волн, т.е. только в качестве измерений волнового поля. Они могут быть определены как

Коэффициенты α(i)(k,n) и β(i)(k,n), вообще говоря, зависят от частоты и могут быть обратно пропорциональными к диффузности Ψ(i)(k,n). В самом деле, когда диффузность Ψ(i)(k,n) близка к 0, то можно считать, что поле состоит из одной плоской волны, так что

это означает, что α(i)(k,n)=β(i)(k,n)=1.

Далее будут представлены два варианта воплощения, которые определяют α(i)(k,n) и β(i)(k,n). Во-первых, диффузные поля рассматриваются из энергетических соображений. В вариантах блок оценки 120 может быть адаптирован для определения коэффициентов α(i)(k,n) и β(i)(k,n) на основе диффузного поля. В воплощениях полагаем, что поле состоит из плоской волны, суммируемой в идеальном диффузном поле. В вариантах блок оценки 120 может быть адаптирован для определения α(i)(k,n) и β(i)(k,n) в соответствии с

полагая плотность воздуха ρ0 равной 1 и пренебрегая, для простоты, функциональной зависимостью (k,n), можно записать

В вариантах, процессор 130 может быть адаптирован для аппроксимации [приближения] диффузных полей на основе их статистических свойств, аппроксимацию можно получить следующим образом:

где Еdiff является энергией диффузного поля. Воплощения, таким образом, позволяют получить оценочные значения

Для вычисления мгновенных оценочных значений (т.е. для каждой частотно-временной сетки) в вариантах могут быть исключены операторы ожидания, тогда получим

Воспользовавшись приближением плоской волны, оценочные значения скорости частиц могут быть получены непосредственно

В вариантах может быть применено упрощенное моделирование скорости частиц. В вариантах блок оценки 120 может быть адаптирован для аппроксимации коэффициентов α(i)(k,n) и β(i)(k,n) на основе упрощенных моделей. Воплощения могут использовать альтернативное решение, которое может быть получено путем введения упрощенного моделирования скорости частиц

α(i)(k,n)=1,

Далее сформулируем вывод. Скорость частицы U(i)(k,n) моделируется как

Коэффициент β(i)(k,n) можно получить, подставляя (26) в (5), что приводит к выражению

Для получения мгновенных значений операторы ожидания могут быть исключены и решение для β(i)(k,n) имеет вид

Обратим внимание, что такой подход приводит к аналогичным результатам определения направления поступления звука, как и в соответствии с (19), однако, с меньшей вычислительной сложностью, учитывая, что коэффициент α(i)(k,n) равен единице.

В вариантах, процессор 130 может быть адаптирован для оценки диффузности, т.е. для оценки объединенного параметра диффузности. Диффузность объединенного потока, обозначаемая Ψ(k,n), может быть оценена непосредственно из известных величин Ψ(i)(k,n) and P(i)(k,n) и из оценки , полученной описанным выше способом. В соответствии с энергетическими соображениями, введенными в предыдущем разделе, варианты могут использовать следующую оценку:

Известные значения и позволяют использовать альтернативные представления, данные в уравнении (b), в вариантах изобретения. В самом деле, направление волны может быть получено из , в то время как дает амплитуду и фазу i-й волны. Из последней величины легко могут быть вычислены все разности фаз ∆(i,j). Параметры объединенного потока DirAC затем могут быть вычислены подстановкой уравнения (b) в уравнения (а), (3) и (5).

Фиг.6 иллюстрирует воплощение метода для объединения двух или более потоков DirAC. Воплощения могут служить в качестве средства для объединения первого пространственного аудио потока со вторым пространственным аудио потоком для получения объединенного аудио потока. В вариантах, метод может включать этап определения для первого пространственного аудио потока первого аудио представления и первого DOA, а также для второго пространственного аудио потока второго аудио представления и второго DOA. В вариантах, когда представления DirAC пространственных аудио потоков могут быть доступны, на этапе определения выполняется простое чтение в соответствии с представлениями аудио потоков. На фиг.6 предполагается, что два или более потока DirAC могут быть просто получены из аудио потоков в соответствии с этапом 610.

В вариантах, метод может включать этап оценки первого представления волны, содержащий измерение первого направления поступления волн и первое измерение волнового поля для первого пространственного аудио потока на основе первого аудио представления, первого DOA и, возможно, первого параметра диффузности. Соответственно, метод может включать этап оценки второго представления волны, содержащий измерение второго направления поступления волн и второе измерение волнового поля для второго пространственного аудио потока на основе второго аудио представления, второго DOA и, возможно, второго параметра диффузности.

Метод может дополнительно содержать этап объединения первого представления волны и второго представления волны для получения представления объединенной волны, содержащего измерение поля объединенной волны, измерение DOA объединенной волны и этап объединения первого и второго аудио представлений для получения объединенного аудио представления, которое показано на фиг.6 на этапе 620 для звуковых моно каналов. Воплощение, показанное на фиг.6, содержит этап расчета α(i)(k,n) и β(i)(k,n) в соответствии с (19) и (25) и позволяет оценить давление и вектор скорости частиц для представлений плоских волн на этапе 640. Другими словами, этапы оценки первого и второго представления плоской волны осуществляются на этапах 630 и 640 на фиг.6 в терминах представлений плоской волны.

Объединение первого и второго представлений плоской волны осуществляется на этапе 650, где могут суммироваться давление и векторы скорости частиц всех потоков.

На этапе 660 на фиг.6 вычисление действительной части вектора интенсивности и оценка DOA осуществляются на основе объединенного представления плоских волн.

Воплощения могут включать этап объединения или обработки измерения объединенного поля, первого и второго моно представлений и первого и второго параметров диффузности для получения объединенного параметра диффузности. В варианте, изображенном на фиг.6, вычисление диффузности осуществляется на этапе 670, например, на основе (29).

Воплощения имеют преимущество в том, что объединения пространственных звуковых потоков могут быть выполнены с высоким качеством при умеренной сложности.

В зависимости от определенных требований к реализации предлагаемого метода, методы изобретения могут быть реализованы в аппаратной части или программном обеспечении. Реализация может быть выполнена с использованием цифровых носителей и, в частности, флэш-памяти, DVD или CD дисков с читаемыми электронным способом управляющими сигналами, хранящимися на них и выполняющими методы изобретения, которые совместимы с системой программирования компьютера. Таким образом, настоящее изобретение является программным кодом для ЭВМ, хранящимся на машиночитаемом носителе, программный код осуществляет методы изобретения, когда компьютерная программа запускается на компьютере или процессоре. Другими словами, методы изобретения представляют собой компьютерную программу, имеющую программный код и выполняющую хотя бы один из методов изобретения при ее запуске на компьютере.

1. Аппаратный блок (100) для объединения первого пространственного аудиопотока со вторым пространственным аудиопотоком для получения объединенного аудио потока, включающий блок оценки (120) для оценки представления первой волны, содержащего измерение направления поступления первой волны , характеризующее направление первой волны, и измерение первого волнового поля , являющееся относительной магнитудой первой волны, для первого пространственного аудиопотока, имеющего первое аудиопредставление, содержащее измерение давления или магнитуды первого аудиосигнала (Р(1)), и первое направление поступления , и для оценки представления второй волны, содержащего измерение направления поступления второй волны, характеризующее направление второй волны , и измерение поля второй волны , являющееся относительной магнитудой второй волны, для второго пространственного аудиопотока, имеющего второе аудиопредставление, содержащее измерение давления или магнитуды второго аудиосигнала (Р(2)), и второе направление поступления ; и процессор (130) для обработки первого и второго представления волны и получения представления объединенной волны, содержащего измерение объединенного волнового поля , измерение объединенного направления поступления и объединенного параметра диффузности , причем объединенный параметр диффузности получен с использованием измерения объединенного волнового поля , первого аудиопредставления (Р(1)) и второго аудиопредставления (Р(2)), и причем измерение объединенного волнового поля основано на измерении поля первой волны, измерении поля второй волны, измерении направления поступления первой волны и направления поступления второй волны , при этом процессор (130) приспособлен для обработки первого аудиопредставления (Р(1)) и второго аудиопредставления (Р(2)) и получения объединенного аудиопредставления (Р), а также для формирования объединенного аудиопотока, содержащего объединенное аудиопредставление (Р), измерение объединенного направления поступления и объединенного параметра диффузности .

2. Аппаратный блок (100) по п.1, в котором блок оценки (120) приспособлен для оценки измерения первого волнового поля в терминах амплитуды поля первой волны, и для оценки измерения второго волнового поля в терминах амплитуды поля второй волны, и для оценки разности фаз между измерениями первого и второго волнового поля, и/или для оценки фазы поля первой волны и фазы поля второй волны.

3. Аппаратный блок (100) по п.1, включающая блок (110) для определения первого аудиопредставления для первого пространственного аудиопотока, измерения первого направления поступления и первого параметра диффузности, а также для определения второго аудиопредставления для второго пространственного аудиопотока, измерения второго направления поступления и второго параметра диффузности.

4. Аппаратный блок (100) по п.1, где процессор (130) адаптирован для определения объединенного аудиопредставления, измерения объединенного направления поступления и объединенного параметра диффузности с учетом частотно-временной зависимости.

5. Аппаратный блок (100) по п.1, где блок оценки (120) приспособлен для оценки первого и/или второго волновых представлений, причем процессор (130) адаптирован для получения объединенного аудиопредставления в терминах сигнала давления p(t) или частотно-временного преобразования сигнала давления P(k,n), где k обозначает индекс частоты, а n обозначает индекс времени.

6. Аппаратный блок (100) по п.5, где процессор (130) приспособлен для обработки измерения первого и второго направления поступления и/или для обеспечения измерения объединенного направления поступления в терминах единичных векторов eDOA(k,n), где
eDOA(k,n)=-eI(k,n) и
,
,
где P(k,n) является давлением объединенного потока, а U(k,n)=[Ux(k,n), Uy(k,n), Uz(k,n)] обозначает преобразование времени-частоты u(t)=[ux(t), uy(t), uz(t)] вектора скорости частиц объединенного аудиопотока, где Re{·} обозначает действительную часть.

7. Аппаратный блок (100) по п.6, в котором процессор (130) приспособлен для обработки первого и/или второго параметров диффузности и/или для получения объединенного параметра диффузности в терминах


где U(k,n)=[Ux(k,n), Uy(k,n), Uz(k,n)] обозначает преобразование времени-частоты вектора скорости частиц объединенного аудиопотока, где Re{·} обозначает u(t)=[ux(t), uy(t), uz(t)] действительную часть, P(k,n) обозначает частотно-временное преобразование сигнала давления p(t), k обозначает индекс частоты, n обозначает индекс времени, с является скоростью звука и обозначает энергию звукового поля, ρ0 обозначает плотность воздуха и <·>t обозначает усреднение по времени.

8. Аппаратный блок (100) по п.7, в котором блок оценки (120) приспособлен для оценки множества из N волновых представлений и представления диффузного поля в качестве аппроксимации для множества N пространственных аудиопотоков , где 1≤i≤N, и в котором процессор (130) адаптирован для определения объединенного направления поступления звука, основанного на оценке,
,
,
,
,
,
,
с вещественными числами α(i)(k,n), β(i)(k,n)∈{0…1}, U(k,n)=[Ux(k,n), Uy(k,n), Uz(k,n)] обозначает преобразование времени-частоты u(t)=[ux(t), uy(t), uz(t)] вектора скорости частиц объединенного аудиопотока, где Re{·} обозначает действительную часть, P(i)(k,n) обозначает частотно-временное преобразование сигнала давления p(i)(t), k обозначает индекс частоты, n обозначает индекс времени, с является скоростью звука, N - число пространственных звуковых потоков, с является скоростью звука, а ρ0 обозначает плотность воздуха.

9. Аппаратный блок (100) по п.8, где блок оценки (120) адаптирован для определения α(i)(k,n) и β(i)(k,n) в соответствии с
α(i)(k,n)=β(i)(k,n)
.

10. Аппаратный блок (100) по п.8, где процессор (130) адаптирован для определения α(i)(k,n) и β(i)(k,n) в соответствии с формулами
α(i)(k,n)=1,

11. Аппаратный блок (100) по п.9, в котором процессор (130) адаптирован для определения объединенного параметра диффузности по формуле

12. Аппаратный блок (100) по п.1, в котором первый пространственный аудиопоток дополнительно содержит первый параметр диффузности (Ψ(1)), при этом второй пространственный аудиопоток дополнительно содержит второй параметр диффузности (Ψ(2)), а процессор (130) приспособлен для вычисления объединенного параметра диффузности с использованием первого параметра диффузности (Ψ(1)) и второго параметра диффузности (Ψ(2)).

13. Способ объединения первого пространственного аудиопотока со вторым пространственным аудиопотоком для получения объединенного аудиопотока, включающий оценку первого волнового представления, содержащего измерение направления первой волны , характеризующее направление первой волны, и измерение поля первой волны , являющееся относительной магнитудой первой волны, для первого пространственного аудиопотока, имеющего первое аудиопредставление, содержащее измерение давления или магнитуды первого аудиосигнала (Р(1)), и первое направление поступления звука ; и оценку второго волнового представления, содержащего направление второй волны, характеризующее направление второй волны , и измерение поля второй волны , являющееся относительной магнитудой второй волны, для второго пространственного аудиопотока, имеющего второе аудиопредставление, содержащее измерение давления или магнитуды второго аудиосигнала (Р(2)), и второе направление поступления звука ; и обработку представления первой волны и представления второй волны для получения объединенного представления волны , содержащего измерение объединенного волнового поля, измерение объединенного направления поступления и объединенного параметра диффузности , причем объединенный параметр диффузности получен на основе измерения направления первой волны и измерения направления второй волны; обработку первого аудиопредставления (Р(1)) и второго аудиопредставления (Р(2)) для получения объединенного аудиопредставления (Р), а также формирование объединенного аудиопотока, содержащего объединенное аудиопредставление (Р), измерение объединенного направления поступления и объединенного параметра диффузности .

14. Способ по п.13, в котором первый пространственный аудиопоток дополнительно содержит первый параметр диффузности (Ψ(1)); второй пространственный аудиопотока дополнительно содержит второй параметр диффузности (Ψ(2)), причем объединенный параметр диффузности вычисляется на этапе дополнительной обработки, использующем первый параметр диффузности (Ψ(1)) и второй параметр диффузности (Ψ(2)).

15. Машиночитаемый носитель, содержащий сохраненную на нем компьютерную программу с программным кодом, способным выполнять осуществления способа по п.13, когда программа выполняется компьютером или процессором.



 

Похожие патенты:

Устройство (100) для генерирования многоканального звукового сигнала (142), основанного на входном звуковом сигнале (102), включает средство повышающего микширования главного сигнала (110), секционный (сегментный) селектор (120), средство повышающего микширования секционного сигнала (110) и объединитель (140).

Изобретение относится к аудиокодекам без потерь, а более конкретно, к многоканальному аудиокодеку без потерь, который использует адаптивную сегментацию с возможностью точек произвольного доступа (RAP) и возможностью множества наборов параметров предсказания (MPPS).

Изобретение относится к системам виртуализации окружающего звука и способам генерирования выходных сигналов, предназначенных для воспроизведения парой физических акустических систем (наушников или громкоговорителей), расположенных в определенных выходных положениях, в ответ на, по меньшей мере, два входных звуковых сигнала, являющихся признаками звука из нескольких положений источников, включая, по меньшей мере, два тыловых положения.

Изобретение относится к аудиокодерам, использующим повышающее микширование аудиосигналов. .

Изобретение относится к обработке звуковых сигналов, в частности, к улучшению четкости диалога и устной речи, например, в объемном развлекательном звуковом сопровождении.

Изобретение относится к кодированию и декодированию сигнала посредством схемы согласно характеристике сигнала как аудиосигнала или речевого сигнала. .

Изобретение относится к многоканальному преобразованию параметров, в частности к генерированию параметров когерентности и параметров выходного уровня, которые указывают на пространственные свойства между двумя звуковыми сигналами, основанными на объектно-параметровом базовом представлении звукового воспроизведения в пространстве.

Изобретение относится к способам кодирования/декодирования аудио, в частности к кодированию/декодированию аудио, включающего бинауральный виртуальный пространственный сигнал.

Описывается устройство, генерирующее на базе многоканального сигнала, представляющего совокупность множества каналов, бинауральный сигнал, предназначенный для воспроизведения через систему динамиков, при этом положение каждого виртуального источника звука соотнесено с индивидуальным каналом. Устройство включает в себя минимизатор корреляции, дифференцированно преобразующий и за счет этого ослабляющий корреляцию между, по меньшей мере, одним левым и правым, одним передним и задним и одним центральным и нецентральным каналом из множества каналов с целью формирования комбинации каналов с минимизированным взаимным подобием; множество направленных фильтров; первый микшер, смешивающий выходные сигналы направленных фильтров, моделирующий передачу звука к первому ушному каналу слушателя, и второй микшер, смешивающий выходные сигналы направленных фильтров, моделирующий передачу звука ко второму ушному каналу слушателя. Также представлен подход, при котором уровень центрального канала снижают для формирования сигнала понижающего микширования, поступающего далее в процессор построения акустического пространства. Другой подход заключается в формировании набора передаточных функций с минимизированным взаимным подобием, моделирующих слуховой тракт человека.21 и 12 з.п. ф-лы, 13 ил.

Изобретение относится к обработке сигналов в полосе звуковых частот. Технический результат изобретения заключается в обеспечении эффективной скорости передачи звукового сигнала. Устройство для генерирования, по крайней мере, одного выходного звукового сигнала, представляющего суперпозицию двух различных звуковых объектов, включает процессор для обработки входного звукового сигнала для обеспечения объектного представления входного звукового сигнала, где это объектное представление может быть сгенерировано параметрически управляемым приближением оригинальных объектов посредством использования сигнала понижающего микширования объекта. Манипулятор объекта индивидуально управляет объектами, используя объектно-ориентированные звуковые метаданные, относящиеся к индивидуальным звуковым объектам, чтобы получить управляемые звуковые объекты. Управляемые звуковые объекты микшируются посредством использования микшера объекта для того, чтобы в конце концов получить выходной звуковой сигнал, имеющий одно- или многоканальные сигналы в зависимости от конкретной установки рендеринга. 9 н. и 5 з.п. ф-лы, 17 ил.

Описывается бинауральная визуализация многоканального звукового сигнала в бинауральный выходной сигнал (24). Многоканальный звуковой сигнал включает сигнал стерео понижающего микширования (18), в который множество звуковых сигналов микшируется с понижением; и дополнительная информация включает информацию о понижающем микшировании (DMG, DCLD), показывающую для каждого звукового сигнала, до какой степени соответствующий звуковой сигнал был микширован в первый канал и второй канал сигнала стерео понижающего микширования (18) соответственно, а также информацию об уровне объекта множества звуковых сигналов и информацию о межобъектной взаимной корреляции, описывающую сходство между парами звуковых сигналов множества звуковых сигналов. Основанный на первом предписании визуализации, предварительный бинауральный сигнал (54) вычисляется из первого и второго каналов сигнала стерео понижающего микширования (18). Декоррелированный сигнал генерируется как перцепционный эквивалент моно понижающего микширования (58) из первого и второго каналов сигнала стерео понижающего микширования (18), являющийся, однако, декодированным до моно понижающего микширования (58). Технический результат - улучшение бинауральной визуализации при уничтожении ограничения в отношении свободы создания сигнала понижающего микширования из оригинальных звуковых сигналов. 3 н. и 8 з.п. ф-лы, 6 ил., 3 табл.

Изобретение относится к системе объемного звука. Технический результат заключается в повышении качества воспроизведения аудио и повышении производительности системы объемного звука. Принимают многоканальный пространственный сигнал, который содержит по меньшей мере один канал окружения. Излучают ультразвук в направлении поверхности для достижения положения прослушивания посредством отражения от упомянутой поверхности. Ультразвуковой сигнал может достигать положения прослушивания конкретно сбоку, сверху или сзади от номинального слушателя. Первый управляющий блок формирует управляющий сигнал для направленного ультразвукового преобразователя из канала окружения. Использование ультразвукового преобразователя для обеспечения сигнала объемного звука обеспечивает улучшенное пространственное восприятие, позволяя при этом располагать динамик, например, спереди от пользователя. Ультразвуковой пучок является гораздо более узким и четко определенным, нежели обычные звуковые пучки, и соответственно может лучше направляться для обеспечения желаемых отражений. В некоторых сценариях ультразвуковой преобразователь может быть дополнен громкоговорителем диапазона звуковых частот. 2 н.з. и 10 з.п. ф-лы, 11 ил.

Изобретение относится к средствам кодирования аудиосигналов и относящейся к ним пространственной информации в формат, не зависящий от схемы воспроизведения. Технический результат заключается в обеспечении технологии, способной представлять пространственный аудиоконтент независящим от демонстрационного способа методом. Назначают первый набор аудиосигналов в первую группу. Кодируют первую группу в качестве набора моноаудиодорожек с ассоциированными метаданными, описывающими направление источника сигнала каждой дорожки по отношению к позиции записи и время начала его воспроизведения. Назначают второй набор аудиосигналов во вторую группу. Кодируют вторую группу в качестве, по меньшей мере, одного набора дорожек амбиофонии данного порядка и смешения порядков. Генерируют две группы дорожек, содержащих первый и второй набор аудиосигналов. 6 н. и 20 з.п. ф-лы, 11 ил.

Изобретение относится к кодированию и декодированию аудиосигнала, в которых звуковые образы для каждого объектного аудиосигнала могут быть локализованы в любой требуемой позиции. Технический результат - повышение точности воспроизведения объектных аудиосигналов. Для этого в способе и устройстве кодирования аудиосигнала и в способе и устройстве декодирования аудиосигнала аудиосигналы могут быть кодированы или декодированы так, что звуковые образы могут быть локализованы в любой требуемой позиции для каждого объектного аудиосигнала. Способ декодирования аудиосигнала включает в себя извлечение из аудиосигнала сигнала понижающего микширования и объектно-ориентированной дополнительной информации; формирование канально-ориентированной дополнительной информации на основе объектно-ориентированной дополнительной информации и управляющей информации для воспроизведения сигнала понижающего микширования; обработку сигнала понижающего микширования с использованием декоррелированного канального сигнала; и формирование многоканального аудиосигнала с использованием обработанного сигнала понижающего микширования и канально-ориентированной дополнительной информации. 3 н. и 4 з.п. ф-лы, 20 ил.

Изобретение относится к средствам для усовершенствованной авторской разработки и представления трехмерных аудиоданных. Технический результат заключается в уменьшении вычислительной сложности обработки трехмерного звука. Представлены усовершенствованные инструментальные средства для авторской разработки и представления данных звуковоспроизведения. Некоторые указанные инструментальные средства авторской разработки позволяют обобщать данные звуковоспроизведения на широкий выбор воспроизводящих сред. Данные звуковоспроизведения могут авторски разрабатываться путем создания метаданных для звуковых объектов. Метаданные могут создаваться со ссылкой на зоны громкоговорителей. В ходе процесса представления данных данные звуковоспроизведения могут воспроизводиться в соответствии со схемой расположения воспроизводящих громкоговорителей конкретной воспроизводящей среды. 6 н. и 36 з.п. ф-лы, 47 ил.

Изобретение относится к аудиообработке и, в частности, к разложению аудиосигналов на различные компоненты, к примеру, различно воспринимаемые компоненты. Технический результат - разложение сигнала с использованием заранее вычисленной частотно-зависимой кривой подобия в качестве эталонной кривой. Устройство для разложения сигнала, имеющего, по меньшей мере, три канала, содержит анализатор (16) для анализа подобия между двумя каналами анализируемого сигнала, связанного с сигналом, имеющим, по меньшей мере, два анализируемых канала, при этом анализатор выполнен с возможностью использования заранее вычисленной частотно-зависимой кривой подобия в качестве эталонной кривой, чтобы определять результат анализа. Процессор (20) сигналов обрабатывает анализируемый сигнал или сигнал, извлекаемый из анализируемого сигнала, или сигнал, из которого извлекается анализируемый сигнал, с использованием результата анализа, чтобы получать разложенный сигнал. 3 н. и 12 з.п. ф-лы, 16 ил.

Изобретение относится к аудиообработке и, в частности, к разложению аудиосигналов на различные компоненты. Технический результат - повышение точности воспроизведения стереофонического звука. Для этого устройство для разложения входного сигнала, имеющего, по меньшей мере, три входных канала, содержит понижающий микшер для понижающего микширования входного сигнала, чтобы получать микшированный с понижением сигнал, имеющий меньшее число каналов, анализатор для анализа микшированного с понижением сигнала, чтобы выводить результат анализа, который перенаправляется в процессор сигналов для обработки входного сигнала или сигнала, выведенного из входного сигнала, чтобы получать разложенный сигнал. 3 н. и 12 н.п. ф-лы, 16 ил.

Изобретение относится к обработке звуковых сигналов. Технический результат - повышение точности распознавания звуковых сигналов. Для этого устройство для генерирования выходного сигнала имеет по меньшей мере два выходных канала и два входных канала входного сигнала, а также устройство содержит блок разложения на фоновые/прямые сигналы, модуль изменения фона и модуль комбинирования, при этом блок разложения на фоновые/прямые сигналы выполнен с возможностью разложения по меньшей мере двух входных каналов входного сигнала, каждый из которых, по меньшей мере, разлагается на сигнал из первой группы сигналов и на сигнал из второй группы сигналов. Модуль изменения фона выполнен с возможностью изменения сигнала из группы фоновых сигналов или сигнала, извлеченного из сигнала из группы фоновых сигналов, чтобы получить измененный сигнал в качестве первого выходного канала. Модуль комбинирования выполнен с возможностью комбинирования сигнала из группы фоновых сигналов или сигнала, извлеченного из сигнала из группы фоновых сигналов, и сигнала из группы прямых сигналов или сигнала, извлеченного из сигнала из группы прямых сигналов, в качестве второго выходного канала. 5 н. и 14 з.п. ф-лы, 20 ил.
Наверх