Устройство и способ для совмещения потоков пространственного аудиокодирования на основе геометрии

Авторы патента:

ТИРГАРТ Оливер (DE)

КУНТЦ Ахим (DE)

ХЕРРЕ Юрген (DE)

КЮХ Фабиан (DE)

КРАЧУН Александра (DE)

ДЕЛЬ ГАЛЬДО Джованни (DE)

ХАБЕСТ Эмануэль (DE)

G10L19/00 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2609102:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к средствам для формирования совмещенного потока аудиоданных. Технический результат заключается в обеспечении возможности формирования совмещенного потока аудиоданных. Устройство содержит демультиплексор для получения множества одноуровневых потоков аудиоданных, где демультиплексор приспособлен для приема одного или более входных потоков аудиоданных, где каждый входной поток аудиоданных содержит один или более уровней, где демультиплексор приспособлен для демультиплексирования каждого из входных потоков аудиоданных, имеющих один или более уровней, на два или более демультиплексированных потоков аудиоданных, имеющих ровно один уровень, так что упомянутые два или более демультиплексированных потоков аудиоданных вместе содержат упомянутый один или более уровней входного потока аудиоданных. Кроме того, устройство содержит модуль совмещения для формирования совмещенного потока аудиоданных, имеющего один или более уровней, на основе упомянутого множества одноуровневых потоков аудиоданных. 3 н. и 15 з.п. ф-лы, 44 ил.

Настоящее изобретение относится к обработке аудиосигналов, и в частности, к устройству и способу для формирования совмещенного потока аудиоданных.

Становится все более и более важной обработка аудиосигналов, и в частности, пространственное аудиокодирование. Традиционная пространственная звукозапись стремится к захвату звукового поля так, что на стороне воспроизведения слушатель воспринимает звуковой образ таким, как он был в месте записи. Из современного уровня техники известны разные подходы к методикам пространственной звукозаписи и воспроизведения, которые могут основываться на канальном, объектном или параметрическом представлениях.

Канальные представления представляют звуковую сцену посредством N дискретных аудиосигналов, предназначенных для воспроизведения N громкоговорителями, размещенными по известной схеме, например схеме звукового окружения 5.1. Подход для пространственной звукозаписи обычно применяет расположенные на расстоянии, всенаправленные микрофоны, например, в стереофонии AB, или совмещенные направленные микрофоны, например, в интенсивностной стереофонии. В качестве альтернативы могут применяться более сложные микрофоны, например микрофон B-формата, например, в амбиофонии, см.:

[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.

Нужные сигналы громкоговорителей для известной схемы выводятся непосредственно из записанных сигналов микрофонов, а затем передаются или сохраняются по отдельности. Более эффективное представление получается путем применения к дискретным сигналам аудиокодирования, которое в некоторых случаях кодирует информацию разных каналов одновременно для повышенной эффективности, например, в MPEG-Surround для каналов 5.1, см.:

[21] J. Herre, K. Kjörling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rödén, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084.

Основным недостатком этих методик является то, что нельзя изменить звуковую сцену после того, как вычислены сигналы громкоговорителей.

Объектные представления используются, например, в Пространственном кодировании аудиообъектов (SAOC), см.

[25] Jeroen Breebaart, Jonas Engdegård, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.

Объектные представления представляют звуковую сцену с помощью N дискретных аудиообъектов. Это представление обеспечивает высокую гибкость на стороне воспроизведения, поскольку звуковой сценой можно манипулировать путем изменения, например, положения и громкости каждого объекта. Хотя это представление может быть без труда доступно, например, из многодорожечной записи, его очень трудно получить из сложной звуковой сцены, записанной незначительным количеством микрофонов (см., например, [21]). Фактически, говорящих (или другие звукоизлучающие объекты) сначала нужно локализовать, а затем извлечь из смеси, что могло бы послужить причиной артефактов.

Параметрические представления часто применяют пространственные микрофоны для определения одного или более аудиосигналов понижающего микширования вместе с дополнительной пространственной информацией, описывающей пространственный звук. Примером является Направленное аудиокодирование (DirAC), которое обсуждается в

[29] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.

Термин "пространственный микрофон" относится к любому устройству для получения пространственного звука, допускающего извлечение направления прихода звука (например, сочетание направленных микрофонов, микрофонные решетки и т. п. ).

Термин "непространственный микрофон" относится к любому устройству, которое не приспособлено для извлечения направления прихода звука, например одиночному всенаправленному или направленному микрофону.

Другой пример предлагается в:

[4] C. Faller. Microphone front-ends for spatial audio coders. In Proc. of the AES 125^th International Convention, San Francisco, Oct. 2008.

В DirAC информация о пространственных метках содержит направление прихода (DOA) звука и диффузность звукового поля, вычисленную в частотно-временной области. Для воспроизведения звука аудиосигналы воспроизведения можно вывести на основе параметрического описания. Эти методики дают большую гибкость на стороне воспроизведения, потому что может применяться произвольная схема громкоговорителей, поскольку представление очень гибкое и компактное, так как содержит монофонический аудиосигнал понижающего микширования и дополнительную информацию и поскольку дает возможность простых изменений над звуковой сценой, например, акустическое масштабирование, направленную фильтрацию, совмещение сцен и т. п.

Однако эти методики по-прежнему ограничены в том, что записанный пространственный образ всегда относится к используемому пространственному микрофону. Поэтому нельзя менять акустическую "точку зрения", и нельзя изменять положение прослушивания в звуковой сцене.

Подход с виртуальным микрофоном представлен в

[22] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA ’11), Edinburgh, United Kingdom, May 2011,

который позволяет вычислить выходные сигналы произвольного пространственного микрофона, виртуально размещенного в окружении по желанию (то есть в произвольном положении и ориентации). Гибкость, отличающая подход с виртуальным микрофоном (VM), позволяет виртуально захватывать звуковую сцену по желанию на этапе постобработки, но не предоставляется никакое представление звукового поля, которое может использоваться для эффективной передачи и/или хранения и/или изменения звуковой сцены. Кроме того, предполагается активным только один источник на элемент разрешения по времени/частоте, и поэтому нельзя правильно описать звуковую сцену, если активны два или более источника в одном и том же элементе разрешения по времени/частоте. Кроме того, если виртуальный микрофон (VM) применяется на стороне приемника, то все сигналы микрофонов нужно отправлять по каналу, что делает представление неэффективным, тогда как если VM применяется на стороне передатчика, то звуковой сценой больше нельзя манипулировать, и модель утрачивает гибкость и становится ограниченной некоторой схемой громкоговорителей. Кроме того, он не рассматривает манипуляцию звуковой сценой на основе параметрической информации.

[24] Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007,

оценка положения источника звука основывается на парной разности времени прихода, измеренной посредством разнесенных микрофонов. Кроме того, приемник зависит от записи и требует для синтеза (например, формирования сигналов громкоговорителей) все сигналы микрофонов.

Способ, представленный в

[28] Svein Berge. Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151,

аналогично DirAC использует направление прихода в качестве параметра, соответственно ограничивая представление определенной точкой зрения звуковой сцены. Кроме того, он не предлагает возможность передавать/сохранять представление звуковой сцены, поскольку нужно применять анализ и синтез на одной и той же стороне системы связи.

Другим примером могут быть приложения видеоконференцсвязи, в которых участников, которые записываются в разных окружениях, нужно воспроизводить в единой звуковой сцене. Блок управления многосторонней связью (MCU) должен обеспечить, что воспроизводится единая звуковая сцена.

[22] G. Del Galdo, F.Kuech, M. Kallinger, and R. Schultz-Amling. Efficient merging of multiple audio streams for spatial sound reproduction in directional audio coding. In International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2009), 2009

и в

[23] US 20110216908: Apparatus for Merging Spatial Audio Streams

предложена идея объединения двух или более параметрических представлений звуковой сцены.

Однако было бы очень полезно предоставить идеи для создания единой звуковой сцены из двух или более представлений звуковой сцены эффективным способом, достаточно гибким для изменения звуковой сцены.

Цель настоящего изобретения - предоставить усовершенствованные идеи для формирования совмещенного потока аудиоданных, например потока GAC. Цель настоящего изобретения достигается с помощью устройства по п. 1, способа по п. 17 и компьютерной программы по п. 18.

В соответствии с вариантом осуществления предоставляется устройство для формирования совмещенного потока аудиоданных. Устройство содержит демультиплексор для получения множества одноуровневых потоков аудиоданных, где демультиплексор приспособлен для приема одного или более входных потоков аудиоданных, где каждый входной поток аудиоданных содержит один или более уровней, где демультиплексор приспособлен для демультиплексирования каждого из входных потоков аудиоданных, имеющих один или более уровней, на два или более демультиплексированных потоков аудиоданных, имеющих ровно один уровень, так что один или более демультиплексированных потоков аудиоданных вместе содержат упомянутый один или более уровней входных потоков аудиоданных, чтобы предоставить два или более одноуровневых потоков аудиоданных. Кроме того, устройство содержит модуль совмещения для формирования совмещенного потока аудиоданных, имеющего один или более уровней, на основе упомянутого множества одноуровневых потоков аудиоданных, например на основе упомянутого множества демультиплексированных одноуровневых потоков аудиоданных. Каждый уровень входных потоков аудиоданных, демультиплексированных потоков аудиоданных, одноуровневых потоков данных и совмещенного потока аудиоданных содержит значение давления сигнала давления, значение положения и значение диффузности в качестве аудиоданных.

В дополнительном варианте осуществления устройство может содержать демультиплексор для получения множества одноуровневых потоков аудиоданных, где демультиплексор приспособлен для приема двух или более входных потоков аудиоданных, где каждый входной поток аудиоданных содержит один или более уровней, где демультиплексор приспособлен для демультиплексирования каждого из входных потоков аудиоданных, имеющих два или более уровней, на два или более демультиплексированных потоков аудиоданных, имеющих ровно один уровень, так что упомянутые два или более демультиплексированных потоков аудиоданных вместе содержат упомянутые два или более уровней входных потоков аудиоданных, чтобы получить два или более одноуровневых потоков аудиоданных. Кроме того, устройство может содержать модуль совмещения для формирования совмещенного потока аудиоданных, имеющего один или более уровней, на основе упомянутого множества одноуровневых потоков аудиоданных.

В варианте осуществления устройство может быть приспособлено для подачи одного или более принятых входных потоков аудиоданных, имеющих ровно один уровень, непосредственно в модуль совмещения без их подачи в демультиплексор.

Каждый уровень входных потоков аудиоданных, демультиплексированных потоков аудиоданных, одноуровневых потоков данных и совмещенного потока аудиоданных содержит значение давления сигнала давления, значение положения и значение диффузности в качестве аудиоданных, причем аудиоданные задаются для элемента разрешения по времени/частоте множества элементов разрешения по времени/частоте.

В соответствии с этим вариантом осуществления две или более записанные звуковые сцены совмещаются в одну посредством совмещения двух или более потоков аудиоданных, например потоков GAC, и путем вывода одиночного потока аудиоданных, например одиночного потока GAC.

Совмещение звуковых сцен может использоваться, например, в приложениях видеоконференцсвязи, участников, записываемых в разных окружениях, нужно воспроизводить в единой звуковой сцене. Поэтому совмещение может происходить в Блоке управления многосторонней связью (MCU), чтобы уменьшить сетевой трафик, или у конечных пользователей, чтобы уменьшить вычислительные затраты синтеза (например, вычисления сигналов громкоговорителей).

В варианте осуществления модуль совмещения может содержать модуль функции стоимости для назначения значения стоимости каждому из одноуровневых потоков аудиоданных, и где модуль совмещения может быть приспособлен для формирования совмещенного потока аудиоданных на основе значений стоимости, назначенных одноуровневым потокам аудиоданных.

В соответствии с другим вариантом осуществления модуль функции стоимости может быть приспособлен для назначения значения стоимости каждому из одноуровневых потоков аудиоданных в зависимости от по меньшей мере одного из значений давления или значений диффузности одноуровневого потока аудиоданных.

В дополнительном варианте осуществления модуль функции стоимости может быть приспособлен для назначения значения стоимости каждому потоку аудиоданных группы одноуровневых потоков аудиоданных путем применения формулы:

где P_i - значение давления, а ψ_i - значение диффузности уровня i-го потока аудиоданных группы одноуровневых потоков аудиоданных, например, для каждого элемента разрешения по времени/частоте.

В соответствии с другим вариантом осуществления модуль совмещения, кроме того, может содержать блок совмещения давления, где блок совмещения давления может быть приспособлен для определения первой группы, содержащей один или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, и для определения второй группы, содержащей один или более других одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, где значение стоимости каждого из одноуровневых потоков аудиоданных первой группы может быть больше значения стоимости каждого из одноуровневых потоков аудиоданных второй группы, либо где значение стоимости каждого из одноуровневых потоков аудиоданных первой группы может быть меньше значения стоимости каждого из одноуровневых потоков аудиоданных второй группы, где блок совмещения давления может быть приспособлен для формирования упомянутого одного или более значений давления упомянутого одного или более уровней совмещенного потока аудиоданных, так что каждое значение давления каждого из одноуровневых потоков аудиоданных первой группы может быть значением давления одного из уровней совмещенного потока аудиоданных, и так что сочетание значений давления одноуровневых потоков аудиоданных второй группы может быть значением давления одного из уровней совмещенного потока аудиоданных.

В дополнительном варианте осуществления модуль совмещения, кроме того, может содержать блок совмещения диффузности, где блок совмещения диффузности может быть приспособлен для определения третьей группы, содержащей один или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, и для определения четвертой группы, содержащей один или более других одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных. Значение стоимости каждого из одноуровневых потоков аудиоданных третьей группы может быть больше значения стоимости каждого из одноуровневых потоков аудиоданных четвертой группы, либо где значение стоимости каждого из одноуровневых потоков аудиоданных третьей группы может быть меньше значения стоимости каждого из одноуровневых потоков аудиоданных четвертой группы, где блок совмещения диффузности может быть приспособлен для формирования упомянутого одного или более значений диффузности упомянутого одного или более уровней совмещенного потока аудиоданных, так что каждое значение диффузности каждого из одноуровневых потоков аудиоданных третьей группы может быть значением диффузности одного из уровней совмещенного потока аудиоданных, и так что сочетание значений диффузности одноуровневых потоков аудиоданных четвертой группы может быть значением диффузности одного из уровней совмещенного потока аудиоданных.

В соответствии с другим вариантом осуществления модуль совмещения, кроме того, может содержать блок (1403) смешивания положений, где блок (1403) смешивания положений может быть приспособлен для определения пятой группы, содержащей один или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, где значение стоимости каждого из одноуровневых потоков аудиоданных пятой группы может быть больше значения стоимости любых одноуровневых потоков аудиоданных, не содержащихся в пятой группе упомянутого множества одноуровневых потоков аудиоданных, либо где значение стоимости каждого из одноуровневых потоков аудиоданных пятой группы меньше значения стоимости любых одноуровневых потоков аудиоданных, не содержащихся в пятой группе упомянутого множества одноуровневых потоков аудиоданных. Блок (1403) смешивания положений может быть приспособлен для формирования упомянутого одного или более значений положения упомянутого одного или более уровней совмещенного потока аудиоданных, так что каждое значение положения каждого из одноуровневых потоков аудиоданных пятой группы может быть значением положения одного из уровней совмещенного потока аудиоданных.

В другом варианте осуществления модуль совмещения, кроме того, может содержать модуль адаптации звуковой сцены для манипулирования значением положения одного или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных.

В соответствии с дополнительным вариантом осуществления модуль адаптации звуковой сцены может быть приспособлен для манипулирования значением положения одного или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, применяя вращение, перенос или нелинейное преобразование в отношении значения положения.

В другом варианте осуществления демультиплексор может содержать множество блоков демультиплексирования, где каждый из блоков демультиплексирования может конфигурироваться для демультиплексирования одного или более входных потоков аудиоданных.

В соответствии с дополнительным вариантом осуществления устройство, кроме того, может содержать генератор искусственного источника звука для формирования искусственного потока данных, содержащего ровно один уровень, где генератор искусственного источника может быть приспособлен для приема информации о давлении, представляемой во временной области, и для приема информации о положении, где генератор искусственного источника может быть приспособлен для дублирования информации о давлении, чтобы сформировать информацию о положении для множества элементов разрешения по времени/частоте, и где генератор искусственного источника, кроме того, может быть приспособлен для вычисления информации о диффузности на основе информации о давлении.

В другом варианте осуществления генератор искусственного источника может быть приспособлен для преобразования информации о давлении, представляемой во временной области, в частотно-временную область.

В соответствии с дополнительным вариантом осуществления генератор искусственного источника может быть приспособлен для добавления реверберации в информацию о давлении.

Другой вариант осуществления позволяет вставить искусственный источник звука в звуковую сцену. Вставка искусственного источника звука особенно полезна в приложениях типа виртуальной реальности и видеоигр, в которых сложная звуковая сцена может быть заполнена синтетическими источниками. В сценариях телеконференцсвязи вставка полезна при объединении участников, взаимодействующих посредством монофонического канала, например, звонящих по мобильным телефонам.

Ниже будут описываться предпочтительные варианты осуществления настоящего изобретения, где:

Фиг. 1 иллюстрирует устройство для формирования совмещенного потока аудиоданных в соответствии с вариантом осуществления,

Фиг. 2a иллюстрирует устройство для формирования по меньшей мере одного выходного аудиосигнала на основе потока аудиоданных, содержащего аудиоданные, относящиеся к одному или нескольким источникам звука, в соответствии с вариантом осуществления,

Фиг. 2b иллюстрирует устройство для формирования потока аудиоданных, содержащего данные источника звука, относящиеся к одному или нескольким источникам звука, в соответствии с вариантом осуществления,

Фиг. 3a-3c иллюстрируют потоки аудиоданных в соответствии с разными вариантами осуществления,

Фиг. 4 иллюстрирует устройство для формирования потока аудиоданных, содержащего данные источника звука, относящиеся к одному или нескольким источникам звука, в соответствии с другим вариантом осуществления,

Фиг. 5 иллюстрирует звуковую сцену, состоящую из двух источников звука и двух однородных линейных микрофонных решеток,

Фиг. 6a иллюстрирует устройство 600 для формирования по меньшей мере одного выходного аудиосигнала на основе потока аудиоданных в соответствии с вариантом осуществления,

Фиг. 7 изображает модуль модифицирования в соответствии с вариантом осуществления,

Фиг. 8 изображает модуль модифицирования в соответствии с другим вариантом осуществления,

Фиг. 9 иллюстрирует блоки передатчика/анализа и блоки приемника/синтеза в соответствии с вариантом осуществления,

Фиг. 10a изображает модуль синтеза в соответствии с вариантом осуществления,

Фиг. 10b изображает блок первого этапа синтеза в соответствии с вариантом осуществления,

Фиг. 10c изображает блок второго этапа синтеза в соответствии с вариантом осуществления,

Фиг. 11 изображает модуль синтеза в соответствии с другим вариантом осуществления,

Фиг. 12 иллюстрирует устройство для формирования выходного аудиосигнала виртуального микрофона в соответствии с вариантом осуществления,

Фиг. 13 иллюстрирует входы и выходы устройства и способ для формирования выходного аудиосигнала виртуального микрофона в соответствии с вариантом осуществления,

Фиг. 14 иллюстрирует базовую структуру устройства для формирования выходного аудиосигнала виртуального микрофона в соответствии с вариантом осуществления, которое содержит блок оценки положения звуковых событий и модуль вычисления информации,

Фиг. 15 показывает типовой сценарий, в котором реальные пространственные микрофоны изображаются как Однородные линейные решетки из 3 микрофонов каждая,

Фиг. 16 изображает два пространственных микрофона в трех измерениях для оценивания направления прихода в трехмерном пространстве,

Фиг. 17 иллюстрирует геометрию, где изотропный точечный источник звука текущего элемента разрешения по времени/частоте (k, n) располагается в положении p_IPLS(k, n),

Фиг. 18 изображает модуль вычисления информации в соответствии с вариантом осуществления,

Фиг. 19 изображает модуль вычисления информации в соответствии с другим вариантом осуществления,

Фиг. 20 показывает два реальных пространственных микрофона, локализованное звуковое событие и положение виртуального пространственного микрофона,

Фиг. 21 иллюстрирует, как получить направление прихода относительно виртуального микрофона в соответствии с вариантом осуществления,

Фиг. 22 изображает возможный способ выведения DOA звука с точки зрения виртуального микрофона в соответствии с вариантом осуществления,

Фиг. 23 иллюстрирует блок вычисления информации, содержащий блок вычисления диффузности в соответствии с вариантом осуществления,

Фиг. 24 изображает блок вычисления диффузности в соответствии с вариантом осуществления,

Фиг. 25 иллюстрирует сценарий, где оценка положения звуковых событий невозможна,

Фиг. 26 иллюстрирует устройство для формирования потока данных виртуального микрофона в соответствии с вариантом осуществления, и

Фиг. 27 иллюстрирует устройство для формирования по меньшей мере одного выходного аудиосигнала на основе потока аудиоданных в соответствии с другим вариантом осуществления,

Фиг. 28 изображает входы и выходы устройства для формирования совмещенного потока аудиоданных в соответствии с другим вариантом осуществления,

Фиг. 29 иллюстрирует устройство для формирования совмещенного потока аудиоданных в соответствии с другим вариантом осуществления,

Фиг. 30 изображает модуль совмещения в соответствии с вариантом осуществления,

Фиг. 31a-31c изображают возможные сценарии звуковой сцены, и

Фиг. 32a-32b иллюстрируют генераторы искусственных источников в соответствии с вариантами осуществления,

Фиг. 33a-33c иллюстрируют сценарии, где две микрофонные решетки принимают прямой звук, отраженный стеной звук и диффузный звук.

Перед предоставлением подробного описания вариантов осуществления настоящего изобретения описывается устройство для формирования выходного аудиосигнала виртуального микрофона, чтобы предоставить вспомогательную информацию касательно идей настоящего изобретения.

Фиг. 12 иллюстрирует устройство для формирования выходного аудиосигнала, чтобы имитировать запись микрофона в конфигурируемом виртуальном положении posVmic в окружении. Устройство содержит блок 110 оценки положения звуковых событий и модуль 120 вычисления информации. Блок 110 оценки положения звуковых событий принимает первую информацию di1 о направлении от первого реального пространственного микрофона и вторую информацию di2 о направлении от второго реального пространственного микрофона. Блок 110 оценки положения звуковых событий приспособлен для оценивания положения ssp источника звука, указывающего положение источника звука в окружении, причем источник звука излучает звуковую волну, где блок 110 оценки положения звуковых событий приспособлен для оценивания положения ssp источника звука на основе первой информации di1 о направлении, предоставленной первым реальным пространственным микрофоном, располагаемым в положении pos1mic первого реального микрофона в окружении, и на основе второй информации di2 о направлении, предоставленной вторым реальным пространственным микрофоном, располагаемым в положении второго реального микрофона в окружении. Модуль 120 вычисления информации приспособлен для формирования выходного аудиосигнала на основе первого записанного входного аудиосигнала is1, записываемого первым реальным пространственным микрофоном, на основе положения pos1mic первого реального микрофона и на основе виртуального положения posVmic виртуального микрофона. Модуль 120 вычисления информации содержит компенсатор распространения, приспосабливаемый для формирования первого измененного аудиосигнала путем изменения первого записанного входного аудиосигнала is1 путем компенсации первой задержки или затухания амплитуды между приходом звуковой волны, излученной источником звука, в первый реальный пространственный микрофон и приходом звуковой волны в виртуальный микрофон путем регулирования значения амплитуды, значения величины или значения фазы у первого записанного входного аудиосигнала is1, чтобы получить выходной аудиосигнал.

Фиг. 13 иллюстрирует входы и выходы устройства и способ в соответствии с вариантом осуществления. Информация 111, 112, …, 11N от двух или более реальных пространственных микрофонов подается в устройство/обрабатывается с помощью способа. Эта информация содержит аудиосигналы, зафиксированные реальными пространственными микрофонами, а также информацию о направлении от реальных пространственных микрофонов, например оценки направления прихода (DOA). Аудиосигналы и информация о направлении, например оценки направления прихода, могут выражаться в частотно-временной области. Если, например, нужно восстановление двумерной геометрии, и область традиционного STFT (оконное преобразование Фурье) выбирается для представления сигналов, то DOA можно выразить в виде азимутальных углов, зависимых от k и n, а именно от показателей частоты и времени.

В вариантах осуществления локализация звуковых событий в пространстве, а также описание положения виртуального микрофона могут проводиться на основе положений и ориентаций реального и виртуального пространственных микрофонов в общей системе координат. Эту информация можно представить с помощью входов 121…12N и входа 104 на фиг. 13. Вход 104 может дополнительно задавать характеристику виртуального пространственного микрофона, например, его положение и диаграмму направленности, что будет обсуждаться ниже. Если виртуальный пространственный микрофон содержит несколько виртуальных датчиков, то можно принять во внимание их положения и соответствующие разные диаграммы направленности.

Выходом устройства или соответствующего способа может быть, если нужно, один или более аудиосигналов 105, которые могут быть зафиксированы пространственным микрофоном, заданным и помещенным, как указано входом 104. Кроме того, устройство (или, точнее, способ) в качестве выхода может предоставить соответствующую дополнительную пространственную информацию 106, которая может оцениваться путем применения виртуального пространственного микрофона.

Фиг. 14 иллюстрирует устройство в соответствии с вариантом осуществления, которое содержит два главных блока обработки, блок 201 оценки положения звуковых событий и модуль 202 вычисления информации. Блок 201 оценки положения звуковых событий может осуществлять геометрическое восстановление на основе DOA, содержащихся во входах 111…11N, и на основе сведений о положении и ориентации реальных пространственных микрофонов, где вычислены DOA. Выход 205 блока оценки положения звуковых событий содержит оценки положений (либо в двух измерениях, либо в трех измерениях) источников звука, где возникают звуковые события, для каждого элемента разрешения по времени и частоте. Второй блок 202 обработки является модулем вычисления информации. В соответствии с вариантом осуществления из фиг. 14 второй блок 202 обработки вычисляет сигнал виртуального микрофона и дополнительную пространственную информацию. Поэтому он также называется блоком 202 вычисления сигнала виртуального микрофона и дополнительной информации. Блок 202 вычисления сигнала виртуального микрофона и дополнительной информации использует положения 205 звуковых событий для обработки аудиосигналов, содержащихся в 111…11N, чтобы вывести аудиосигнал 105 виртуального микрофона. Если необходимо, то блок 202 также может вычислять дополнительную пространственную информацию 106, соответствующую виртуальному пространственному микрофону. Варианты осуществления ниже иллюстрируют возможности того, как могут работать блоки 201 и 202.

Ниже подробнее описывается оценка положения в блоке оценки положения звуковых событий в соответствии с вариантом осуществления.

В зависимости от размерности проблемы (двумерная или трехмерная) и количества пространственных микрофонов возможно несколько решений для оценки положения.

Если существует два пространственных микрофона в двух измерениях (самый простой возможный случай), то возможна простая триангуляция. Фиг. 15 показывает типовой сценарий, в котором реальные пространственные микрофоны изображаются как Однородные линейные решетки (ULA) из 3 микрофонов каждая. DOA, выраженное в виде азимутальных углов a1(k, n) и a2(k, n), вычисляется для элемента разрешения по времени/частоте (k, n). Это достигается путем применения надлежащего блока оценки DOA, например ESPRIT,

[13] R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986,

или (root) MUSIC, см.

[14] R. Schmidt, “Multiple emitter location and signal parameter estimation,” IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986

к сигналам давления, преобразованным в частотно-временную область.

На фиг. 15 иллюстрируются два реальных пространственных микрофона, здесь - две реальные пространственные микрофонные решетки 410, 420. Два оцененных DOA a1(k, n) и a2(k, n) представляются двумя линиями, причем первая линия 430 представляет DOA a1(k, n), а вторая линия 440 представляет DOA a2(k, n). Возможна триангуляция посредством простых геометрических соображений, зная положение и ориентацию каждой решетки.

Триангуляция терпит неудачу, когда две линии 430, 440 точно параллельны. Однако в реальных применениях это очень маловероятно. Однако не все результаты триангуляции соответствуют физическому или правдоподобному положению для звукового события в рассматриваемом пространстве. Например, оцененное положение звукового события могло бы находиться слишком далеко или даже вне предполагаемого пространства, указывая, что DOA, возможно, не соответствуют никакому звуковому событию, которое можно физически интерпретировать с помощью используемой модели. Такие результаты могут быть обусловлены шумом датчика или слишком сильной реверберацией в помещении. Поэтому в соответствии с вариантом осуществления такие нежелательные результаты помечаются, так что модуль 202 вычисления информации может обращаться с ними должным образом.

Фиг. 16 изображает сценарий, где положение звукового события оценивается в трехмерном пространстве. Применяются надлежащие пространственные микрофоны, например, плоская или трехмерная микрофонная решетка. На фиг. 16 иллюстрируется первый пространственный микрофон 510, например, первая трехмерная микрофонная решетка, и второй пространственный микрофон 520, например вторая трехмерная микрофонная решетка. DOA в трехмерном пространстве, например, может выражаться в виде азимута и возвышения. Для выражения DOA могут применяться единичные векторы 530, 540. Две линии 550, 560 проецируются в соответствии с DOA. В трех измерениях даже при очень надежных оценках две линии 550, 560, спроецированные в соответствии с DOA, могут не пересекаться. Однако триангуляцию все же можно осуществить, например, путем выбора средней точки наименьшего отрезка, соединяющего две линии.

Аналогично двумерному случаю, триангуляция может потерпеть неудачу или может дать неправдоподобные результаты для некоторых сочетаний направлений, которые также можно пометить, например, для модуля 202 вычисления информации из фиг. 14.

Если существует более двух пространственных микрофонов, то возможно несколько решений. Например, объясненная выше триангуляция могла бы осуществляться для всех пар реальных пространственных микрофонов (если N=3, то 1 с 2, 1 с 3 и 2 с 3). Результирующие положения затем можно усреднить (по оси x и y, а если рассматривается три измерения - то z).

В качестве альтернативы могут использоваться более сложные идеи. Например, могут применяться вероятностные подходы, которые описаны в

[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.

В соответствии с вариантом осуществления звуковое поле можно анализировать в частотно-временной области, например, полученной посредством оконного преобразования Фурье (STFT), в котором k и n обозначают соответственно показатель k частоты и показатель n времени. Комплексное давление P_v(k, n) в произвольном положении p_v для некоторых k и n моделируется в виде одиночной сферической волны, излученной узкополосным изотропным точечным источником, например, путем применения формулы:

(1)

где P_IPLS(k, n) является сигналом, излученным IPLS в положении p_IPLS(k, n). Комплексный множитель γ(k, p_IPLS, p_v) выражает распространение от p_IPLS(k, n) до p_v, например, он вносит подходящие изменения фазы и величины. Здесь может применяться допущение, что в каждом элементе разрешения по времени/частоте активен только один IPLS. Тем не менее несколько узкополосных IPLS, расположенных в разных положениях, также могут быть активны в один момент времени.

Каждый IPLS моделирует либо прямой звук, либо отдельное отражение в помещении. Его положение p_IPLS(k, n) в идеале может соответствовать фактическому источнику звука, расположенному внутри помещения, либо источнику звука с зеркальным отражением, расположенному соответственно снаружи. Поэтому положение p_IPLS(k, n) также может указывать положение звукового события.

Обратите внимание, что термин "реальные источники звука" обозначает фактические источники звука, физически существующие в окружении записи, например музыкальные инструменты либо говорящие. Наоборот, с помощью "источников звука" или "звуковых событий" либо "IPLS" мы ссылаемся на действующие источники звука, которые активны в некоторые моменты времени или в некоторых элементах разрешения по времени/частоте, где источники звука могут, например, представлять реальные источники звука или источники с зеркальным отражением.

Фиг. 33a-33b иллюстрируют микрофонные решетки, локализующие источники звука. Локализованные источники звука могут иметь разные физические интерпретации в зависимости от их природы. Когда микрофонные решетки принимают прямой звук, они могут быть способны локализовать положение настоящего источника звука (например, говорящих). Когда микрофонные решетки принимают отражения, они могут локализовать положение источника с зеркальным отражением. Источники с зеркальным отражением также являются источниками звука.

Фиг. 33a иллюстрирует сценарий, где две микрофонные решетки 151 и 152 принимают прямой звук от фактического источника 153 звука (физически существующего источника звука).

Фиг. 33b иллюстрирует сценарий, где две микрофонные решетки 161, 162 принимают отраженный звук, где звук отражен стеной. Вследствие отражения микрофонные решетки 161, 162 локализуют положение, откуда, по-видимому, исходит звук, в положении источника 165 с зеркальным отражением, которое отличается от положения динамика 163.

Фактический источник 153 звука из фиг. 33a, а также источник 165 с зеркальным отражением являются источниками звука.

Фиг. 33c иллюстрирует сценарий, где две микрофонные решетки 171, 172 принимают диффузный звук и не способны локализовать источник звука.

Хотя эта одноволновая модель является точной только для умеренно реверберирующих окружений с учетом того, что сигналы источника выполняют условие непересекающейся W-ортогональности (WDO), то есть частотно-временное перекрытие достаточно небольшое. Это обычно справедливо для речевых сигналов, см., например,

[12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1.

Однако модель также предоставляет хорошую оценку для других окружений и поэтому также применима для тех окружений.

Ниже объясняется оценка положений p_IPLS(k, n) в соответствии с вариантом осуществления. Положение p_IPLS(k, n) активного IPLS в некотором элементе разрешения по времени/частоте, и соответственно оценка звукового события в элементе разрешения по времени/частоте, оценивается посредством триангуляции на основе направления прихода (DOA) звука, измеренного по меньшей мере в двух разных точках наблюдения.

Фиг. 17 иллюстрирует геометрию, где IPLS в текущем частотно-временном интервале (k, n) располагается в неизвестном положении p_IPLS(k, n). Чтобы определить необходимую информацию о DOA, применяются два реальных пространственных микрофона, здесь - две микрофонные решетки, имеющие известную геометрию, положение и ориентацию, которые помещаются в положения 610 и 620 соответственно. Векторы p₁ и p₂ указывают на положения 610, 620 соответственно. Ориентации решеток задаются единичными векторами c₁ и c₂. DOA звука определяется в положениях 610 и 620 для каждого (k, n), используя алгоритм оценки DOA, например, который предоставлен анализом DirAC (см. [2], [3]). При этом первый единичный вектор точки зрения и второй единичный вектор точки зрения по отношению к точке зрения микрофонных решеток (обе не показаны на фиг. 17) могут предоставляться в качестве результата анализа DirAC. Например, при работе в двух измерениях первый единичный вектор точки зрения приводит к:

(2)

Здесь ϕ₁(k, n) представляет азимут DOA, оцененного в первой микрофонной решетке, как изображено на фиг. 17. Соответствующие единичные векторы e₁(k, n) и e₂(k, n) DOA по отношению к глобальной системе координат в начале отсчета можно вычислить путем применения формул:

(3)

где R являются матрицами преобразования координат, например

(4)

при работе в двух измерениях, и . Для осуществления триангуляции векторы d₁(k, n) и d₂(k, n) направления могут вычисляться в виде:

(5)

где d₁(k, n)=||d₁(k, n)|| и d₂(k, n)=||d₂(k, n)|| являются неизвестными расстояниями между IPLS и двумя микрофонными решетками. Следующее уравнение

(6)

можно решить для d₁(k, n). В конечном счете положение p_IPLS(k, n) у IPLS имеет вид

(7)

В другом варианте осуществления уравнение (6) можно решить для d₂(k, n), и p_IPLS(k, n) по аналогии вычисляется с применением d₂(k, n).

Уравнение (6) всегда предоставляет решение при работе в двух измерениях, пока e₁(k, n) и e₂(k, n) не параллельны. Однако при использовании более двух микрофонных решеток или при работе в трех измерениях нельзя получить решение, когда векторы d направления не пересекаются. В соответствии с вариантом осуществления в этом случае вычисляется точка, которая является ближайшей ко всем векторам d направления, и результат может использоваться в качестве положения IPLS.

В варианте осуществления все точки p₁, p₂, … наблюдения следует располагать так, что звук, излученный IPLS, относится к одному и тому же временному блоку n. Это требование можно легко выполнить, когда расстояние Δ между любыми двумя точками наблюдения меньше

(8)

где n_FFT - длина окна STFT, 0≤R<1 задает перекрытие между последовательными периодами времени, а f_s - частота дискретизации. Например, для 1024-точечного STFT на 48 кГц с 50%-ным перекрытием (R=0,5) максимальное расстояние между решетками для выполнения вышеупомянутого требования равно Δ=3,65 м.

Ниже подробнее описывается модуль 202 вычисления информации, например модуль вычисления сигнала виртуального микрофона и дополнительной информации в соответствии с вариантом осуществления.

Фиг. 18 иллюстрирует схематическое общее представление о модуле 202 вычисления информации в соответствии с вариантом осуществления. Блок вычисления информации содержит компенсатор 500 распространения, объединитель 510 и блок 520 спектрального взвешивания. Модуль 202 вычисления информации принимает оценки ssp положения источника звука, оцененные блоком оценки положения звуковых событий, один или более входных аудиосигналов, записанных одним или несколькими реальными пространственными микрофонами, положения posRealMic одного или более реальных пространственных микрофонов и виртуальное положение posVmic виртуального микрофона. Он выводит выходной аудиосигнал os, представляющий аудиосигнал виртуального микрофона.

Фиг. 19 иллюстрирует модуль вычисления информации в соответствии с другим вариантом осуществления. Модуль вычисления информации из фиг. 19 содержит компенсатор 500 распространения, объединитель 510 и блок 520 спектрального взвешивания. Компенсатор 500 распространения содержит модуль 501 вычисления параметров распространения и модуль 504 компенсации распространения. Объединитель 510 содержит модуль 502 вычисления коэффициентов объединения и модуль 505 объединения. Блок 520 спектрального взвешивания содержит блок 503 вычисления спектральных весов, модуль 506 применения спектрального взвешивания и модуль 507 вычисления дополнительной пространственной информации.

Чтобы вычислить аудиосигнал виртуального микрофона, геометрическая информация, например положение и ориентация 121…12N реальных пространственных микрофонов, положение, ориентация и характеристики 104 виртуального пространственного микрофона и оценки 205 положений звуковых событий подаются в модуль 202 вычисления информации, в частности, в модуль 501 вычисления параметров распространения в компенсаторе 500 распространения, в модуль 502 вычисления коэффициентов объединения в объединителе 510 и в блок 503 вычисления спектральных весов в блоке 520 спектрального взвешивания. Модуль 501 вычисления параметров распространения, модуль 502 вычисления коэффициентов объединения и блок 503 вычисления спектральных весов вычисляют параметры, используемые при изменении аудиосигналов 111…11N в модуле 504 компенсации распространения, модуле 505 объединения и модуле 506 применения спектрального взвешивания.

В модуле 202 вычисления информации аудиосигналы 111…11N сначала можно изменить, чтобы компенсировать эффекты, обусловленные разными длинами распространения между положениями звуковых событий и реальными пространственными микрофонами. Сигналы затем можно объединить, чтобы повысить, например, отношение сигнал-шум (SNR). В конечном счете результирующий сигнал можно спектрально взвесить, чтобы принять во внимание диаграмму направленности виртуального микрофона, а также любую зависимую от расстояния функцию усиления. Эти три этапа подробнее обсуждаются ниже.

Теперь подробнее объясняется компенсация распространения. В верхней части фиг. 20 иллюстрируются два реальных пространственных микрофона (первая микрофонная решетка 910 и вторая микрофонная решетка 920), положение 930 локализованного звукового события для элемента разрешения по времени/частоте (k, n) и положение 940 виртуального пространственного микрофона.

Нижняя часть фиг. 20 изображает временную ось. Предполагается, что звуковое событие излучается в момент t0, а затем распространяется к реальному и виртуальному пространственным микрофонам. Временные задержки прихода, а также амплитуды меняются с расстоянием, так что чем больше длина распространения, тем слабее амплитуда и длиннее временная задержка прихода.

Сигналы в двух реальных решетках сопоставимы, только если относительная задержка Dt12 между ними небольшая. В противном случае один из двух сигналов нужно повторно синхронизировать во времени, чтобы компенсировать относительную задержку Dt12, и по возможности масштабировать, чтобы компенсировать иные затухания.

Компенсация задержки между приходом в виртуальный микрофон и приходом в реальные микрофонные решетки (в один из реальных пространственных микрофонов) изменяет задержку независимо от локализации звукового события, делая ее избыточной для большинства применений.

Возвращаясь к фиг. 19, модуль 501 вычисления параметров распространения приспособлен для вычисления задержек, которые будут скорректированы для каждого реального пространственного микрофона и для каждого звукового события. При желании он также вычисляет коэффициенты усиления, которые будут учитываться для компенсации других затуханий амплитуды.

Модуль 504 компенсации распространения сконфигурирован для использования этой информации для соответственного изменения аудиосигналов. Если сигналы нужно сдвинуть не небольшое количество времени (по сравнению с временным промежутком блока фильтров), то достаточно простого чередования фаз. Если задержки больше, то необходимы более сложные реализации.

Выходом модуля 504 компенсации распространения являются измененные аудиосигналы, выраженные в исходной частотно-временной области.

Ниже будет описываться конкретная оценка компенсации распространения для виртуального микрофона в соответствии с вариантом осуществления со ссылкой на фиг. 17, которая, среди прочего, иллюстрирует положение 610 первого реального пространственного микрофона и положение 620 второго реального пространственного микрофона.

В варианте осуществления, который теперь объясняется, предполагается, что доступен по меньшей мере первый записанный входной аудиосигнал, например сигнал давления по меньшей мере одного из реальных пространственных микрофонов (например, микрофонных решеток), например, сигнал давления первого реального пространственного микрофона. Мы будем называть рассматриваемый микрофон эталонным микрофоном, его положение - исходным положением p_ref, а его сигнал давления - сигналом P_ref(k, n) эталонного давления. Однако компенсация распространения может проводиться не только относительно одного сигнала давления, но также относительно сигналов давления множества или всех реальных пространственных микрофонов.

Взаимосвязь между сигналом P_IPLS(k, n) давления, излученным IPLS, и сигналом P_ref(k, n) эталонного давления эталонного микрофона, расположенного в p_ref, может выражаться формулой (9):

(9)

Вообще, комплексный множитель γ(k, p_a, p_b) выражает чередование фаз и затухание амплитуды, привнесенные распространением сферической волны от ее начала в p_a до p_b. Однако практические испытания указали, что принятие во внимание только затухания амплитуды в γ приводит к правдоподобным восприятиям сигнала виртуального микрофона со значительно меньшими артефактами по сравнению с принятием во внимание также чередования фаз.

Звуковая энергия, которую можно измерить в некоторой точке пространства, сильно зависит от расстояния r от источника звука, на фиг. 6 - от положения p_IPLS источника звука. Во многих ситуациях эту зависимость можно смоделировать с достаточной точностью, используя общеизвестные физические принципы, например затухание 1/r звукового давления в дальней зоне точечного источника. Когда известно расстояние эталонного микрофона, например, первого реального микрофона от источника звука, и когда также известно расстояние виртуального микрофона от источника звука, тогда звуковая энергия в положении виртуального микрофона может оцениваться из сигнала и энергии эталонного микрофона, например первого реального пространственного микрофона. Это означает, что выходной сигнал виртуального микрофона можно получить путем применения надлежащих усилений к сигналу эталонного давления.

Предполагая, что первый реальный пространственный микрофон является эталонным микрофоном, имеем p_ref=p₁. На фиг. 17 виртуальный микрофон располагается в p_v. Поскольку геометрия на фиг. 17 подробно известна, можно легко определить расстояние d₁(k, n)=||d₁(k, n)|| между эталонным микрофоном (на фиг. 17: первый реальный пространственный микрофон) и IPLS, а также расстояние s(k, n)=||s(k, n)|| между виртуальным микрофоном и IPLS, а именно

(10)

Звуковое давление P_v(k, n) в положении виртуального микрофона вычисляется путем объединения формул (1) и (9), приходя к

(11)

Как упоминалось выше, в некоторых вариантах осуществления множители γ могут учитывать только затухание амплитуды из-за распространения. Предполагая, например, что звуковое давление уменьшается с 1/r, имеем

(12)

Когда действует модель в формуле (1), например, когда присутствует только прямой звук, тогда формула (12) может точно восстановить информацию о величине. Однако в случае чисто диффузных звуковых полей, например, когда допущения модели не выполняются, представленный способ приводит к неявному подавлению реверберации сигнала при удалении виртуального микрофона от положений матриц датчиков. Фактически, как обсуждалось выше, в диффузных звуковых полях мы предполагаем, что большинство IPLS локализуются возле двух матриц датчиков. Таким образом, при удалении виртуального микрофона от этих положений мы, вероятно, увеличиваем расстояние s=||s|| на фиг. 17. Поэтому величина эталонного давления уменьшается при применении взвешивания в соответствии с формулой (11). Соответственно, при приближении виртуального микрофона к фактическому источнику звука элементы разрешения по времени/частоте, соответствующие прямому звуку, будут усилены так, что общий аудиосигнал будет восприниматься менее диффузным. Регулируя правило в формуле (12), можно по желанию управлять усилением прямого звука и подавлением диффузного звука.

В результате проведения компенсации распространения над записанным входным аудиосигналом (например, сигналом давления) первого реального пространственного микрофона получается первый модифицированный аудиосигнал.

В вариантах осуществления второй модифицированный аудиосигнал можно получить путем проведения компенсации распространения над записанным вторым входным аудиосигналом (вторым сигналом давления) второго реального пространственного микрофона.

В других вариантах осуществления дополнительные аудиосигналы можно получить путем проведения компенсации распространения над записанными дополнительными входными аудиосигналами (дополнительными сигналами давления) дополнительных реальных пространственных микрофонов.

Теперь подробнее объясняется объединение в блоках 502 и 505 на фиг. 19 в соответствии с вариантом осуществления. Предполагается, что два или более аудиосигналов от множества разных реальных пространственных микрофонов изменены, чтобы компенсировать разные трассы распространения для получения двух или более измененных аудиосигналов. Как только аудиосигналы от разных реальных пространственных микрофонов изменены, чтобы компенсировать разные трассы распространения, их можно объединить для повышения качества аудиосигнала. При этом, например, может повыситься SNR, или может уменьшиться реверберация.

Возможные решения для объединения содержат:

- Взвешенное усреднение, например, принимающее во внимание SNR, или расстояние до виртуального микрофона, или диффузность, которая оценивалась реальными пространственными микрофонами. Могут применяться традиционные решения, например, Оптимальное сложение (MRC) или Линейное сложение (EQC), либо

- Линейная комбинация некоторых или всех измененных аудиосигналов для получения объединенного сигнала. Измененные аудиосигналы могут взвешиваться в линейной комбинации для получения объединенного сигнала, либо

- Выбор, например, используется только один сигнал, например, зависимый от SNR, или расстояния, или диффузности.

Задачей модуля 502 является, если применимо, вычисление параметров для объединения, которое осуществляется в модуле 505.

Теперь подробнее описывается спектральное взвешивание в соответствии с вариантами осуществления. Для этого ссылаются на блоки 503 и 506 из фиг. 19. На этом заключительном этапе аудиосигнал, получающийся в результате объединения или компенсации распространения входных аудиосигналов, взвешивается в частотно-временной области в соответствии с пространственными характеристиками виртуального пространственного микрофона, которые заданы входом 104, и/или в соответствии с восстановленной геометрией (заданной в 205).

Для каждого элемента разрешения по времени/частоте геометрическое восстановление позволяет без труда получить DOA относительно виртуального микрофона, как показано на фиг. 21. Кроме того, также можно легко вычислить расстояние между виртуальным микрофоном и положением звукового события.

Затем вычисляется вес для элемента разрешения по времени/частоте, принимая во внимание тип нужного виртуального микрофона.

В случае направленных микрофонов спектральные веса можно вычислить в соответствии с предопределенной диаграммой направленности. Например, в соответствии с вариантом осуществления кардиоидный микрофон может иметь диаграмму направленности, заданную функцией g(тета),

g(тета)=0,5+0,5 cos(тета),

где тета является углом между направлением обзора виртуального пространственного микрофона и DOA звука с точки зрения виртуального микрофона.

Другой возможностью являются функции художественного (нефизического) затухания. В некоторых применениях может быть нужно подавить звуковые события далеко от виртуального микрофона с коэффициентом больше коэффициента, характеризующего распространение в свободном поле. С этой целью некоторые варианты осуществления вводят дополнительную весовую функцию, которая зависит от расстояния между виртуальным микрофоном и звуковым событием. В варианте осуществления следует фиксировать только звуковые события в пределах некоторого расстояния (например, в метрах) от виртуального микрофона.

По отношению к направленности виртуального микрофона могут применяться произвольные диаграммы направленности для виртуального микрофона. Тем самым можно, например, выделить источник из сложной звуковой сцены.

Поскольку DOA звука может вычисляться в положении p_v виртуального микрофона, а именно

(13)

где c_v является единичным вектором, описывающим ориентацию виртуального микрофона, можно реализовать произвольные направленности для виртуального микрофона. Например, предполагая, что P_v(k, n) указывает объединенный сигнал или модифицированный аудиосигнал с компенсацией распространения, формула:

(14)

вычисляет выход виртуального микрофона с кардиоидной направленностью. Диаграммы направленности, которые потенциально можно сформировать таким образом, зависят от точности оценки положения.

В вариантах осуществления один или более реальных, непространственных микрофонов, например всенаправленный микрофон или направленный микрофон, например кардиоидный, помещаются в звуковую сцену в дополнение к реальным пространственным микрофонам, чтобы дополнительно повысить качество звука у сигналов 105 виртуального микрофона на фиг. 8. Эти микрофоны не используются для сбора никакой геометрической информации, а точнее, только для предоставления более чистого аудиосигнала. Эти микрофоны можно поместить ближе к источникам звука, чем пространственные микрофоны. В этом случае в соответствии с вариантом осуществления аудиосигналы реальных, непространственных микрофонов и их положения просто подаются в модуль 504 компенсации распространения из фиг. 19 для обработки вместо аудиосигналов реальных пространственных микрофонов. Затем проводится компенсация распространения для одного или более записанных аудиосигналов непространственных микрофонов по отношению к положению одного или более непространственных микрофонов. При этом вариант осуществления реализуется с использованием дополнительных непространственных микрофонов.

В дополнительном варианте осуществления реализуется вычисление дополнительной пространственной информации виртуального микрофона. Чтобы вычислить дополнительную пространственную информацию 106 микрофона, модуль 202 вычисления информации из фиг. 19 содержит модуль 507 вычисления дополнительной пространственной информации, который приспособлен для приема, в качестве входа, положений 205 источников звука и положения, ориентации и характеристик 104 виртуального микрофона. В некоторых вариантах осуществления в соответствии с дополнительной информацией 106, которую нужно вычислить, аудиосигнал 105 виртуального микрофона также можно принять во внимание в качестве входа в модуль 507 вычисления дополнительной пространственной информации.

Выходом модуля 507 вычисления дополнительной пространственной информации является дополнительная информация 106 виртуального микрофона. Эта дополнительная информация, например, может быть DOA или диффузностью звука для каждого элемента разрешения по времени/частоте (k, n) с точки зрения виртуального микрофона. Другая возможная дополнительная информация могла бы быть, например, вектором Ia(k, n) активной интенсивности звука, который был бы измерен в положении виртуального микрофона. Сейчас будет описываться то, как можно вывести эти параметры.

В соответствии с вариантом осуществления реализуется оценка DOA для виртуального пространственного микрофона. Модуль 120 вычисления информации приспособлен для оценивания, в качестве дополнительной пространственной информации, направления прихода в виртуальный микрофон на основе вектора положения виртуального микрофона и на основе вектора положения звукового события, как проиллюстрировано фиг. 22.

Фиг. 22 изображает возможный способ выведения DOA звука с точки зрения виртуального микрофона. Положение 205 звукового события, предоставленное блоком на фиг. 19, можно описать для каждого элемента разрешения по времени/частоте (k, n) с помощью вектора r(k, n) положения, вектора положения звукового события. Аналогичным образом положение виртуального микрофона, предоставленное в виде входа 104 на фиг. 19, можно описать с помощью вектора s(k, n) положения, вектора положения виртуального микрофона. Направление обзора виртуального микрофона можно описать вектором v(k, n). DOA относительно виртуального микрофона имеет вид a(k, n). Оно представляет собой угол между v и трассой h(k, n) распространения звука. h(k, n) может вычисляться путем применения формулы:

Нужное DOA a(k, n) теперь можно вычислить для каждого (k, n), например, посредством определения скалярного произведения h(k, n) и v(k, n), а именно

В другом варианте осуществления модуль 120 вычисления информации может быть приспособлен для оценивания, в качестве дополнительной пространственной информации, активной интенсивности звука в виртуальном микрофоне на основе вектора положения виртуального микрофона и на основе вектора положения звукового события, как проиллюстрировано фиг. 22.

Из заданного выше DOA a(k, n) мы можем вывести активную интенсивность звука Ia(k, n) в положении виртуального микрофона. Для этого предполагается, что аудиосигнал 105 виртуального микрофона на фиг. 19 соответствует выходу всенаправленного микрофона, например, мы предполагаем, что виртуальный микрофон является всенаправленным микрофоном. Кроме того, направление v обзора на фиг. 22 предполагается параллельным оси x системы координат. Поскольку нужный вектор Ia(k, n) активной интенсивности звука описывает чистый поток энергии через положение виртуального микрофона, мы можем вычислить Ia(k, n), например, в соответствии с формулой:

где []^T обозначает транспонированный вектор, rho является плотностью воздуха, а P_v(k, n) является звуковым давлением, измеренным виртуальным пространственным микрофоном, например, выходом 105 блока 506 на фиг. 19.

Если вектор активной интенсивности будет вычисляться выраженным в общей системе координат, но по-прежнему в положении виртуального микрофона, то может применяться следующая формула:

Диффузность звука выражает то, насколько диффузным является звуковое поле в данном частотно-временном интервале (см., например, [2]). Диффузность выражается значением ψ, где 0≤ψ≤1. Диффузность, равная 1, указывает, что полная энергия звукового поля у звукового поля полностью диффузна. Эта информация важна, например, при воспроизведении пространственного звука. Традиционно диффузность вычисляется в определенной точке пространства, в которую помещается микрофонная решетка.

В соответствии с вариантом осуществления диффузность можно вычислить в качестве дополнительного параметра к дополнительной информации, сформированной для Виртуального Микрофона (VM), который можно по желанию поместить в произвольное положение в звуковой сцене. При этом устройство, которое также вычисляет диффузность аудиосигнала в виртуальном положении виртуального микрофона, можно рассматривать как виртуальный внешний интерфейс DirAC, так как возможно создавать поток DirAC, а именно аудиосигнал, направление прихода и диффузность для произвольной точки в звуковой сцене. Поток DirAC можно дополнительно обрабатывать, сохранять, передавать и воспроизводить на произвольной схеме с несколькими громкоговорителями. В этом случае слушатель ощущает звуковую сцену, как если бы он или она находились в положении, заданном виртуальным микрофоном, и смотрели в направлении, определенном его ориентацией.

Фиг. 23 иллюстрирует блок вычисления информации в соответствии с вариантом осуществления, содержащий блок 801 вычисления диффузности для вычисления диффузности в виртуальном микрофоне. Блок 202 вычисления информации приспособлен для приема входов с 111 по 11N, которые в дополнение к входам из фиг. 14 также включают в себя диффузность в реальных пространственных микрофонах. Пусть ψ^(SM1) по ψ^(SMN) обозначают эти значения. Эти дополнительные входы подаются в модуль 202 вычисления информации. Выходом 103 блока 801 вычисления диффузности является параметр диффузности, вычисленный в положении виртуального микрофона.

Блок 801 вычисления диффузности из варианта осуществления иллюстрируется на фиг. 24, изображающей больше подробностей. В соответствии с вариантом осуществления оценивается энергия прямого и диффузного звука в каждом из N пространственных микрофонов. Затем, используя информацию о положениях IPLS и информацию о положениях пространственного и виртуального микрофонов, получаются N оценок этих энергий в положении виртуального микрофона. В конечном счете оценки можно объединить для повышения точности оценки, и можно легко вычислить параметр диффузности в виртуальном микрофоне.

Пусть до и до обозначают оценки энергий прямого и диффузного звука для N пространственных микрофонов, вычисленные блоком 810 анализа энергии. Если P_i является сигналом комплексного давления, а ψ_i является диффузностью для i-го пространственного микрофона, то энергии можно вычислить, например, в соответствии с формулами:

Энергия диффузного звука должна быть одинаковой во всех положениях, поэтому оценку энергии диффузного звука в виртуальном микрофоне можно вычислить просто путем усреднения до , например в блоке 820 объединения диффузности, например в соответствии с формулой:

Более эффективное объединение оценок до можно было бы осуществить, принимая во внимание дисперсию блоков оценки, например, принимая во внимание SNR.

Энергия прямого звука зависит от расстояния до источника из-за распространения. Следовательно, до можно изменить, чтобы принять это во внимание. Это может осуществляться, например, блоком 830 регулировки распространения прямого звука. Например, если предполагается, что энергия прямого звукового поля затухает с квадратом 1, деленной на расстояние, то оценка для прямого звука в виртуальном микрофоне для i-го пространственного микрофона может вычисляться в соответствии с формулой:

Аналогично блоку 820 объединения диффузности, оценки энергии прямого звука, полученные в разных пространственных микрофонах, можно объединить, например, с помощью блока 840 объединения прямого звука. Результатом является , например, оценка для энергии прямого звука в виртуальном микрофоне. Диффузность ψ^(VM) в виртуальном микрофоне можно вычислить, например, с помощью подвычислителя 850 диффузности, например в соответствии с формулой:

Как упоминалось выше, в некоторых случаях оценка положения звуковых событий, осуществляемая блоком оценки положения звуковых событий, терпит неудачу, например, в случае неверной оценки направления прихода. Фиг. 25 иллюстрирует такой сценарий. В этих случаях независимо от параметров диффузности, оцененных в другом пространственном микрофоне и принятых в качестве входов с 111 по 11N, диффузность 103 для виртуального микрофона можно установить в 1 (то есть полностью диффузная), так как невозможно никакое пространственно-когерентное воспроизведение.

Более того, можно принимать во внимание надежность оценок DOA в N пространственных микрофонах. Это может выражаться, например, в виде дисперсии блока оценки DOA или SNR. Такая информация может приниматься во внимание подвычислителем 850 диффузности, чтобы можно было искусственно увеличить диффузность 103 VM, если оценки DOA ненадежны. Фактически, в результате также будут ненадежными оценки 205 положений.

Фиг. 2a иллюстрирует устройство 150 для формирования по меньшей мере одного выходного аудиосигнала на основе потока аудиоданных, содержащего аудиоданные, относящиеся к одному или нескольким источникам звука, в соответствии с вариантом осуществления.

Устройство 150 содержит приемник 160 для приема потока аудиоданных, содержащего аудиоданные. Аудиоданные содержат одно или более значений давления для каждого из одного или более источников звука. Кроме того, аудиоданные содержат одно или более значений положения, указывающих положение одного из источников звука для каждого из источников звука. Кроме того, устройство содержит модуль 170 синтеза для формирования по меньшей мере одного выходного аудиосигнала на основе по меньшей мере одного из одного или более значений давления в аудиоданных в потоке аудиоданных и на основе по меньшей мере одного из одного или более значений положения в аудиоданных в потоке аудиоданных. Аудиоданные задаются для элемента разрешения по времени/частоте множества элементов разрешения по времени/частоте. Для каждого из источников звука в аудиоданных содержится по меньшей мере одно значение давления, где по меньшей мере одно значение давления может быть значением давления, относящимся к излученной звуковой волне, например, возникающей из источника звука. Значение давления может быть значением аудиосигнала, например, значением давления выходного аудиосигнала, сформированного устройством для формирования выходного аудиосигнала виртуального микрофона, где виртуальный микрофон помещается в положение источника звука.

Таким образом, фиг. 2a иллюстрирует устройство 150, которое может применяться для приема или обработки упомянутого потока аудиоданных, то есть устройство 150 может применяться на стороне приемника/синтеза. Поток аудиоданных содержит аудиоданные, которые содержат одно или более значений давления и одно или более значений положения для каждого из множества источников звука, то есть каждое из значений давления и значений положения относится к конкретному источнику звука из одного или более источников звука в записанной звуковой сцене. Это означает, что значения положения указывают положения источников звука вместо записывающих микрофонов. По отношению к значению давления это означает, что поток аудиоданных содержит одно или более значений давления для каждого из источников звука, то есть значения давления указывают аудиосигнал, который имеет отношение к источнику звука, а не к записи реального пространственного микрофона.

В соответствии с вариантом осуществления приемник 160 может быть приспособлен для приема потока аудиоданных, содержащего аудиоданные, где аудиоданные, кроме того, содержат одно или более значений диффузности для каждого из источников звука. Модуль 170 синтеза может быть приспособлен для формирования по меньшей мере одного выходного аудиосигнала на основе по меньшей мере одного из одного или более значений диффузности.

Фиг. 2b иллюстрирует устройство 200 для формирования потока аудиоданных, содержащего данные источника звука, относящиеся к одному или нескольким источникам звука, в соответствии с вариантом осуществления. Устройство 200 для формирования потока аудиоданных содержит блок 210 определения для определения данных источника звука на основе по меньшей мере одного входного аудиосигнала, записанного по меньшей мере одним пространственным микрофоном, и на основе дополнительной аудиоинформации, предоставленной по меньшей мере двумя пространственными микрофонами. Кроме того, устройство 200 содержит генератор 220 потока данных для формирования потока аудиоданных, так что поток аудиоданных содержит данные источника звука. Данные источника звука содержат одно или более значений давления для каждого из источников звука. Кроме того, данные источника звука содержат одно или более значений положения, указывающих положение источника звука для каждого из источников звука. Кроме того, данные источника звука задаются для элемента разрешения по времени/частоте множества элементов разрешения по времени/частоте.

Поток аудиоданных, сформированный устройством 200, затем можно передавать. Таким образом, устройство 200 может применяться на стороне анализа/передатчика. Поток аудиоданных содержит аудиоданные, которые содержат одно или более значений давления и одно или более значений положения для каждого из множества источников звука, то есть каждое из значений давления и значений положения относится к конкретному источнику звука из одного или более источников звука в записанной звуковой сцене. По отношению к значениям положения это означает, что значения положения указывают положения источников звука вместо записывающих микрофонов.

В дополнительном варианте осуществления блок 210 определения может быть приспособлен для определения данных источника звука на основе информации о диффузности с помощью по меньшей мере одного пространственного микрофона. Генератор 220 потока данных может быть приспособлен для формирования потока аудиоданных, так что поток аудиоданных содержит данные источника звука. Данные источника звука, кроме того, содержат одно или более значений диффузности для каждого из источников звука.

Фиг. 3a иллюстрирует поток аудиоданных в соответствии с вариантом осуществления. Поток аудиоданных содержит аудиоданные, относящиеся к двум источникам звука, активным в одном элементе разрешения по времени/частоте. В частности, фиг. 3a иллюстрирует аудиоданные, которые передаются для элемента разрешения по времени/частоте (k, n), где k обозначает показатель частоты, а n обозначает показатель времени. Аудиоданные содержат значение P1 давления, значение Q1 положения и значение ψ1 диффузности первого источника звука. Значение Q1 положения содержит три значения X1, Y1 и Z1 координат, указывающие положение первого источника звука. Кроме того, аудиоданные содержат значение P2 давления, значение Q2 положения и значение ψ2 диффузности второго источника звука. Значение Q2 положения содержит три значения X2, Y2 и Z2 координат, указывающие положение второго источника звука.

Фиг. 3b иллюстрирует аудиопоток в соответствии с другим вариантом осуществления. Опять аудиоданные содержат значение P1 давления, значение Q1 положения и значение ψ1 диффузности первого источника звука. Значение Q1 положения содержит три значения X1, Y1 и Z1 координат, указывающие положение первого источника звука. Кроме того, аудиоданные содержат значение P2 давления, значение Q2 положения и значение ψ2 диффузности второго источника звука. Значение Q2 положения содержит три значения X2, Y2 и Z2 координат, указывающие положение второго источника звука.

Фиг. 3c предоставляет другую иллюстрацию потока аудиоданных. Так как поток аудиоданных предоставляет информацию пространственного аудиокодирования на основе геометрии (GAC), он также называется "потоком пространственного аудиокодирования на основе геометрии" или "потоком GAC". Поток аудиоданных содержит информацию, которая относится к одному или нескольким источникам звука, например одному или нескольким изотропным точечным источникам (IPLS). Как уже объяснялось выше, поток GAC может содержать следующие сигналы, где k и n обозначают показатель частоты и показатель времени у рассматриваемого элемента разрешения по времени/частоте:

P(k, n): комплексное давление в источнике звука, например в IPLS. Этот сигнал, возможно, содержит прямой звук (звук, возникающий из самого IPLS) и диффузный звук.

Q(k, n): положение (например, декартовы координаты в трех измерениях) источника звука, например IPLS. Положение может содержать, например, декартовы координаты X(k, n), Y(k, n), Z(k, n).

Диффузность в IPLS: ψ(k, n). Этот параметр имеет отношение к отношению мощностей прямого и диффузного звука, содержащихся в P(k, n). Если P(k, n)=P_dir(k, n)+P_diff(k, n), то одной возможностью выразить диффузность является ψ(k, n)=|P_diff(k, n)|²/|P(k, n)|². Если известно |P(k, n)|², то возможны другие эквивалентные представления, например, Отношение прямого к диффузному (DDR) γ=|Pdir(k, n)|²/|Pdiff(k, n)|².

Как уже определено, k и n обозначают показатели частоты и времени соответственно. При желании и если позволяет анализ, то в заданном частотно-временном интервале можно представить более одного IPLS. Это изображается на фиг. 3c в виде нескольких (M) уровней, так что сигнал давления для i-го уровня (то есть для i-го IPLS) обозначается с помощью P_i(k, n). Для удобства положение IPLS может выражаться в виде вектора Q_i(k, n)=[X_i(k, n), Y_i(k, n), Z_i(k, n)]^T. В отличие от существующего уровня техники, все параметры в потоке GAC выражаются относительно одного или более источников звука, например относительно IPLS, соответственно добиваясь независимости от положения записи. На фиг. 3c, а также на фиг. 3a и 3b все величины на фигуре рассматриваются в частотно-временной области; нотацией (k, n) пренебрегли для простоты, например, P_i означает P_i(k, n), например P_i=P_i(k, n).

Ниже подробнее объясняется устройство для формирования потока аудиоданных в соответствии с вариантом осуществления. Как и устройство из фиг. 2b, устройство из фиг. 4 содержит блок 210 определения и генератор 220 потока данных, который может быть аналогичен блоку 210 определения. Так как блок определения анализирует входные аудиоданные для определения данных источника звука, на основе которых генератор потока данных формирует поток аудиоданных, блок определения и генератор потока данных вместе могут называться "модулем анализа" (см. модуль 410 анализа на фиг. 4).

Модуль 410 анализа вычисляет поток GAC из записей N пространственных микрофонов. Возможны разные способы анализа в зависимости от нужного количества M уровней (например, количества источников звука, для которых должна содержаться информация в потоке аудиоданных для конкретного элемента разрешения по времени/частоте), типа и количества N пространственных микрофонов. Ниже приводится несколько примеров.

В качестве первого примера рассматривается оценка параметров для одного источника звука, например одного IPLS, на частотно-временной интервал. В случае M=1 поток GAC можно легко получить с помощью идей, объясненных выше для устройства для формирования выходного аудиосигнала виртуального микрофона, в которых виртуальный пространственный микрофон можно поместить в положение источника звука, например в положение IPLS. Это позволяет вычислить сигналы давления в положении IPLS вместе с соответствующими оценками положений, и по возможности с диффузностью. Эти три параметра группируются в поток GAC, и ими может дополнительно манипулировать модуль 102 на фиг. 8 перед их передачей или сохранением.

Например, блок определения может определять положение источника звука путем применения идей, предложенных для оценки положения звуковых событий в устройстве для формирования выходного аудиосигнала виртуального микрофона. Кроме того, блок определения может содержать устройство для формирования выходного аудиосигнала и может использовать определенное положение источника звука в качестве положения виртуального микрофона, чтобы вычислить значения давления (например, значения выходного аудиосигнала, который должен быть сформирован) и диффузность в положении источника звука.

В частности, блок 210 определения (например, на фиг. 4) сконфигурирован для определения сигналов давления, соответствующих оценок положений и соответствующей диффузности, тогда как генератор 220 потока данных сконфигурирован для формирования потока аудиоданных на основе вычисленных сигналов давления, оценок положений и диффузности.

В качестве другого примера рассматривается оценка параметров для 2 источников звука, например 2 IPLS, на частотно-временной интервал. Если модулю 410 анализа нужно оценивать два источника звука на элемент разрешения по времени/частоте, то может использоваться следующая идея на основе современных блоков оценки.

Фиг. 5 иллюстрирует звуковую сцену, состоящую из двух источников звука и двух однородных линейных микрофонных решеток. Приводится ссылка на ESPRIT, см.

[26] R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37(7):984-995, July 1989.

ESPRIT ([26]) может применяться отдельно в каждой решетке, чтобы получить две оценки DOA для каждого элемента разрешения по времени/частоте в каждой решетке. Из-за неопределенности образования пар это приводит к двум возможным решениям для положения источников. Как видно из фиг. 5, два возможных решения задаются с помощью (1, 2) и (1’, 2’). Чтобы устранить эту неопределенность, может применяться следующее решение. Сигнал, излученный в каждом источнике, оценивается с использованием формирователя пучка, ориентированного в направлении оцененных положений источников, и применения надлежащего коэффициента, чтобы компенсировать распространение (например, умножение на обратную величину затухания, испытываемого волной). Это может выполняться для каждого источника в каждой решетке для каждого из возможных решений. Затем мы можем задать ошибку оценки для каждой пары источников (i, j) в виде:

(1)

где (i, j)∈{(1, 2), (1’, 2’)} (см. фиг. 5), а P_i,1 означает компенсированную мощность сигнала, наблюдаемую решеткой r из источника i звука. Эта ошибка минимальна для пары настоящих источников звука. Как только решается проблема образования пар и вычисляются правильные оценки DOA, эти оценки группируются вместе с соответствующими сигналами давления и оценками диффузности в поток GAC. Сигналы давления и оценки диффузности можно получить с использованием такого же способа, уже описанного для оценки параметров для одного источника звука.

Фиг. 6a иллюстрирует устройство 600 для формирования по меньшей мере одного выходного аудиосигнала на основе потока аудиоданных в соответствии с вариантом осуществления. Устройство 600 содержит приемник 610 и модуль 620 синтеза. Приемник 610 содержит модуль 630 модифицирования для модифицирования аудиоданных в принятом потоке аудиоданных путем изменения по меньшей мере одного из значений давления в аудиоданных, по меньшей мере одного из значений положения в аудиоданных или по меньшей мере одного из значений диффузности в аудиоданных, относящихся по меньшей мере к одному из источников звука.

Фиг. 6b иллюстрирует устройство 660 для формирования потока аудиоданных, содержащего данные источника звука, относящиеся к одному или нескольким источникам звука, в соответствии с вариантом осуществления. Устройство для формирования потока аудиоданных содержит блок 670 определения, генератор 680 потока данных и, кроме того, модуль 690 модифицирования для модифицирования потока аудиоданных, сформированного генератором потока данных, путем изменения по меньшей мере одного из значений давления в аудиоданных, по меньшей мере одного из значений положения в аудиоданных или по меньшей мере одного из значений диффузности в аудиоданных, относящихся по меньшей мере к одному из источников звука.

Тогда как модуль 630 модифицирования из фиг. 6a применяется на стороне приемника/синтеза, модуль 690 модифицирования из фиг. 6b применяется на стороне передатчика/анализа.

Изменения потока аудиоданных, проводимые модулями 630, 690 модифицирования, также можно рассматривать как модифицирования звуковой сцены. Таким образом, модули 630, 690 модифицирования также могут называться модулями манипуляции звуковой сценой.

Представление звукового поля, предоставленное потоком GAC, делает возможным разные виды изменений потока аудиоданных, то есть, как следствие, манипуляции звуковой сценой. Некоторыми примерами в этом смысле являются:

1. Расширение произвольных участков пространства/объемов в звуковой сцене (например, расширение точечного источника звука, чтобы заставить его казаться слушателю шире);

2. Преобразование выбранного участка пространства/объема в любой другой произвольный участок пространства/объема в звуковой сцене (преобразованное пространство/объем могло бы, например, содержать источник, который необходимо переместить в новое место);

3. Фильтрация на основе положения, где выбранные области звуковой сцены усиливаются или частично/полностью подавляются

В дальнейшем уровень потока аудиоданных, например потока GAC, предполагается содержащим все аудиоданные одного из источников звука по отношению к конкретному элементу разрешения по времени/частоте.

Фиг. 7 изображает модуль модифицирования в соответствии с вариантом осуществления. Блок изменения из фиг. 7 содержит демультиплексор 401, процессор 420 манипуляций и мультиплексор 405.

Демультиплексор 401 сконфигурирован для выделения разных уровней из M-уровневого потока GAC и образования M одноуровневых потоков GAC. Кроме того, процессор 420 манипуляций содержит блоки 402, 403 и 404, которые применяются отдельно к каждому из потоков GAC. Кроме того, мультиплексор 405 сконфигурирован для образования результирующего M-уровневого потока GAC из одноуровневых потоков GAC после манипуляции.

На основе данных о положении из потока GAC и сведений о положении реальных источников (например, говорящих) можно ассоциировать энергию с некоторым реальным источником для каждого элемента разрешения по времени/частоте. Значения P давления затем соответственно взвешиваются, чтобы изменить громкость соответствующего реального источника (например, говорящего). Это требует априорной информации или оценки места реальных источников звука (например, говорящих).

В некоторых вариантах осуществления, если доступны сведения о положении реальных источников, то на основе данных о положении из потока GAC можно ассоциировать энергию с некоторым реальным источником для каждого элемента разрешения по времени/частоте.

Манипуляция потоков аудиоданных, например потоком GAC, может происходить в модуле 630 модифицирования в устройстве 600 для формирования по меньшей мере одного выходного аудиосигнала из фиг. 6a, то есть на стороне приемника/синтеза, и/или в модуле 690 модифицирования в устройстве 660 для формирования потока аудиоданных из фиг. 6b, то есть на стороне передатчика/анализа.

Например, поток аудиоданных, то есть поток GAC, можно изменить перед передачей или перед синтезом после передачи.

В отличие от модуля 630 модифицирования из фиг. 6a на стороне приемника/синтеза, модуль 690 модифицирования из фиг. 6b на стороне передатчика/анализа может использовать дополнительную информацию из входов 111 по 11N (записанные сигналы) и 121 по 12N (относительное положение и ориентация пространственных микрофонов), так как эта информация доступна на стороне передатчика. Используя эту информацию, можно реализовать блок изменения в соответствии с альтернативным вариантом осуществления, который изображается на фиг. 8.

Фиг. 9 изображает вариант осуществления путем иллюстрации схематического общего представления о системе, где поток GAC формируется на стороне передатчика/анализа, где при желании поток GAC можно изменить с помощью модуля 102 изменения на стороне передатчика/анализа, где поток GAC при желании можно изменить на стороне приемника/синтеза с помощью модуля 103 изменения, и где поток GAC используется для формирования множества выходных аудиосигналов 191…19L.

На стороне передатчика/анализа представление звукового поля (например, поток GAC) вычисляется в блоке 101 из входов 111 по 11N, то есть сигналов, записанных с помощью N≥2 пространственных микрофонов, и из входов 121 по 12N, то есть относительного положения и ориентации пространственных микрофонов.

Выходом блока 101 является вышеупомянутое представление звукового поля, которое ниже обозначается потоком пространственного аудиокодирования на основе геометрии (GAC). Аналогично предложению в

[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA’11), Edinburgh, United Kingdom, May 2011.

и как описано для устройства для формирования выходного аудиосигнала виртуального микрофона в конфигурируемом виртуальном положении, сложная звуковая сцена моделируется посредством источников звука, например изотропных точечных источников звука (IPLS), которые активны в определенных временных интервалах в частотно-временном представлении, например предоставленном Оконным преобразованием Фурье (STFT).

Поток GAC можно дополнительно обработать в необязательном модуле 102 изменения, который также может называться блоком манипуляции. Модуль 102 изменения предусматривает множество применений. Затем поток GAC можно передать или сохранить. Параметрический характер потока GAC является очень эффективным. На стороне синтеза/приемника может применяться один или более необязательных модулей 103 изменения (блоков манипуляции). Результирующий поток GAC поступает в блок 104 синтеза, который формирует сигналы громкоговорителей. При условии независимости представления от записи конечный пользователь на стороне воспроизведения потенциально может манипулировать звуковой сценой и свободно выбирать положение и ориентацию прослушивания в звуковой сцене.

Изменение/манипуляция потоком аудиоданных, например потоком GAC, может происходить в модулях 102 и/или 103 изменения на фиг. 9 путем изменения потока GAC соответственно либо перед передачей в модуле 102, либо после передачи перед синтезом 103. В отличие от модуля 103 изменения на стороне приемника/синтеза модуль 102 изменения на стороне передатчика/анализа может использовать дополнительную информацию из входов 111 по 11N (аудиоданные, предоставленные пространственными микрофонами) и 121 по 12N (относительное положение и ориентация пространственных микрофонов), так как эта информация доступна на стороне передатчика. Фиг. 8 иллюстрирует альтернативный вариант осуществления модуля изменения, который применяет эту информацию.

Примеры разных идей для манипуляции потоком GAC описываются ниже со ссылкой на фиг. 7 и фиг. 8. Блоки с одинаковыми номерами ссылок имеют одинаковую функцию.

1. РАСШИРЕНИЕ ОБЪЕМА

Предполагается, что некоторая энергия в сцене располагается в пределах объема V. Объем V может указывать предопределенную область окружения. Θ обозначает набор элементов разрешения по времени/частоте (k, n), для которого соответствующие источники звука, например IPLS, локализуются в пределах объема V.

Если необходимо расширение объема V до другого объема V’, то этого можно добиться путем добавления случайного элемента к данным о положении в потоке GAC всякий раз, когда (k, n) ∈ Θ (оценивается в блоках 403 принятия решений), и подстановки Q(k, n)=[X(k, n), Y(k, n), Z(k, n)]^T (индексный уровень для простоты опускается), так что выходы с 431 по 43M блоков 404 на фиг. 7 и 8 становятся

(2)

где и являются случайными переменными, чей диапазон зависит от геометрии нового объема V’ относительно исходного объема V. Эта идея может применяться, например, чтобы добиться более широкого восприятия источника звука. В этом примере исходный объем V является бесконечно малым, то есть источник звука, например IPLS, следует расположить в одной и той же точке для всех (k, n) ∈ Θ. Этот механизм можно рассматривать как некий вид размывания параметра Q(k, n) положения.

В соответствии с вариантом осуществления каждое из значений положения каждого из источников звука содержит по меньшей мере два значения координат, и модуль модифицирования приспособлен для изменения значений координат путем добавления по меньшей мере одного случайного числа к значениям координат, когда значения координат указывают, что источник звука располагается в неком положении в предопределенной области окружения.

2. ПРЕОБРАЗОВАНИЕ ОБЪЕМА

В дополнение к расширению объема данные о положении из потока GAC можно изменить для перемещения участков пространства/объемов в рамках звукового поля. В этом случае данные, которыми будут манипулировать, также содержат пространственные координаты локализованной энергии.

V опять обозначает объем, который будет перемещен, а Θ обозначает набор всех элементов разрешения по времени/частоте (k, n), для которого энергия локализуется в пределах объема V. Снова объем V может указывать предопределенную область окружения.

Перемещения объема можно достичь путем изменения потока GAC так, что для всех элементов разрешения по времени/частоте (k, n) ∈ Θ Q(k, n) заменяются f(Q(k, n)) на выходах с 431 по 43M блоков 404, где f - функция пространственных координат (X, Y, Z), описывающая манипуляцию с объемом, которая будет выполнена. Функция f могла бы представлять простое линейное преобразование, например вращение, перенос, или любое другое сложное нелинейное отображение. Эта методика может использоваться, например, для перемещения источников звука из одного положения в другое в звуковой сцене путем обеспечения того, что Θ соответствует набору элементов разрешения по времени/частоте, в котором источники звука локализованы в пределах объема V. Методика допускает ряд других сложных манипуляций всей звуковой сценой, например зеркальное отражение сцены, вращение сцены, увеличение и/или сжатие сцены и т. п. Например, путем применения подходящего линейного отображения к объему V можно добиться дополнительного эффекта расширения объема, то есть сжатия объема. Это могло бы выполняться, например, путем отображения Q(k, n) для (k, n) ∈ Θ в f(Q(k, n)) ∈ V’, где V’ ∈ V и V’ содержит значительно меньший объем, нежели V.

В соответствии с вариантом осуществления модуль модифицирования приспособлен для изменения значений координат путем применения детерминированной функции к значениям координат, когда значения координат указывают, что источник звука располагается в положении в предопределенной области окружения.

3. ФИЛЬТРАЦИЯ НА ОСНОВЕ ПОЛОЖЕНИЯ

Идея фильтрации на основе геометрии (или фильтрации на основе положения) предлагает способ для усиления или полного/частичного удаления участков пространства/объемов из звуковой сцены. Однако по сравнению с методиками расширения и преобразования объема в этом случае изменяются только данные давления из потока GAC путем применения подходящих скалярных весов.

В фильтрации на основе геометрии можно провести различие между модулем 102 изменения на стороне передатчика и модулем 103 изменения на стороне приемника в том, что первый может использовать входы с 111 по 11N и с 121 по 12N для помощи в вычислении подходящих весов фильтра, как изображено на фиг. 8. Предполагая, что целью является подавление/усиление энергии, исходящей из выбранного участка пространства/объема V, фильтрация на основе геометрии может применяться следующим образом:

Для всех (k, n) ∈ Θ комплексное давление P(k, n) в потоке GAC меняется на ηP(k, n) на выходах блока 402, где η - действительный весовой коэффициент, например вычисленный блоком 402. В некоторых вариантах осуществления модуль 402 можно приспособить для вычисления весового коэффициента, также зависимого от диффузности.

Идея фильтрации на основе геометрии может использоваться в множестве применений, например в усилении сигнала и выделении источника. Некоторые из применений и необходимая априорная информация содержат:

Подавление реверберации. Зная геометрию помещения, пространственный фильтр может использоваться для подавления энергии, локализованной вне границ помещения, что может быть обусловлено многолучевым распространением. Это применение может представлять интерес, например, для связи в режиме "свободные руки" в переговорных и в автомобилях. Отметим, что для того, чтобы остановить позднюю реверберацию, достаточно закрыть фильтр в случае высокой диффузности, тогда как для подавления первичных отражений более эффективен зависимый от положения фильтр. В этом случае, как уже упоминалось, нужно заранее знать геометрию помещения.

Подавление фонового шума. Аналогичная идея с тем же успехом может использоваться для подавления фонового шума. Если известны возможные области, где могут располагаться источники (например, кресла участников в переговорных или сиденья в автомобиле), то энергия, расположенная вне этих областей, ассоциируется с фоновым шумом и поэтому подавляется пространственным фильтром. Это применение требует априорной информации или оценки приблизительного места источников на основе доступных данных в потоках GAC.

Подавление точечного источника помех. Если источник помех отчетливо локализован в пространстве, а не является диффузным, то фильтрация на основе положения может применяться для ослабления энергии, локализованной в положении источника помех. Это требует априорной информации или оценки места источника помех.

Регулирование эхо-сигнала. В этом случае источниками помех, которые будет подавлены, являются сигналы громкоговорителей. С этой целью, аналогично случаю для точечных источников помех, подавляется энергия, локализованная точно или в непосредственной близости от положения громкоговорителей. Это требует априорной информации или оценки положений громкоговорителей.

Улучшенное обнаружение речи. Методики усиления сигнала, ассоциированные с фильтрацией на основе геометрии, можно реализовать в качестве этапа предварительной обработки в традиционной системе обнаружения речевых сигналов, например в автомобилях. Подавление реверберации или подавление шумов может использоваться в качестве дополнений для повышения производительности системы.

Наблюдение. Сохранение только энергии из некоторых областей и подавление оставшейся является широко применяемой методикой в приложениях наблюдения. Это требует априорной информации о геометрии и месте интересующей области.

Выделение источника. В окружении с несколькими одновременно активными источниками пространственная фильтрация на основе геометрии может применяться для выделения источника. Размещение подходящим образом сконструированного пространственного фильтра, центрированного по месту источника, приводит к подавлению/ослаблению других одновременно активных источников. Это нововведение может использоваться, например, в качестве внешнего интерфейса в SAOC. Необходима априорная информация или оценка мест источников.

Зависимая от положения автоматическая регулировка усиления (AGC). Зависимые от положения веса могут использоваться, например, для выравнивания громкости разных говорящих в приложениях телеконференцсвязи.

Ниже описываются модули синтеза в соответствии с вариантами осуществления. В соответствии с вариантом осуществления модуль синтеза может быть приспособлен для формирования по меньшей мере одного выходного аудиосигнала на основе по меньшей мере одного значения давления в аудиоданных в потоке аудиоданных и на основе по меньшей мере одного значения положения в аудиоданных в потоке аудиоданных. По меньшей мере одно значение давления может быть значением давления сигнала давления, например аудиосигнале.

Принципы работы в основе синтеза GAC мотивированы допущениями о восприятии пространственного звука, приведенными в

[27] WO 2004077884: Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.

В частности, пространственные метки, необходимые для правильного восприятия пространственного образа звуковой сцены, можно получить путем правильного воспроизведения одного направления прихода недиффузного звука для каждого элемента разрешения по времени/частоте. Поэтому синтез, изображенный на фиг. 10a, разделяется на два этапа.

Первый этап рассматривает положение и ориентацию слушателя в звуковой сцене и определяет, какой из M IPLS преобладает для каждого элемента разрешения по времени/частоте. Следовательно, можно вычислить его сигнал P_dir давления и направление θ прихода. Оставшиеся источники и диффузный звук собираются во втором сигнале P_diff давления.

Второй этап идентичен второй половине синтеза DirAC, описанного в [27]. Недиффузный звук воспроизводится с помощью механизма панорамирования, который создает точечный источник, тогда как диффузный звук воспроизводится из всех громкоговорителей после декорреляции.

Фиг. 10a изображает модуль синтеза в соответствии с вариантом осуществления, иллюстрирующим синтез потока GAC.

Блок 501 первого этапа синтеза вычисляет сигналы P_dir и P_diff давления, которые нужно воспроизводить по-разному. Фактически, хотя P_dir содержит звук, который должен быть воспроизведен когерентно в пространстве, P_diff содержит диффузный звук. Третьим выходом блока 501 первого этапа синтеза является направление прихода (DOA) θ 505 с точки зрения нужного положения прослушивания, то есть направление прихода информации. Отметим, что направление прихода (DOA) может быть выражено в виде азимутального угла, если это двухмерное пространство, или пары из азимутального угла и угла возвышения в трех измерениях. Эквивалентно может использоваться вектор единичной нормы, указывающий на DOA. DOA задает, из какого направления (относительно нужного положения прослушивания) должен исходить сигнал P_dir. Блок 501 первого этапа синтеза принимает поток GAC в качестве входа, то есть параметрического представления звукового поля, и вычисляет вышеупомянутые сигналы на основе положения и ориентации слушателя, заданных входом 141. Фактически, конечный пользователь может свободно выбирать положение и ориентацию прослушивания в звуковой сцене, описанной потоком GAC.

Блок 502 второго этапа синтеза вычисляет L сигналов 511 по 51L громкоговорителей на основе сведений о схеме 131 громкоговорителей. Вспомним, что блок 502 идентичен второй половине синтеза DirAC, описанного в [27].

Фиг. 10b изображает блок первого этапа синтеза в соответствии с вариантом осуществления. Входом, предоставленным блоку, является поток GAC, состоящий из M уровней. На первом этапе блок 601 демультиплексирует M уровней на M параллельных потоков GAC с одним уровнем каждый.

i-й поток GAC содержит сигнал P_i давления, диффузность ψ_i и вектор Q_i=[X_i, Y_i, Z_i]^T положения. Сигнал P_i давления содержит одно или более значений давления. Вектор положения является значением положения. Теперь формируется по меньшей мере один выходной аудиосигнал на основе этих значений.

Сигналы давления для прямого и диффузного звука P_dir,_i и P_diff,_i получаются из P_i путем применения надлежащего коэффициента, выведенного из диффузности ψ_i. Сигналы давления, содержащие прямой звук, поступают в блок 602 компенсации распространения, который вычисляет задержки, соответствующие распространению сигнала из положения источника звука, например положения IPLS, в положение слушателя. В дополнение к этому блок также вычисляет коэффициенты усиления, необходимые для компенсации других затуханий величины. В других вариантах осуществления компенсируются только другие затухания величины, тогда как задержки не компенсируются.

Компенсированные сигналы давления, обозначенные с помощью , поступают в блок 603, который выводит индекс i_max самого сильного входа

(3)

Основная идея в основе этого механизма состоит в том, что из M IPLS, активных в исследуемом элементе разрешения по времени/частоте, только самый сильный (относительно положения слушателя) будет воспроизведен когерентно (то есть как прямой звук). Блоки 604 и 605 выбирают из своих входов один, который задается с помощью i_max. Блок 607 вычисляет направление прихода у i_max-го IPLS относительно положения и ориентации слушателя (вход 141). Выход блока 604 соответствует выходу блока 501, а именно звуковому сигналу P_dir, который будет воспроизводиться блоком 502 как прямой звук. Диффузный звук, а именно выход 504 P_diff, содержит сумму всех диффузных звуков в M ответвлениях, а также все прямые аудиосигналы за исключением i_max-го, а именно ∀j≠i_max.

Фиг. 10c иллюстрирует блок 502 второго этапа синтеза. Как уже упоминалось, этот этап идентичен второй половине модуля синтеза, предложенного в [27]. Недиффузный звук 503 P_dir воспроизводится как точечный источник, например с помощью панорамирования, чьи усиления вычисляются в блоке 701 на основе направления прихода (505). С другой стороны, диффузный звук P_diff проходит через L отдельных декорреляторов (711 по 71L). Для каждого из L сигналов громкоговорителей пути прямого и диффузного звука складываются перед проходом через блок обратных фильтров (703).

Фиг. 11 иллюстрирует модуль синтеза в соответствии с альтернативным вариантом осуществления. Все величины на фигуре рассматриваются в частотно-временной области; нотацией (k, n) пренебрегли для простоты, например P_i=P_i(k, n). Чтобы повысить качество звука при воспроизведении в случае особенно сложных звуковых сцен, например одновременно активных многочисленных источников, модуль синтеза, например модуль 104 синтеза, можно реализовать, например, как показано на фиг. 11. Вместо выбора преобладающего IPLS для когерентного воспроизведения синтез на фиг. 11 осуществляет полный синтез каждого из M уровней в отдельности. L сигналов громкоговорителей с i-го уровня являются выходом блока 502 и обозначаются от 191_i до 19L_i. h-й сигнал 19h громкоговорителя на выходе блока 501 первого этапа синтеза является суммой от 19h₁ до 19h_M. Обратите внимание, что в отличие от фиг. 10b этап оценки DOA в блоке 607 нужно выполнять для каждого из M уровней.

Фиг. 26 иллюстрирует устройство 950 для формирования потока данных виртуального микрофона в соответствии с вариантом осуществления. Устройство 950 для формирования потока данных виртуального микрофона содержит устройство 960 для формирования выходного аудиосигнала виртуального микрофона в соответствии с одним из вышеописанных вариантов осуществления, например в соответствии с фиг. 12, и устройство 970 для формирования потока аудиоданных в соответствии с одним из вышеописанных вариантов осуществления, например в соответствии с фиг. 2b, где поток аудиоданных, сформированный устройством 970 для формирования потока аудиоданных, является потоком данных виртуального микрофона.

Устройство 960, например на фиг. 26, для формирования выходного аудиосигнала виртуального микрофона содержит блок оценки положения звуковых событий и модуль вычисления информации, как на фиг. 12. Блок оценки положения звуковых событий приспособлен для оценивания положения источника звука, указывающего положение источника звука в окружении, где блок оценки положения звуковых событий приспособлен для оценивания положения источника звука на основе первой информации о направлении, предоставленной первым реальным пространственным микрофоном, располагаемым в положении первого реального микрофона в окружении, и на основе второй информации о направлении, предоставленной вторым реальным пространственным микрофоном, располагаемым в положении второго реального микрофона в окружении. Модуль вычисления информации приспособлен для формирования выходного аудиосигнала на основе записанного входного аудиосигнала, на основе положения первого реального микрофона и на основе вычисленного положения микрофона.

Устройство 960 для формирования выходного аудиосигнала виртуального микрофона выполнено с возможностью предоставления выходного аудиосигнала устройству 970 для формирования потока аудиоданных. Устройство 970 для формирования потока аудиоданных содержит блок определения, например, блок 210 определения, описанный по отношению к фиг. 2b. Блок определения в устройстве 970 для формирования потока аудиоданных определяет данные источника звука на основе выходного аудиосигнала, предоставленного устройством 960 для формирования выходного аудиосигнала виртуального микрофона.

Фиг. 27 иллюстрирует устройство 980 для формирования по меньшей мере одного выходного аудиосигнала на основе потока аудиоданных в соответствии с одним из вышеописанных вариантов осуществления, например устройство по п. 1, конфигурируемое для формирования выходного аудиосигнала на основе потока данных виртуального микрофона в виде потока аудиоданных, предоставленного устройством 950 для формирования потока данных виртуального микрофона, например устройством 950 на фиг. 26.

Устройство 950 для формирования потока данных виртуального микрофона подает сформированный сигнал виртуального микрофона в устройство 980 для формирования по меньшей мере одного выходного аудиосигнала на основе потока аудиоданных. Следует отметить, что поток данных виртуального микрофона является потоком аудиоданных. Устройство 980 для формирования по меньшей мере одного выходного аудиосигнала на основе потока аудиоданных формирует выходной аудиосигнал на основе потока данных виртуального микрофона в виде потока аудиоданных, например, как описано по отношению к устройству из фиг. 2a.

Фиг. 1 иллюстрирует устройство для формирования совмещенного потока аудиоданных в соответствии с вариантом осуществления.

В варианте осуществления устройство содержит демультиплексор 180 для получения множества одноуровневых потоков аудиоданных, где демультиплексор 180 приспособлен для приема одного или более входных потоков аудиоданных, где каждый входной поток аудиоданных содержит один или более уровней, где демультиплексор 180 приспособлен для демультиплексирования каждого из входных потоков аудиоданных, имеющих один или более уровней, на два или более демультиплексированных потоков аудиоданных, имеющих ровно один уровень, так что один или более демультиплексированных потоков аудиоданных вместе содержат упомянутый один или более уровней входного потока аудиоданных, чтобы получить два или более одноуровневых потоков аудиоданных.

В дополнительном варианте осуществления устройство содержит демультиплексор 180 для получения множества одноуровневых потоков аудиоданных, где демультиплексор 180 приспособлен для приема двух или более входных потоков аудиоданных, где каждый входной поток аудиоданных содержит один или более уровней, где демультиплексор 180 приспособлен для демультиплексирования каждого из входных потоков аудиоданных, имеющих два или более уровней, на два или более демультиплексированных потоков аудиоданных, имеющих ровно один уровень, так что упомянутые два или более демультиплексированных потоков аудиоданных вместе содержат упомянутые два или более уровней входного потока аудиоданных, чтобы получить два или более одноуровневых потоков аудиоданных.

Кроме того, устройство содержит модуль 190 совмещения для формирования совмещенного потока аудиоданных, имеющего один или более уровней, на основе упомянутого множества одноуровневых потоков аудиоданных. Каждый уровень входных потоков аудиоданных, демультиплексированных потоков аудиоданных, одноуровневых потоков данных и совмещенного потока аудиоданных содержит значение давления сигнала давления, значение положения и значение диффузности в качестве аудиоданных, причем аудиоданные задаются для элемента разрешения по времени/частоте множества элементов разрешения по времени/частоте.

В некоторых вариантах осуществления демультиплексор 180 приспособлен для изменения значений давления демультиплексированных потоков аудиоданных, чтобы выровнять объемы (например, громкость) разных звуковых сцен, представленных демультиплексированными потоками аудиоданных. Например, если два потока аудиоданных возникают из двух разных окружений записи, и первый характеризуется низким объемом (например, из-за источников, которые находятся далеко от микрофонов, или просто из-за микрофонов с плохой чувствительностью или малым усилением предусилителей), то можно увеличить объем первого потока аудиоданных путем умножения скалярной величины на значения давления первого потока аудиоданных. По аналогии можно уменьшить объем второго потока аудиоданных аналогичным образом.

Фиг. 28 изображает входы и выходы устройства для формирования совмещенного потока аудиоданных в соответствии с другим вариантом осуществления. Некоторое количество M потоков аудиоданных, например M потоков GAC, и при желании сигнал p(t) давления и положение q(t) искусственного источника звука, который должен быть вставлен, вводятся в устройство из фиг. 28. В другом варианте осуществления в устройство вводятся два или более искусственных источников звука (синтетических источников звука). На выходе возвращается выходной аудиопоток, например поток GAC, представляющий модифицированную звуковую сцену.

По аналогии выходной аудиопоток, например поток GAC, может формироваться непосредственно из монофонического источника звука (то есть без какого-либо совмещения).

Первый вид входов 1111, 1112, …, 111M в устройство являются потоками аудиоданных, например M потоками GAC, где i-й поток содержит L_i уровней, . Каждый уровень i-го потока аудиоданных содержит одно или более значений давления в сигнале Pi комплексного давления, положение источника Q_i=[X_i, Yi, Z_i]^T и диффузность ψ_i в частотно-временной области. Если используется двумерное представление, то положение источника может задаваться в виде Q_i=[X_i, Yi]^T. Следует отметить, что все величины зависят от показателей времени и частоты (k, n). Однако в формулировках зависимость от времени и частоты не упоминается явно, чтобы сохранить формулировки удобочитаемыми и для простоты.

Вход 1120 является необязательной информацией, представляемой во временной области, о давлении и положении искусственного источника звука, который должен быть вставлен в звуковую сцену. Выход 1140 устройства из фиг. 28 является потоком аудиоданных, например потоком GAC, имеющем L_O уровней.

Фиг. 29 иллюстрирует устройство для формирования совмещенного потока аудиоданных в соответствии с другим вариантом осуществления. На фиг. 29 демультиплексор из фиг. 1 содержит множество блоков демультиплексирования. Устройство из фиг. 29 содержит блоки 1201 демультиплексирования (DEMUX), генератор 1202 искусственного источника (реализующий формирование аудиопотока, например потока GAC, для искусственного источника), и модуль 1203 совмещения.

Что касается одного из блоков 1201 демультиплексирования, блок демультиплексирования по отношению к i-му потоку 111i GAC, который содержит L_i уровней, выводит L_i отдельных одноуровневых потоков GAC. Генератор 1202 искусственного источника формирует одноуровневый поток GAC для искусственного источника звука.

Модуль 1203 совмещения, который осуществляет совмещение, принимает N одноуровневых потоков GAC, где N равно:

(1)

Фиг. 30 изображает модуль 1203 совмещения в соответствии с вариантом осуществления. Совмещаются N одноуровневых потоков с 1211 по 121N аудиоданных, например N одноуровневых потоков GAC, приводя к потоку аудиоданных, например одному потоку 1140 GAC, имеющему L_O уровней, соответствующих сочетанию звуковых сцен, где L_O≤N.

Совмещение, среди прочего, основывается на следующей идее: для каждого элемента разрешения по времени/частоте имеется N активных IPLS, причем каждый описывается одним из N потоков GAC. Принимая во внимание, например, мощность и диффузность, идентифицируются L_O самых заметных источников. Первые L_O-1 источников просто перераспределяются первым L_O-1 уровням совмещенного потока аудиоданных, например выходного потока GAC, тогда как все оставшиеся источники добавляются к последнему уровню, то есть L_O-му.

Устройство из фиг. 30 содержит модуль 1401 функции стоимости. Модуль 1401 функции стоимости анализирует N сигналов давления и N параметров диффузности. Модуль 1401 функции стоимости сконфигурирован для определения самых заметных источников звука для каждого элемента разрешения по времени/частоте. Например, функция f_i стоимости для i-го потока при может быть задана, например, в виде

(2)

так что источник звука, например IPLS, с большой мощностью и низкой диффузностью приводит к высоким значениям функции стоимости. Функция f_i стоимости вычисляет значение стоимости.

Выходом модуля 1401 функции стоимости является вектор r размера L_O×1, содержащий индексы IPLS с наибольшей f_i. Кроме того, индексы сортируются от самого заметного IPLS к наименее заметному. Эта информация передается в блок 1403 смешивания положений, блок 1404 совмещения давления и блок 1405 совмещения диффузности, где соответственно вычисляются параметры результирующего потока GAC для каждого элемента разрешения по времени/частоте. Ниже подробно описываются варианты осуществления того, как вычислять параметры.

Устройство из фиг. 30, кроме того, содержит модуль 1402 адаптации звуковой сцены. Модуль 1402 адаптации звуковой сцены дает возможность дополнительного управления над этапом совмещения, где информацией о положении GAC манипулируют перед фактическим совмещением. Таким образом, можно добиться нескольких схем совмещения, например совмещение с полным перекрытием событий в отдельных сценах, совмещение с помещением звуковых сцен рядом, совмещение с некоторыми ограничениями по величине перекрытия и т.п.

Фиг. 31a, фиг. 31b и фиг. 31c изображают возможные сценарии звуковой сцены. Фиг. 31a показывает две звуковые сцены, каждая с одним говорящим. Векторы указывают локальную систему координат. После совмещения без какого-либо изменения, осуществляемого модулем 1402 адаптации звуковой сцены, будет получена звуковая сцена, которая изображена в нижней части фиг. 31a. Это может быть нежелательным. С помощью манипулирования системой координат у одной или более звуковых сцен можно составить совмещенную звуковую сцену по желанию. На фиг. 31b в качестве примера вводится вращение, чтобы в совмещенных звуковых сценах говорящие разделялись. Также возможны переносы (как показано на фиг. 31c) или нелинейные преобразования, применяемые к положениям от Q₁ до Q_N.

Блок 1403 смешивания положений, блок 1404 совмещения давления и блок 1405 совмещения диффузности приспособлены для приема, в качестве входа, N потоков параметров и приспособлены для вычисления параметров результирующих L_O потоков GAC.

Каждый из параметров можно получить следующим образом:

a. Блок 1403 смешивания положений приспособлен для определения результирующего положения выходного потока GAC. Положение i-го источника в выходном потоке Q_i’ соответствует положению i-го самого заметного недиффузного входного источника, указанного вектором r, предоставленным модулем 1401 функции стоимости.

(3)

где r_i указывает i-й элемент r.

С помощью определения L_O самых заметных недиффузных входных источников, которые указаны вектором r, блок 1403 смешивания положений определяет группу, содержащую один или более одноуровневых потоков аудиоданных, где значение стоимости каждого из одноуровневых потоков аудиоданных в группе может быть больше значения стоимости любых одноуровневых потоков аудиоданных, не содержащихся в группе. Блок 1403 смешивания положений приспособлен для выбора/формирования упомянутого одного или более значений положения упомянутого одного или более уровней совмещенного потока аудиоданных, так что каждое значение положения каждого из одноуровневых потоков аудиоданных в группе является значением положения одного из уровней совмещенного потока аудиоданных.

b. Результирующее давление для каждого из потоков вычисляется блоком 1404 совмещения давления. Сигнал давления для всех, кроме последнего (L_O-го) потока GAC, равен соответствующему сигналу давления в соответствии со входным вектором r. Давление L_O-го потока GAC задается в виде линейной комбинации давлений каждого из N-L_O+1 оставшихся сигналов давления, например

(4)

С помощью определения L_O-1 самых заметных недиффузных входных источников, которые указаны вектором r, блок совмещения давления приспособлен для определения первой группы, содержащей один или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, и для определения второй группы (оставшиеся входные источники в векторе r), содержащей один или более других одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, где значение стоимости каждого из одноуровневых потоков аудиоданных первой группы больше значения стоимости каждого из одноуровневых потоков аудиоданных второй группы. Блок совмещения давления приспособлен для формирования упомянутого одного или более значений давления упомянутого одного или более уровней совмещенного потока аудиоданных, так что каждое значение давления каждого из одноуровневых потоков аудиоданных первой группы является значением давления одного из уровней совмещенного потока аудиоданных, и так что сочетание значений давления одноуровневых потоков аудиоданных второй группы является значением давления одного из уровней совмещенного потока аудиоданных.

c. Диффузность результирующего потока GAC вычисляется блоком 1405 совмещения диффузности. Аналогично другим параметрам, диффузность копируется из входных потоков во все потоки, кроме последнего, L_O-го потока GAC

L_O-й параметр диффузности может, например, вычисляться с учетом того, что сигнал давления содержит прямой звук от большего количества IPLS, которые не будут воспроизводиться когерентно, так как можно назначить только одно положение . Поэтому количество энергии в , который соответствует прямому звуку, равно лишь

Следовательно, диффузность можно получить с помощью

(5)

С помощью определения L_O-1 самых заметных недиффузных входных источников, которые указаны вектором r, блок совмещения диффузности приспособлен для определения первой группы, содержащей один или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, и для определения второй группы (оставшиеся входные источники в векторе r), содержащей один или более других одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, где значение стоимости каждого из одноуровневых потоков аудиоданных первой группы больше значения стоимости каждого из одноуровневых потоков аудиоданных второй группы. Блок совмещения диффузности приспособлен для формирования упомянутого одного или более значений диффузности упомянутого одного или более уровней совмещенного потока аудиоданных, так что каждое значение диффузности каждого из одноуровневых потоков аудиоданных первой группы является значением диффузности одного из уровней совмещенного потока аудиоданных, и так что сочетание значений диффузности одноуровневых потоков аудиоданных второй группы является значением диффузности одного из уровней совмещенного потока аудиоданных.

В конечном счете результирующие L_O одноуровневых потоков GAC мультиплексируются в блоке 1406, чтобы образовать итоговый поток GAC (выход 1140) с L_O уровнями.

Ниже подробнее описываются генераторы искусственных источников в соответствии с вариантами осуществления со ссылкой на фиг. 32a и фиг. 32b.

Генератор искусственного источника является необязательным модулем и в качестве входа 1120 использует положение и сигнал давления, выраженные во временной области искусственного источника звука, который должен быть вставлен в звуковую сцену. Затем он возвращает поток GAC искусственного источника в качестве выхода 121N.

Информация о положении источника во времени передается в первый блок 1301 обработки. Если источник звука не движется, то блок 1301 просто копирует положение во все элементы разрешения по времени/частоте Q(k, n) в выходе 121N. Для движущегося источника информация в q(t) копируется во все элементы разрешения по частоте k, соответствующие надлежащему временному блоку n. Выход блока 1301 затем непосредственно передается в блок 1203 в виде потока GAC. Сигнал p(t) давления вставленного источника 1120 можно

a. непосредственно преобразовать в сигнал давления P(k, n) потока GAC (см. фиг. 32a)

b. сначала отразить, а затем преобразовать в сигнал P(k, n) давления потока GAC (см. фиг. 32b).

В соответствии с вариантом a) осуществления, проиллюстрированным на фиг. 32a, сигнал преобразуется в частотную область с использованием блока фильтров разложения в блоке 1302, а затем передается в качестве параметра потока GAC, соответствующего вставленному источнику. Если сигнал p(t) давления не изменен, то сигнал может пройти через необязательный блок 1303, где обнаруживаются шум и/или окружение. Информация о шуме и окружении затем передается в блок 1304, который вычисляет оценку диффузности. Блок 1303 для этих целей может реализовывать современный алгоритм, например описанный в

[30] C. Uhle and C. Paul: A supervised learning approach to ambience extraction from mono recordings for blind upmixing in Proc. of the 11^th Int. Conference on Digital Audio Effects (DAFx-08), Espoo, Finland, September 1-4, 2008.

Информация о шуме и окружении затем передается в блок 1304, который вычисляет оценку диффузности. Это особенно полезно, чтобы избежать когерентного воспроизведения окружения и шума, содержащихся в p(t), при синтезе. Поэтому только что описанный механизм гарантирует, что прямой части сигнала назначается низкое значение диффузности, тогда как шумная и окружающая части сигнала ассоциируются с высокой диффузностью. В качестве альтернативы пути сигнала по блоку 1303 и 1304 параметр диффузности в 121N можно просто установить в постоянное значение.

Предусмотрен вариант b) осуществления, проиллюстрированный на фиг. 32b, в некотором смысле противоположная ситуация. Предполагая, что p(t) является неизмененным сигналом, могло бы потребоваться добавить реверберацию, чтобы заставить p(t) звучать более естественно, то есть заставить синтетический источник звука звучать, как будто он был записан в помещении. Это достигается посредством блока 1305. Отраженный и исходный сигналы подвергаются преобразованию, проводимому блоком 1302 фильтров разложения, а затем передаются в блок 1306 анализа отношения мощностей. Блок 1306 вычисляет информацию о том, сколько реверберации и сколько прямого звука присутствует в некотором элементе разрешения по времени/частоте, например, путем вычисления Отношения прямого звука к реверберации (DRR). Эта информация затем передается в блок 1304, в котором вычисляется диффузность.

Для высокого DRR параметр диффузности устанавливается в низкие значения, тогда как когда преобладает реверберация (например, в остатках поздней реверберации), диффузность устанавливается в высокие значения.

НИЖЕ ОПИСЫВАЮТСЯ НЕКОТОРЫЕ ЧАСТНЫЕ СЛУЧАИ.

1. Если M одноуровневых потоков GAC нужно совместить в L_O = 1 поток GAC, то может применяться упрощенный вариант осуществления. Результирующий поток GAC будет характеризоваться:

- давлением: Давление будет равно сумме всех M сигналов давления

- положением: Положение будет положением самых сильных источников звука, например самого сильного IPLS

- диффузностью: Диффузность будет вычисляться в соответствии с формулой (5).

2. Если количество уровней на выходе равно общему количеству уровней на входе, то есть L_O=N, то выходной поток можно рассматривать как конкатенацию входных потоков.

Хотя некоторые особенности описаны применительно к устройству, понято, что эти особенности также представляют собой описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. По аналогии особенности, описанные применительно к этапу способа, также представляют собой описание соответствующего блока или элемента либо признака соответствующего устройства.

Патентоспособный разложенный сигнал может храниться на цифровом носителе информации или может передаваться по передающей среде, например беспроводной передающей среде или проводной передающей среде, такой как Интернет.

В зависимости от некоторых требований к реализации варианты осуществления изобретения можно реализовать в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя информации, например дискеты, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные на нем электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой так, что выполняется соответствующий способ.

Некоторые варианты осуществления в соответствии с изобретением содержат неизменяемый со временем носитель информации, имеющий электронно считываемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой так, что выполняется один из способов, описанных в этом документе.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код действует для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может храниться, например, на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в этом документе способов, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления патентоспособного способа поэтому является компьютерной программой, имеющей программный код для выполнения одного из описанных в этом документе способов, когда компьютерная программа выполняется на компьютере.

Дополнительный вариант осуществления патентоспособных способов поэтому является носителем информации (или цифровым носителем информации, или машиночитаемым носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе.

Дополнительный вариант осуществления патентоспособного способа поэтому является потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в этом документе. Поток данных или последовательность сигналов могут конфигурироваться, например, для их передачи по соединению передачи данных, например по Интернету.

Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, сконфигурированные или приспособленные для выполнения одного из способов, описанных в этом документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в этом документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в этом документе. Как правило, способы предпочтительно выполняются любым аппаратным устройством.

Вышеописанные варианты осуществления являются всего лишь пояснительными для принципов настоящего изобретения. Подразумевается, что модификации и изменения компоновок и подробностей, описанных в этом документе, будут очевидны другим специалистам в данной области техники. Поэтому есть намерение ограничиться только объемом предстоящей формулы изобретения, а не определенными подробностями, представленными посредством описания и объяснения вариантов осуществления в этом документе.

ЛИТЕРАТУРА

[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.

[2] V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of the AES 28^th International Conference, pp. 251-258, Pitee, Sweden, June 30 - July 2, 2006.

[3] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc., vol. 55, no. 6, pp. 503-516, June 2007.

[4] C. Faller: “Microphone Front-Ends for Spatial Audio Coders”, in Proceedings of the AES 125^th International Convention, San Francisco, Oct. 2008.

[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Küch, D. Mahne, R. Schultz-Amling. and O. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009.

[6] R. Schultz-Amling, F. Küch, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, London UK, May 2010.

[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," in Audio Engineering Society Convention 128, London UK, May 2010.

[8] E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999.

[9] A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007.

[10] A. Walther and C. Faller, "Linear simulation of spaced microphone arrays using b-format recordings," in Audio Engiineering Society Convention 128, London UK, May 2010.

[11] US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal.

[14] R. Schmidt, “Multiple emitter location and signal parameter estimation,” IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986.

[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.

[16] F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989.

[17] R. Schultz-Amling, F. Küch, M. Kallinger, G. Del Galdo, T. Ahonen and V. Pulkki, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding," in Audio Engineering Society Convention 124, Amsterdam, The Netherlands, May 2008.

[18] M. Kallinger, F. Küch, R. Schultz-Amling, G. Del Galdo, T. Ahonen and V. Pulkki, "Enhanced direction estimation using microphone arrays for directional audio coding;” in Hands-Free Speech Communication and Microphone Arrays, 2008. HSCMA 2008, May 2008, pp. 45-48.

[19] R. K. Furness, “Ambisonics - An overview,” in AES 8^th International Conference, April 1990, pp. 181-189.

[20] Giovanni Del Galdo, Oliver Thiergart, TobiasWeller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA ’11), Edinburgh, United Kingdom, May 2011.

[21] Jürgen Herre, Cornelia Falch, Dirk Mahne, Giovanni Del Galdo, Markus Kallinger, and Oliver Thiergart. Interactive teleconferencing combining spatial audio object coding and DirAC technology. In Audio Engineering Society Convention 128, 5 2010.

[23] US 20110216908: Apparatus for Merging Spatial Audio Streams.

[24] Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007.

[25] Jeroen Breebaart, Jonas Engdegerd, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroesn Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.

[26] R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37(7):984-995, July 1989.

[27] Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.

[28] Svein Merge. Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151.

[29] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.

1. Устройство для формирования совмещенного потока аудиоданных, содержащее:

демультиплексор (180) для получения множества одноуровневых потоков аудиоданных, при этом демультиплексор (180) приспособлен для приема одного или более входных потоков аудиоданных, при этом каждый входной поток аудиоданных содержит один или более уровней, при этом демультиплексор (180) приспособлен для

демультиплексирования каждого из входных потоков аудиоданных, имеющих один или более уровней, на два или более демультиплексированных потока аудиоданных, имеющих ровно один уровень, так что упомянутые два или более демультиплексированных потока аудиоданных вместе содержат упомянутый один или более уровней входного потока аудиоданных, чтобы получить два или более одноуровневых потока аудиоданных; и

модуль (190) совмещения для формирования совмещенного потока аудиоданных, имеющего один или более уровней, на основе упомянутого множества одноуровневых потоков аудиоданных,

при этом каждый уровень входных потоков аудиоданных, демультиплексированных потоков аудиоданных, одноуровневых потоков аудиоданных и совмещенного потока аудиоданных содержит значение давления сигнала давления, значение положения, указывающее положение источника звука, и значение диффузности, указывающее диффузность звукового поля, в качестве аудиоданных.

2. Устройство по п. 1, в котором демультиплексор (180) приспособлен для приема двух или более входных потоков аудиоданных и в котором демультиплексор (180) приспособлен для демультиплексирования каждого из входных потоков аудиоданных, имеющих два или более уровней, на два или более демультиплексированных потока аудиоданных, имеющих ровно один уровень, так что упомянутые два или более демультиплексированных потока аудиоданных вместе содержат упомянутые два или более уровней упомянутого входного потока аудиоданных, чтобы получить упомянутые два или более одноуровневых потока аудиоданных.

3. Устройство по п. 1, в котором аудиоданные задаются для элемента разрешения по времени/частоте множества элементов разрешения по времени/частоте.

4. Устройство по п. 1,

в котором модуль (190) совмещения содержит модуль (1401) функции стоимости для назначения значения стоимости каждому из одноуровневых потоков аудиоданных, и

в котором модуль (190) совмещения приспособлен для формирования совмещенного потока аудиоданных на основе значений стоимости, назначенных одноуровневым потокам аудиоданных.

5. Устройство по п. 4, в котором модуль (1401) функции стоимости приспособлен для назначения значения стоимости каждому из одноуровневых потоков аудиоданных в зависимости от по меньшей мере одного из значений давления или значений диффузности одноуровневого потока аудиоданных, при этом каждое из значений диффузности является значением диффузности звукового поля.

6. Устройство по п. 5, в котором модуль (1401) функции стоимости приспособлен для назначения значения стоимости каждому потоку аудиоданных группы одноуровневых потоков аудиоданных путем применения формулы:

где P_i - значение давления, а Ψ_i - значение диффузности уровня i-го потока аудиоданных группы одноуровневых потоков аудиоданных.

7. Устройство по п. 4,

в котором модуль (190) совмещения дополнительно содержит блок (1404) совмещения давления,

при этом блок (1404) совмещения давления приспособлен для определения первой группы, содержащей один или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, и для определения второй группы, содержащей один или более других одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных,

при этом значение стоимости каждого из одноуровневых потоков аудиоданных первой группы больше значения стоимости каждого из одноуровневых потоков аудиоданных второй группы либо при этом значение стоимости каждого из одноуровневых потоков аудиоданных первой группы меньше значения стоимости каждого из одноуровневых потоков аудиоданных второй группы,

при этом блок (1404) совмещения давления приспособлен для формирования упомянутого одного или более значений давления упомянутого одного или более уровней совмещенного потока аудиоданных, так что каждое значение давления каждого из одноуровневых потоков аудиоданных первой группы является значением давления одного из уровней совмещенного потока аудиоданных и так что сочетание значений давления одноуровневых потоков аудиоданных второй группы является значением давления одного из уровней совмещенного потока аудиоданных.

8. Устройство по п. 4,

в котором модуль (190) совмещения дополнительно содержит блок (1405) совмещения диффузности,

при этом блок (1405) совмещения диффузности приспособлен для определения третьей группы, содержащей один или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, и для определения четвертой группы, содержащей один или более других одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных,

при этом значение стоимости каждого из одноуровневых потоков аудиоданных третьей группы больше значения стоимости каждого из одноуровневых потоков аудиоданных четвертой группы либо при этом значение стоимости каждого из одноуровневых потоков аудиоданных третьей группы меньше значения стоимости каждого из одноуровневых потоков аудиоданных четвертой группы,

при этом блок (1405) совмещения диффузности приспособлен для формирования упомянутого одного или более значений диффузности упомянутого одного или более уровней совмещенного потока аудиоданных, так что каждое значение диффузности каждого из одноуровневых потоков аудиоданных третьей группы является значением диффузности одного из уровней совмещенного потока аудиоданных и так что сочетание значений диффузности одноуровневых потоков аудиоданных четвертой группы является значением диффузности одного из уровней совмещенного потока аудиоданных.

9. Устройство по п. 3,

в котором модуль (190) совмещения дополнительно содержит блок смешивания положений,

при этом блок (1403) смешивания положений приспособлен для определения пятой группы, содержащей один или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных,

при этом значение стоимости каждого из одноуровневых потоков аудиоданных пятой группы больше значения стоимости любых одноуровневых потоков аудиоданных, не содержащихся в пятой группе упомянутого множества одноуровневых потоков аудиоданных, либо при этом значение стоимости каждого из одноуровневых потоков аудиоданных пятой группы меньше значения стоимости любых одноуровневых потоков аудиоданных, не содержащихся в пятой группе упомянутого множества одноуровневых потоков аудиоданных,

в котором блок (1403) смешивания положений приспособлен для формирования упомянутого одного или более значений положения упомянутого одного или более уровней совмещенного потока аудиоданных, так что каждое значение положения каждого из одноуровневых потоков аудиоданных пятой группы является значением положения одного из уровней совмещенного потока аудиоданных.

10. Устройство по п. 3, в котором модуль (190) совмещения дополнительно содержит модуль (1402) адаптации звуковой сцены для манипулирования значением положения одного или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных.

11. Устройство по п. 10, в котором модуль (1402) адаптации звуковой сцены приспособлен для манипулирования значением положения упомянутого одного или более одноуровневых потоков аудиоданных упомянутого множества одноуровневых потоков аудиоданных, применяя вращение, перенос или нелинейное преобразование в отношении значения положения.

12. Устройство по п. 1, в котором демультиплексор (180) приспособлен для модифицирования величины одного из значений давления одного из демультиплексированных потоков аудиоданных путем умножения упомянутой величины на скалярное значение.

13. Устройство по п. 1, в котором демультиплексор (180) содержит множество блоков (1201) демультиплексирования, при этом каждый из блоков (1201) демультиплексирования сконфигурирован для демультиплексирования одного или более входных потоков аудиоданных.

14. Устройство по п. 1,

при этом устройство дополнительно содержит генератор (1202) искусственного источника для формирования искусственного потока данных, содержащего ровно один уровень,

при этом генератор (1202) искусственного источника приспособлен для приема информации о давлении, представляемой во временной области, и для приема информации о положении,

при этом генератор (1202) искусственного источника приспособлен для дублирования информации о положении, чтобы сформировать информацию о положении для множества элементов разрешения по времени/частоте,

и при этом генератор (1202) искусственного источника дополнительно приспособлен для вычисления информации о диффузности на основе информации о давлении.

15. Устройство по п. 14, в котором генератор (1202) искусственного источника приспособлен для преобразования информации о давлении, представляемой во временной области, в частотно-временную область.

16. Устройство по п. 14, в котором генератор (1202) искусственного источника приспособлен для добавления реверберации в информацию о давлении.

17. Способ для формирования совмещенного потока аудиоданных, содержащий этапы, на которых

получают множество одноуровневых потоков аудиоданных, при этом демультиплексор приспособлен для приема одного или более входных потоков аудиоданных, при этом каждый входной поток аудиоданных содержит один или более уровней, при этом демультиплексор приспособлен для демультиплексирования каждого из входных потоков аудиоданных, имеющих один или более уровней, на два или более демультиплексированных потока аудиоданных, имеющих ровно один уровень, так что упомянутые два или более демультиплексированных потока аудиоданных вместе содержат упомянутый один или более уровней входного потока аудиоданных, чтобы получить два или более одноуровневых потока аудиоданных; и

формируют совмещенный поток аудиоданных, имеющий один или более уровней, на основе упомянутого множества одноуровневых потоков аудиоданных,

18. Машиночитаемый носитель, содержащий компьютерную программу для реализации способа по п. 17 при исполнении на компьютере или процессоре сигналов.

Изобретение относится к средствам для адаптации входной аудиоинформации, кодирующей один или более аудиообъектов. Технический результат заключается в повышении эффективности адаптации аудиоинформации к конкретному целевому сценарию применения.

Генерация комфортного шума // 2609080

Изобретение относится к средствам для генерации комфортного шума. Технический результат заключается в повышении воспринимаемого качества звука.

Регулировка уровня во временной области для декодирования или кодирования аудиосигналов // 2608878

Изобретение относится к кодированию, декодированию и обработке аудиосигналов. Технический результат – возможность регулировки уровня сигнала в динамическом диапазоне без потери точности данных.

Кодирование звуковых сцен // 2608847

Изобретение относится к кодированию и декодированию звука. Технический результат – обеспечение менее сложного и более гибкого восстановления звуковых объектов.

Эффективное ослабление опережающих эхо-сигналов в цифровом звуковом сигнале // 2607418

Изобретение относится к средствам ослабления опережающих эхо-сигналов в цифровом звуковом сигнале. Технический результат заключается в обеспечении возможности ослабления высоких частот и паразитных опережающих эхо-сигналов при декодировании без передачи кодирующим устройством какой-либо вспомогательной информации.

Устройство для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал, способы, компьютерные программы и битовый поток, представляющий многоканальный звуковой сигнал посредством использования параметра линейной комбинации // 2607267

Изобретение относится к средствам для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования. Технический результат заключается в обеспечении высокого качества звука даже в случае выбора пользователем матрицы аудиокодирования при сохранении низкого уровня вычислительной эффективности на стороне аудиокодера.

Устройство, способ и компьютерная программа для формирования с использованием среднего значения параметров сигнала, подстроенных для обеспечения представления микшированного с повышением сигнала на базе представления микшированного с понижением сигнала и параметрической сторонней информации, связанной с представлением микшированного с понижением сигнала // 2607266

Изобретение относится к области микширования. Технический результат – устранение слышимого искажения в сигнале.

Декодер звукового сигнала, кодирующее устройство звукового сигнала, способ декодирования звукового сигнала, способ кодирования звукового сигналя и компьютерная программа, использующая зависящую от высоты звука адаптацию кодируемого контекста // 2607264

Изобретение относится к средствам кодирования и декодирования звукового сигнала. Технический результат заключается в повышении эффективности кодирования при наличии колебаний основной частоты.

Устройство и способ для кодирования и декодирования кодированного аудиосигнала с использованием временного формирования шума/наложений // 2607263

Изобретение относится к средствам для кодирования и декодирования кодированного аудиосигнала. Технический результат заключается в предоставлении усовершенствованного принципа кодирования/декодирования, позволяющего уменьшить скорость передачи битов.

Устройство и способ для воспроизведения аудиосигнала, устройство и способ для генерирования кодированного аудиосигнала, компьютерная программа и кодированный аудиосигнал // 2607262

Изобретение относится к средствам для генерирования и воспроизведения аудиосигнала. Технический результат заключается в обеспечении возможности генерирования и воспроизведения аудиосигнала при уменьшении доступной скорости передачи данных.

Способ распознавания протоколов низкоскоростного кодирования // 2610285

Изобретение предназначено для распознавания протоколов низкоскоростного кодирования речи (НСКР). Технический результат заключается в повышении точности распознавания протоколов НСКР. Технический результат достигается благодаря увеличению размерности измеренного вектора коэффициентов избыточности ϕZ до ϕL, L=Z+2 и учету эффекта сдвига элементов вектора ϕL путем формирования квадратной эталонной матрицы ΦLj эт для всех J известных протоколов НСКР, j=1, 2 …, J. Для этого принимают цифровой поток Y в течение заданного интервала времени ΔT. Формируют прямоугольную информационную матрицу YK×L, строками которой являются последовательно размещенные друг под другом информационные блоки. Вычисляют вектор коэффициентов избыточности ϕL, поэлементно сравнивают измеренный вектор ϕL со строками всех J квадратных эталонных матриц ΦLj эт, определяют отклонение между измеренным вектором ϕL и строками всех J эталонных матриц ΦLj эт, принимают решение в пользу j-го протокола НСКР, для которого обеспечивается минимальное отклонение измеренного вектора ϕL от строки j-й квадратной эталонной матрицы ΦLj эт. 2 з.п. ф-лы, 9 ил.

Расширение полосы частот гармонического аудиосигнала // 2610293

Изобретение относится к средствам для управления усилениями в полосах в расширенной области полосы частот на основе информации о положениях пиков. Технический результат заключается в повышении качества расширения полосы частот гармонических аудиосигналов. Принимают множество значений усиления, ассоциированных с полосой b частот, и множество соседних полос частот для полосы b. Определяют, содержит ли реконструированная соответствующая полоса b’ частот спектральный пик. Когда полоса b’ содержит спектральный пик, значение усиления, ассоциированное с полосой b’, устанавливают как первое значение на основе принятого множества значений усиления; и в противном случае, значение усиления устанавливают как второе значение на основе принятого множества значений усиления. 4 н. и 8 з.п. ф-лы, 10 ил.

Воспроизведение многоканального аудио // 2610416

Изобретение относится к воспроизведению многоканального аудио и используется, в частности, в системе воспроизведения домашнего кинотеатра/объемного звучания с использованием беспроводных блоков динамиков. Технический результат – увеличение гибкости и облегчение эксплуатации путем сокращения потребности в проводных соединениях. Система воспроизведения многоканального аудио содержит модуль воспроизведения аудио, который генерирует аудиосигналы для множества аудиоканалов. Множество взаимозаменяемых блоков динамиков содержит аккумулятор и аудиопреобразователь для воспроизведения аудиосигнала. Зарядный блок связан с конкретным аудиоканалом и содержит источник зарядки, который может заряжать аккумулятор присоединенного блока динамика. Связующая схема может связать блок динамика, когда он присоединен к зарядному блоку, с первым аудиоканалом. Система может непрерывно ассоциировать конкретные каналы с зарядными блоками (или пассивными основаниями динамиков, которые не могут осуществлять зарядку), а взаимозаменяемые блоки динамиков могут адаптироваться в зависимости от их присоединения. Данный подход может позволить осуществлять зарядку блока динамика (возможно, беспроводного) просто путем замены данного блока динамика на присоединенный к зарядному блоку. 2 н. и 13 з.п. ф-лы, 16 ил.

Вычисление отношения сигнал-шум конвертора с уменьшенной сложностью // 2610588

Настоящее изобретение относится к средствам кодирования и декодирования звука. Технический результат заключается в уменьшении вычислительной сложности процесса распределения битов, используемого в процессе кодирования/декодирования звука. Аудиокодер содержит модуль преобразования, сконфигурированный для определения на основе указанного кадра звукового сигнала набора спектральных коэффициентов. Кроме того, кодер содержит модуль кодирования с плавающей запятой, выполненный с возможностью определения набора масштабных коэффициентов и набора масштабированных значений на основе указанного набора спектральных коэффициентов; и кодирования указанного набора масштабных коэффициентов для получения набора кодированных масштабных коэффициентов. В дополнение, кодер содержит модуль распределения битов и квантования, сконфигурированный для определения общего числа доступных битов для квантования набора масштабированных значений на основе первой целевой скорости передачи данных и на основе числа битов, использованных для набора кодированных масштабных коэффициентов; определения первого параметра управления, служащего признаком распределения общего числа доступных битов для квантования масштабированных значений из набора масштабированных значений; и для квантования набора масштабированных значений. 7 н. и 25 з.п. ф-лы, 12 ил.

Преобразующее кодирование/декодирование гармонических звуковых сигналов // 2611017

Изобретение относится к средствам для кодирования и декодирования гармонических звуковых сигналов. Технический результат заключается в повышении качества кодированного гармонического звукового сигнала. Кодер для кодирования коэффициентов частотного преобразования гармонического звукового сигнала включает в себя следующие элементы: определитель местоположения пика, выполненный с возможностью определения местоположения спектральных пиков, имеющих величины, превышающие предопределенный зависящий от частоты порог. Кодер пиковой области, выполненный с возможностью кодирования пиковых областей, включающих в себя и окружающих обнаруженные пики. Кодер низкочастотного набора, выполненный с возможностью кодирования по меньшей мере одного низкочастотного набора коэффициентов за пределами пиковых областей и ниже переходной частоты, которая зависит от количества битов, используемых для кодирования пиковых областей. Кодер коэффициента усиления уровня шума, выполненный с возможностью кодирования коэффициента усиления уровня шума по меньшей мере одного высокочастотного набора еще не кодированных коэффициентов за пределами пиковых областей. 6 н. и 14 з.п. ф-лы, 23 ил., 1 табл.

Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио // 2612581

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в уменьшении задержки при восстановлении аудио после потери пакета при кодировании. Устройство передачи аудиосигнала для кодирования аудиосигнала включает в себя блок кодирования аудио, который кодирует аудиосигнал, и блок кодирования побочной информации, который вычисляет и кодирует побочную информацию из прогнозного сигнала. Устройство приема аудиосигнала для декодирования аудиокода и вывода аудиосигнала включает в себя буфер аудиокода, который обнаруживает потерю пакета на основе состояния приема аудиопакета, блок декодирования аудиопараметров, который декодирует аудиокод, когда аудиопакет принят корректно, блок декодирования побочной информации, который декодирует код побочной информации, когда аудиопакет принят корректно, блок сбора побочной информации, который собирает побочную информацию, получаемую посредством декодирования кода побочной информации, блок обработки отсутствующих аудиопараметров, который выводит аудиопараметр, когда обнаружена потеря аудиопакета, и блок синтеза аудио, который синтезирует декодированное аудио из аудиопараметра. 4 н. и 4 з.п. ф-лы, 43 ил.

Декорреляция сигналов в системе обработки аудиоданных // 2614381

Изобретение относится к области обработки сигнала. Техническим результатом является уменьшение сложности алгоритмов кодирования и декодирования за счет декорреляции только вещественнозначных коэффициентов. Способ обработки аудиоданных включает прием из битового потока аудиоданных, соответствующих ряду звуковых каналов, применение процесса декорреляции к некоторым из аудиоданных, причем процесс декорреляции включает применение алгоритма декорреляции, действующего полностью на вещественнозначных коэффициентах. 3 н. и 13 з.п. ф-лы, 37 ил.

Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования // 2614573

Изобретение относится к средствам кодирования и декодирования звуковых сигналов. Технический результат заключается в повышении качества кодирования сигнала. Генерируют низведенный сигнал и остаточный сигнал на основе стереофонического сигнала. Определяют разность интенсивностей между каналами и взаимную корреляцию между каналами. Предпочтительно параметры параметрического стереофонического кодирования являются зависящими от времени и от частоты. Этап преобразования генерирует псевдолевый/правый стереофонический сигнал путем выполнения преобразования на основе низведенного сигнала и остаточного сигнала. Псевдостереофонический сигнал обрабатывается перцептуальным стереофоническим кодером. Для стереофонического кодирования может быть выбрано левое/правое кодирование или среднее/побочное кодирование. Предпочтительно выбор между левым/правым кодированием и средним/побочным кодированием является зависящим от времени и от частоты. 4 н. и 16 з.п. ф-лы, 26 ил.

Генератор водяного знака, декодер водяного знака, способ генерации сигнала водяного знака, способ формирования данных двоичного сообщения в зависимости от сигнала с водяным знаком и компьютерная программа на основе усовершенствованной концепции синхронизации // 2614855

Изобретение относится к средствам генерации, кодирования и декодирования водяного знака. Технический результат заключается в обеспечении надежной синхронизации при передаче водяного знака. Генератор водяного знака, вырабатывающий сигнал электронного водяного знака на основе данных двоичного сообщения, включающий в свою конструкцию расширитель информации, расширяющий информационную единицу до множества значений время-частотной области с формированием представления информации о расширении. Генератор водяного знака, также включающий в свою конструкцию модулятор синхронности, выполняющий мультипликативное совмещение представления информации о расширении с последовательностью синхронизации для формирования совокупного представления информации и синхронизации. Генератор водяного знака, наряду с этим включающий в себя питатель сигнала водяного знака, вырабатывающий сигнал водяного знака на основе совокупного представления информации и синхронизации. Кроме того, описаны декодер водяного знака, способы и компьютерные программы. 6 н. и 13 з.п. ф-лы, 41 ил.

Устройство и способ обработки речевого/аудио сигнала // 2616557

Изобретение относится к средствам обработки речевого/аудио сигнала. Технический результат заключается в обеспечении комфортного воспроизведения звука во время переключения полосы пропускания речевых/аудио сигналов. Способ обработки речевого/аудио сигнала включает в себя этапы, на которых при переключении полосы пропускания речевого/аудио сигнала получают исходный высокочастотный сигнал, соответствующий текущему кадру речевого/аудио сигнала; получают глобальный параметр усиления исходного высокочастотного сигнала во временной области; выполняют обработку взвешивания для отношения энергий и глобального параметра усиления во временной области и используют полученное взвешенное значение в качестве предсказанного глобального параметра усиления, причем отношение энергий представляет собой отношение между энергией архивного кадра высокочастотного сигнала во временной области и энергией текущего кадра исходного высокочастотного сигнала; корректируют исходный высокочастотный сигнал с помощью предсказанного глобального параметра усиления для получения скорректированного высокочастотного сигнала во временной области; синтезируют текущий кадр узкополосного сигнала во временной области и скорректированный высокочастотный сигнал во временной области и выводят синтезированный сигнал. 4 н. и 19 з.п. ф-лы, 10 ил.