Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука

Изобретение относится к средствам для воспроизведения пространственно протяженного источника звука. Технический результат заключается в повышении эффективности воспроизведения пространственно протяженного источника звука. Принимают позицию слушателя. Вычисляют проекцию двумерной или трехмерной оболочки, ассоциированной с пространственно протяженным источником звука, на плоскость проекции с использованием позиции слушателя, информации относительно геометрии пространственно протяженного источника звука и информации относительно позиции пространственно протяженного источника звука. Вычисляют позиции по меньшей мере двух источников звука для пространственно протяженного источника звука с использованием плоскости проекции. Осуществляют рендеринг по меньшей мере двух источников звука в позициях, чтобы получать воспроизведение пространственно протяженного источника звука, имеющего два или более выходных сигналов. При этом рендеринг содержит этап, на котором используют различные звуковые сигналы для различных позиций, при этом различные звуковые сигналы ассоциированы с пространственно протяженным источником звука. 7 н. и 34 з.п. ф-лы, 11 ил.

 

Спецификация

Настоящее изобретение относится к обработке аудиосигналов и, в частности, к кодированию или декодированию либо воспроизведению пространственно протяженного источника звука.

В течение длительного времени исследуется воспроизведение источников звука по нескольким громкоговорителям или наушникам. Простейший способ воспроизведения источников звука в таких компоновках состоит в том, чтобы сделать их точечными источниками, то есть очень (в идеале: бесконечно) маленькими источниками звука.. Тем не менее, эта теоретическая концепция практически не позволяет моделировать существующие физические источники звука реалистичным способом. Например, рояль имеет большую вибрирующую деревянную крышку с множеством пространственно распределенных струн внутри и в силу этого кажется гораздо большим при слуховом восприятии, чем точечный источник (в частности, когда слушатель (и микрофоны) находятся близко к роялю). Множество источников звука реального мира имеют значительный размер ("пространственную протяженность"), к примеру, музыкальные инструменты, машины, оркестр или хор либо окружающие звуки (звук водопада).

Корректное/реалистичное воспроизведение таких источников звука становится целью множества способов воспроизведения звука, независимо от того, являются они бинауральными (т.е. с использованием так называемых передаточных функций слухового аппарата человека (HRTF) или бинауральных импульсных откликов в помещении (BRIR)) с использованием наушников, либо традиционными с использованием установок громкоговорителей в пределах от 2 динамиков ("стерео") до множества динамиков, скомпонованных в горизонтальной плоскости ("объемный звук"), и множества динамиков, окружающих слушателя во всех трех измерениях ("трехмерное аудио").

Цель настоящего изобретения заключается в том, чтобы предоставлять концепцию для кодирования или воспроизведения пространственно протяженных источников звука с возможно сложной геометрической формой.

Ширина двумерного источника

В этом разделе описываются способы, которые относятся к рендерингу () протяженных источников звука на двумерной поверхности, обращенной с точки зрения слушателя, например, в некотором диапазоне изменения азимута при подъеме в ноль градусов (как имеет место в традиционном стерео-/объемном звуке), или в некоторых диапазонах изменения азимута и подъема (как имеет место в трехмерном аудио или виртуальной реальности с 3 степенями свободы ("3DoF") перемещения пользователя, т.е. вращения головы в осях поперечной/вертикальной/продольной).

Увеличение кажущейся ширины аудиообъекта, который панорамируется между двумя или более громкоговорителями (формирование так называемого фантомного изображения или фантомного источника) может достигаться посредством снижения корреляции участвующих канальных сигналов. Со снижением корреляции, разброс фантомных источников увеличивается до тех пор, пока, для корреляционных значений, близких к нулю (и не слишком широких углах раскрытия), он не охватывает весь диапазон между громкоговорителями.

Декоррелированные версии сигнала источника получаются посредством извлечения и применения подходящих декорреляционных фильтров. В работе автора Lauridsen предложено суммировать/вычитать масштабированную версию с временной задержкой сигнала источника относительно себя, чтобы получать две декоррелированных версии сигнала. Более сложные подходы, например, предложены в работе автора Kendall. Он итеративно извлекает спаренные декорреляционные всечастотные фильтры на основе комбинаций последовательностей случайных чисел. Работа авторов Faller и др. предлагает подходящие декорреляционные фильтры ("рассеиватели") в. Также в работе Zotter и др. извлекаются пары фильтров, в которых частотно-зависимые разности фаз или амплитуд использованы для того, чтобы достигать расширения фантомного источника. Кроме того, предложены декорреляционные фильтры на основе бархатного шума, которые дополнительно оптимизированы.

Помимо уменьшения корреляции соответствующих канальных сигналов фантомного источника, ширина источника также может увеличиваться посредством увеличения числа фантомных источников, приписанных аудиообъекту. В, ширина источника управляется посредством панорамирования такого же сигнала источника в (немного) различных направлениях. Первоначально предложен способ для того, чтобы стабилизировать воспринимаемый разброс фантомных источников сигналов VBAP-панорамированных источников, когда они перемещаются в звуковой сцене. Это является преимущественным, поскольку в зависимости от направления источника, подготовленный посредством рендеринга источник воспроизводится посредством двух или более динамиков, что может приводить к нежелательным изменениям воспринимаемой ширины источника.

DirAC в виртуальном мире представляет собой расширение традиционного подхода на основе направленного кодирования аудио (DirAC) для синтеза звука в виртуальных мирах. Для рендеринга пространственной протяженности, направленные звуковые компоненты источника случайно панорамируются в пределах некоторого диапазона вокруг исходного направления источника, причем направления панорамирования варьируются во времени и по частоте.

Аналогичный подход задействуется в, при котором пространственная протяженность достигается посредством случайного распределения полос частот сигнала источника для различных пространственных направлений. Он представляет собой способ, направленный на формирование пространственно распределенного и огибающего звука, поступающего одинаково из всех направлений, вместо управления точной степенью протяженности.

В работе авторов Verron и др. пространственная протяженность источника достигается не посредством использования панорамированных коррелированных сигналов, а посредством синтезирования нескольких некогерентных версий сигнала источника, их равномерного распределения по окружности вокруг слушателя и смешения между собой. Число и усиление одновременно активных источников определяют интенсивность эффекта расширения. Этот способ реализован как пространственное протягивание для синтезатора для звуков окружающей среды.

Ширина трехмерного источника

В этом разделе описываются способы, которые относятся к рендерингу протяженных источников звука в трехмерном пространстве, т.е. объемным способом, что требуется для виртуальной реальности с 6 степенями свободы ("6DoF"). Это означает 6 степеней свободы перемещения пользователя, т.е. вращения головы по поперечной, вертикальной и продольной осям) плюс 3 направления x/y/z поступательного перемещения в пространстве.

Работа авторов Potard и др. расширяет понятие протяженности источника в качестве одномерного параметра источника (т.е. его ширины между двумя громкоговорителями) посредством изучения восприятия форм источников. В ней формируются несколько некогерентных точечных источников посредством применения (варьирующихся во времени) технологий декорреляции к первоначальному сигналу источника и затем помещения некогерентных источников в различные пространственные местоположения и за счет этого предоставления им трехмерной протяженности.

В усовершенствованном MPEG-4 AudioBIFS-стандарте, объемные объекты/формы (раковина, коробка, эллипсоид и цилиндр) могут быть заполнены несколькими одинаково распределенными и декоррелированными источниками звука для того, чтобы вызывать трехмерную протяженность источника.

Чтобы увеличивать и управлять протяженностью источника с использованием амбиофонии, в работе авторов Schmele и др. предложено смешение уменьшения порядка амбиофонии входного сигнала, что внутренне увеличивает кажущуюся ширину источника и распределение декоррелированных копий сигнала источника вокруг пространства для прослушивания.

Другой подход введен в работе авторов Zotter и др., в которой приспосабливается принцип, предложенный в (т.е. извлечение пар фильтров, которые вводят частотно-зависимые разности фаз и абсолютных величин, чтобы достигать протяженности источника в компоновках для стереовоспроизведения) для амбиофонии.

Общий недостаток подходов на основе панорамирования (например) заключается в их зависимости от позиции слушателя. Даже небольшое отклонение от зоны наилучшего восприятия приводит к тому, что пространственное изображение сворачивается до громкоговорителя, ближайшего к слушателю. Это радикально ограничивает их применение в контексте виртуальной реальности и дополненной реальности с 6 степенями свободы (6DoF), когда предполагается, что слушатель свободно перемещается. Дополнительно, распределение частотно-временных элементов разрешения в подходах на основе DirAC (например) не всегда гарантирует надлежащий рендеринг пространственной протяженности фантомных источников. Кроме того, оно типично значительно ухудшает тембр сигнала источника.

Декорреляция сигналов источников обычно достигается посредством одного из следующих способов: i) извлечение пар фильтров с комплементарной абсолютной величиной (например), ii) использование всечастотных фильтров с постоянной абсолютной величиной, но (случайно) скремблированной фазой (например), или iii) пространственно случайное распределение частотно-временных элементов разрешения сигнала источника (например).

Все подходы влекут за собой собственные последствия: Комплементарная фильтрация сигнала источника согласно i) типично приводит к измененному воспринимаемому тембру декоррелированных сигналов. Хотя всечастотная фильтрация, как указано в ii), сохраняет тембр сигнала источника, скремблированная фаза нарушает исходные соотношения фаз и, в частности, для переходных сигналов, вызывает серьезную временную дисперсию и артефакты размывания. Пространственное распределение частотно-временных элементов разрешения оказывается эффективным для некоторых сигналов, но также и изменяет воспринимаемый тембр сигнала. Кроме того, оно демонстрирует сильную зависимость от сигнала и вводит серьезные артефакты для импульсных сигналов.

Заполнение объемных форм несколькими декоррелированными версиями сигнала источника, предложенное в усовершенствованном AudioBIFS-стандарте, предполагает доступность большого числа фильтров, которые формируют взаимно декоррелированные выходные сигналы (типично, более десяти точечных источников в расчете на объемную форму используются). Тем не менее, нахождение таких фильтров не представляет собой тривиальную задачу и становится тем более сложным, чем больше таких фильтров требуется. Кроме того, если сигналы источников не полностью декоррелируются, и слушатель перемещает такую форму, например, в сценарии (виртуальной реальности), отдельные расстояния от источника до слушателя соответствуют различным задержкам сигналов источников, и их наложение в ушах слушателя приводит к позиционно-зависимой гребенчатой фильтрации, потенциально вводящей раздражающее неустановившееся окрашивание сигнала источника.

Управление шириной источника с помощью технологию на основе амбиофонии в посредством понижения порядка амбиофонии демонстрирует слышимый эффект только для переходов от второго к первому или к нулевому порядку. Кроме того, эти переходы воспринимаются не только в качестве расширения источника, но также и часто в качестве перемещения фантомного источника. Притом, что суммирование декоррелированных версий сигнала источника может помогать в стабилизации восприятия кажущейся ширины источника, оно также вводит эффекты гребенчатой фильтрации, которые изменяют тембр фантомного источника.

Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованную концепцию воспроизведения пространственно протяженного источника звука или формирования потока битов из пространственно протяженного источника звука.

Это цель достигается посредством оборудования для воспроизведения пространственно протяженного источника звука по п. 1, оборудования для формирования потока битов по п. 27, способа для воспроизведения пространственно протяженного источника звука по п. 35, способа для формирования потока битов по п. 36, потока битов по п. 41 или компьютерной программы по п. 47.

Настоящее изобретение основано на таких выявленных сведениях, что воспроизведение пространственно протяженного источника звука может достигаться и, в частности, даже становится возможным посредством вычисления проекции двумерного или трехмерной оболочки, ассоциированной с пространственно протяженным источником звука, на плоскость проекции с использованием позиции слушателя. Эта проекция используется для вычисления позиций по меньшей мере двух источников звука для пространственно протяженного источника звука, и по меньшей мере два источника звука подготавливаются посредством рендеринга позициях, чтобы получать воспроизведение пространственно протяженного источника звука, при котором результаты рендеринга в двух или более выходных сигналов, и при котором различные звуковые сигналы для различных позиций используются, но различные звуковые сигналы ассоциируются с таким же пространственно протяженным источником звука.

Высококачественное двумерное или трехмерное воспроизведение аудио получается, поскольку, с одной стороны, учитывается варьирующаяся во времени относительная позиция между пространственно протяженным источником звука и (виртуальной) позицией слушателя. С другой стороны, пространственно протяженный источник звука эффективно представляется посредством геометрической информации относительно воспринимаемой протяженности источника звука и посредством числа, по меньшей мере, из двух источников звука, таких как периферийные точечные источники, которые могут легко обрабатываться посредством модулей рендеринга, известных в данной области техники. В частности, простые модули рендеринга в данной области техники всегда находятся в позиции, чтобы осуществлять рендеринг источников звука в некоторых позициях относительно некоторого выходного формата или компоновки громкоговорителей. Например, два источника звука, вычисленные посредством модуля вычисления позиций звука в некоторых позициях, могут подготавливаться посредством рендеринга в этих позициях, например, посредством амплитудного панорамирования.

Когда, например, позиции звука находятся между левым и левым объемным звучанием в 5.1-формате вывода, и когда другие источники звука находятся между правым и правым объемным звучанием в формате вывода, процедура амплитудного панорамирования, выполняемая посредством модуля рендеринга, должна приводить к достаточно похожим сигналам для левого и левого канала объемного звучания для одного источника звука и, соответственно, к достаточно похожим сигналам для правого и правого объемного звучания для другого источника звука таким образом, что пользователь воспринимает источники звука как исходящие из позиций, вычисленных посредством модуля вычисления позиций звука. Тем не менее вследствие того факта, что все четыре сигнала, в конечном счете, ассоциированы и связаны с пространственно протяженным источником звука, пользователь просто не воспринимает два фантомных источника, ассоциированные с позициями, вычисленными посредством модуля вычисления позиций звука, а слушатель воспринимает один пространственно протяженный источник звука.

Оборудование для воспроизведения пространственно протяженного источника звука, имеющего заданную позицию в геометрии в пространстве, содержит интерфейс, проектор, модуль вычисления позиций звука и модуль рендеринга. Настоящее изобретение обеспечивает возможность учитывать улучшенную звуковую ситуацию, которая возникает, например, в фортепьяно. Фортепьяно представляет собой крупное устройство, и к настоящему моменту, звук фортепьяно может подготавливаться посредством рендеринга как исходящий из одноточечного источника. Тем не менее, это не полностью представляет истинные характеристики звука фортепьяно. В соответствии с настоящим изобретением, фортепьяно в качестве примера для пространственно протяженного источника звука отражается, по меньшей мере, посредством двух звуковых сигналов, причем один звуковой сигнал может записываться посредством микрофона, позиционированного близко к левой части фортепьяно, т.е. близко к басовым струнам, в то время как другой источник звука может записываться посредством другого второго микрофона, позиционированного близко к правой части фортепьяно, т.е. около верхних звуковых частотных струн, формирующих высокие тона. Естественно, оба микрофона должны записывать звуки, которые отличаются друг от друга вследствие отражательной ситуации в фортепьяно и, конечно, также вследствие того факта, что басовая струна находится ближе к левому микрофону, чем к правому микрофону, и наоборот. Тем не менее, с другой стороны, оба сигнала микрофонов должны иметь значительное количество аналогичных звуковых компонентов, которые, в конечном счете, составляют уникальный звук фортепьяно.

В соответствии с настоящим изобретением, поток битов, представляющий пространственно протяженный источник звука, такой как фортепьяно, формируется посредством записи сигналов посредством записи также геометрической информации пространственно протяженного источника звука и, необязательно, посредством также либо записи информации местоположения, связанной с различными позициями микрофона (или, в общем, с двумя различными позициями, ассоциированными с двумя различными источниками звука), либо предоставления описания воспринимаемой геометрической формы звука (фортепьяно). Чтобы отражать позицию слушателя относительно источников звука, т.е. того, что слушатель может "проходить вокруг" в виртуальной реальности или дополненной реальности или в любой другой звуковой сцене, проекция оболочки, ассоциированная с пространственно протяженным источником звука, таким как фортепьяно, вычисляется с использованием позиции слушателя, и, позиции по меньшей мере двух источников звука вычисляются с использованием плоскости проекции, при этом, в частности, предпочтительные варианты осуществления относятся к позиционированию источников звука в периферийных точках плоскости проекции.

Появляется возможность, при уменьшенном объеме служебной информации при вычислениях и уменьшенном объеме служебной информации при рендеринге, фактически представлять примерный звук фортепьяно в двумерной или трехмерной ситуации, так что когда слушатель, например, находится ближе к левой части источника звука, такого как фортепьяно, звук, который воспринимает слушатель, отличается от звука, возникающего, когда пользователь расположен близко к правой части источника звука, такого как фортепьяно, или даже позади источника звука, такого как фортепьяно.

С учетом вышеизложенного, идея изобретения является уникальной в том, что, на стороне кодера, предоставляется способ охарактеризования пространственно протяженного источника звука, который обеспечивает возможность использования пространственно протяженного источника звука в ситуации воспроизведения звука для истинной двумерной или трехмерной компоновки. Кроме того, использование позиции слушателя в пределах очень гибкого описания пространственно протяженного источника звука становится возможным эффективным способом за счет вычисления проекции двумерной или трехмерной оболочки на плоскость проекции с использованием позиции слушателя. Позиции звука, по меньшей мере, для двух источников звука для пространственно протяженного источника звука вычисляются с использованием плоскости проекции, и по меньшей мере два источника звука подготавливаются посредством рендеринга в позициях, вычисленных посредством модуля вычисления позиций звука для того, чтобы получать воспроизведение пространственно протяженного источника звука, имеющего два или более выходных сигнала для сигналов наушников или многоканальные выходные сигналы для двух или более каналов в компоновке для стереовоспроизведения или компоновке для воспроизведения, имеющей более двух каналов, к примеру, пять, семь или еще большее число каналов.

По сравнению со способом предшествующего уровня техники для заполнения трехмерной громкости звуком посредством размещения множества различных точечных источников во всех частях громкости, которая должна заполняться, проекция исключает необходимость моделировать большое количество источников звука и резко сокращает число используемых точечных источников в силу необходимости заполнять только проекцию оболочки, т.е. двумерное пространство. Кроме того, число требуемых точечных источников уменьшается еще больше посредством моделирования предпочтительно только источников на оболочке проекции, которая, в крайних случаях, может представлять собой просто один источник звука на левой границе пространственно протяженного источника звука и один источник звука на правой границе пространственно протяженного источника звука. Оба этапа уменьшения основаны на двух психоакустических наблюдениях:

В отличие от азимута (и подъема) источника звука, его расстояние не может восприниматься очень надежно. Таким образом, проекция исходной громкости на плоскость, перпендикулярную слушателю, значительно не изменяет восприятие (но может помогать сокращать число точечных источников, необходимых для рендеринга).

Два декоррелированных звука, которые распределяются в качестве точечных источников влево и вправо, соответственно, имеют тенденцию перцепционно заполнять пространство между собой звуком.

Кроме того, сторона кодера не только обеспечивает возможность определения характеристик одного пространственно протяженного источника звука, но и является гибкой в том, что поток битов, сформированный в качестве представления, может включать в себя все данные для двух или более пространственно протяженных источников звука, которые предпочтительно связаны, относительно своей геометрической информации и местоположения, с одной системой координат. На стороне декодера, воспроизведение не может осуществляться только для одного пространственно протяженного источника звука, а может осуществляться для нескольких пространственно протяженных источников звука, при этом проектор вычисляет проекцию для каждого источника звука с использованием (виртуальной) позиции слушателя. Дополнительно, модуль вычисления позиций звука вычисляет позиции по меньшей мере двух источников звука для каждого пространственно протяженного источника звука, и модуль рендеринга подготавливает посредством рендеринга все вычисленные источники звука для каждого пространственно протяженного источника звука, например, посредством суммирования двух или более выходных сигналов из каждого пространственно протяженного источника звука посигнально или поканально и посредством предоставления суммированных каналов в соответствующие наушники для бинаурального воспроизведения либо в соответствующие громкоговорители в связанной с громкоговорителями компоновке для воспроизведения либо, альтернативно, в устройство хранения данных для сохранения (комбинированных) двух или более выходных сигналов для последующего использования или передачи.

На стороне генератора или кодера, поток битов формируется с использованием оборудования для формирования потока битов, представляющего сжатое описание для пространственно протяженного источника звука, при этом оборудование содержит поставщик звука для предоставления одного или более различных звуковых сигналов для пространственно протяженного источника звука, и формирователь выходных данных формирует поток битов, представляющий сжатую звуковую сцену, причем поток битов содержит один или более различных звуковых сигналов предпочтительно сжатым способом, к примеру, сжатым посредством кодера для сжатия по скорости передачи битов, например, MP3-, AAC-, USAC- или MPEG-H-кодера. Кроме того, формирователь выходных данных выполнен с возможностью вводить в поток битов, в случае двух или более различных звуковых сигналов, необязательную информацию отдельного местоположения для каждого звукового сигнала из двух или более различных звуковых сигналов, указывающую местоположение соответствующего звукового сигнала предпочтительно относительно информации относительно геометрии пространственно протяженного источника звука, т.е. то, что первый сигнал представляет собой сигнал, записанный в левой части фортепьяно в вышеприведенном примере, и сигнал, записанный в правой стороне фортепьяно.

Тем не менее, альтернативно, информация местоположения не должна обязательно быть связана с геометрией пространственно протяженного источника звука, но также может быть связана с общим началом координат, хотя взаимосвязь с геометрией пространственно протяженного источника звука является предпочтительной.

Кроме того, оборудование для формирования сжатого потока битов также содержит поставщик геометрии для вычисления информации относительно геометрии пространственно протяженного источника звука, и формирователь выходных данных выполнен с возможностью введения, в поток битов, информации относительно геометрии, информации относительно информации отдельного местоположения для каждого звукового сигнала, в дополнение, по меньшей мере, к двум звуковым сигналам, таким как звуковые сигналы, записанные посредством микрофонов. Тем не менее, поставщик звука не должен обязательно фактически снимать сигналы микрофонов, но звуковые сигналы также могут формироваться, на стороне кодера, с использованием обработки декорреляции в зависимости от обстоятельств. Одновременно, только небольшое число звуковых сигналов или даже один звуковой сигнал могут передаваться для пространственно протяженного звукового сигнала, и оставшиеся звуковые сигналы формируются на стороне воспроизведения с использованием обработки декорреляции. Это предпочтительно передается в служебных сигналах посредством элемента потока битов в потоке битов таким образом, что модуль воспроизведения звука всегда знает то, сколько звуковых сигналов включаются в расчете на пространственно протяженный источник звука таким образом, что модуль воспроизведения может определять, в частности, в модуле вычисления позиций звука, то, сколько звуковых сигналов доступно, и то, сколько звуковых сигналов должно извлекаться на стороне декодера, к примеру, посредством обработки корреляции или синтеза сигналов.

В этом варианте осуществления, модуль повторного формирования записывает элемент потока битов в поток битов, указывающий число звуковых сигналов, включенных для пространственно протяженного источника звука, и, на стороне декодера, модуль воспроизведения звука приводит элемент потока битов из потока битов, считывает элемент потока битов и определяет, на основе элемента потока битов, то, сколько сигналов для предпочтительно периферийных точечных источников или вспомогательных источников, размещенных между периферийными источниками звука, должны вычисляться на основе, по меньшей мере, одного принимаемого звукового сигнала в потоке битов.

Далее поясняются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:

Фиг. 1 является общим представлением блок-схемы предпочтительного варианта осуществления стороны воспроизведения;

Фиг. 2 иллюстрирует сферический пространственно протяженный источник звука с различным числом периферийных точечных источников;

Фиг. 3 иллюстрирует эллипсоидный пространственно протяженный источник звука с несколькими периферийными точечными источниками;

Фиг. 4 иллюстрирует линейный пространственно протяженный источник звука с различными способами для того, чтобы распределять местоположение периферийных точечных источников;

Фиг. 5 иллюстрирует кубоидный пространственно протяженный источник звука с различными процедурами для того, чтобы распределять периферийные точечные источники;

Фиг. 6 иллюстрирует сферический пространственно протяженный источник звука на различных расстояниях;

Фиг. 7 иллюстрирует пространственно протяженный источник звука в форме фортепьяно приблизительно в параметрической эллипсоидной форме;

Фиг. 8 иллюстрирует пространственно протяженный источник звука в форме фортепьяно с тремя периферийными точечными источниками, распределенными по экстремальным точкам проецируемой выпуклой оболочки;

Фиг. 9 иллюстрирует предпочтительную реализацию оборудования или способа для воспроизведения пространственно протяженного источника звука;

Фиг. 10 иллюстрирует предпочтительную реализацию оборудования или способа для формирования потока битов, представляющего сжатое описание для пространственно протяженного источника звука; и

Фиг. 11 иллюстрирует предпочтительную реализацию потока битов, сформированного посредством оборудования или способа, проиллюстрированного на фиг. 10.

Фиг. 9 иллюстрирует предпочтительную реализацию оборудования для воспроизведения пространственно протяженного источника звука, имеющего заданную позицию и геометрию в пространстве. Оборудование содержит интерфейс 100, проектор 120, модуль 140 вычисления позиций звука и модуль 160 рендеринга. Интерфейс выполнен с возможностью приема позиции слушателя. Кроме того, проектор 120 выполнен с возможностью вычисления проекции двумерной или трехмерной оболочки, ассоциированной с пространственно протяженным источником звука, на плоскость проекции с использованием позиции слушателя, принимаемой посредством интерфейса 100 и использования, дополнительно, информации относительно геометрии пространственно протяженного источника звука, и дополнительно, использования информации относительно позиции пространственно протяженного источника звука в пространстве. Предпочтительно, заданная позиция пространственно протяженного источника звука в пространстве и, дополнительно, геометрия пространственно протяженного источника звука в пространстве принимается для воспроизведения пространственно протяженного источника звука через поток битов, поступающий в демультиплексор 180 потоков битов или синтаксический анализатор сцен. Демультиплексор 180 потоков битов извлекает, из потока битов, информацию геометрии пространственно протяженного источника звука и предоставляет эту информацию в проектор. Кроме того, демультиплексор потоков битов также извлекает позицию пространственно протяженного источника звука из потока битов и перенаправляет эту информацию в проектор. Предпочтительно, поток битов также содержит информацию местоположения, по меньшей мере, для двух различных источников звука, и, предпочтительно, демультиплексор потоков битов также извлекает, из потока битов, сжатое представление по меньшей мере двух источников звука, и по меньшей мере два источника звука распаковываются/декодируются посредством декодера в качестве аудиодекодера 190. Декодированные по меньшей мере два источника звука в завершение перенаправляются в модуль 160 рендеринга, и модуль рендеринга подготавливает посредством рендеринга по меньшей мере два источника звука в позициях, предоставленных посредством модуля 140 вычисления позиций звука в модуль 160 рендеринга.

Хотя фиг. 9 иллюстрирует связанное с потоком битов оборудование воспроизведения, имеющее демультиплексор 180 потоков битов и аудиодекодер 190, воспроизведение также может осуществляться в ситуации, отличающейся от сценария кодера/декодера. Например, заданная позиция и геометрия в пространстве может уже существовать в оборудовании воспроизведения, к примеру, в сцене в стиле виртуальной реальности или дополненной реальности, в которой данные формируются на площадке и потребляются на этой площадке. Демультиплексор 180 потоков битов и аудиодекодер 190 фактически не требуются, и информация геометрии пространственно протяженного источника звука и позиции пространственно протяженного источника звука доступна вообще без извлечения из потока битов. Кроме того, информация местоположения, связывающая местоположение по меньшей мере двух источников звука с геометрической информацией пространственно протяженного источника звука, также может фиксированно согласовываться заранее и в силу этого не должна передаваться из кодера в декодер, либо, альтернативно, эти данные формируются, снова, на площадке.

Следовательно, следует отметить, что информация местоположения предоставляется только в вариантах осуществления, и нет необходимости передавать эту информацию даже в случае двух или более сигналов источников звука. Декодер или модуль воспроизведения, например, может всегда принимать первый сигнал источника звука в потоке битов в качестве источника звука на проекции, размещенной больше влево. Аналогично, второй сигнал источника звука в потоке битов может приниматься в качестве источника звука на проекции, размещенной больше вправо.

Кроме того, хотя модуль вычисления позиций звука вычисляет позиции по меньшей мере двух источников звука для пространственно протяженного источника звука с использованием плоскости проекции по меньшей мере два источника звука должны не обязательно приниматься из потока битов. Вместо этого, только один источник звука, по меньшей мере, из двух источников звука может приниматься через поток битов и другой источник звука, и в силу этого также другая информация позиции или местоположения может фактически формироваться только на стороне воспроизведения без необходимости передачи этой информации из генератора потоков битов в модуль воспроизведения. Тем не менее, в других вариантах осуществления, вся эта информация может передаваться, и дополнительно, более высокое число, чем один или два звуковых сигнала, могут передаваться в потоке битов, когда требования по скорости передачи битов не являются жесткими, и аудиодекодер 190 должен декодировать два, три или еще большее число звуковых сигналов, представляющих по меньшей мере два источника звука, позиции которых вычисляются посредством модуля 140 вычисления позиций звука.

Фиг. 10 иллюстрирует сторону кодера этого сценария, когда воспроизведение применяется в приложении кодера/декодера. Фиг. 10 иллюстрирует оборудование для формирования потока битов, представляющего сжатое описание для пространственно протяженного источника звука. В частности, предоставляются поставщик 200 звука и формирователь 240 выходных данных. В этой реализации, пространственно протяженный источник звука представляется посредством сжатого описания, имеющего один или более различных звуковых сигналов, и формирователь выходных данных формирует поток битов, представляющий сжатую звуковую сцену, при этом поток битов содержит, по меньшей мере, один или более различных звуковых сигналов и геометрическую информацию, связанную с пространственно протяженным источником звука. Это представляет ситуацию, проиллюстрированную относительно фиг. 9, в которой вся остальная информация, такая как позиция пространственно протяженного источника звука (см. пунктирную стрелку в блоке 120 по фиг. 9), может свободно выбираться пользователем на стороне воспроизведения. Таким образом, предоставляется уникальное описание пространственно протяженного источника звука, по меньшей мере, с одним или более различных звуковых сигналов для этого пространственно протяженного источника звука, причем эти звуковые сигналы представляют собой просто сигналы точечных источников.

Оборудование для формирования дополнительно содержит поставщик 220 геометрии для предоставления, к примеру, вычисления информации относительно геометрии для пространственно протяженного источника звука. Другие способы предоставления геометрической информации, отличающееся от вычисления, содержат прием пользовательского ввода, к примеру, чертежа, вручную нарисованного пользователем, либо любой другой информации, предоставляемой пользователем, например, посредством речи, тонов, жестов или любого другого пользовательского действия. В дополнение к одному или более различных звуковых сигналов, также информация относительно геометрии вводится в поток битов.

Необязательно, информация относительно информации отдельного местоположения для каждого звукового сигнала из одного или более различных звуковых сигналов также вводится в поток битов, и/или информация позиции для пространственно протяженного источника звука также вводится в поток битов. Информация позиции для источника звука может быть отдельной от геометрической информации или может включаться в геометрическую информацию. В первом случае, геометрическая информация может выдаваться относительно информации позиции. Во втором случае, геометрическая информация может содержать, например, для сферы, центральную точку в координатах и радиус или диаметр. Для коробчатого пространственно протяженного источника звука, восемь или, по меньшей мере, одна из угловых точек могут выдаваться в абсолютных координатах.

Информация местоположения для каждого из одного или более различных звуковых сигналов предпочтительно связана с геометрической информацией пространственно протяженного источника звука. Тем не менее, альтернативно, также полезной является информация абсолютного местоположения, связанная с такой же системой координат, в которой выдается информация позиции или геометрическая информация пространственно протяженного источника звука, и альтернативно, геометрическая информация также может выдаваться в абсолютной системе координат с абсолютными координатами, а не относительным способом. Тем не менее, предоставление этих данных относительным способом, не связанным с общей системой координат, позволяет пользователю самому позиционировать пространственно протяженный источник звука в компоновке для воспроизведения, как указано посредством пунктирной линии, направленной в проектор 120 по фиг. 9.

В дополнительном варианте осуществления, поставщик 200 звука по фиг. 10 выполнен с возможностью предоставления по меньшей мере двух различных звуковых сигналов для пространственно протяженного источника звука, и формирователь выходных данных выполнен с возможностью формирования потока битов таким образом, что поток битов содержит по меньшей мере два различных звуковых сигнала предпочтительно в кодированном формате и необязательно информацию отдельного местоположения для каждого звукового сигнала, по меньшей мере, из двух различных звуковых сигналов либо в абсолютных координатах, либо относительно геометрии пространственно протяженного источника звука.

В варианте осуществления, поставщик звука выполнен с возможностью выполнять запись естественного источника звука в нескольких отдельных позициях или ориентациях микрофона либо: выполнять извлечение звукового сигнала из одного базисного сигнала или нескольких базисных сигналов посредством одного или более декорреляционных фильтров, например, как поясняется относительно фиг. 1, пункт 164 и 166. Базисные сигналы, используемые в генераторе, могут быть одинаковыми или отличающимися от базисных сигналов, предоставленных на площадке для воспроизведения или передаваемых из генератора в модуль воспроизведения.

В дополнительном варианте осуществления, поставщик 220 геометрии выполнен с возможностью извлекать, из геометрии пространственно протяженного источника звука, параметрическое описание или многоугольное описание, и формирователь выходных данных выполнен с возможностью вводить, в поток битов, это параметрическое описание или многоугольное описание.

Кроме того, формирователь выходных данных выполнен с возможностью вводить, в поток битов, элемент потока битов, в предпочтительном варианте осуществления, при этом данный элемент потока битов указывает число, по меньшей мере, одного другого звукового сигнала для пространственно протяженного источника звука, включенного в поток битов или включенного в кодированный аудиосигнал, ассоциированный с потоком битов, причем число равно 1 или больше 1. Поток битов, сформированный посредством формирователя выходных данных, не должен обязательно представлять собой полный поток битов с данными формы аудиосигнала, с одной стороны, и метаданными, с другой стороны. Вместо этого, поток битов также может только представлять собой отдельный потока битов метаданных, содержащий, например, поле потоков битов для числа звуковых сигналов для каждого пространственно протяженного источника звука, геометрическую информацию для пространственно протяженного источника звука и, в варианте осуществления, также информацию позиции для пространственно протяженного источника звука и необязательно информацию местоположения для каждого звукового сигнала и для каждого пространственно протяженного источника звука, геометрическую информацию для пространственно протяженного источника звука и, в варианте осуществления, также информацию позиции для пространственно протяженного источника звука. Формы аудиосигналов, типично доступные в сжатой форме, передаются посредством отдельного потока данных или отдельного канала передачи в модуль воспроизведения таким образом, что модуль воспроизведения принимает, из одного источника, кодированные метаданные и из другого источника (кодированные) формы сигналов.

Кроме того, вариант осуществления генератора потоков битов содержит контроллер 250. Контроллер 250 выполнен с возможностью управлять поставщиком 200 звука относительно числа звуковых сигналов, которые должны предоставляться посредством поставщика звука. В соответствии с этой процедурой, контроллер 250 также предоставляет информацию элементов потока битов в формирователь 240 выходных данных, указываемый посредством заштрихованной линии, обозначающей необязательный признак. Формирователь выходных данных вводит, в элемент потока битов, конкретную информацию относительно числа звуковых сигналов, управляемых посредством контроллера 250 и предоставленных посредством поставщика 200 звука. Предпочтительно, число звуковых сигналов управляется таким образом, что выходной поток битов, содержащий кодированные звуковые аудиосигналы, удовлетворяет внешним требованиям по скорости передачи битов. Когда разрешенная скорость передачи битов является высокой, поставщик звука должен предоставлять большее число звуковых сигналов по сравнению с ситуацией, когда разрешенная скорость передачи битов является небольшой. В крайнем случае, поставщик звука должен предоставлять только один звуковой сигнал для пространственно протяженного источника звука, когда требования по скорости передачи битов являются жесткими.

Модуль воспроизведения должен считывать соответствующий заданный элемент потока битов и должен продолжать, в модуле 160 рендеринга, синтезировать, на стороне декодера и с использованием передаваемого сигнала звуков, соответствующее число дополнительных звуковых сигналов, так что, в конечном счете, формируется требуемое число периферийных точечных источников и, необязательно, вспомогательных источников.

Тем не менее, когда требования по скорости передачи битов не являются очень жесткими, контроллер 250 должен управлять поставщиком звука таким образом, чтобы предоставлять высокое число различных звуковых сигналов, например, записанных посредством соответствующего числа ориентаций микрофона или микрофонов. После этого, на стороне воспроизведения, обработка декорреляции вообще не требуется либо требуется только в небольшой степени, так что, в конечном счете, лучшее качество воспроизведения получается посредством модуля воспроизведения вследствие сокращенной или необязательной обработки декорреляции на стороне воспроизведения. Компромисс между скоростью передачи битов, с одной стороны, и качеством, с другой стороны, предпочтительно получается через функциональность элемента потока битов, указывающего число сигналов звуков в расчете на пространственно протяженный источник звука.

Фиг. 11 иллюстрирует предпочтительный вариант осуществления потока битов, сформированного посредством оборудования формирования потока битов, проиллюстрированного на фиг. 10. Поток битов содержит, например, второй пространственно протяженный источник 401 звука, указываемый в качестве SESS2 с соответствующими данными.

Кроме того, фиг. 11 иллюстрирует подробные данные для каждого пространственно протяженного источника звука относительно пространственно протяженного источника звука номер 1. В примере на фиг. 11, два звуковых сигнала служат для пространственно протяженного источника звука, которые сформированы в генераторе потоков битов, например, из выходных данных микрофонов, снимаемых с микрофонов, размещенных в двух различных местах пространственно протяженного источника звука. Первый звуковой сигнал представляет собой звуковой сигнал 1, указываемый как 301, и второй звуковой сигнал представляет собой звуковой сигнал 2, указываемый как 302, и оба звуковых сигнала предпочтительно кодируются через аудиокодер для сжатия по скорости передачи битов. Кроме того, пункт 311 представляет элемент потока битов, указывающий число звуковых сигналов для пространственно протяженного источника 1 звука, например, управляемого посредством контроллера 250 по фиг. 10.

Геометрическая информация для пространственно протяженного источника звука вводится, как показано в блоке 331. Пункт 301 указывает необязательную информацию местоположения для звуковых сигналов предпочтительно относительно геометрической информации, к примеру, относительно примера фортепьяно, указывающей "близко к басовым струнам" для звукового сигнала 1 и "близко к верхним звуковым частотным струнам" для звукового сигнала 2, указываемого как 302. Геометрическая информация, например, может представлять собой параметрическое представление или многоугольное представление модели на основе фортепьяно, и эта модель на основе фортепьяно должна отличаться, например, для рояля или (небольшого) фортепьяно. Пункт 341 дополнительно иллюстрирует необязательные данные относительно информации позиции для пространственно протяженного источника звука в пространстве. Как указано, эта информация 341 позиции не является обязательной, когда пользователь предоставляет информацию позиции, как указано посредством пунктирной линии на фиг. 9, направленной в проектор. Тем не менее, даже когда информация 341 позиции включается в поток битов, пользователь, несмотря на это, может заменять или модифицировать информацию позиции посредством пользовательского взаимодействия.

Далее поясняются предпочтительные варианты осуществления настоящего изобретения. Варианты осуществления относятся к рендерингу пространственно протяженных источников звука в 6DoF VR/AR (виртуальной реальности/дополненной реальности).

Предпочтительные варианты осуществления изобретения направлены на способ, оборудование или компьютерную программу, разработанные с возможностью улучшать воспроизведение пространственно протяженных источников звука (SESS). В частности, варианты осуществления изобретаемого способа или оборудования рассматривают варьирующуюся во времени относительную позицию между пространственно протяженным источником звука и виртуальной позицией слушателя. Другими словами, варианты осуществления изобретаемого способа или оборудования обеспечивают возможность слуховой ширине источника совпадать с пространственной протяженностью представленного звукового объекта в любой относительной позиции к слушателю. В связи с этим, вариант осуществления изобретаемого способа или оборудования применяется, в частности, к вариантам применения в стиле виртуальной, смешанной и дополненной реальности с 6 степенями свободы (6DoF), в которых пространственно протяженный источник звука дополняет традиционно используемые точечные источники.

Вариант осуществления изобретаемого способа или оборудования подготавливает посредством рендеринга пространственно протяженный источник звука посредством использования нескольких периферийных точечных источников, в которые подаются (предпочтительно значительно) декоррелированные сигналы. В отличие от других способов, местоположения этих периферийных точечных источников зависят от позиции слушателя относительно пространственно протяженного источника звука. Фиг. 1 иллюстрирует блок-схему общего представления модуля рендеринга пространственно протяженного источника звука согласно варианту осуществления изобретаемого способа или оборудования.

Ключевые компоненты блок-схемы являются следующими:

Позиция слушателя: Этот блок предоставляет мгновенную позицию слушателя, например, измеренную посредством системы отслеживания в стиле виртуальной реальности. Блок может реализовываться как детектор 100 для обнаружения или интерфейс 100 для приема позиции слушателя.

Позиция и геометрия пространственно протяженного источника звука: Этот блок предоставляет данные позиции и геометрии пространственно протяженного источника звука, который должен подготавливаться посредством рендеринга, например, в качестве части представления сцены в стиле виртуальной реальности.

Проекция и вычисление выпуклой оболочки: Этот блок 120 вычисляет выпуклую оболочку геометрии пространственно протяженных источников звука и затем проецирует ее в направлении к позиции слушателя (например, к "плоскости изображений", см. нижеприведенную информацию). Альтернативно, такая же функция может достигаться посредством проецирования сначала геометрии к позиции слушателя и затем вычисления ее выпуклой оболочки.

Местоположение периферийных точечных источников: Этот блок 140 вычисляет местоположения используемых периферийных точечных источников из данных проекции выпуклой оболочки, вычисленных посредством предыдущего блока. В этом вычислении, он также может рассматривать позицию слушателя и в силу этого близость/расстояние слушателя (см. нижеприведенную информацию). Вывод представляет собой n местоположений периферийных точечных источников.

Ядро модуля рендеринга: Ядро 162 модуля рендеринга аурализирует n периферийных точечных источников посредством их позиционирования в указанных целевых местоположениях. Он, например, может представлять собой модули бинаурального рендеринга с использованием передаточных функций слухового аппарата человека или модули рендеринга для воспроизведения через громкоговорители (например, для векторного амплитудного панорамирования). Ядро модуля рендеринга формирует l выходных сигналов громкоговорителей или наушников из k входных базисных аудиосигналов (например, декоррелированных сигналов записи инструментов) и m ≥ (n-k) дополнительных декоррелированных аудиосигналов.

Базисные сигналы источников: Этот блок 164 представляет собой ввод для k базисных аудиосигналов, которые (достаточно) декоррелируются друг от друга и представляют источник звука, который долен подготавливаться посредством рендеринга (например, моно- (k=1) или стерео- (k=2) запись музыкального инструмента). K базисных аудиосигналов, например, извлекаются из потока битов (см., например, элементы 301, 302 по фиг. 11), принимаемого из генератора на стороне декодера, либо могут предоставляться на площадке для воспроизведения из внешнего источника.

Декорреляторы: Этот необязательный блок 166 формирует дополнительные декоррелированные аудиосигналы, требуемые для рендеринга n периферийных точечных источников.

Вывод сигналов: Модуль рендеринга предоставляет выходные сигналы l для рендеринга в громкоговорителях (например, n=5.1) или бинаурального рендеринга (типично n=2).

Фиг. 1 иллюстрирует общее представление блок-схемы варианта осуществления изобретаемого способа или оборудования. Пунктирные линии указывают передачу метаданных, таких как геометрия и позиции. Сплошные линии указывают передачу аудио, где k, l и m указывают множество аудиоканалов. Ядро 162 модуля рендеринга принимает возможно k+m аудиосигналов и n (<=k+m) позиционных данных. Блоки 162, 164, 166 вместе формируют вариант осуществления общего модуля 160 рендеринга.

Местоположения периферийных точечных источников зависят от геометрии, в частности, пространственной протяженности, пространственно протяженного источника звука и относительной позиции слушателя относительно пространственно протяженного источника звука. В частности, периферийные точечные источники могут быть расположены на проекции выпуклой оболочки пространственно протяженного источника звука на плоскость проекции. Плоскость проекции может представлять собой либо плоскость картинки, т.е. плоскость, перпендикулярную линии зрения от слушателя к пространственно протяженному источника звуку, либо сферическую поверхность вокруг головы слушателя. Плоскость проекции расположена на произвольном небольшом расстоянии от центра головы слушателя. Альтернативно, выпуклая оболочка проекции пространственно протяженного источника звука может вычисляться из углов азимута и подъема, которые представляют собой поднабор сферических координат относительно перспективы головы слушателя. В иллюстративных нижеприведенных примерах, плоскость проекции является предпочтительной вследствие своего более интуитивного характера. В реализации с вычислением проецируемой выпуклой оболочки, угловое представление является предпочтительным вследствие более простой формализации и более низкой вычислительной сложности. Следует обратить внимание на то, что проекция выпуклой оболочки пространственно протяженного источника звука является такой же выпуклой оболочкой геометрии проецируемых пространственно протяженных источников звука, т.е. вычисление выпуклой оболочки и проекция на плоскость картинки могут использоваться в любом порядке.

Местоположения периферийных точечных источников могут распределяться по проекции выпуклой оболочки пространственно протяженного источника звука различными способами, что включает в себя следующее:

- Они могут возмущаться равномерно вокруг проекции оболочки

- Они могут распределяться в точках экстремума проекции оболочки

- Они могут быть расположены в горизонтальных и/или вертикальных точках экстремума проекции оболочки (см. фиг. в разделе "Практические примеры").

В дополнение к периферийным точечным источникам, другие вспомогательные точечные источники также могут использоваться для того, чтобы формировать улучшенное ощущение акустического заполнения за счет дополнительной вычислительной сложности. Дополнительно, проецируемая выпуклая оболочка может модифицироваться до позиционирования периферийных точечных источников. Например, проецируемая выпуклая оболочка может сжиматься к центру тяжести проецируемой выпуклой оболочки. Такая сжатая проецируемая выпуклая оболочка может учитывать дополнительный пространственный разброс отдельных периферийных точечных источников, введенных посредством способа рендеринга. Модификация выпуклой оболочки дополнительно может различаться между масштабированием горизонтальных и вертикальных направлений.

Когда позиция слушателя относительно пространственно протяженного источника звука изменяется, далее проекция пространственно протяженного источника звука на плоскость проекции изменяется соответствующим образом. В свою очередь, местоположения периферийных точечных источников изменяются соответствующим образом. Местоположения периферийных точечных источников должны предпочтительно выбираться таким образом, что они изменяются плавно для непрерывного перемещения пространственно протяженного источника звука и слушателя. Дополнительно, проецируемая выпуклая оболочка изменяется, когда геометрия пространственно протяженного источника звука изменяется. Это включает в себя вращение геометрии пространственно протяженных источников звука в трехмерном пространстве, которое изменяет проецируемую выпуклую оболочку. Вращение геометрии равно угловому смещению позиции слушателя относительно пространственно протяженного источника звука и, к примеру, называется включающим способом "относительной позицией слушателя и пространственно протяженного источника звука". Например, круговое движение слушателя вокруг сферического пространственно протяженного источника звука представляется посредством вращения периферийных точечных источников вокруг центра тяжести. Аналогичным образом, вращение пространственно протяженного источника звука со стационарным слушателем приводит к одинаковому изменению местоположений периферийных точечных источников.

Пространственная протяженность, которая формируется посредством варианта осуществления изобретаемого способа или оборудования, внутренне воспроизводится корректно для любого расстояния между пространственно протяженным источником звука и слушателем. Естественно, когда пользователь приближается к пространственно протяженному источнику звука, угол раскрытия между периферийным точечным источником увеличивается так, как является целесообразным для моделирования физической реальности.

Исходя из того, что угловое размещение периферийных точечных источников уникально определяется посредством местоположения на проецируемой выпуклой оболочке на плоскость проекции, расстояния периферийных точечных источников дополнительно могут выбираться различными способами, в том числе:

Все периферийные точечные источники имеют одинаковое расстояние, равное расстоянию всего пространственно протяженного источника звука, например, заданного через центр тяжести пространственно протяженного источника звука относительно головы слушателя.

Расстояние каждого периферийного точечного источника определяется посредством задней проекции местоположений на проецируемой выпуклой оболочке на геометрию пространственно протяженного источника звука, так что проекция периферийных точечных источников на плоскость проекции приводит к такой же точке. Задняя проекция периферийных точечных источников из проецируемой выпуклой оболочки на пространственно протяженный источник звука не всегда может уникально определяться, так что должны применяться дополнительные правила проекции (см. раздел "Практические примеры").

Расстояние периферийных точечных источников может не определяться вообще, если рендеринг периферийных точечных источников не требует свойства расстояния, а требует только относительного углового размещения в азимуте и подъеме.

Чтобы указывать геометрическую форму/выпуклую оболочку пространственно протяженного источника звука, используется (и, возможно, передается в модуль рендеринга или ядро модуля рендеринга) аппроксимация, включающая в себя упрощенную одномерную, например, линейную, кривую; двумерную, например, эллипс, прямоугольник, многоугольники; или трехмерную форму, например, эллипсоид, кубоид и многогранники. Геометрия пространственно протяженного источника звука или соответствующая приблизительная форма, соответственно, может описываться различными способами, включающими в себя:

Параметрическое описание, т.е. формализация геометрии через математическое выражение, которое разрешает дополнительные параметры. Например, эллипсоидная форма в трехмерном может описываться посредством неявной функции на декартовой системе координат, и дополнительные параметры представляют собой протяженность главных осей во всех трех направлениях. Дополнительные параметры могут включать в себя функции трехмерного вращения, деформации эллипсоидной поверхности.

Многоугольное описание, т.е. совокупность примитивных геометрических форм, таких как линии, треугольники, квадрат, четырехгранник и кубоиды. Приматные многоугольники и многогранник могут конкатенироваться в более крупные более сложные геометрии.

Сигналы периферийных точечных источников извлекаются из базисных сигналов пространственно протяженного источника звука. Базисные сигналы могут получаться различными способами, такими как: 1) Запись естественного источника звука в одной или нескольких позициях и ориентациях микрофона (пример: запись звука фортепьяно, как показано в практических примерах); 2) Синтез искусственного источника звука (пример: синтез звука с варьирующимися параметрами); 3) Комбинация любых аудиосигналов (пример: различные механические звуки автомобиля, к примеру, двигателя, шин, двери и т.д.). Дополнительно, дополнительные сигналы периферийных точечных источников могут формироваться искусственно из базисных сигналов посредством нескольких декорреляционных фильтров (см. предшествующий раздел).

В некоторых сценариях применения, внимание акцентируется на компактном и функционально совместимом хранении/передаче 6DoF VR/AR-контента. В этом случае, вся цепочка состоит из трех этапов:

Авторская разработка/кодирование требуемых пространственно протяженных источников звука в поток битов

Передача/хранение сформированного потока битов. В соответствии с представленным изобретением, поток битов содержит, помимо других элементов, описание геометрий пространственно протяженных источников звука (параметрических или в виде многоугольников) и ассоциированного базисного сигнала(ов) источника, такого как монофоническая или стереофоническая запись фортепьяно. Формы сигналов могут сжиматься (см. пункт 260 на фиг. 10) с использованием алгоритмов перцепционного кодирования аудио, таких как MP3 или усовершенствованное кодирование аудио (AAC) по стандарту MPEG-2/4.

Декодирование/рендеринг пространственно протяженных источников звука на основе передаваемого потока битов, как описано выше.

В дополнение к базовому способу, описанному ранее, существует несколько вариантов для последующей обработки:

Вариант 1. Динамический выбор числа и местоположения периферийных точечных источников

В зависимости от расстояния слушателя до пространственно протяженного источника звука, число периферийных точечных источников может варьироваться. В качестве примера, когда пространственно протяженный источник звука и слушатель находятся на большом расстоянии друг от друга, угол раскрытия (апертура) проецируемой выпуклой оболочки становится небольшим, и в силу этого меньшее число периферийных точечных источников может выбираться преимущественно, за счет этого снижая вычислительную сложность и сложность запоминающего устройства. В крайнем случае, все периферийные точечные источники уменьшаются до одного оставшегося точечного источника. Соответствующие технологии понижающего сведения могут применяться, чтобы обеспечивать то, что помехи между базисными и извлеченными сигналами не ухудшают качество звучания результирующих сигналов периферийных точечных источников. Аналогичные технологии могут применяться также на небольшом расстоянии пространственно протяженного источника звука до позиции слушателя, если геометрия пространственно протяженного источника звука является очень нерегулярной в зависимости от относительной точки обзора слушателя. Например, геометрия пространственно протяженных источников звука, которая представляет собой линию конечных длин, может ухудшаться на плоскости проекции к одной точке. В общем, если угловая протяженность периферийных точечных источников на проецируемой выпуклой оболочке является низкой, пространственно протяженный источник звука может представляться посредством меньшего количества периферийных точечных источников. В крайнем случае, все периферийные точечные источники уменьшаются до одного оставшегося точечного источника.

Вариант 2. Компенсация разброса

Поскольку каждый периферийный точечный источник также демонстрирует пространственный разброс за пределы проекции выпуклой оболочки, воспринимаемая слуховая ширина изображения подготовленного посредством рендеринга пространственно протяженного источника звука в определенной степени больше выпуклой оболочки, используемой для рендеринга. Чтобы совмещать ее с требуемой целевой геометрией, имеется два варианта:

Компенсация во время авторской разработки: Дополнительный разброс процедуры рендеринга рассматривается во время авторской разработки контента. В частности, в определенной степени меньшая геометрия пространственно протяженных источников звука выбирается во время авторской разработки контента, так что фактически подготовленный посредством рендеринга размер является желательным. Это может проверяться посредством мониторинга эффекта модуля рендеринга или ядра модуля рендеринга в среде авторской разработки (например, в производственной студии). В этом случае, передаваемый поток битов и модуль рендеринга или ядро модуля рендеринга используют уменьшенную целевую геометрию по сравнению с целевым размером.

Компенсация во время рендеринга: Модуль рендеринга или ядро модуля рендеринга пространственно протяженного источника звука может уведомляться относительно дополнительного перцепционного разброса посредством процедуры рендеринга и в силу этого может иметь возможность компенсировать этот эффект. В качестве простого примера, геометрия, используемая для рендеринга, может:

- уменьшаться на постоянный множитель < 1,0 (например, a=0,9), или

- уменьшаться на постоянный угол раскрытия альфа=5 градусов

- до того, как она применяется для того, чтобы размещать периферийные точечные источники. В этом случае, передаваемый поток битов содержит конечный целевой размер геометрии пространственно протяженных источников звука.

Кроме того, комбинация этих подходов является целесообразной.

Вариант 3. Формирование форм сигналов периферийных точечных источников

Дополнительно, фактические сигналы для подачи в периферийные точечные источники могут формироваться из записанных аудиосигналов посредством рассмотрения позиции пользователя относительно пространственно протяженного источника звука для того, чтобы моделировать пространственно протяженные источники звука с зависимыми от геометрии звуковыми долями, такие как фортепьяно со звуками низких нот с левой стороны и наоборот.

Пример: Звук пианино отличается посредством своего акустического поведения. Оно моделируется посредством (по меньшей мере) двух базисных аудиосигналов, одного около нижнего конца клавиатуры в виде фортепьяно ("низкие ноты") и одного около верхнего конца клавиатуры ("высокие ноты"). Эти базисные сигналы могут получаться посредством соответствующего использования микрофона при записи звука фортепьяно и передаваться в модуль 6DoF-рендеринга или ядро модуля 6DoF-рендеринга, обеспечивая то, что между ними имеется достаточная декорреляция.

Сигналы периферийных точечных источников затем извлекаются из этих базисных сигналов посредством рассмотрения позиции пользователя относительно пространственно протяженного источника звука:

Когда пользователь обращен к фортепьяно с передней стороны (клавиатура), два периферийных точечных источника имеют достаточно большое разнесение друг от друга по ширине около левого и правого конца клавиатуры в виде фортепьяно, соответственно. В этом случае, базисный сигнал для низких клавиш может непосредственно подаваться в левый периферийный точечный источник, и базисный сигнал для высоких клавиш может непосредственно использоваться для того, чтобы возбуждать правый периферийный точечный источник.

По мере того, как слушатель проходит вокруг фортепьяно приблизительно на 90 градусов вправо, два периферийных точечных источника панорамируются очень близко друг к другу, поскольку проекция модели на основе громкости фортепьяно (например, эллипс) является небольшой при ее просмотре сбоку. Если базисные сигналы продолжают использоваться для того, чтобы непосредственно возбуждать сигналы периферийных точечных источников, один из периферийных точечных источников должен содержать преимущественно высокие ноты, тогда как другой должен переносить главным образом низкие ноты. Поскольку это является нежелательным с физической точки зрения, рендеринг может улучшаться посредством вращения двух базисных сигналов таким образом, чтобы формировать сигналы периферийных точечных источников посредством вращения Гивенса на такой же угол в качестве перемещения пользователя относительно центра тяжести фортепьяно. Таким образом, оба сигнала содержат сигналы аналогичного спектрального контента при одновременной декорреляции (при условии, что базисные сигналы декоррелированы).

Вариант 4. Постобработка подготовленного посредством рендеринга пространственно протяженного источника звука

Фактические сигналы могут предварительно или постобрабатываться, чтобы учитывать зависимый от позиции и направления эффект, например, диаграмму направленности пространственно протяженного источника звука. Другими словами, целый звук, испускаемый из пространственно протяженного источника звука, как описано выше, может модифицироваться таким образом, что он демонстрирует, например, зависимую от направления диаграмму звукового излучения. В случае сигнала фортепьяно, это может означать то, что излучение к задней стороне фортепьяно имеет менее высокочастотный контент, чем к его передней стороне. Дополнительно, предварительная и постобработка сигналов периферийных точечных источников может регулироваться отдельно для каждого из периферийных точечных источников. Например, диаграмма направленности может выбираться по-разному для каждого из периферийных точечных источников. В данном примере пространственно протяженного источника звука, представляющего фортепьяно, диаграммы направленности диапазона низких и высоких клавиш могут быть аналогичными тому, что описано выше; тем не менее, дополнительные сигналы, такие как шумы от нажатия педалей, имеют более всенаправленную диаграмму направленности.

Далее обобщаются несколько преимуществ предпочтительных вариантов осуществления:

- Более низкая вычислительная сложность по сравнению с полным заполнением внутренней части пространственно протяженного источника звука точечными источниками (например, используемыми в усовершенствованном AudioBIFS-стандарте)

- Меньший потенциал для деструктивных помех между сигналами точечных источников

- Компактный размер информации потока битов (аппроксимаций геометрической формы, одной или более форм сигналов)

- Обеспечивает возможность использования унаследованных записей (например, стереозаписей фортепьяно), которые сформированы для потребления музыки, для целей VR/AR-рендеринга

Далее представляются различные практические примеры реализации:

- Сферический пространственно протяженный источник звука

- Эллипсоидный пространственно протяженный источник звука

- Линейный пространственно протяженный источник звука

- Кубоидный пространственно протяженный источник звука

- Зависимые от расстояния периферийные точечные источники

- Пространственно протяженный источник звука в форме фортепьяно

Как описано в вариантах осуществления изобретаемого способа или оборудования выше, могут применяться различные способы для определения местоположения периферийных точечных источников. Следующие практические примеры демонстрируют некоторые изолированные способы в конкретных случаях. В полной реализации варианта осуществления изобретаемого способа или оборудования, различные способы могут комбинироваться надлежащим образом с учетом вычислительной сложности, назначения применения, качества звучания и простоты реализации.

Геометрия пространственно протяженных источников звука указывается в качестве зеленой поверхностной ячеистой сетки. Следует отметить, что визуализация ячеистой сетки не подразумевает, что геометрия пространственно протяженных источников звука описывается посредством многоугольного способа, поскольку фактически геометрия пространственно протяженных источников звука может формироваться из параметрической спецификации. Позиция слушателя указывается посредством синего треугольника. В нижеприведенных примерах, плоскость картинки выбирается в качестве плоскости проекции и иллюстрируется в качестве прозрачной серой плоскости, которая указывает конечный поднабор плоскости проекции. Проецируемая геометрия пространственно протяженного источника звука на плоскость проекции проиллюстрирована с такой же поверхностной ячеистой сеткой в зеленом цвете. Периферийные точечные источники на проецируемой выпуклой оболочке проиллюстрированы как красные кресты на плоскости проекции. Задние проецируемые периферийные точечные источники на геометрию пространственно протяженных источников звука проиллюстрированы как красные точки. Соответствующие периферийные точечные источники на проецируемой выпуклой оболочке и задние проецируемые периферийные точечные источники на геометрии пространственно протяженных источников звука соединяются посредством красных линий, чтобы помогать идентифицировать визуальное соответствие. Позиции всех предусмотренных объектов проиллюстрированы в декартовой системе координат с единицами в метрах. Выбор проиллюстрированной системы координат не подразумевает то, что предусмотренные вычисления выполняются с декартовыми координатами.

Первый пример на фиг. 2 рассматривает сферический пространственно протяженный источник звука. Сферический пространственно протяженный источник звука имеет фиксированный размер и фиксированную позицию относительно слушателя. Три других набора по три, пять и восемь периферийных точечных источников выбираются на проецируемой выпуклой оболочке. Все три набора периферийных точечных источников выбираются с равномерным расстоянием на кривой выпуклой оболочки. Смещенные позиции периферийных точечных источников на кривой выпуклой оболочки намеренно выбираются таким образом, что горизонтальная протяженность геометрии пространственно протяженных источников звука хорошо представляется.

Фиг. 2 иллюстрирует сферический пространственно протяженный источник звука с различными числами (т.е. 3 (верхний), 5 (средний) и 8 (нижний)) периферийных точечных источников, равномерно распределенных на выпуклой оболочке.

Следующий пример на фиг. 3 рассматривает эллипсоидный пространственно протяженный источник звука. Эллипсоидный пространственно протяженный источник звука имеет фиксированную форму, позицию и вращение в трехмерном пространстве. Четыре периферийных точечных источника выбираются в этом примере. Три различных способа определения местоположения периферийных точечных источников примерно иллюстрируются:

a) два периферийных точечных источника размещаются в двух горизонтальных точках экстремума, и два периферийных точечных источника размещаются в двух вертикальных точках экстремума. При этом позиционирование точек экстремума является простым и зачастую надлежащим. Этот пример показывает то, что этот способ может давать в результате местоположения периферийных точечных источников, которые находятся относительно близко друг к другу.

b) Все четыре периферийных точечных источника распределяются равномерно на проецируемой выпуклой оболочке. Смещение местоположения периферийных точечных источников выбирается таким образом, что местоположение самого верхнего периферийного точечного источника совпадает с местоположением самого верхнего периферийного точечного источника в a). Можно видеть, что вариант выбора смещения местоположения периферийного точечного источника имеет значительное влияние на представление геометрической формы через периферийные точечные источники.

c) Все четыре периферийных точечных источника распределяются равномерно на сжатой проецируемой выпуклой оболочке. Местоположение смещения местоположений периферийных точечных источников равно местоположению смещения, выбранному в b). Операция сжатия проецируемой выпуклой оболочки выполняется к центру тяжести проецируемой выпуклой оболочки с независимым от направления коэффициентом растягивания.

Фиг. 3 иллюстрирует эллипсоидный пространственно протяженный источник звука с четырьмя периферийными точечными источниками согласно трем различным способам определения местоположения периферийных точечных источников: a/верхний) горизонтальные и вертикальные точки экстремума, b/средний) равномерно распределенные точки на выпуклой оболочке, c/нижний) равномерно распределенные точки на сжатой выпуклой оболочке.

Следующий пример на фиг. 4 рассматривает линейный пространственно протяженный источник звука. Исходя из того, что предыдущие примеры рассматривают объемную геометрию пространственно протяженных источников звука, этот пример демонстрирует то, что геометрия пространственно протяженных источников звука может выбираться в качестве одномерного объекта в трехмерном пространстве. Вложенный чертеж a) иллюстрирует два периферийных точечных источника, размещенные на точках экстремума геометрии конечных линейных пространственно протяженных источников звука. b) Два периферийных точечных источника размещаются в точках экстремума геометрии конечных линейных пространственно протяженных источников звука, и один дополнительный точечный источник размещается в середине линии. Как описано в вариантах осуществления изобретаемого способа или оборудования, размещение дополнительных точечных источников в пределах геометрии пространственно протяженных источников звука может помогать заполнять большие зазоры в больших геометриях пространственно протяженных источников звука. c) Одинаковая геометрия линейных пространственно протяженных источников звука с тем, что указано в a) и b) рассматривается; тем не менее, относительный угол к слушателю изменен таким образом, что проецируемая длина линейной геометрии значительно меньше. Как описано в вариантах осуществления изобретаемого способа или оборудования выше, уменьшенный размер проецируемой выпуклой оболочки может представляться посредством сокращенного числа периферийных точечных источников, в этом конкретном примере, посредством одного периферийного точечного источника, расположенного в центре линейной геометрии.

Фиг. 4 иллюстрирует линейный пространственно протяженный источник звука с тремя различными способами для того, чтобы распределять местоположение периферийных точечных источников: a/верхний) две точки экстремума на проецируемой выпуклой оболочке; b/средний) две точки экстремума на проецируемой выпуклой оболочке с дополнительным точечным источником в центре линии; c/нижний) по одному периферийному точечному источнику в центре выпуклости, поскольку проецируемая выпуклая оболочка вращаемой линии является слишком небольшой для того, чтобы разрешать более одного периферийного точечного источника.

Следующий пример на фиг. 5 рассматривает кубоидный пространственно протяженный источник звука. Кубоидный пространственно протяженный источник звука имеет фиксированный размер и фиксированное местоположение; тем не менее, относительная позиция слушателя изменяется. Вложенные чертежи a) и b) иллюстрируют отличающиеся способы размещения четырех периферийных точечных источников на проецируемой выпуклой оболочке. Заднепроецируемые местоположения периферийных точечных источников уникально определяются посредством выбора на проецируемой выпуклой оболочке. c) иллюстрирует четыре периферийных точечных источника, которые не имеют хорошо разделенные заднепроекционные местоположения. Вместо этого, расстояния местоположений периферийных точечных источников выбираются равными расстоянию центра тяжести геометрии пространственно протяженных источников звука.

Фиг. 5 иллюстрирует кубоидный пространственно протяженный источник звука с тремя различными способами для того, чтобы распределять периферийные точечные источники: a/верхний) два периферийных точечных источника на горизонтальной оси и два периферийных точечных источника на вертикальной оси; b/средний) два периферийных точечных источника на горизонтальных точках экстремума проецируемой выпуклой оболочки и два периферийных точечных источника на вертикальных точках экстремума проецируемой выпуклой оболочки; c/нижний) заднепроецируемые расстояния периферийного точечного источника выбираются таким образом, что они равны расстоянию центра тяжести геометрии пространственно протяженных источников звука.

Следующий пример на фиг. 6 рассматривает сферический пространственно протяженный источник звука фиксированного размера и формы, но на трех различных расстояниях относительно позиции слушателя. Периферийные точечные источники распределяются равномерно на кривой выпуклой оболочки. Число периферийных точечных источников динамически определяется из длины кривой выпуклой оболочки и минимального расстояния между возможными местоположениями периферийных точечных источников. a) Сферический пространственно протяженный источник звука находится на небольшом расстоянии таким образом, что четыре периферийных точечных источника выбираются на проецируемой выпуклой оболочке. b) Сферический пространственно протяженный источник звука находится на среднем расстоянии таким образом, что три периферийных точечных источника выбираются на проецируемой выпуклой оболочке. a) Сферический пространственно протяженный источник звука находится на большом расстоянии таким образом, что только два периферийных точечных источника выбираются на проецируемой выпуклой оболочке. Как описано в вариантах осуществления изобретаемого способа или оборудования выше, число периферийных точечных источников также может определяться из протяженности, представленной в сферических угловых координатах.

Фиг. 6 иллюстрирует сферический пространственно протяженный источник звука равного размера, но на различных расстояниях: a/верхний) небольшое расстояние с четырьмя периферийными точечными источниками, распределенными равномерно на проецируемой выпуклой оболочке; b/средний) среднее расстояние с тремя периферийными точечными источниками, распределенными равномерно на проецируемой выпуклой оболочке; c/нижний) большое расстояние с двумя периферийными точечными источниками, распределенными равномерно на проецируемой выпуклой оболочке.

Последний пример на фиг. 7 и 8 рассматривает пространственно протяженный источник звука в форме фортепьяно, размещенный в виртуальном мире. Пользователь носит наголовный дисплей (HMD) и наушники. Пользователю представляется сцена в стиле виртуальной реальности, состоящая из открытого мирового полотна и трехмерной модели на основе пианино, стоящей на полу в зоне свободного перемещения (см. фиг. 7). Открытое мировое полотно представляет собой сферической статическое изображение, проецируемое на сферу, окружающую пользователя. В данном случае, открытое мировое полотно иллюстрирует голубое небо с белыми облаками. Пользователь имеет возможность проходить вокруг и смотреть и слушать фортепьяно из различных углов. В этой сцене, фортепьяно подготавливается посредством рендеринга либо в качестве одноточечного источника, размещенного в центре тяжести, либо в качестве пространственно протяженного источника звука с тремя периферийными точечными источниками на проецируемой выпуклой оболочке (см. фиг. 8). Эксперименты с рендерингом показывают значительно превосходящий реализм способа рендеринга периферийного точечного источника по сравнению с рендерингом в качестве одноточечного источника.

Чтобы упрощать вычисление местоположений периферийных точечных источников, геометрия фортепьяно абстрагируется в эллипсоидную форму с аналогичными размерами, см. фиг. 7. Дополнительно, два сменных точечных источника размещаются в левой и правой точках экстремума на экваториальной линии, тогда как третья сменная точка остается в северном полюсе, см. фиг. 8. Эта компоновка гарантирует соответствующую горизонтальную ширину источника из всех углов при сильно сниженных вычислительных затратах.

Фиг. 7 иллюстрирует пространственно протяженный источник звука в форме фортепьяно (проиллюстрирован зеленым цветом) с приблизительной параметрической эллипсоидной формой (указываемой в качестве красной ячеистой сетки).

Фиг. 8 иллюстрирует пространственно протяженный источник звука в форме фортепьяно с тремя периферийными точечными источниками, распределенными по вертикальным точкам экстремума проецируемой выпуклой оболочки и вертикальной верхней позиции проецируемой выпуклой оболочки. Следует отметить, что для лучшей визуализации, периферийные точечные источники размещаются на растянутой проецируемой выпуклой оболочке.

Далее предоставляются конкретные признаки вариантов осуществления изобретения. Характеристики представленных вариантов осуществления являются следующими:

Чтобы заполнять воспринимаемое акустическое пространство пространственно протяженного источника звука, предпочтительно не вся его внутренняя часть заполняется декоррелированными точечными источниками (периферийными точечными источниками), а только его периферия, которая обращена к слушателю (например, "проекция выпуклой оболочки пространственно протяженного источника звука к слушателю"). В частности, это означает то, что местоположения периферийных точечных источников не присоединяются к геометрии пространственно протяженных источников звука, а вычисляются динамически с учетом относительной позиции пространственно протяженного источника звука относительно позиции слушателя.

Динамическое вычисление периферийных точечных источников (число и местоположение)

Аппроксимация формы пространственно протяженного источника звука используется (для сценария с использованием сжатого представления: передается в качестве части потока битов).

Применение описанной технологии может задаваться в качестве части 6DoF VR/AR-аудиостандарта. В этом контексте, предусмотрен классический сценарий на основе кодирования/потока битов/декодера (+модуля рендеринга):

В кодере, форма пространственно протяженного источника звука должна кодироваться как вспомогательная информация вместе с "базисными" формами сигнала пространственно протяженного источника звука, которые могут представлять собой:

- моносигнал, или

- стереосигнал (предпочтительно декоррелированный в достаточной степени), или

- еще больше записанных сигналов (также предпочтительно декоррелированных в достаточной степени),

- характеризующие пространственно протяженный источник звука. Эти формы сигналов могут кодироваться с низкой скоростью передачи битов.

В декодере/модуле рендеринга, форма пространственно протяженного источника звука и соответствующие формы сигналов извлекаются из потока битов и используются для рендеринга пространственно протяженного источника звука, как описано выше.

В зависимости от используемых вариантов осуществления и в качестве альтернатив описанным вариантам осуществления, следует отметить, что интерфейс может реализовываться как фактический модуль отслеживания или детектор для обнаружения позиции слушателя. Тем не менее, позиция прослушивания типично должна приниматься из внешнего устройства модуля отслеживания и подаваться в оборудование воспроизведения через интерфейс. Тем не менее, интерфейс может представлять просто ввод данных для выходных данных из внешнего модуля отслеживания либо также может представлять непосредственно модуль отслеживания.

Кроме того, как указано, дополнительные вспомогательные аудиоисточники между периферийным источником звука могут требоваться.

Кроме того, обнаружено, что левый/правый периферийные источники и необязательно горизонтально (относительно слушателя) разнесенные вспомогательные источники являются более важными для перцепционного ощущения, чем вертикально разнесенные периферийные источники звука, т.е. периферийный источник звука сверху и снизу от пространственно протяженного источника звука. Когда, например, ресурсы являются дефицитными, предпочтительно использовать, по меньшей мере, горизонтально разнесенные периферийные (и необязательно вспомогательные) источники звука, тогда как вертикально разнесенные периферийные источники звука могут опускаться в интересах экономии ресурсов обработки.

Кроме того, как указано, генератор потоков битов может реализовываться, чтобы формировать поток битов только с одним звуковым сигналом для пространственно протяженного источника звука, и оставшиеся звуковые сигналы формируются на стороне декодера или на стороне воспроизведения посредством декорреляции. Когда только один сигнал существует, и когда все пространство должно быть заполнено одинаково этим одним сигналом, информация местоположения вообще не требуется. Тем не менее, может быть полезным иметь, в такой ситуации, по меньшей мере, дополнительную информацию относительно геометрии пространственно протяженного источника звука, вычисленную посредством модуля вычисления геометрической информации, такого как модуль, проиллюстрированный как 220 на фиг. 10.

Здесь следует отметить, что все альтернативы или аспекты, поясненные выше, и все аспекты, заданные посредством независимых пунктов в нижеприведенной формуле изобретения, могут использоваться отдельно, т.е. без альтернатив или целей, отличных от предполагаемой альтернативы, цели или независимого пункта формулы изобретения. Тем не менее, в других вариантах осуществления, две или более из альтернатив или аспектов или независимых пунктов формулы изобретения могут комбинироваться друг с другом, и, в других вариантах осуществления, все аспекты или альтернативы и все независимые пункты формулы изобретения могут комбинироваться друг с другом.

Изобретаемое кодированное описание звукового поля может сохраняться на цифровом носителе хранения данных или энергонезависимом носителе хранения данных либо может передаваться по передающей среде, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.

Хотя некоторые аспекты описаны в контексте оборудования, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего оборудования.

В зависимости от некоторых требований к реализации, варианты осуществления изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут реализовываться как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на энергонезависимом носителе хранения данных.

Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного оборудования.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения установок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

Библиография

Alary, B., Politis, A. и Välimäki, V., 2017 год, "Velvet Noise Decorrelator".

Baumgarte, F. и Faller, C., 2003 год, "Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles", Speech and Audio Processing, IEEE Transactions on, 11(6), стр. 509-519.

Blauert, J., 2001 год, Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press.

Faller, C. и Baumgarte, F., 2003 год, "Binaural Cue Coding-Part II: Schemes and Applications", Speech and Audio Processing, IEEE Transactions on, 11(6), стр. 520-531.

Kendall, G. S., 1995 год, "The Decorrelation of Audio Signals and Its Impact on Spatial Imagery", Computer Music Journal, 19(4), стр. 71-87.

Lauridsen, H., 1954 год, "Experiments Concerning Different Kinds of Room-Acoustics Recording", Ingenioren, 47.

Pihlajamäki, T., Santala, O. и Pulkki, V., 2014 год, "Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals", Journal of the Audio Engineering Society, 62(7/8), стр. 467-484.

Potard, G., 2003 год, "The study on sound source apparent shape and wideness".

Potard, G. и Burnett, I., 2004 год, "Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays".

Pulkki, V., 1997 год, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of the Audio Engineering Society, 45(6), стр. 456-466.

Pulkki, V., 1999 год, "Uniform spreading of amplitude panned virtual sources".

Pulkki, V., 2007 год, "Spatial Sound Reproduction with Directional Audio Coding", J. Audio Eng. Soc, 55(6), стр. 503-516.

Pulkki, V., Laitinen, M.-V. и Erkut, C., 2009 год, "Efficient Spatial Sound Synthesis for Virtual Worlds".

Schlecht, S. J., Alary, B., Välimäki, V. и Habets, E. A., 2018 год, "Optimized Velvet-Noise Decorrelator".

Schmele, T. и Sayin, U., 2018 год, "Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters".

Schmidt, J. и Schröder, E. F., 2004 год, "New and Advanced Features for Audio Presentation in the MPEG-4 Standard".

Verron, C., Aramaki, M., Kronland-Martinet, R. и Pallone, G., 2010 год, "The 3-D Immersive Synthesizer for Environmental Sounds", Audio, Speech and Language Processing, IEEE Transactions on, title="A Backward-Compatible Multichannel Audio Codec", 18(6), стр. 1550-1561.

Zotter, F. и Frank, M., 2013 год, "Efficient Phantom Source Widening", Archives of Acoustics, 38(1), стр. 27-37.

Zotter, F., Frank, M., Kronlachner, M. и Choi, J.-W., 2014 год, "Efficient Phantom Source Widening and Diffuseness in Ambisonics".

1. Оборудование для воспроизведения пространственно протяженного источника звука, имеющего заданную позицию и геометрию в пространстве, причем оборудование содержит:

- интерфейс (100) для приема позиции слушателя;

- проектор для вычисления проекции двумерной или трехмерной оболочки, ассоциированной с пространственно протяженным источником звука, на плоскость проекции с использованием позиции слушателя, информации относительно геометрии пространственно протяженного источника звука и информации относительно позиции пространственно протяженного источника звука;

- модуль вычисления позиций звука для вычисления позиций по меньшей мере двух источников звука для пространственно протяженного источника звука с использованием плоскости проекции; и

- модуль рендеринга для рендеринга по меньшей мере двух источников звука в упомянутых позициях, чтобы получать воспроизведение пространственно протяженного источника звука, имеющего два или более выходных сигнала, при этом модуль рендеринга выполнен с возможностью использовать различные звуковые сигналы для различных позиций, при этом различные звуковые сигналы ассоциированы с пространственно протяженным источником звука.

2. Оборудование по п. 1,

- в котором детектор выполнен с возможностью обнаруживать мгновенную позицию слушателя в пространстве с использованием системы отслеживания, или при этом интерфейс (100) выполнен с возможностью использования позиционных данных, вводимых через интерфейс.

3. Оборудование по п. 1, выполненное с возможностью приема описания сцены, причем описание сцены содержит информацию относительно заданной позиции и информацию относительно заданной геометрии пространственно протяженного источника звука и по меньшей мере одного звукового сигнала, ассоциированного с пространственно протяженным источником звука,

- при этом оборудование дополнительно содержит синтаксический анализатор (180) описаний сцен для синтаксического анализа описания сцены, чтобы извлекать информацию относительно заданной позиции (341), информацию относительно заданной геометрии (331) и по меньшей мере один сигнал (301, 302) источника звука, или

- при этом описание сцены содержит для пространственно протяженного источника звука по меньшей мере два базисных звуковых сигнала (301, 302) и информацию (321) местоположения для каждого базисного звукового сигнала относительно информации относительно геометрии (331) пространственно протяженного источника звука, и при этом модуль (140) вычисления позиций звука выполнен с возможностью использовать информацию местоположения, по меньшей мере, для двух базисных сигналов при вычислении позиций по меньшей мере двух источников звука с использованием плоскости проекции.

4. Оборудование по п. 1,

- в котором проектор (120) выполнен с возможностью вычислять оболочку пространственно протяженного источника звука с использованием информации относительно геометрии (331) пространственно протяженного источника звука и проецировать оболочку в направлении к слушателю с использованием позиции слушателя, чтобы получать проекцию двумерной или трехмерной оболочки на плоскость проекции, или

- при этом проектор (120) выполнен с возможностью проецировать геометрию пространственно протяженного источника звука, заданную посредством информации относительно геометрии (331) пространственно протяженного источника звука, в направлении к позиции слушателя и вычислять оболочку проецируемой геометрии, чтобы получать проекцию двумерной или трехмерной оболочки на плоскость проекции.

5. Оборудование по п. 1,

- в котором модуль (140) вычисления позиций звука выполнен с возможностью вычислять позиции источников звука в пространстве из данных проекции оболочки и позиции слушателя.

6. Оборудование по п. 1,

- в котором модуль (140) вычисления позиций звука выполнен с возможностью вычислять позицию таким образом, что по меньшей мере два источника звука представляют собой периферийные источники звука и расположены на плоскости проекции, или

- при этом модуль (140) вычисления позиций звука выполнен с возможностью вычисления таким образом, что позиция периферийного источника звука из периферийных источников звука расположена справа от плоскости проекции относительно слушателя, и/или слева от плоскости проекции относительно слушателя, и/или сверху от плоскости проекции относительно слушателя, и/или снизу от плоскости проекции относительно слушателя.

7. Оборудование по п. 1,

- в котором модуль (160) рендеринга выполнен с возможностью рендеринга по меньшей мере двух источников звука с использованием:

- операций панорамирования в зависимости от позиций источников звука, чтобы получать сигналы громкоговорителей для предварительно заданной установки громкоговорителей, или

- операций бинаурального рендеринга с использованием передаточных функций слухового аппарата человека в зависимости от позиций источников, чтобы получать сигналы наушников.

8. Оборудование по п. 1,

- в котором первое число связанных сигналов источников ассоциировано с пространственно протяженным источником звука, причем первое число составляет единицу или более единицы, при этом связанные сигналы источников связаны с таким же пространственно протяженным источником звука,

- при этом модуль (140) вычисления позиций звука определяет второе число источников звука, используемых для рендеринга пространственно протяженного источника звука, причем второе число больше единицы, и

- при этом модуль (160) рендеринга содержит один или более декорреляторов (166) для формирования декоррелированного сигнала из одного или более сигналов (164) источников первого числа, когда второе число превышает первое число.

9. Оборудование по п. 1,

- в котором интерфейс (100) выполнен с возможностью принимать варьирующуюся во времени позицию слушателя в пространстве,

- при этом проектор (120) выполнен с возможностью вычислять варьирующуюся во времени проекцию в пространстве,

- при этом модуль (140) вычисления позиций звука выполнен с возможностью вычислять варьирующееся во времени число источников звука либо варьирующиеся во времени позиции источников звука в пространстве, и

- при этом модуль (160) рендеринга выполнен с возможностью рендеринга варьирующегося во времени числа источников звука либо по меньшей мере двух источников звука в варьирующихся во времени позициях в пространстве.

10. Оборудование по п. 1,

- в котором интерфейс (100) выполнен с возможностью принимать позицию слушателя с шестью степенями свободы, и

- при этом проектор (120) выполнен с возможностью вычислять проекцию в зависимости от шести степеней свободы.

11. Оборудование по п. 1, в котором проектор (120) выполнен с возможностью:

- вычислять проекцию в качестве плоскости картинки, к примеру, плоскости, перпендикулярной полю зрения слушателя, или

- вычислять проекцию в качестве сферической поверхности вокруг головы слушателя, или

- вычислять проекцию в качестве плоскости проекции, расположенной на предварительно определенном расстоянии от центра головы слушателя, или

- вычислять проекцию выпуклой оболочки пространственно протяженного источника звука из угла азимута и угла подъема, извлекаемых из сферических координат относительно перспективы головы слушателя.

12. Оборудование по п. 1,

- в котором модуль (140) вычисления позиций звука выполнен с возможностью вычислять позиции таким образом, что позиции равномерно распределяются вокруг проекции оболочки, либо таким образом, что позиции размещаются в экстремальных или периферийных точках проекции оболочки, либо таким образом, что позиции расположены в горизонтальных либо вертикальных экстремальных или периферийных точках проекции оболочки.

13. Оборудование по п. 1,

- в котором модуль (140) вычисления позиций звука выполнен с возможностью определять, в дополнение к позициям для периферийных источников звука, позиции для вспомогательных источников звука, расположенных на или перед, или позади, или в пределах проекции оболочки относительно слушателя.

14. Оборудование по п. 1,

- в котором проектор (120) выполнен с возможностью дополнительно сжимать проекцию оболочки, к примеру, к центру тяжести оболочки или проекции на переменную или предварительно определенную величину либо на различные переменные или предварительно определенные величины в различных направлениях, к примеру, в горизонтальном направлении и в вертикальном направлении.

15. Оборудование по п. 1, в котором модуль (140) вычисления позиций звука выполнен с возможностью вычисления таким образом, что по меньшей мере один дополнительный вспомогательный источник звука расположен на плоскости проекции между левым периферийным источником звука и правым периферийным источником звука относительно позиции слушателя, или

- при этом модуль (140) вычисления позиций звука выполнен с возможностью вычисления таким образом, что по меньшей мере один дополнительный вспомогательный источник звука расположен на плоскости проекции между левым периферийным источником звука и правым периферийным источником звука относительно позиции слушателя, при этом один дополнительный вспомогательный источник размещается в середине между левым периферийным источником звука и правым периферийным источником звука, либо два или более дополнительных вспомогательных источника размещаются на одинаковом расстоянии между левым периферийным источником звука и правым периферийным источником звука.

16. Оборудование по п. 1,

- в котором модуль (140) вычисления позиций звука выполнен с возможностью выполнять вращение позиций звука пространственно протяженного источника звука предпочтительно вокруг центра тяжести проекции в случае приема кругового движения слушателя вокруг пространственно протяженного источника звука через интерфейс или в случае приема вращения пространственно протяженного источника звука относительно стационарного слушателя через интерфейс.

17. Оборудование по п. 1,

- в котором модуль (160) рендеринга выполнен с возможностью принимать, для каждого источника звука, угол раскрытия в зависимости от расстояния между слушателем и источником звука и осуществлять рендеринг источника звука в зависимости от угла раскрытия.

18. Оборудование по п. 1,

- в котором модуль (160) рендеринга выполнен с возможностью принимать информацию расстояния для каждого источника звука, и

- при этом модуль (160) рендеринга выполнен с возможностью рендеринга источника звука в зависимости от расстояния таким образом, что осуществляется рендеринг источника звука, размещаемого ближе к слушателю, с большей громкостью по сравнению с источником звука, размещаемым менее близко к слушателю и имеющим такую же громкость.

19. Оборудование по п. 1, в котором модуль (140) вычисления позиций звука выполнен с возможностью:

- определять, для каждого источника звука, расстояние, равное расстоянию пространственно протяженного источника звука относительно слушателя, или

- определять расстояние каждого источника звука посредством задней проекции местоположения источника звука на проекции на геометрию пространственно протяженного источника звука, и

- при этом модуль (160) рендеринга выполнен с возможностью формировать источники звука с использованием информации относительно расстояния.

20. Оборудование по п. 1,

- в котором информация относительно геометрии (331) задается как одномерная линия или кривая, двумерная область, такая как эллипс, прямоугольник или многоугольник или группа многоугольников, либо трехмерное тело, такое как эллипсоид, кубоид или многогранник, и/или

- при этом информация задается как параметрическое описание или многоугольное описание либо параметрическое представление многоугольного описания.

21. Оборудование по п. 1,

- в котором модуль (140) вычисления позиций звука выполнен с возможностью определять число источников звука в зависимости от расстояния слушателя до пространственно протяженного источника звука, при этом число источников звука является более высоким для меньшего расстояния по сравнению с меньшим числом для большего расстояния между слушателем и пространственно протяженным источником звука.

22. Оборудование по п. 1, выполненное с возможностью приема информации относительно разброса, введенного посредством пространственно протяженного источника звука, и

- при этом проектор (120) выполнен с возможностью применять операцию сжатия к оболочке или проекции с использованием информации относительно разброса, по меньшей мере, для частичной компенсации разброса.

23. Оборудование по п. 1,

- в котором модуль (160) рендеринга выполнен с возможностью рендеринга, в случае позиций источников звука, одинаковых друг с другом в пределах заданного диапазона допусков, источников звука посредством комбинирования базисных сигналов, ассоциированных с пространственно протяженным источником звука, например, с использованием вращения Гивенса для того, чтобы получать вращаемые базисные сигналы и осуществлять рендеринг вращаемых базисных сигналов в позициях.

24. Оборудование по п. 1,

- в котором модуль (160) рендеринга выполнен с возможностью выполнять предварительную обработку или постобработку при формировании по меньшей мере двух источников звука в соответствии с зависимой от позиции или от направления характеристикой.

25. Оборудование по п. 1,

- в котором пространственно протяженный источник звука имеет, в качестве информации относительно геометрии (331), информацию, что пространственно протяженный источник звука представляет собой сферический и эллипсоидный, линейный, кубоидный или имеющий форму фортепьяно пространственно протяженный источник звука.

26. Оборудование по п. 1, выполненное с возможностью:

- приема потока битов, представляющего сжатое описание для пространственно протяженного источника звука, причем поток битов содержит элемент (311) потока битов, указывающий первое число различных звуковых сигналов для пространственно протяженного источника звука, включенного в поток битов либо в кодированный аудиосигнал, принимаемый посредством упомянутого оборудования, причем число составляет единицу или более единицы,

- считывания элемента (311) потока битов и извлечения первого числа различных звуковых сигналов для пространственно протяженного источника звука, включенного в поток битов или в кодированный аудиосигнал, и

- при этом модуль (140) вычисления позиций звука определяет второе число источников звука, используемых для рендеринга пространственно протяженного источника звука, причем второе число больше единицы, и

- при этом модуль (160) рендеринга выполнен с возможностью формировать (164, 166), в зависимости от первого числа, извлеченного из потока битов, третье число одного или более декоррелированных сигналов, причем третье число извлекается из разности между вторым числом и третьим числом.

27. Оборудование для формирования потока битов, представляющего сжатое описание для пространственно протяженного источника звука, причем оборудование содержит:

- поставщик (200) звука для предоставления по меньшей мере двух различных звуковых сигналов (301, 302) для пространственно протяженного источника звука;

- поставщик (220) геометрии для вычисления информации (331, 341) относительно геометрии для пространственно протяженного источника звука; и

- формирователь (240) выходных данных для формирования потока битов, представляющего сжатое описание, причем поток битов содержит по меньшей мере два различных звуковых сигнала (301, 302), информацию (331, 341) относительно геометрии и индивидуальную информацию (321) местоположения для каждого звукового сигнала из по меньшей мере двух различных звуковых сигналов, причем индивидуальная информация (321) местоположения указывает местоположение соответствующего звукового сигнала относительно информации относительно геометрии (331) пространственно протяженного источника звука.

28. Оборудование по п. 27, в котором информация (331, 341) относительно геометрии содержит информацию (341) позиции, указывающую позицию пространственно протяженного источника звука в пространстве.

29. Оборудование по п. 27, в котором поставщик (200) звука выполнен с возможностью:

- выполнять запись естественного источника звука в одной позиции или ориентации микрофона или во множественных позициях или ориентациях микрофона, или

- извлекать звуковой сигнал из одного базисного сигнала или из нескольких базисных сигналов посредством одного или более декорреляционных фильтров.

30. Оборудование по п. 27,

- в котором поставщик (200) звука выполнен с возможностью сжимать по скорости передачи битов по меньшей мере два звуковых сигнала с использованием кодера (260) аудиосигналов, и

- при этом формирователь (240) выходных данных выполнен с возможностью использовать сжатые по скорости передачи битов по меньшей мере два звуковых сигнала (301, 302) для пространственно протяженного источника звука.

31. Оборудование по п. 27, в котором поставщик (220) геометрии выполнен с возможностью извлекать, из геометрии пространственно протяженного источника звука, параметрическое описание или многоугольное описание либо параметрическое представление многоугольного описания, и при этом формирователь (240) выходных данных выполнен с возможностью вводить, в поток битов, параметрическое описание или многоугольное описание либо параметрическое представление многоугольного описания в качестве информации (331, 341) относительно геометрии.

32. Оборудование по п. 27, в котором формирователь (240) выходных данных выполнен с возможностью вводить, в поток битов, элемент (311) потока битов, указывающий число по меньшей мере двух различных звуковых сигналов (301, 302) для пространственно протяженного источника звука, включенного в поток битов либо включенного в кодированный аудиосигнал, ассоциированный с потоком битов, причем число составляет два или более двух.

33. Способ для воспроизведения пространственно протяженного источника звука, имеющего заданную позицию и геометрию в пространстве, при этом способ содержит этапы, на которых:

- принимают позицию слушателя;

- вычисляют проекцию двумерной или трехмерной оболочки, ассоциированной с пространственно протяженным источником звука, на плоскость проекции с использованием позиции слушателя, информации относительно геометрии (331) пространственно протяженного источника звука и информации относительно позиции (341) пространственно протяженного источника звука;

- вычисляют позиции по меньшей мере двух источников звука для пространственно протяженного источника звука с использованием плоскости проекции; и

- осуществляют рендеринг по меньшей мере двух источников звука в позициях, чтобы получать воспроизведение пространственно протяженного источника звука, имеющего два или более выходных сигналов, при этом рендеринг содержит этап, на котором используют различные звуковые сигналы для различных позиций, при этом различные звуковые сигналы ассоциированы с пространственно протяженным источником звука.

34. Способ формирования потока битов, представляющего сжатое описание для пространственно протяженного источника звука, при этом способ содержит этапы, на которых:

- предоставляют по меньшей мере два различных звуковых сигнала для пространственно протяженного источника звука;

- предоставляют информацию (331, 341) относительно геометрии для пространственно протяженного источника звука; и

- формируют поток битов, представляющий сжатое описание, причем поток битов содержит по меньшей мере два различных звуковых сигнала (301, 302), информацию (331, 341) относительно геометрии для пространственно протяженного источника звука и индивидуальную информацию (321) местоположения для каждого звукового сигнала из по меньшей мере двух различных звуковых сигналов, причем индивидуальная информация (321) местоположения указывает местоположение соответствующего звукового сигнала относительно информации относительно геометрии (331) пространственно протяженного источника звука.

35. Способ по п. 34, в котором информация (331, 341) относительно геометрии для пространственно протяженного источника звука содержит информацию (341) позиции пространственно протяженного источника звука в пространстве.

36. Способ по п. 34, в котором формирование потока битов содержит этап, на котором вводят, в поток битов, элемент (311) потока битов, указывающий число по меньшей мере двух различных звуковых сигналов (301, 302) для пространственно протяженного источника звука, включенного в поток битов либо включенного в кодированный аудиосигнал, ассоциированный с потоком битов, причем число составляет два или более двух.

37. Физический носитель хранения данных, имеющий сохраненное на нем сжатое описание для пространственно протяженного источника звука, содержащий:

- по меньшей мере два различных звуковых сигнала (301, 302) для пространственно протяженного источника звука;

- информацию (331, 341) относительно геометрии для пространственно протяженного источника звука,

информацию (321) первого местоположения для первого звукового сигнала (301) из по меньшей мере двух различных звуковых сигналов (301, 302), указывающую первое местоположение первого звукового сигнала (301) относительно информации относительно геометрии (331, 341) пространственно протяженного источника звука; и

информацию (321) второго местоположения для второго звукового сигнала (302) из по меньшей мере двух различных звуковых сигналов (301, 302), указывающую второе местоположение второго звукового сигнала (302) относительно информации относительно геометрии (331 341) пространственно протяженного источника звука, причем информация второго местоположения отличается от информации первого местоположения.

38. Физический носитель хранения данных по п. 37, в котором информация (331, 341) относительно геометрии пространственно протяженного источника звука содержит информацию (341) позиции пространственно протяженного источника звука.

39. Физический носитель хранения данных по п. 37, дополнительно содержащий элемент (311) потока битов, указывающий число по меньшей мере одного другого звукового сигнала для пространственно протяженного источника звука, включенного в поток битов либо включенного в кодированный аудиосигнал, ассоциированный с потоком битов, причем число составляет единицу или более единицы.

40. Физический носитель хранения данных, имеющий сохраненную на нем компьютерную программу для осуществления, при выполнении на компьютере или процессоре, способа по п. 35.

41. Физический носитель хранения данных, имеющий сохраненную на нем компьютерную программу для осуществления, при выполнении на компьютере или процессоре, способа по п. 36.



 

Похожие патенты:

Изобретение относится к способу обработки монофонического сигнала в декодере 3D-аудио, включающему этап обработки для бинаурализации декодированных сигналов, предназначенных для пространственного воспроизведения головной гарнитурой. Техническим результатом является обеспечение передачи сигнала для воспроизведения в конкретном положении относительно уха человека, носящего головную аудиогарнитуру, независимо от аудиосцены, воспроизводимой той же головной гарнитурой, с оптимизацией при этом диапазона частот, требуемого применяемым кодеком.

Изобретение относится к средствам для обработки локальных переходов между положениями прослушивания в среде виртуальной реальности. Технический результат заключается в повышении эффективности обработки.

Изобретение относится к акустике. Система (10) воспроизведения/имитации звука, содержит несколько устройств для воспроизведения звука, управляемых одним или более аудиосигналами (AS), процессор (14) для обработки входного аудиопотока (ST) для формирования одного или более аудиосигналов (AS).

Изобретение относится к способу рендеринга аудиосигнала, а более конкретно, к способу рендеринга для еще более точного представления позиции звукового изображения и тембра посредством модификации коэффициента панорамирования подъема или коэффициента фильтрации подъема, когда подъем входного канала выше или ниже подъема согласно стандартной схемы размещения.

Изобретение относится к средствам для кластеризации аудиообъектов. Технический результат заключается в повышении эффективности кластеризации аудиообъектов.

Заявленная группа изобретений относится к различным способам аудиообработки, в том числе к способам управления низкими звуковыми частотами. Техническим результатом является обеспечение воспроизведения низкочастотного аудио без чрезмерного искажения.

Изобретение относится к средствам для представления трехмерных аудиоданных. Технический результат заключается в повышении эффективности представления трехмерных аудиоданных.

Изобретение относится к области вычислительной техники, а именно к средствам обработки звуковых сигналов. Технический результат заключается в повышении точности обработки отраженных сигналов.

Изобретение относится к средствам для распределения сигнала по множеству каналов. Технический результат заключается в повышении эффективности получения окружающих сигналов.

Изобретение относится к средствам для обработки аудиопредставления звукового поля. Технический результат заключается в повышении эффективности обработки аудиопредставления звукового поля.

Изобретение относится к способу обработки монофонического сигнала в декодере 3D-аудио, включающему этап обработки для бинаурализации декодированных сигналов, предназначенных для пространственного воспроизведения головной гарнитурой. Техническим результатом является обеспечение передачи сигнала для воспроизведения в конкретном положении относительно уха человека, носящего головную аудиогарнитуру, независимо от аудиосцены, воспроизводимой той же головной гарнитурой, с оптимизацией при этом диапазона частот, требуемого применяемым кодеком.
Наверх