Устройство и способ преобразования первого параметрического пространственного аудиосигнала во второй параметрический пространственный аудиосигнал

Авторы патента:

ТИЕРГАРТ Оливер (DE)

КУНТЦ Ахим (DE)

ШУЛТЦ-АМЛИНГ Рихард (DE)

МАХНЕ Дирк (DE)

ДЕЛ ГАЛДО Джованни (DE)

КЮХ Фабиан (DE)

КАЛЛИНГЕР Маркус (DE)

G10L19/00 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2586842:

Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE)

Изобретение относится к области обработки звука, а именно к области параметрического пространственного преобразования звука с трансформацией первого параметрического пространственного аудиосигнала во второй параметрический пространственный аудиосигнал. Технический результат заключается в обеспечении возможности задания виртуального места нахождения и/или перцептивной пространственной ориентации слушателя, которые отличаются от локализации точек снятия звука или положения слушателя во время записи пространственной звуковой сцены. Технический результат достигается за счет устройства, включающего в свою конструкцию: модификатор пространственного аудиосигнала, предназначенный для корректировки первого параметрического пространственного аудиосигнала в зависимости от изменения первоначального местоположения слушателя или первоначальной ориентации слушателя с формированием второго параметрического пространственного аудиосигнала, при этом второе местоположение слушателя или вторичная ориентация слушателя соответствуют первоначальному положению слушателя или первоначальной ориентации слушателя с внесением соответствующих изменений. 8 н. и 14 з.п. ф-лы, 9 ил.

Настоящее изобретение относится к области обработки звука, а именно к области параметрического пространственного преобразования звука с трансформацией первого (базового) параметрического пространственного аудиосигнала во второй (производный) параметрический пространственный аудиосигнал.

Уровень техники

Запись пространственных фонограмм заключается в фиксировании улавливаемого акустического поля с помощью множества микрофонов таким образом, чтобы в дальнейшем на стороне воспроизведения слушатель воспринимал слуховой образ так, как он звучал на месте записи. Традиционные подходы к записи объемного звука предусматривают использование обычных стереомикрофонов или более сложных конфигураций направленных микрофонов, таких как В-форматные (би-форматные) микрофоны в амбиофонии, описанные в: М.А. Gerzon, "Periphony: Width-HeightSoundReproduction," [„Перифония: воспроизведение высоты и ширины охватывающего звука"]]. Aud. Eng. Soc, Vol.21, No. 1, pp. 2-10, 1973, далее в ссылках - [Ambisonics]. Эти методы получили общераспространенное название технологии совмещенных микрофонов.

В противоположность им существуют методики на базе параметрического представления акустических полей, которые носят название параметрического пространственного аудиокодирования. Основными компонентами таких механизмов являются микшированный с понижением аудиосигнал и соответствующая сопутствующая пространственная информация, которые отвечают за восприятие пространственного звучания. Примерами тому служат алгоритм „кодирования направленного звука (/направленного аудиокодирования)" (DirAC), обсуждаемый в: Pulkki, V., "DirectionalAudiocodingInSpatialsoundreproductionAndStereoupmixing" [,, Направленное аудиокодирование в воспроизведении пространственного звука и в повышающем стереомикшировании"] в: ProceedingsofTheAES 28^thInternationalConference, pp. 251-258, Pitea, Sweden, June 30 - July 2, 2006, далее в ссылках - [DirAC], или применение так называемых „микрофонов пространственного звука" (SAM), предложенное в: Faller, С, "MicrophoneFront-EndsforSpatialAudioCoders"

[„ Микрофонные фронтальные интерфейсы для кодеров пространственного звука "], в: ProceedingsoftheAES 125^thInternationalConvention, SanFrancisco, Oct. 2008, далее в ссылках - [SAM]. Данные пространственной ориентации в основе состоят из направления источника поступления (DOA) звука и диффузности акустического пространства по подполосам частот. На стадии синтеза сигналы для желаемого воспроизведения через громкоговорители задают на основе сигнала понижающего микширования (даунмикс-сигнала) и сопутствующей служебной параметрической информации.

Другими словами, микшированные с понижением сигналы и соответствующая пространственная служебная информация отображают звуковую сцену в соответствии с заданными параметрами, например ориентацией и/или расположением микрофонов относительно различных источников звука во время записи аудиосцены.

Целью настоящего изобретения является оформление концепции гибкой адаптации фонограммы звуковой сцены.

Краткое описание изобретения

Достижение указанной цели осуществляется за счет использования устройства по пункту 1, способа по пункту 17 и компьютерной программы по пункту 18 формулы изобретения.

Общим для всех вышеупомянутых методик является то, что они направлены на воссоздание акустического пространства на стороне воспроизведения так, как оно воспринималось при записи. Положение точек снятия звука, то есть позиции микрофонов, могут также рассматриваться как исходное положение слушателя. Все эти известные схемы пространственного захвата звука не предусматривают внесение изменений в фонограмму аудиосцены.

Вместе с тем, весьма часто, например при видеосъемке, изображение находится в движении. В частности, в видеокамерах используется визуальная трансфокация (зум-эффект), за счет чего виртуально меняется положение камеры и создается впечатление, что съемка произведена с другой точки. Это трактуется как изменение позиции видеокамеры. Другим простым видом изменения „картинки" является горизонтальное или вертикальное вращение камеры вокруг своей оси. Вертикальное вращение называют панорамированием или [- вращение в вертикальной плоскости -] наклоном.

В соответствии с настоящим изобретением реализованы устройство и способ, которые также обеспечивают возможность виртуального изменения места нахождения слушателя и/или ориентации в пространстве синхронно перемещению изображения. Иначе говоря, изобретение позволяет менять звуковой образ, воспринимаемый слушателем во время воспроизведения таким образом, что этот образ будет соответствовать записи, сделанной с использованием иного по позициям и/или ориентации виртуального расположения микрофонов, чем в реальном пространстве записи. Благодаря этому записанная акустическая картина может быть соотнесена с измененным видеоизображением. Предположим, приближение/удаление участка изображения может сопровождаться синхронным пространственно сориентированным звуковым оформлением. Следуя изобретению, это можно реализовать посредством соответствующей модификации характеристик пространственной ориентации и/или микшируемого с понижением сигнала в параметрической области кодера пространственного звука (пространственного аудиокодера).

Технические решения по данному изобретению позволяют гибко варьировать положение и/или ориентацию слушателя в многомерном объеме воспринимаемой звуковой сцены без необходимости перезаписи пространственной аудиосцены с изменением конфигурации микрофонов, например, их местоположения и/или направленности относительно источников звука. Иными словами, варианты конструктивного исполнения заявляемого изобретения обеспечивают возможность задания виртуального места нахождения и/или перцептивной пространственной ориентации слушателя, которые отличаются от локализации точек снятия звука или положения слушателя во время записи пространственной звуковой сцены.

В некоторых вариантах реализации изобретения используют всего один или несколько даунмикс-сигналов и/или пространственную служебную информацию, такую как направление источника и диффузность, для настройки сигналов понижающего микширования и/или пространственной служебной информации в соответствии с меняющимся положением и/или ориентацией слушателя. Говоря иначе, такие варианты осуществления не требуют какие-либо, дополнительные данные, допустим, геометрические параметры различных аудиоисточников и топологию точек записи исходной фонограммы.

Далее, устройство в одном из вариантов компоновки по настоящему изобретению принимает параметрические пространственные аудиосигналы в определенном пространственном аудиоформате, например микшированные с понижением моно- или стереосигналы в сопровождении данных о направлении источников и диффузности в составе пространственной служебной информации, преобразует эти данные, следуя управляющим сигналам, например командам управления зум-эффектами или вращением, и выводит модифицированные или преобразованные данные в том же пространственном аудиоформате, то есть в виде моно- или стереосигнала понижающего микширования с соответствующими параметрами направления источника и диффузности.

В целевых реализациях данного изобретения его схемы могут быть интегрированы с видеокамерой или другим источником видеосигнала для преобразования принимаемых или оригинальных данных пространственного звука в модифицированные данные пространственного звука в соответствии с командами масштабирования или поворота изображения, поступающими от видеокамеры, для синхронизации, например, звукового сопровождения с видеорядом, в частности для создания эффекта акустической трансфокации (приближения/удаления объекта) при наличии оптической трансфокации (укрупнения/уменьшения плана) и/или для создания ощущения поворота (вращения) в рамках звуковой сцены, если поворачивается (вращается) видеокамера, а микрофоны физически не вращаются вместе с ней, поскольку установлены автономно.

Краткое описаниечертежей.

Конструктивные решения по настоящему изобретению детализированы со ссылкой на прилагаемые фигуры.

На фиг.1 дана принципиальная блочная схема параметрического пространственного аудиокодера; на фиг.2 дана принципиальная блочная схема параметрического пространственного аудиокодера с фиг.1 с блоком модификации пространственных параметров, встроенным между анализатором пространственного звука (пространственным аудиоанализатором) и синтезатором пространственного звука (пространственным аудиосинтезатором) в составе кодера пространственного звука (пространственного аудиокодера); фиг.3А соответствует фиг.2 с детализацией блока модификации пространственных параметров; фиг.3В соответствует фиг.2 с более глубокой детализацией блока модификации пространственных параметров; на фиг.4 дан примерный геометрический анализ акустической трансфокации; на фиг.5А приведен пример построения функции направленности f_p(k,n,φ,d) для картирования направлений источников звука (DOA); на фиг.5 В приведен пример построения функции диффузности f_d(k,n,φ,d) для картирования рассеяния звука; на фиг.6 приведен ряд окон усиления для фильтра взвешивания H₁((k,n,φ,d) составляющей прямого звука в зависимости от коэффициента масштабирования; и на фиг.7 приведен пример субкардиоидной оконной функции для фильтра взвешивания H₂(k,n,φ,d) диффузной составляющей.

Ниже дано описание одинаковых или равнозначных элементов или элементов с одинаковыми или равнозначными функциями, представленных на фигурах одинаковыми или похожими номерами ссылок.

Подробное описание изобретения

Для более понятного объяснения технической сущности заявленного изобретения дается описание пространственного аудиокодера в стандартной компоновке. Основное назначение стандартного параметрического пространственного аудиокодера - воссоздание такого ощущения пространства, какое воспринималось в позиции снятия звука при записи. Для этого пространственный аудиокодер имеет в своем составе анализирующую часть 100 и синтезирующую часть 200, как показано на фиг.1. Акустический входной контур включает в себя N микрофонов 102, обеспечивающих N входных микрофонных сигналов, обрабатываемых пространственным аудиоанализатором 100 с выводом L сигналов понижающего микширования 112 при L≤N и сопутствующей пространственной служебной информации 114. Даунмикс-сигнал 112 и управляющая пространственная информация 114 поступают в декодер, то есть - в синтезатор пространственного звука (пространственный аудиосинтезатор), для расчета М каналов М громкоговорителей 202, которые воспроизводят фонограмму зафиксированного акустического поля с первоначальным пространственным слуховым воздействием. Жирные линии (линии, соединяющие микрофоны 102 с пространственным аудиоанализатором 100, отображающие даунмикс-сигналы L 112 и соединяющие пространственный аудиосинтезатор 200 с громкоговорителями М 202) обозначают аудиоданные, а тонкие линии 114 между пространственным аудиоанализатором 100 и пространственным аудиосинтезатором 200 обозначают пространственную служебную информацию.

Далее, подробнее рассмотрим основные шаги алгоритма вычисления пространственных параметров или, иначе говоря, анализа пространственного звука, выполняемого пространственным аудиоанализатором 100. Сигналы микрофонов проходят соответствующее преобразование из временного в частотное представление, например, посредством быстрого преобразования Фурье (БПФ) или иного банка фильтров. Сопутствующие пространственные данные, выделенные на стадии разложения (анализа) звукового сигнала, содержат показатель направления источника звука (DOA) и показатель диффузности звукового поля, описывающий соотношение прямого и рассеянного звука в анализируемом акустическом поле.

В DirAC предложено определять DOA звука как направление, противоположное активному вектору интенсивности. Необходимая акустическая информация, извлекаемая из входного сигнала так называемых В-форматных микрофонов, содержит характеристики звукового давления и скорости, полученные с помощью конфигурации микрофонов и формирующие по осям декартовой системы координат дипольную модель захваченного звука. Формулируя иначе, В-формат строится из четырех сигналов - w(t), x(t), y(t) и z(t). Первый соответствует давлению, измеренному всенаправленным микрофоном, остальные три - сигналам микрофонов, имеющих геометрию направленности в виде восьмерок вдоль трех осей декартовой системы координат. Сигналы x(t), y(t) и z(t) пропорциональны составляющим векторов колебательной скорости в направлениях x, y и z соответственно. В отличие от этого, в ЗАМ выдвинут подход, при котором DOA звука определяется по характеристикам направленности стереомикрофонов, известным априори.

Показатель диффузности может быть выведен из отношения активной силы звука к общей энергии звукового поля, как предложено в DirAC. В SAM предложена альтернативная методика, состоящая в оценке степени когерентности сигналов от различных микрофонов. Следует помнить, что рассеяние (диффузность) также является основным показателем достоверности оценки направления источника звука DOA. Не углубляясь в деталировку, оговорим, что в дальнейшем диффузность будет лежать в пределах [1,0], где 1 означает абсолютно рассеянное акустическое поле, а 0 соответствует исключительно наличию прямого звука. В других реализациях вполне допустимы другие диапазоны и значения диффузности.

Микшированный с понижением сигнал 112, сопровождаемый протокольными данными 114, выводят из входных сигналов от микрофонов. Он может быть монофоническим или состоять из множества аудиоканалов. В случае DirAC рассматривается только моносигнал, соответствующий уровню звукового давления, регистрируемому всенаправленным микрофоном. В случае SAM имеет место подход с использованием в качестве „даунмикса" двухканального стереосигнала.

Перейдем к более подробному рассмотрению стадии реконструкции (синтеза) звуковых сигналов для воспроизведения через громкоговорители, выполняемой синтезатором пространственного звука 200. На вход синтезатора 200 подается микшированный с понижением сигнал 112 и пространственные параметры 114 во время-частотном представлении. Из этих данных рассчитывают каналы громкоговорителей М, добиваясь адекватного воссоздания звукового объема или должного пространственного акустического воздействия. Пусть Y_i(k,n) при i=1…M, обозначает сигнал каналафизического громкоговорителя i во время-частотном представлении с индексами времени и частоты кип, соответственно. Базовая модель для синтеза сигнала выражена как

$Y_{i} (k, n) = g_{i} (k, n) S (k, n) + D_{i} {N (k, n)} (1)$

где S(k,n) соответствует составляющей прямого звука, aN(k,n) представляет компоненту диффузного звука. Обратим внимание, что для корректной реконструкции диффузного звука необходимо выполнение операции декорреляции D_i{} для диффузной компоненты каждого динамического звукового канала. Масштабный коэффициент g_i(k,n) зависит от управляющих данных DOA прямого звука и от конфигурации воспроизводящей акустической системы. Подходящим выбором здесь является метод „амплитудного панорамирования на векторной основе", предложенный в Pulkki, V., "VirtualSoundSourcepositionInGusingVectorBaseamplitudePanning" [„Позиционирование виртуальных источников звука с использованием амплитудного панорамирования на векторной основе"], J. AudioEng. Soc, Vol.45, рр. 456-466, June 1997, далее при ссылке - [VBAP].

В DirAC составляющую прямого звука задают путем соответствующего масштабирования моносигнала понижающего микширования W(k,n), и выводят из:

$S (k, n) = W (k, n) \sqrt{1 - Ψ (k, n)} (2)$ .

Компоненту рассеянного звука получают из

$N (k, n) = \frac{1}{\sqrt{M}} W (k, n) \cdot \sqrt{Ψ (k, n)} (3)$ ,

где М - количество используемых громкоговорителей.

В SAM применена та же модель сигнала (1), при том, что направленную и диффузную звуковые составляющие рассчитывают на основе микшированного с понижением стереосигнала.

На фиг.2 дана принципиальная блочная схема реализации настоящего изобретения [300], интегрированного в состав типового устройства на фиг.1 между пространственным аудиоанализатором 100 и пространственным аудиосинтезатором 200. Процесс, выполняемый устройством на фиг.1, состоит в записи фонограммы исходной аудиосцены с помощью определенной конфигурации микрофонов, заданной в соответствии с местоположением и ориентацией (в случае направленных микрофонов) различных источников звука. С N микрофонов поступает N физических микрофонных или канальных сигналов для обработки пространственным аудиоанализатором 100, который генерирует один или несколько микшированных с понижением сигналов W 112 и сопутствующие пространственные данные 114, в частности направления прихода (DOA) φ 114a и диффузности Ψ 114b звука. В отличие от фиг.1 пространственные аудиосигналы 112, 114a, 114b не пересылают напрямую насинтезатор пространственного звука 200, амодифицируют с использованием преобразователя первого параметрического пространственного аудиосигнала 112, 114a, 114b, отображающего первичное положения слушателя и/или первичную ориентацию слушателя (в данном примере - положение и ориентация точки снятия звука) в пространственной аудиосцене во второй параметрический пространственный аудиосигнал 212, 214a, 214b, то есть - в модифицированный сигнал понижающего микширования W_mod212, модифицированный сигнал направления источника звука φ_mod214a и/или модифицированный сигнал рассеяния звука Ψ_mod214b, представляющие второе положение слушателя и/или вторичную ориентацию слушателя (в пространстве), отличные от первоначального положения слушателя и/или первоначальной ориентации слушателя в пространстве. Модифицированное направление прихода звука 214а и модифицированная диффузность звука 214b также относятся к модифицированным данным пространственного звука 214. Устройство 300 называется модификатор пространственного аудиосигнала или блок модификации пространственного аудиосигнала 300. Устройство 300 на фиг.3А выполнено с возможностью модификации первого параметрического пространственного аудиосигнала 112, 114 в зависимости от управляющего сигнала d402, например, с внешнего блока управления 400. Управляющий сигнал 402, поступающий от блока управления 400 зум-функцией и/или функцией поворота, смонтированного на видеокамере, может представлять собой, например, сигнал управления зум-эффектом, задающий или передающий коэффициент аудиомасштабирования е или параметр d панорамирования/детализации (удаления/приближения) звука, или сигнал управления поворотом (вращением) источников звука. Следует иметь в виду, что зум-эффект (приближение объекта из точки) в определенном направлении и равномерное прямолинейное движение (приближение к объекту в точке) в том же направлении представляют собой два разных способа описания воображаемого движения в определенном направлении (зум-приближение объекта - с помощью коэффициента масштабирования, приближение к объекту - с помощью абсолютного расстояния или относительного расстояния, сопоставляемого с базовым расстоянием). Поэтому пояснения, касающиеся сигнала управления зум-масштабированием, относятся и к сигналу управления направленным приближениеми наоборот, а сигнал управления зум-эффектами 402 связан с сигналом управления приближением. Символ d может обозначать как управляющий сигнал 402 в целом, так и содержащиеся в нем информацию или параметр управления. В дальнейшем символом d будет обозначать управляющий сигнал 402 в целом. Контролируемый параметр или данные управления d могут представлять собой показатель расстояния, коэффициент масштабирования и/или угла и/или направления поворота.

Как видно на фиг.2, устройство 300 генерирует параметрические пространственные аудиосигналы 212, 214 (микшированные с понижением сигналы в сопровождении протокольных данных) в том же формате, в каком на входе были приняты параметрические пространственные аудиосигналы 112, 114. Таким образом, пространственный аудиосинтезатор 200 характеризуется возможностью реконструкции (без модификации) модифицированного пространственного аудиосигнала 212, 214 в том же режиме, что и оригинальный или записанный пространственный аудиосигнал 112, 114, и преобразования его в М физических сигналов громкоговорителей 204 с воспроизведением слухового впечатления модифицированной пространственной звуковой сцены, или, иначе говоря, предусматривает воссоздание модифицированного положения слушателя и/или модифицированной ориентации слушателя без каких-либо других изменений акустической сцены.

Другими словами, фиг.2 отображает принципиальную блочную схему реализации устройства или способа с признаками новизны. Как можно видеть, выходной сигнал 112, 114 кодера пространственного звука 100 модифицируют на основе управляющей информации извне 402 с формированием пространственного представления звука 212, 214, соответствующего положению слушателя, которое отличается от исходной позиции снятия звука. Точнее говоря, сигналы понижающего микширования 112 и сопутствующую пространственную информацию 114 изменяют соответствующим образом. Сценарий „дубляжа" строится на внешнем управлении 400, осуществляемом синхронно с видеокамеры 400 или с любого другого пользовательского интерфейса 400, откуда подаются команды о фактическом положении камеры или применении детализации/панорамирования изображения. Задачей алгоритма данной конфигурации и, соответственно, модификатора 300, является изменение пространственного впечатления от звуковой сцены синхронно с оптической трансфокацией или с поворотом камеры при изменении ракурса обзора зрителя. Иными словами, модификатор 300 обеспечивает акустические эффекты приближения/удаления и поворота, соответствующие переходу от дальнего зрительного плана к ближнему или наблюдаемому вращению.

На фиг.3А представлена принципиальная блочная схема или общая компоновка устройства 300, обозначенного как „блок аудиозума" („блок аудиотрансфокации"). Схемотехннческое решение 300 на фиг.3А включает в себя модификатор параметров 301 и модификатор даунмикс-сигнала 302. Контур модификатора параметров 301 имеет в своем составе модификатор направления прихода звука (модификатор DOA) 301а и модификатор диффузности 301b. Модификатор параметров 301 принимает показатель 114а направления источника и модифицирует [с помощью модификатора DO А 301а] этот, первый, параметр DOA 114а согласно управляющему сигналу d 402, генерируя на выходе модифицированный, или второй, параметр DOA 214а. Далее, модификатор параметров 301 принимает исходную характеристику, или первый параметр, диффузности 114b и с помощью модификатора диффузности 301b модифицирует параметр диффузности 114b согласно управляющему сигналу 402, генерируя на выходе модифицированный, или второй, параметр диффузности 214b. Модификатор даунмикс-сигнала 302 принимает один или более микшированных с понижением сигналов 112 и модифицирует исходный, или первый, из них 112, генерируя на выходе модифицированный, или второй, даунмикс-сигнал 212 в зависимости от первого, исходного, параметра DOA 114a, первого, исходного, параметра диффузности 114b и/или управляющего сигнала 402.

Если съемка ведется видеокамерой, управляемой независимо от микрофонов 102, данное изобретение предусматривает конструктивные решения с возможностью синхронизации изменений аудиосцены или восприятия звука в соответствии с командами от органов управления камерой 402. Кроме того, направления могут изменяться без модификации сигналов понижающего микширования 112, если камера 400 лишь вращается горизонтально без изменения масштаба изображения, то есть, если посылается только один управляющий сигнал вращения без зум-эффекта 402. На фиг.2 и 3 это показано с помощью элемента 400 „контроллер вращения".

Модификация вращения рассмотрена более подробно в разделе, описывающем реориентацию направленности или перенастройку согласования звуковых потоков. Разделы, описывающие рассеяние и модификацию сигналов понижающего микширования, отнесены к части, касающейся движения к объекту или трансфокации зум-масштабирования.

Версии исполнения изобретения предусматривают выполнение как модификации вращения, так и модификации приближения или трансфокации, например, сначала - модификации вращения, а затем - модификации поступательного движения или зум-эффекта, или наоборот, а также одновременное выполнение обоих преобразований с помощью соответствующих функций пространственного согласования.

Акустического зум-эффекта достигают за счет изменения виртуального местоположения слушателя, что осуществляется путем соответствующей переориентации направлений анализируемых звуковых потоков. Чтобы создать надлежащее общее впечатление от модифицированной звуковой сцены, микшированный с понижением сигнал проходит обработку фильтром, рассчитанным в зависимости от переориентированных направлений звука. Назначение этого фильтра - варьирование коэффициентов усиления, при котором, например, уровень близко расположенных в данный момент звуков возрастает, в то время как уровень звуков в областях, не представляющих интерес (вне зоны внимания), ослабляется. По такому же принципу построено масштабирование звукового рассеяния: например, звуки, возникающие вблизи нового местоположения слушателя, должны воспроизводиться с меньшим рассеянием, чем до этого.

Ниже более подробно описан алгоритм, или способ, действия устройства 300. Общая схема блока аудиозума дана на фиг.3А. Сначала выполняют переориентацию направлений (блок 301а, f_p(k,n,φ,d)), затем применяют фильтр модификации диффузности (блок 301b, f_d(k,n,φ,d)). С помощью блока 302 на основе управляющих данных аудиотрансфокации и исходного акустического пространства выполняют модификацию сигнала понижающего микширования.

В следующем разделе описана процедура переориентации направлений и, соответственно, ремаршрутизации векторов поступления звука (параметров DOA), которая выполняется, например, блоком модификации направлений 301а.

Параметр направления источника (параметр DOA) может быть представлен, например, единичным вектором е. В трехмерном (3D) анализе звукового поля вектор может быть выражен как

$e = [\begin{matrix} \cos ϕ \cos θ \\ \sin ϕ \cos θ \\ \sin θ \end{matrix}] (4)$ ,

где азимутальный угол φ соответствует DOA в двухмерной (2D) плоскости, а именно - в горизонтальной плоскости. Угол подъема дан как θ. Этот вектор будет изменен в соответствии с новыми виртуальными координатами микрофона, как описано ниже.

Не уходя от основной темы, обратимся к примеру рекоординации DOA в двухмерном пространстве (фиг.4). Соответствующая переориентация трехмерного DOA может быть выполнена аналогичным образом.

С помощью фиг.4 рассмотрим пример геометрического анализа акустической трансфокации. Буквой S обозначена первоначальная позиция микрофона в точке записи, то есть - исходное положение слушателя. Точками А и В отмечены положения [источников звука] в плане аудиопространства. Предположим, теперь место нахождения слушателя переместилось из точки S в точку S2, например, с сохранением ориентации на прежний источник звука. На фиг.4 видно, что звуки от источника А сохраняют свое угловое положение относительно точки звукозаписи, в то время как звуки из области или от пространственной точки В смещаются в сторону. Это обозначено изменением рассматриваемого угла из α в β. Таким образом, β указывает новое направление прихода звука из углового положения В, когда слушатель переместился в точку S2. В рассматриваемом примере на фиг.4 азимутальный угол увеличивается от α до β. Эта переориентация информации о направлениях прихода может быть записана как векторное превращение:

$e_{\mod} = f (e), (5)$ ,

где f() обозначает функцию переориентации, а e_mod - преобразованный вектор направления. Это функция нелинейного превращения, зависящая от коэффициента масштабирования (трансфокации) d и исходных расчетных DOA. На фиг.5А приведены примеры функциональной зависимости f() величины различных углов а применительно к двухмерной модели на фиг.4. При значении зум-коэффициента d=1, т.е. когда зум-эффект не используется, углы а соответствуют первоначальному DOA. При увеличении управляющего зум-коэффициента значение β также возрастает. Функция может быть выведена путем геометрического анализа или эвристически. Таким образом, переориентация направлений означает модификацию каждого DOA в соответствии с функцией f(). Рекоординацию f_p(k,n,φ,d) выполняют для каждого шага по времени и частоте (k,n).

Несмотря на то, что на фиг.4 показатель зум-эффекта d отображен в виде отрезка поступательного движения между исходным положением S и измененным положением S2 слушателя, как говорилось выше, d может также быть коэффициентом, например, четырехкратной (4х) или восьмикратной (8х) оптической трансфокации. В особенности для настройки ширины охвата или управления фильтром трактование показателя d как множителя, а не как расстояния, упрощает применение акустического зум-эффекта. Говоря иначе, параметр зум-эффекта d в этом случае выражает реальное расстояние, или, по меньшей мере, пропорционален ему.

Далее следует указать на то, что реализация изобретения предусматривает не только зум-эффект в сторону увеличения объекта / уменьшения поля зрения „наезд", как описано выше, например, путем сокращения расстояния до объекта (до точки А на фиг.4 перемещением из позиции S в позицию S2), но и зум-уменьшение объекта / увеличение поля зрения, „отъезд", например, путем увеличения расстояния до объекта (до точки А на фиг.4 путем перемещения из позиции S2 в позицию S). В этом случае действует расчет, обратный описанному выше при „наезде", поскольку объекты, расположенные сбоку от слушателя (точка В относительно позиции S2), перемещаются в пространство перед слушателем по мере его движения к позиции S. Формулируя иначе, величины углов уменьшаются (от β к α).

Переориентация направлений или векторное преобразование выполняет модификатор направления прихода звука 301а. На фиг.5А сценарий фиг.4 представлен в виде функции координации направления прихода звука (где аргументом выступает коэффициент масштабирования (кратность трансфокации) d). На диаграмме фиг.5А значения коэффициента масштабирования (кратность трансфокации) по оси X представлены в пределах от 1 до 2, а величины модифицируемого, или координируемого, угла β - по оси Y. При коэффициенте масштабирования, равном 1, β=α, т.е. начальный угол остается без изменения. На диаграмме цифрами обозначены функции время-частотной координации f_p(k,n,φ,d) для угла α: 512 - для α=10°, 514 - для α=30°, 516 - для α=50°, 518 - для α=70° и 520 - для α=90°.

Варианты реализации изобретения предусматривают использование как одной и той же, так и разных функций картирования (координации/переориентации) значений дискретов по времени и частоте кип.

Как становится понятно из вышеприведенных пояснений, принцип действия фильтра f_d заключается в изменении показателя диффузности у таким образом, чтобы рассеяние снижалось при сужении поля зрения / звука (при „наезде") (φ<|γ|) и возрастало при расширении поля зрения / звука (φ>|γ|) (при „отъезде").

Для упрощения скоординированного перестроения угла β в некоторых схемотехнических вариантах модификатора 301а предусмотрено использование только направления в сочетании с радиусным размещением источников, например, A и B, определяющих DOA звука, при котором все они равноудалены от первоначального местоположения слушателя.

В случае использования, например, обычной компоновки стереофонической акустической системы, где электродинамические головки воспроизводят звук, поступающий только во фронтальных направлениях, функция координирования f() может быть задана так, что максимальный угол разнесения DOA будет ограничен. Предположим, если акустические колонки физически разнесены на ±60°, максимальный угол [звукового охвата] выбирают в пределах ±60°. В результате вся звуковая сцена будет происходить в фронтальной зоне с расширением только при использовании зум-эффекта.

При повороте камеры [вращении вокруг вертикали] начальные азимутальные значения просто сдвигаются так, что новый ракурс соответствует нулевому углу. Следовательно, поворот камеры в горизонтальной плоскости на 20° даст угол β=α-20°.

Более того, в данном случае без изменения остаются даунмикс-сигнал и параметр диффузности, пока вращение и поступательное движение не начнут выполняться одновременно.

Как видно из приведенных выше пояснений, угол поворота или изменения ракурса рассчитывают от исходной ориентации слушателя / зрителя (например, от „направления носа" слушателя / наблюдателя), которая служит репером или ориентиром (азимутом) 0°. При изменении положения слушателя равнозначно меняется репер или ориентир 0°. Таким образом, соответствующее устройство в настоящем изобретении меняет исходные углы или направления поступления звука, то есть начальный параметр направления, в соответствии с новым репером или ориентиром 0° таким образом, что второй параметр направления представляет то же самое „направление поступления"звука в этой аудиосцене, однако относительно нового репера (ориентира) или системы координат. На аналогичном принципе построено ощущение изменения направления прихода звука при движении к/от объекта, которое создается за счет имитации прямолинейного движения или трансфокации в направлении исходной ориентации слушателя (см. фиг.4).

Первый параметр направления 114а и второй параметр направления 214а могут быть двухмерными или трехмерными векторами. Более того, первый параметр направления 114а может представлять собой вектор, а управляющий сигнал 402 может быть командой вращения с указанием угла поворота (например, 20° в вышеописанном случае) и направления поворота (направо - в вышеописанном двухмерном примере), при этом модификатор параметров 301, 301а выполняет расчет вращения вектора на угол в направлении, противоположном направлению поворота (β=α-20° в примере выше), с получением второго параметра направления, т.е. второго, или модифицированного, вектора 214а.

В следующем разделе более подробно будет рассмотрен масштабный пересчет диффузности, выполняемый, например, модификатором диффузности 301b.

Пересчет диффузности выполняют с помощью окна, учитывающего DOA. В ряде технических решений значения диффузности y(k,n) убывают при выполнении зум-увеличения и нарастают в направлениях меньшего внимания. Это объясняется очевидным явлением, когда источники звука воспринимаются менее рассеянными, если они расположены ближе к слушателю. В силу этого, например, для минимального коэффициента аудиомасштабирования (допустим, d=1), диффузность не модифицируют. Угловое поле зрения объектива камеры может быть принято за меру диапазона масштабирования, в пределах которого может быть повышена или понижена диффузность.

Термины „направление зум-увеличения" (/„направление наезда"/ направления трансфокального приближения) или „направление внимания" относятся к углу „окна восприятия" (/„сектора внимания"), называемому также „средним / центральным угловым диапазоном", расположенному вокруг первого направления, или исходной направленности, слухового восприятия, например реперного направления 0°. Угол окна восприятия (/сектора внимания), или средний(/центральный) [угловой] диапазон, задается величинами угла γ, определяющими рамки окна восприятия. Угол и ширина окна восприятия (/внимания) могут быть заданы отрицательным -γ и положительным γ значением ограничивающего угла, при этом отрицательная величина угла ограничения может быть отличной от положительной величины угла ограничения. В предпочтительных вариантах осуществления отрицательный ограничивающий угол и положительный ограничивающий угол равнозначны (окно симметрично или средний диапазон углов равномерно размещен вокруг первоначальной ориентации слушателя). Величину ограничивающего угла также называют угловой шириной, а ширину окна (от [левой]границы отрицательного угла ограничения до [правой]границы положительного угла ограничения) называют также полной угловой шириной.

Реализации изобретения предусматривают возможность внесения различных корректировок в параметры и компоненты направлений прихода звука и/или параметры и компоненты рассеяния в зависимости от вхождения начального параметра DOA в „окно шатание (сектор восприятия), то есть в зависимости от того, меньше или больше величина угла DOA в первоначальном положении слушателя, чем величина ограничивающего угла или угловой ширины γ. Это называют также „зависимостью от направленности", а соответствующие функции фильтров - зависимыми от направленности функциями фильтров, где угловая ширина или угол ограничения γ определяет значение угла, при котором соответствующий фильтр переключается с наращивания характеристики на ее ослабление или наоборот.

Вернемся к модификатору диффузности 301b, который предназначен для корректировки показателя рассеяния у с использованием функции f_d(k,n,φ,d) или f_d, которая зависит от время-частотных характеристик k, n, исходного направления прихода звука φ и параметра зум-эффекта d. На фиг.5B приведены графики функции фильтрования f_d. Фильтр f_d может быть выполнен в виде фильтра с обратной функцией H₁, о чем речь пойдет позже, который, однако, настроен на диапазон диффузности, например, в пределах между [0…1]. На фиг.5B отображены графики функции координации диффузности или фильтра f_d, где по оси X представлено начальное рассеяние, или первичная диффузность, ψ, на фиг.5B обозначенная ψ_in, в диапазоне от 0 до 1, а по оси Y отложены величины вторичной, или модифицированной, диффузности ψ_mod также в диапазоне от 0 до 1. Когда трансфокация не задействована (d=0), фильтр f_d сохраняет рассеяние без изменения и работает в байпасном режиме, то есть ψ_mod=ψ_in. Линия байпаса на графике обозначена 522.

Если начальное направление прихода звука лежит в рамках угловой ширины у, диффузность снижена. Если начальное направление прихода выходит за рамки угловой ширины γ, диффузность возрастает. На фиг.5В смоделированы некоторые функции f_d - 562, 564, 572 и 574 в зависимости от ширины обзора или угловой ширины, γ. В примере на фиг.5В угловая ширина для γ₂ меньше, чем для γ₁, т.е. γ₂<γ₁. Следовательно, γ₂ соответствует большему коэффициенту трансфокации d, чем γ₁.

Область под байпасной линией 552 определяет модифицированные значения диффузности ψ_mod для случаев, когда исходное направление источника φ находится в створе угловой ширины γ, что характеризуется уменьшением коррелирующего значения диффузности ψ_mod относительно исходного значения диффузности ψ_in, или у после координации посредством фильтра f_d. Область над байпасной линией 552 представляет скоррелированные модифицированные значения ψ_mod исходных показателей диффузности ψ для случаев, когда первичное направление источника φ находится за рамками окна [внимания]. Определяя иначе, область выше байпасной линии 552 содержит значения диффузности, увеличенные в результате координирования. В предпочтительных реализациях угловая ширина γ уменьшается с ростом коэффициента аудиомасштабирования d. Другими словами, чем выше коэффициент трансфокации d, тем меньше угловая ширина γ. Более того, изобретение может быть технически решено так, что не только коэффициент трансфокации d или параметры поступательного движения будут влиять на угловую ширину γ функции фильтрации f_d, но и угловая ширина γ будет определять уровень или коэффициент увеличения или уменьшения рассеяния, соответственно, если диффузность γ имеет место внутри или за рамками окна [восприятия]. Вариант такого технического решения представлен на фиг.5В, где угловая ширина γ₁ соответствует зум-коэффициенту d₁, а угловая ширина γ₂ соответствует зум-коэффициенту d₂, при этом d₂ больше чем d₁ и, следовательно, угловая ширина угменьше угловой ширины γ₁. Кроме того, функция f_d 564, соответствующая более высокому коэффициенту трансфокации d₂, пересчитывает исходные значения диффузности ψ_in в меньшие модифицированные значения диффузности ψ_mod, чем функция фильтрации f_d 562, соответствующая более низкому коэффициенту трансфокации d₁. Говоря иначе, при осуществлении функции фильтра f_d уровень исходного рассеяния понижается пропорционально сужению угла восприятия γ. То же самое, но в обратном пересчете, относится к области выше байпасной линии 552. Формулируя иначе, реализация фильтра с функцией f_d может предусматривать. коррелирование исходного показателя диффузности ψ_in с обновленным параметром диффузности ψ_mod в зависимости от коэффициента масштабирования изображения/звука d и ширины угла восприятия γ; или - чем выше зум-коэффициент d, тем меньше угловая ширина γ и/или тем выше уровень рассеяния для направления источника φ вне окна внимания.

Такое же зависимое от направления окно внимания, или функция фильтрации f_d(k,n,φ,d), применено во всех аппаратных версиях со всеми коэффициентами трансфокации. Тем не менее, задействование разных зависимых от направленности окон или функций фильтрации с меньшей угловой шириной при более высоких коэффициентах прямолинейного приближения или аудиомасштабирования лучше удовлетворяет восприятию слушателя и создает более реалистичное слуховое впечатление. Коррелирование различных коэффициентов трансфокации с различными значениями картирования (более выраженное снижение рассеяния при возрастании коэффициента аудиомасштабирования для значений направления источника φ в рамках окна восприятия и возрастание или более высокий уровень рассеяния при увеличении коэффициентов аудиомасштабирования для значений направления источника φ - вне ширины раствора угла γ) еще более повышает реалистичность акустического воздействия.

Далее, более глубокое внимание уделено конструктивным решениям, направленным на преобразование сигнала понижающего микширования, выполняемого, например, модификатором даунмикс-сигнала 302.

Фильтры для сигнала понижающего микширования применяют с целью корректировки уровней прямой и рассеянной составляющих выходного звукового сигнала. Как прямой результат приложения концепции пространственного аудиокодера на выходе громкоговорителей формируется выверенный звуковой сигнал. Звучание в приближенной области внимания усиливается, в то время как звук от не представляющих интерес источников может быть ослаблен.

В силу того, что для обработки звука в формате кодирования направленного звука (DirAC) или в режиме микрофонов пространственного звука (SAM) может быть использован как моно-, так и стереофонический микшированный с понижением сигнал 112, в последующем будут рассмотрены две разные версии схемотехнического решения.

Сначала рассмотрим технические возможности преобразования монофонического даунмикс-сигнала W 112. Для лучшего объяснения используем модель монодаунмикс-сигнала W(k,n), аналогичную уже применявшейся при синтезе сигнала громкоговорителей по уравнению (1):

$W (k, n) = S (k, n) + N (k, n) (6)$

где S(k,n) - направленная звуковая составляющая сигнала понижающего микширования, N(k,n) - составляющие рассеянного звука исходного сигнала понижающего микширования, k - временной индекс или момент времени сигнала и n - шаг по частоте или частотный канал сигнала в момент времени k.

Пусть W_mod(k,n) выражает модифицированный моносигнал понижающего микширования. Он получен преобразованием исходного даунмикс-сигнала согласно

$W_{\mod} (k, n) = H 1 (k, n, ϕ, d) S (k, n) + H_{2} (k, n, ϕ, d) N (k, n) (7)$ ,

где H₁(k,n,φ,d) и H₂(k,n,φ,d) представляют фильтры для обработки направленной и диффузных составляющих модели сигнала, φ обозначает начальное (опорное) направление прихода звука и d - зум-коэффициент (коэффициент аудиомасштабирования). Направленная 112а и диффузные 112b звуковые компоненты можно рассчитать подобно (2), (3), т.е., применив

$S (k, n) = W (k, n) \sqrt{1 - Ψ}$

$N (k, n) = W (k, n) \cdot \sqrt{Ψ}$ .

Оба фильтра представляют собой зависимые от направленности весовые функции. Расчетным критерием для подобных весовых функций может служить, например, кардиоидная диаграмма направленности микрофона.

Фильтр H₁(k,n,φ,d) может быть выполнен по принципу приподнято-косинусного окна, при приложении которого прямой звук, приходящий по направлениям в области зум-приближения, усиливается, тогда как уровень звука, поступающего по другим направлениям понижается. Вообще, направленные и рассеянные акустические компоненты обрабатывают с помощью окон различной формы.

Управление фильтром усиления, реализованным через оконные функции, может осуществляться посредством реального коэффициента d, выражающего кратность поступательного приближения или трансфокации. В частности, средства трансфокации предусматривают управление шириной охвата равномерного усиления сфокусированных направлений и шириной охвата усиления в целом. Примеры различных окон усиления приведены на фиг.6.

На фиг.6 показаны образцы четырех разновидностей окон(ных функций) усиления взвешивающего фильтра H₁ (k,n,φ,d):

1. Сплошная линия 612: зум-эффект не использован, усиление - 0 дБ для всех направлений;

2. Пунктирная линия 614: коэффициент трансфокации - 1,3, ширина окна - 210° при максимальном усилении 2,3 дБ;

3. Точечная линия 616: коэффициент трансфокации - 2,1, ширина окна уменьшается до 140° при максимальном усилении от -2,5 дБ до 3 дБ.

4. Точечно-пунктирная линия 618: коэффициент трансфокации - 2,8, ширина окна - 30° при максимальном усилении от -6 дБ до +3 дБ.

Как видно на фиг.6, исходная ориентация слушателя 0° образует центр вариабельности окон зависимости от зум-коэффициента и направленности, где расчетный центральный диапазон или ширина окон зависимости от направленности тем меньше, чем больше коэффициент трансфокации. Границы центрального диапазона или окна определяет угол γ, в котором усиление равно 0 дБ. Представленные на фиг.6 оконные функции симметричны, и их положительные и отрицательные границы равнозначны по модулю.

Окно 614 при максимальном усилении имеет ширину 210°, ширина его заданного центрального диапазона составляет 260°, а границы угла +/-γ₂ равны +/-130°, при этом уровень направленных (постоянных) составляющих внутри, или в границах, заданного центрального диапазона возрастает, а уровень направленных (постоянных) компонент вне заданного центрального диапазона остается без изменения (усиление=0 дБ).

Окно 616 при максимальном усилении имеет ширину 140°, ширина его заданного центрального диапазона составляет 180°, а границы, или угловая ширина, +/-γ₃ равны +/-90°, при этом уровень направленных составляющих внутри, или в границах, заданного центрального диапазона возрастает, а уровень направленных компонент вне заданного центрального диапазона понижается (отрицательное усиление с понижением до -2,5 дБ).

Окно 618 при максимальном усилении имеет ширину 30°, ширина его заданного центрального диапазона составляет 60°, а границы, или угловая ширина, +/-γ₄ равны +/-30°, при этом уровень направленных составляющих внутри, или в границах, заданного центрального диапазона возрастает, а уровень направленных компонент вне заданного центрального диапазона понижается (отрицательное усиление с понижением до -6 дБ).

Таким образом, в некоторых конструктивных решениях предусмотрено, что коэффициент трансфокации d регулирует ширину, то есть отрицательную и положительную границы и полный раствор, а также уровень усиления моделей окон. Следовательно, окно может быть предварительно рассчитано так, что ширина и коэффициент усиления будут точно скоординированы с исходными направлениями поступления звука φ.

Максимальное усиление должно быть ограничено во избежание искажений в выходном сигнале. Данные здесь варианты ширины или точной формы окна иллюстрируют возможность регулирования посредством коэффициента трансфокации различных аспектов окна усиления. В других реализациях могут быть использованы иные технические решения.

Фильтр H₂(k,n,φ,d) служит для обработки диффузной составляющей 112а микшированного с понижением сигнала аналогично тому, как была преобразована мера диффузности y(k,n), и может быть осуществлен в форме субкардиоидного окна, как показано на фиг.7. При применении таких оконных функций диффузную компоненту звука, поступающего с направлений вне области внимания, немного ослабляют, при том что направления, к которым применяют зум-эффект, остаются неизменными или почти неизменными. На фиг.7 отображена субкардиоидная оконная функция 702, где видно, что диффузная составляющая остается почти неизмененной в области между -30° и +30° базового направления источника φ и ослабляется с увеличением его девиации, т.е. угла отклонения от ориентации 0°. Иначе говоря, для фокусируемой области компоненты рассеяния даунмикс-сигнала остаются без изменения. В результате это дает воспроизведение более направленного (стабильного прямолинейного) звука в приближаемом направлении. Звуки, поступающие со всех остальных направлений, воспринимаются более рассеянными, так как виртуально микрофон расположен в более удаленной точке. Таким образом эти диффузные составляющие ослабляются относительно составляющих рассеяния исходного даунмикс-сигнала. Очевидно, что оптимальный фильтр усиления следует рассчитывать также на основе приподнято-косинусных окон, описанных ранее. Однако следует заметить, что масштабирование будет менее выраженным, чем в случае модификации прямого (направленного, постоянного) звука. В других версиях реализации окна могут иметь такую зависимость от масштабного коэффициента (трансфокации), при которой уклон оконной функции 702 будет настолько круче, насколько возрастет коэффициент масштабирования (изображения/звука).

Теперь рассмотрим технические возможности преобразования стереофонического даунмикс-сигнала W 112.

Далее описаны модификации стереодаунмикс-сигнала, необходимые при подходе с применением микрофона пространственного звука SAM. Для исходного микшированного с понижением стереофонического сигнала применяют модель двухканального сигнала аналогично случаю с моносигналом (6):

$W_{1} (k, n) = S (k, n) + N_{1} (k, n) (8)$ ,

$W_{2} (k, n) = c S (k, n) + N_{2} (k, n) (9)$ .

Вновь S(k,n) представляет направленный звук, a N_i обозначает рассеянный звук микрофона. Как и при вычислении (2), (3), на основе каналов понижающего микширования, исходя из меры диффузности, можно рассчитать направленную и рассеянные составляющие звукового сигнала. Коэффициент усиления с соответствует разному уровню масштабирования направленной звуковой составляющей в разных стереоканалах, что является результатом различия характеристик направленности этих двух даунмикс-каналов. Подробнее о соотношении коэффициента масштабирования и DOA направленного звука можно ознакомиться в [спецификациях] SAM. Поскольку в данном случае масштабирование зависит от DOA в „наблюдаемом" звуковом поле, его коэффициент должен быть скорректирован в соответствии с рекоординацией DOA в результате переориентации виртуальной точки снятия звука.

Видоизмененный сигнал понижающего стереомикширования, соответствующий новой виртуальной позиции микрофона, может быть записан как

$W_{1, \mod} (k, n) = G_{11} (k, n, ϕ, d) S (k, n) + G_{12} (k, n, ϕ, d) N_{1} (k, n) (10)$ ,

$W_{2, \mod} (k, n) = G_{21} (k, n, ϕ, d) c_{\mod} S (k, n) + G_{22} (k, n, ϕ, d) N_{2} (k, n) (11)$ .

Расчет фильтров усиления G_ij(k,n,φ,d) выполняют по аналогии с соответствующими фильтрами усиления H_i(k,n,φ,d) в случае с монофоническим даунмикс-сигналом. Новый коэффициент стереомасштабирования c_mod определяют как функцию от модифицированного DOA таким образом, что он соответствует новой виртуальной точке звукозаписи.

Вновь обратимся к фиг.2 и 3А, где представлены схемотехнические версии изобретения, включающего в себя устройство 300, выполняющее преобразование первого параметрического пространственного аудиосигнала 112, 114, представляющего первое (базовое) положение слушателя или первую (исходную) ориентацию слушателя в пространственной аудиосцене, во второй параметрический пространственный аудиосигнал 212, 214, представляющий второе (следующее) положение слушателя или вторую ориентацию слушателя, которые отличаются от первого положению слушателя или первой ориентации слушателя в аудиопространстве. Устройство включает в свою конструкцию модификатор пространственного аудиосигнала 301, 302, предназначенный для видоизменения первого параметрического пространственного аудиосигнала 112, 114 в зависимости от изменения первоначального положения слушателя или начальной ориентации слушателя с формированием второго параметрического пространственного аудиосигнала 212, 214, при этом второе положение слушателя или вторая ориентация слушателя соответствуют исходному положению слушателя или первичной ориентации слушателя с внесенными соответствующими изменениями.

Конструктивные решения устройства 300 предусматривают возможность преобразования только одного параметра служебных данных, например направления источника звука 114а или показателя рассеяния 114b, или преобразование только одного даунмикс-сигнала 112, или некоторых, или всех названных сигналов и их параметров.

Как описано ранее в отношении режима направленного аудиокодирования (DirAC), аналоговые сигналы микрофона оцифровывают и обрабатывают с получением микшированного с понижением время-частотного представления W(k,n) микрофонных сигналов, где каждый момент или дискрет времени k содержит частотное или спектральное представление, каждый отсчет которого обозначен индексом n. Кроме выполнения понижающего микширования микрофонного сигнала 112 пространственный аудиоанализатор 100 определяет для каждого дискрета времени k и каждого соответствующего отсчета по частоте n один единичный вектор e_DOA[ср. уравнение (4)], содержащий параметр или информацию направленности. Помимо этого, пространственный аудиоанализатор 100 определяет для каждого дискрета времени k и каждого соответствующего отсчета по частоте n параметр диффузности ψ, выражающий соотношение между направленной и рассеянными звуковыми составляющими или аудиокомпонентами, при этом диффузные составляющие, например, исходят от двух или более источников звука и/или являются отраженными звуковыми сигналами.

DirAC представляет собой очень эффективный и экономичный в вычислительном плане формат кодирования, поскольку сводит параметры пространственной звуковой сцены, включая источники звука, звукоотражение, месторасположение и ориентацию микрофонов и, соответственно, слушателя (для каждого момента времени k и каждого шага по частоте n) в единую информацию о направленности, то есть приводит к единичному вектору e_DOA(k,n) и одному показателю диффузности ψ(k,n) между 0 и 1, которые соотнесены с соответствующим одним (моно) даунмикс-сигналом W(k,n) или несколькими (например, стерео) даунмикс-сигналами W₁(k,n) и W₂(k,n).

Итак, варианты реализации, в которых применен вышеописанный подход кодирования направленного звука (DirAC), предусматривают соотнесение с каждым дискретом времени k и каждым частотным отсчетом n, соответствующей характеристики сигнала понижающего микширования от W(k,n) до W_mod(k,n), соответствующего показателя направления прихода звука DOA от e(k,n) до e_mod(k,n) (на фиг.1-3 обозначено, соответственно, как φ и φ_mod) и/или значения параметра диффузности от ψ(k,n) до ψ_mod(k,n).

Модификатор пространственного аудиосигнала (акустический трансфокатор)[300]включает в свою конструкцию или состоит из, в частности, модификатора параметров 301 и модификатора даунмикс-сигнала 302. Предпочтительный вариант реализации модификатора параметров 301 характеризуется возможностью обработки параметра исходного направления 114ас выведением модифицированного параметра направленности 214а, обработки параметра диффузности ψ в зависимости от параметра исходного направления φ 114а, разделения сигнала понижающего микширования 112 с использованием уравнений (2) и (3) на основе исходного параметра диффузности ψ 114b, и применения зависимой от направленности фильтрации H₁(k,n,φ,d) and H₂(k,n,φ,d) на основе параметра исходного направленияф 114а. Как уже говорилось, эти преобразования выполняются в отношении каждого момента временили каждого шага по частоте и для формирования в каждом из них необходимых модификаций сигнала и/или характеристик.

Один из вариантов компоновки устройства 300 позволяет модифицировать только первый параметр направленности 114а первого параметрического пространственного аудиосигнала с выведением второго параметра направленности 214а второго параметрического пространственного аудиосигнала в зависимости от управляющего сигнала 402, например, управляющего сигнала вращения или трансфокации. В случае, если изменение местонахождения/ориентации слушателя происходит только за счет поворота без применения поступательного перемещения или зум-эффекта, достаточно соответствующего пересчета или коррекции параметра направленности φ(k,n) 114а. Соответствующие характеристики диффузности и составляющих даунмикс-сигнала могут оставаться без изменения таким образом, что второй даунмикс-сигнал 212 будет соответствовать первому даунмикс-сигналу 112, а второй параметр диффузности 214b будет соответствовать первому параметру диффузности 114b.

В случае изменения за счет возвратно-поступательного перемещения, в том числе трансфокации, модификация параметра направленности φ(k,n) 114а с выполнением функции рекоординации, как показано на фиг.5А, уже сама по себе улучшает слуховое впечатление и синхронизацию аудиосигнала, допустим, с видеосигналом, если сравнивать с немодифицированным или исходным параметрическим пространственным аудиосигналом (без модификации параметров диффузности или сигнала понижающего микширования).

Два описанных выше варианта технического решения, при которых выполняются только адаптирование или переориентация направления прихода звука с помощью фильтра f_p, уже создают благоприятное впечатление при изменении масштаба изображения/звука.

Другой вариант компоновки устройства 300 рассчитан на использование только фильтра H₁(k,n,φ,d). Иначе говоря, такое конструктивное решение не подразумевает переориентацию направлений источников звука или модификацию параметров диффузности. Данная схемотехническая версия выполняется с возможностью, например, выделения из даунмикс-сигнала 112 только направленной составляющей 112а и применения к нейфункции фильтрации H₁ для формирования зависимой от направленности взвешенной версии направленной составляющей. Далее, такие технические решения могут предусматривать использование зависимой от направленности взвешенной версии прямонаправленной составляющей как модифицированного даунмикс-сигнала W_mod212 или, кроме того, выделение диффузной компоненты 112b из исходного даунмикс-сигнала W 112 и генерацию модифицированного даунмикс-сигнала W_mod212 сложением или общим объединением зависимой от направленности взвешенной версии направленной составляющей и исходной или неизмененной диффузной компоненты 112b. При этом может быть улучшено слуховое восприятие изменения акустического масштаба, однако воздействие зум-эффекта ограничено в силу того, что направление прихода звука не переориентировано.

Возможен вариант реализации, при котором применяют оба фильтра H₁(k,n,φ,d) и H₂(k,n,φ,d), но без выполнения переориентации направления прихода звука или модификации диффузности. По сравнению с неизмененным или исходным параметрическим пространственным аудиосигналом 112, 114 акустическое впечатление улучшается. Впечатление от аудиомасштабирования улучшается по сравнению со случаем применения к направленной составляющей при наличии рассеянного звука только функции фильтра H₁(k,n,φ,d), но все же ограничено, поскольку направление поступления звука φ не скорректировано (впечатление - лучше, чем при использовании только H₁(k,n,φ,d), как упомянуто выше).

Возможен также вариант осуществления, в котором используется только фильтр f_d, или, другими словами, модифицируется только компонента диффузности ψ. Восприятие зум-эффекта улучшено по сравнению с исходным параметрическим пространственным аудиосигналом 112, 114 в силу того, что значения рассеяния фокусируемых областей (зон внимания) уменьшаются, а значения рассеяния областей вне зоны внимания возрастают.

Возможны компоновки, рассчитанные на выполнение рекоординации направления источника звука φ с помощью функции фильтрации f_p в сочетании с применением одного фильтра H₁(k,n,φ,d). Иными словами, такие варианты компоновки не модифицируют параметры рассеяния в соответствии с функцией фильтрации f_dи не используют вторую функцию фильтрации Н₂(k,n,φ, d) к диффузной составляющей исходного даунмикс-сигнала W112. Подобные конструктивные решения обеспечивают очень хорошее восприятие зум-эффекта, которое лучше, чем при применении только переориентации направления источника.

Схемы, обеспечивающие переориентацию направления источника согласно функции f_pв сочетании с модификацией сигнала понижающего микширования с использованием обеих функций фильтрации Н₁(k,n,φ,d) и H₂(k,n,φ,d) обеспечивают еще лучшее впечатление от зум-эффекта, чем при использовании только переориентации направления поступления звука в сочетании с одной первой функцией фильтра H₁.

Комплекс мер, включающий переориентацию направления поступления звука согласно функции f_p, модификацию даунмикс-сигнала с использованием фильтров H₁(k,n,φ,d) и H₂(k,n,φ,d) и настройка диффузности с использованием функции f_d, обеспечивают наилучший акустический зум-эффект.

Если вернуться к варианту с переориентацией только направления источника звука, то дополнительная настройка параметра диффузности 114b значительно улучшает слуховое восприятие или, говоря иначе, более адекватно координирует слуховое впечатление с изменением местоположения внутри пространства аудиосцены. Следовательно, в дальнейших реализациях устройство 300 может быть рассчитано только на регулирование параметра направленности φ(k,n) и параметра диффузности ψ(k,n) без модификации сигнала понижающего микширования W(k,n) 100.

Предпочтительные схемотехнические версии устройства 300, как обсуждалось выше, выполняют также преобразование сигнала понижающего микширования W(k,n), что в еще большей степени оптимизирует слуховое восприятие с учетом изменения положения в пространстве объемной акустической сцены.

Таким образом, в вариантах решения, где первый параметр направленности φ(k,n) 114а является вектором, модификатор параметров 301 перемещает или корректирует первый параметр направленности на угол, заданный управляющим сигналом поворота в направлении, обратном направлению, заданному управляющим сигналом поворота, для получения второго параметра направленности φ_mod(k,n) 214а.

В других аппаратных версиях модификатор параметров 301 выводит второй параметр направленности 214а с помощью нелинейной функции координации (как, например, показано на фиг.5А), определяющей второй параметр направленности 214а в зависимости от первого параметра направленности φ(k,n) и коэффициента трансфокации d, задаваемого сигналом управления аудиомасштабированием 402 или другой информацией управления возвратно-поступательным перемещением, содержащейся в команде на изменение.

Как уже обсуждалось выше, в некоторых компоновках модификатор параметров 301 выполнен с возможностью преобразования первого параметра диффузности ψ(k,n) 114b первого параметрического пространственного аудиосигнала во второй параметр диффузностиφ_mod(k,n)214b в зависимости от первого параметра направленностиφ(k,n) 114а. Модификатор параметров, кроме того, может вычислять второй параметр диффузности ψ_mod(k,n), используя функцию зависимости от направленности, в соответствии с которой уменьшение первого параметра диффузности ψ(k,n) определяет второй параметр диффузности ψ_mod(k,n), если первый параметр направленности φ(k,n) находится в пределах расчетного среднего диапазона, например γ=+/-30°, начальной базовой ориентации (см. фиг.5В); и/или в соответствии с которой увеличение первого параметра диффузности ψ(k,n) определяет второй параметр диффузности ψ_mod(k,n), если первый параметр направленности φ(k,n) находится вне расчетного среднего диапазона, например, для двухмерного случая, вне среднего диапазона от +γ=+30° до -γ=-30° относительно 0° исходной базовой ориентации.

Формулируя иначе, модификатор параметров 301, 310b в определенных конфигурациях характеризуется возможностью выводить второй показатель рассеяния 214b с помощью функции зависимости от направленности, посредством которой понижается первый показатель рассеяния 114b с получением второго показателя рассеяния 214b при условии, что первая характеристика направленности 114а находится в границах заданного среднего диапазона второй характеристики направленности, причем вторая, или измененная, ориентация слушателя формирует центр задаваемого двухмерного или трехмерного среднего диапазона; и/или посредством которой повышается первый показатель рассеяния 114b с получением второго показателя рассеяния при условии, что первая характеристика направленности 114а находится вне границ заданного центрального диапазона. Первая, или исходная, ориентация слушателя определяет центр, например 0°, задаваемого среднего диапазона первого параметра направленности, положительную и отрицательную границы которого определяют положительный и отрицательный угол γ в двухмерной (допустим, горизонтальной) плоскости (например, +/-30°), независимо от того, является ли вторая (следующая) ориентация слушателя двухмерным или трехмерным вектором; или соответствующий угол γ (например, 30°), формирующий прямой круговой конус вокруг трехмерной исходной ориентации слушателя. Варианты технических решений в рамках изобретения позволяет формировать разнообразные задаваемые центральные области или окна, симметричные и асимметричные, сосредоточенные в центре или рассредоточенные вокруг первичной ориентации слушателя в аудиопространстве или вектора, определяющего первоначальную ориентацию слушателя.

Далее, технически предусмотрено, что функция зависимости от направленности f_d(k,n,φ,d) регулируется командой изменения, например, сигналом управления аудиомасштабированием, когда задаваемый центральный диапазон и, соответственно, величины γ, устанавливающие отрицательную и положительную границы (или вообще - границы) среднего диапазона, тем меньше, чем больше величина поступательного перемещения или чем выше коэффициент трансфокации.

В других вариантах конструктивного решения модификатор пространственного аудиосигнала включает в свой состав модификатор микшированного с понижением сигнала 302, преобразующий первый даунмикс-аудиосигнала W(k,n) первого параметрического пространственного аудиосигнала с выведением второго даунмикс-сигнала W_mod(k,n) второго параметрического пространственного аудиосигнала исходя из первого параметра направленности φ(k,n) и первого параметра диффузности ψ(k,n). Вариант исполнения модификатора сигнала понижающего микширования 302 может быть рассчитан на выполнение разделения первого даунмикс-аудиосигнала на направленную составляющую S(k,n) 112а и диффузную составляющую N(k,n) 112b в зависимости от первого параметра диффузности ψ(k,n), например, на базе уравнений (2) и (3).

Более того, модификатор даунмикс-сигнала 302 может быть реализован с возможностью применения первой функции зависимости от направленности H₁(k,n,φ,d) с получением зависимой от направленности взвешенной версии направленной компоненты и/или с возможностью применения второй функции зависимости от направленности H₂(k,n,φ,d) k диффузной компоненты с получением зависимой от направленности взвешенной версии диффузной компоненты. Модификатор сигнала понижающего микширования 302 может быть выполнен с возможностью выведения зависимой от направленности взвешенной версии направленной составляющей 112а с приложением к направленной составляющей другой функции зависимости от направленности H₁(k,n,φ,d), которая предусматривает наращивание направленной составляющей 112а, когда первый параметр направленности 114а находится внутри следующего заданного среднего диапазона первых характеристик направленности и/или которая предусматривает ослабление направленной составляющей 112а, когда первая характеристика направленности 114а выходит за пределы следующего заданного диапазона вторых (следующих) характеристик направленности. Кроме того, модификатор микшированного с понижением сигнала может рассчитать зависимую от направленности взвешенную версию диффузной компоненты 112b, применяя к диффузной составляющей 112b функцию зависимости от направленности H₂(k,n,φ,d), которая предусматривает ослабление диффузной составляющей, если первый параметр направленности 114а входит в рамки расчетного среднего диапазона первых характеристик направленности; и/или которая предусматривает наращивание диффузной составляющей 112b, если первая характеристика направленности 114а выходит за рамки расчетного диапазона вторых характеристик направленности.

Возможны реализации, в составе которых модификатор даунмикс-сигнала 302 формирует второй даунмикс-сигнал 212 путем комбинирования, например, суммирования, зависимой от направленности взвешенной версии направленной составляющей 112а и зависимой от направленности взвешенной версии диффузной составляющей 112b. Предусматривается также использование других алгоритмов модификации микшированного с понижением сигнала 212, отличных от сложения этих двух составляющих.

Согласно данным выше пояснениям варианты схемы модификатора даунмикс-сигнала 302 предусматривают возможность разложения сигнала понижающего микширования W на диффузную составляющую, или компоненту рассеяния, 112b и недиффузную составляющую, или направленную компоненту, 112а посредством двух мультипликаторов - (ψ)^1/2 и (1-ψ)^1/2 - с последующей фильтрацией недиффузной составляющей 112а с помощью функции фильтрации H₁ и диффузной составляющей 112b - с помощью функции фильтрации Н₂. Функция фильтра H₁, или H₁(k,n,φ,d), может быть зависимой от индексов времени/частоты k, n, исходного направления источника звука φ и коэффициента трансфокации d. Функция фильтрации Н дополнительно может быть в зависимости от показателя диффузности ψ. Функция фильтра Н₂, или H₂(k,n,φ,d), может быть зависимой от индексов времени/частоты k, n, исходного направления источника звука ψ и коэффициента трансфокации d. Функция фильтрации H₂дополнительно может быть в зависимости от показателя диффузности ψ. Как пояснялось ранее, функция фильтра Н₂может быть отображена в виде субкардиоидного окна, как показано на фиг.7, или в виде простого коэффициента затухания, независимого от направления прихода звука φ.

Что касается указанного выше параметра аудиомасштабирования d, он может быть использован для управления фильтрами Н₁,Н₂ и модуляторами или функциями, f_d и f_p (см. фиг.3А). Для функции фильтра H₁ и функции f_d параметр трансфокации d может также управлять шириной обзора, или угловой шириной, γ (называемой также углом ограничения γ) используемых окон или центральных секторов. Ширину γ определяют, например, как угол, при котором функция фильтра имеет значение усиления 0 дБ (например, линия 0 дБ 612 на фиг.6). Угловой шириной γ и/или уровнем усиления можно управлять с помощью параметра видео-аудиомасштабирования d. Примеры варьирования значений угла γ, максимальных и минимальных коэффициентов усиления приведены на фиг.6.

В то время как в описанных выше версиях устройства, варьируемые направлением функции, и весовые функции зависят от первого, или базового, параметра направленности φ (см. фиг.3А), другая модельная линия может быть решена на основе определения второго, или модифицированного, показателя диффузности ψ_mod и/или одной или обеих функций фильтрации Н₁ и Н₂, исходя из второго, или модифицированного, параметра направленности φ_mod. На фиг.4, где a(α) соответствует исходному параметру направленности φ и b(β) соответствует модифицированному параметру направленности φ_mod (при увеличении объекта), видно, что, чем выше коэффициент трансфокации d, тем дальше объект В смещается от центрального, или фронтального, положения в боковое, или периферийное, положение, или даже (в случае еще более высоких коэффициентов трансфокации d, чем показано на фиг.4) в заднее (тыльное) положение относительно виртуальной изменяющейся позиции слушателя. Иначе говоря, при возрастании коэффициента видео/аудиомасштабирования d растет величина первоначально острого угла отображения событий во фронтальной области слушателя, при этом более развернутые углы представляют более удаленные к периферии области относительно слушателя. Такое преобразование параметра направленности учитывается при применении функции, что отражено на фиг.5А. Более того, могут быть также смоделированы зависимые от направленности окна или функции для остальных параметров и для направленной и диффузной компонент с учетом видоизменения исходного параметра или угла направленности путем уменьшения угловой ширины γ при возрастании параметра трансфокации d, например, нелинейным способом в соответствии с направлением источника звука или координацией параметра направленности, как показано на фиг.5А. Следовательно, эти зависимые от направленности окна или функции могут быть настроены так, что первоначальный параметр направленности может быть использован непосредственно (например, без предварительной модификации функцией f_p), или же сначала выполняют координацию параметра направленности f_p, а в дальнейшем - аналогичным образом - зависимое от направленности взвешивание f_d, H₁ и/или H₂ на основе модифицированного параметра направленности. Таким образом, если вновь обратиться к фиг.4, выполнимо и то и другое - зависимые от направленности функции f_d, H₁ и H₂, непосредственно относящиеся к а, которым представлен исходный параметр направленности (для зум-приближения), или зависимые от направленности функции f_d, H₁ и H₂, относящиеся к b, который представляет модифицированный параметр направления.

В вариантах осуществления, где используется модифицированный параметр направления, можно использовать - аналогично техническим решениям с использованием исходной характеристики направленности - различные окна с различной угловой шириной и/или разными коэффициентами усиления для разных коэффициентов трансфокации, или же - одинаковые окна с одинаковой угловой шириной (поскольку параметр направленности уже скоординирован с соответствующими разными коэффициентами трансфокации) и одинаковым коэффициентом усиления, или же - окна с одинаковой угловой шириной, но разными коэффициентами усиления, когда повышение коэффициента трансфокации ведет к росту коэффициента усиления (подобно окнам на фиг.6).

На фиг.3В дана дальнейшая детализация конструктивного решения устройства. Модификатор пространственного аудиосигнала на фиг.3В включает в свой состав или скомпонован, по меньшей мере, из модификатора параметров 301 и модификатора сигнала понижающего микширования 302. По одной из версий аппаратного воплощения модификатор параметров 301 предназначен, в первую очередь, для обработки начального параметра [DOA] 114а с выведением модифицированного параметра направления 214а, затем - для обработки параметра диффузности ψ исходя из модифицированного параметра направленности φ_mod 214а, для разложения даунмикс-сигнала 112 с использованием уравнений (2) и (3) и начального параметра диффузности ψ 114b, как описано в контексте фиг.3А, и для зависимой от направленности фильтрации H₁ и H₂ исходя из модифицированного параметра направленности φ_mod 214а. Как уже говорилось, эти преобразования выполняются в отношении каждого момента времени k и каждого шага по частоте n для формирования в каждом из них необходимых модификаций сигнала и/или характеристик.

По другой версии осуществления устройства 300 согласно схеме фиг.3В модификатор параметров 301 выполнен с возможностью обработки начального параметра 114а с выведением модифицированного параметра направленности 214а, обработки параметра диффузности ψ в зависимости от начального параметра направленности φ 114а, выведения модифицированного параметра диффузностиψ_mod214b, разложения сигнала понижающего микширования 112 с помощью уравнений (2) и (3) и начального параметра диффузности ψ 114b в соответствии с описанием к фиг.3А и зависимой от направленности фильтрации H₁ и H₂, исходя из модифицированного параметра направленности φ_mod 214а.

Возможен вариант конструктивного решения по схеме фиг.3В, при котором устройство 300 выполняет только модификацию первого параметра направленности 114а первого параметрического пространственного аудиосигнала с формированием второго параметра направленности 214а второго параметрического пространственного аудиосигнала в зависимости от управляющего сигнала 402, содержащего, например, команды вращения или аудиотрансфокации. В случае, если изменение местонахождения/ориентации слушателя происходит только за счет поворота без применения поступательного перемещения или зум-эффекта, достаточно соответствующего пересчета или коррекции параметра направленности φ(k,n) 114а. Соответствующие характеристики диффузности и составляющих даунмикс-сигнала могут оставаться без изменения таким образом, что второй даунмикс-сигнал 212 будет соответствовать первому даунмикс-сигналу 112, а второй параметр диффузности 214b будет соответствовать первому параметру диффузности 114b.

Модификация показателя рассеяния 114b улучшает слуховое восприятие или, другими словами, более адекватно адаптирует восприятие звука к изменению положения внутри пространственной аудиосцены. Это дает возможность последующих реализаций, в которых устройство 300, не затрагивая даунмикс-сигнал W(k,n) 100, модифицирует только параметр направленности φ(k,n) и параметр диффузности ψ(k,n), из которых последний зависит от модифицированного параметра направленности φ_mod(k,n).

Предпочтительные варианты реализации устройства 300 по схеме фиг.3В, кроме того, предусматривают модификацию даунмикс-сигнала W(k,n) в зависимости от начального показателя диффузности ψ(k,n) и модифицированного показателя направленности φ_mod(k,n) с дальнейшей оптимизацией слухового восприятия, координируемого с перемещением внутри пространственной аудиосцены.

Таким образом, в вариантах решения, где первый параметр направленности φ(k,n) 114а является вектором, модификатор параметров 301 перемещает или корректирует первый параметр направленности на угол, заданный управляющим сигналом поворота в направлении, обратном направлению, заданному управляющим сигналом поворота, с получением второго параметра направленности φ_mod214a.

Как описано выше, модификатор параметров 301 может быть выполнен с возможностью модификации первого параметра диффузности ψ(k,n)114b первого параметрического пространственного аудиосигнала с получением второго параметра диффузности ψ_mod(k,n)214b в зависимости от второго параметра направленности ψ_mod(k,n)214а. Модификатор параметров, кроме того, может вычислять второй параметр диффузности ψ_mod(k,n), используя функцию зависимости от направленности, в соответствии с которой уменьшение первого параметра диффузности ψ(k,n) определяет второй параметр диффузности ψ_mod(k,n), если второй параметр направленности φ_mod(k,n) находится в пределах расчетного среднего диапазона, например +/-30°, начальной базовой ориентации 0°; и/или в соответствии с которой увеличение первого параметра диффузности φ_mod(k,n) определяет второй параметр диффузности ψ_mod(k,n), если второй параметр направленности ψ_mod(k, n) находится вне расчетного среднего диапазона, например, для двухмерного случая - вне среднего диапазона от +30° до -30° относительно 0° относительно исходной базовой ориентации.

Интерпретируя сказанное, в определенных компоновках модификатор параметров 301, 310b выводит второй показатель рассеяния 214b, применяя функцию зависимости от направленности, которая понижает первый показатель рассеяния 114b для получения второго показателя рассеяния 214b, если второй параметр направленности 214а входит в заданный средний диапазон второго параметра направленности, когда первая, или исходная, ориентация слушателя формирует центр расчетного двухмерного или трехмерного центрального диапазона; и/или, которая повышает первый показатель рассеяния 114b для получения второго показателя рассеяния, если второй параметр направленности 214а выходит за пределы расчетного центрального диапазона. Первая ориентация слушателя определяет центр, например 0°, задаваемого среднего диапазона второго параметра направленности, положительную и отрицательную границы которого определяют положительный и отрицательный угол в двухмерной (допустим, горизонтальной) плоскости (например, +/-30°), независимо от того, является ли первая ориентация слушателя двухмерным или трехмерным вектором; или соответствующий угол (например, 30°), формирующий прямой круговой конус вокруг трехмерной второй ориентации слушателя. Варианты технических решений допускают предварительный расчет различных задаваемых центральных областей, симметричных и асимметричных, окружающих первоначальную ориентацию слушателя или вектор, определяющий первоначальную ориентацию слушателя.

Далее, технически предусмотрено, что функция зависимости от направленности f_d(ψ) регулируется командой изменения, например сигналом управления аудиомасштабированием, когда задаваемый центральный диапазон и, соответственно, величины, определяющие отрицательную и положительную границы (или границы в целом) среднего диапазона тем меньше, чем больше величина поступательного перемещения или чем выше коэффициент трансфокации в команде изменения.

В других версиях модификатор микшированного с понижением сигнала 302 в составе модификатора пространственного аудиосигнала преобразует первый даунмикс-аудиосигнала W(k,n) первого параметрического пространственного аудиосигнала с выведением второго даунмикс-сигнала W_mod(k,n) второго параметрического пространственного аудиосигнала исходя из второго параметра направленности φ_mod(k,n) и первого параметра диффузности ψ(k,n). Варианты исполнения модификатора сигнала понижающего микширования 302 могут быть рассчитаны на выполнение разложения первого даунмикс-аудиосигнала W на направленную составляющую S(k,n) 112а и диффузную составляющую N(k,n) 112b в зависимости от первого параметра диффузности ψ(k,n), например, с использованием уравнений (2) и (3).

Более того, модификатор даунмикс-сигнала 302 может быть реализован с возможностью применения первой функции зависимости от направленности H₁ с получением зависимой от направленности взвешенной версии направленной компоненты и/или с возможностью применения второй функции зависимости от направленности H₂ k диффузной компоненты с получением зависимой от направленности взвешенной версии диффузной компоненты. Модификатор сигнала понижающего микширования 302 может быть выполнен с возможностью выведения зависимой от направленности взвешенной версии направленной составляющей 112а с приложением к направленной составляющей другой функции зависимости от направленности H₁, которая предусматривает наращивание направленной составляющей 112а, когда второй параметр направленности 214а входит в следующий расчетный средний диапазон вторых характеристик направленности и/или которая предусматривает ослабление направленной составляющей 112а, когда вторая характеристика направленности 114а выходит за пределы следующего заданного диапазона вторичных характеристик направленности. Далее, модификатор микшированного с понижением сигнала может рассчитать зависимую от направленности взвешенную версию диффузной компоненты 112b, применяя к диффузной составляющей 112b функцию зависимости от направленности H₂, которая предусматривает ослабление диффузной составляющей, если второй параметр направленности 214а входит в рамки расчетного среднего диапазона вторичных характеристик направленности; и/или которая предусматривает наращивание диффузной составляющей 112b, если вторая характеристика направленности 114а выходит за рамки расчетного диапазона вторичных характеристик направленности.

Возможны реализации, в составе которых модификатор даунмикс-сигнала 302 формирует второй даунмикс-сигнал 212 путем комбинирования, например сложения, зависимой от направленности взвешенной версии направленной составляющей 112а и зависимой от направленности взвешенной версии диффузной составляющей 112b. Предусматривается также использование других алгоритмов модификации микшированного с понижением сигнала 212, отличных от сложения этих двух составляющих.

Согласно данным выше пояснениям варианты схемы модификатора даунмикс-сигнала 302 на фиг.302 предусматривают возможность разложения сигнала понижающего микширования W на диффузную составляющую, или компоненту рассеяния, 112b и недиффузную составляющую, или направленную компоненту, 112а посредством двух мультипликаторов - (ψ)^1/2 и (1-ψ)^1/2 - с последующей фильтрацией недиффузной составляющей 112а с помощью функции фильтрации H₁ и диффузной составляющей 112b - с помощью функции фильтрации Н₂. Функция фильтра H₁, или H₁(φ,ψ), может быть зависимой от индексов времени/частоты k, n, модифицированного направления источника звука и коэффициента трансфокации d. Функция фильтрации H₁ дополнительно может находиться в зависимости от показателя диффузности ψ. Функция фильтра H₂, или H₂(φ,ψ), может быть зависимой от индексов времени/частоты k, n, исходного направления источника звука φ и коэффициента трансфокации d. Функция фильтрации H₂(φ,ψ) дополнительно может быть в зависимости от показателя диффузности ψ. Как пояснялось ранее, функция фильтра Н₂может быть отображена в виде субкардиоидного окна, как показано на фиг.7, или в виде простого коэффициента затухания, независимого от модифицированного направления прихода звука φ_mod.

Вышеуказанные пояснения относятся также к схемотехническим решениям согласно фиг.3В, где параметры звуковой трансфокации d могут быть использованы для управления фильтрами H₁, H₂ и модуляторами или функциями f_d и f_p. При применении функций фильтрации H₁ и f_dпараметр трансфокации d может также регулировать угловую ширину γ (также называемую углом ограничения γ) используемых окон или центральных секторов. Ширину (раствор) γ определяют, например, как угол, при котором функция фильтра равна 0 дБ (аналогично линии 0 дБ на фиг.6). Угловой шириной γ и/или уровнем усиления можно управлять с помощью параметра видео-аудиомасштабирования d. Следует заметить, что, в целом, пояснения, данные в контексте конструктивных решений в соответствии с фиг.3А, справедливы в большей или меньшей степени в отношении реализаций на базе схемы фиг.3В.

Далее, рассмотрим возможные приложения вариантов компоновок согласно изобретению, обеспечивающих оптимизацию комплексного восприятия воспроизводимых аудио-/видеоматериалов благодаря координации управления звуковым сопровождением и зум-эффектом видеокамеры.

В телеконференцсвязи общепринятой практикой является автоматическое наведение видеокамеры на говорящего в данный момент участника. Как правило, это осуществляется путем укрупнения плана выступающего. Звук обычно не скоординирован с изображением. Настоящее изобретение предлагает технические возможности регулирования акустического плана говорящего. Общее впечатление становится более реалистичным для наблюдателей на приемном конце, поскольку изменяется не только фокусировка картинки, но и звук соответствует естественному переключению внимания. То есть звуковое сопровождение соответствует видеоряду.

Современные видеокамеры, например, для домашнего пользования предусматривают запись окружающего пространственного звука и снабжены мощной панкратической оптикой. Тем не менее, им не хватает полноценной перцептуальной синхронизации между визуальными зум-эффектами и звуковым сопровождением, поскольку зафиксированное пространственное звучание зависит только от фактического положения камеры и вмонтированного в нее микрофона. Изобретение позволяет вести видеосъемку крупным планом с адекватно скоординированным акустическим сопровождением. Это обеспечивает зрителю естественное и полноценное восприятие приближающегося объекта внимания с нарастающим звуком.

Обратим внимание на то, что изобретение может быть применено также на этапе последующей обработки материалов (постпроцессинга) в случае статичной оригинальной фонограммы сигналов микрофона, сопровождающих видеоряд, и отсутствия последующего дубляжа. При том, что кратность трансфокации видеооригинала не всегда известна, изобретенный способ может быть включен в творческий аудиовизуальный инструментарий постпроцессинга. Акустическое фокусное расстояние выбирается пользователем произвольно соответственно происходящему на экране. Более того, пользователь может создавать пространственные звуковые эффекты сообразно собственным предпочтениям. Любой вариант практического приложения позволяет переориентировать исходную точку снятия звука микрофоном в выбираемое пользователем виртуальное положение слушателя.

В зависимости от практических требований к входящим в изобретение методам эти методы могут быть осуществлены как в виде аппаратных средств, так и в форме программного обеспечения. Изобретение может быть реализовано с использованием цифровых накопителей данных, таких как компакт-диск, DVD (цифровой видеодиск) или диск „Blu-Ray", несущих электронно считываемый управляющий сигнал, взаимодействующий с программируемой компьютерной системой с целью осуществления относящегося к изобретению способа. В общем смысле реализация настоящего изобретения представляет собой компьютерную программу, снабженную записанным на машиночитаемом носителе кодом программы, обеспечивающим осуществление заявленного способа при условии выполнения этой компьютерной программы на компьютере. Формулируя иначе, техническое воплощение изобретенного способа представляет собой компьютерную программу с присвоенным ей кодом программы для осуществления по меньшей мере одного из представленных в изобретении способов при условии, что компьютерная программа выполняется с использованием компьютерной техники.

Приведенные выше иллюстрации и описания касаются конкретных конструктивных решений по заявленному изобретению. Квалифицированные специалисты в данной области должны учитывать, что все прочие изменения формы и деталей содержания могут вноситься без отступления от сути и без выхода за пределы сферы применения. Следовательно, все преобразования, вводимые в варианты реализации, не должны выходить за рамки раскрытой здесь общей концепции, сформулированной в пунктах патентной формулы, представленной далее.

1. Устройство (300), предназначенное для преобразования первого параметрического пространственного аудиосигнала (112, 114), представляющего исходное положение слушателя или исходную ориентацию слушателя в пространственной аудиосцене, во второй параметрический пространственный аудиосигнал (212, 214), представляющий второе местоположение слушателя или вторую ориентацию слушателя; включающее в свою конструкцию: модификатор пространственного аудиосигнала (301, 302), предназначенный для корректировки первого параметрического пространственного аудиосигнала (112, 114) в зависимости от изменения первичного положения слушателя или первичной ориентации слушателя с формированием второго параметрического пространственного аудиосигнала (212, 214), в котором вторичное положение слушателя или вторичная ориентация слушателя соответствуют первичному положению слушателя или первичной ориентации слушателя, куда внесены соответствующие изменения, при этом первый параметрический пространственный аудиосигнал (112, 114) включает в себя сигнал понижающего микширования (112), параметр направления прихода звука (DOA) (114a) и параметр диффузности (показатель рассеяния) (114b), и при этом второй параметрический пространственный аудиосигнал включает в себя сигнал понижающего микширования (212), параметр DOA (214a) и параметр диффузности (214b).

2. Устройство по п. 1, в составе которого модификатор пространственного аудиосигнала (301, 302) включает в себя: модификатор параметров (301, 301a), предназначенный для преобразования первого параметра направления (114a) первого параметрического пространственного аудиосигнала (112, 114) с выведением второго параметра направления (214a) второго параметрического пространственного аудиосигнала (212, 214) на основании управляющего сигнала (402), содержащего информацию о изменениях, которые необходимо внести при преобразовании.

3. Устройство по п. 2, использующее первый параметр направленности (114a) и второй параметр направленности (214a) в виде двухмерных или трехмерных векторов.

4. Устройство по п. 2, использующее первый параметр направленности (114a) в виде вектора, использующий управляющий сигнал в виде команды вращения, содержащей угол и направление поворота, и включающий в свой состав модификатор параметров (301, 301a), предназначенный для вращения вектора на угол поворота в направлении, обратном направлению вращения, с выведением второго параметра направления (214a).

5. Устройство по п.2, принимающее сигнал управления (402) направленным прямолинейным движением (d) относительно первичной ориентации слушателя в акустическом пространстве, при этом модификатор параметров (301, 301a), используя нелинейную функцию координации (f_p), генерирует второй параметр направленности (214a) на основе первого параметра направленности (114a) и команды прямолинейного движения (d) управляющего сигнала.

6. Устройство по п.2, принимающее сигнал управления (402) зум-эффектом (402), задающий зум-коэффициент (d) относительно первичной ориентации слушателя в акустическом пространстве, при этом модификатор параметров (301, 301a), используя нелинейную функцию (f_p), генерирует второй параметр направленности (214a) на основе первого параметра направленности (114a) и зум-коэффициента (d) сигнала управления аудиомасштабированием.

7. Устройство по п.2, в составе которого модификатор параметров (301, 301b) предусматривает видоизменение первого параметра диффузности (показателя рассеяния) (114b) первого параметрического пространственного аудиосигнала с формированием второго параметра диффузности (214b) второго параметрического пространственного аудиосигнала в зависимости от первого параметра направления (114a) или в зависимости от второго параметра направления (214a).

8. Устройство по п. 7, в составе которого модификатор параметров (301, 310b) рассчитывает второй параметр диффузности (214b), применяя функцию зависимости от направленности (f_d), которая предусматривает убывание первого параметра диффузности (114b) для выведения второго параметра диффузности (214b), если первый параметр направленности (114a) находится в пределах расчетного среднего диапазона первого параметра направленности, и/или которая предусматривает нарастание первого параметра диффузности (114b) для выведения второго параметра диффузности, если первый параметр направленности (114a) находится вне расчетного среднего диапазона; или в составе которого модификатор параметров (301, 310b) рассчитывает второй параметр диффузности (214b), применяя функцию зависимости от направленности (f_d), которая предусматривает убывание первого параметра диффузности (114b) для выведения второго параметра диффузности (214b), если второй параметр направленности (214a) находится в пределах расчетного среднего диапазона второго параметра направленности; и/или которая предусматривает нарастание первого параметра диффузности (114b) для выведения второго параметра диффузности, если второй параметр направленности (214a) находится вне расчетного среднего диапазона.

9. Устройство по п. 8, использующее сигнал управления возвратно-поступательным перемещением (402), задающий поступательное движение (d) в направлении первоначальной ориентации слушателя, где функция зависимости от направленности зависит от характеристики поступательного движения и где расчетный средний диапазон тем уже, чем длиннее перемещение по прямой, задаваемое сигналом управления направленным прямолинейным перемещением; или использующее сигнал управления звуковым зум-эффектом (402), задающий кратность трансфокации в направлении первоначальной ориентации слушателя, где функция зависимости от направленности зависит от характеристики зум-эффекта и где расчетный средний диапазон тем уже, чем выше коэффициент трансфокации (d), задаваемый сигналом управления зум-эффектом.

10. Устройство по п.7, модификатор пространственного аудиосигнала (300), включающее в свой состав: модификатор даунмикс-сигнала (302), предназначенный для преобразования первого микшированного с понижением аудиосигнала (112) первого параметрического пространственного аудиосигнала с формированием второго микшированного с понижением сигнала (212) второго параметрического пространственного аудиосигнала в зависимости от первого параметра направленности (114a) и/или первого параметра диффузности (114b), или модификатор даунмикс-сигнала (302), предназначенный для преобразования первого аудиосигнала понижающего микширования (112) первого параметрического пространственного аудиосигнала с формированием второго сигнала понижающего микширования (212) второго параметрического пространственного аудиосигнала в зависимости от второго параметра направленности (214a) и/или первого параметра диффузности (114b).

11. Устройство по п. 10, в составе которого модификатор даунмикс-сигнала (302) выполнен с возможностью разложения первого даунмикс-сигнала (112) на направленную составляющую (112a) и/или диффузную составляющую (112b) в зависимости от первого параметра диффузности (114b).

12. Устройство по п. 11, в составе которого модификатор даунмикс-сигнала (302) вычленяет направленную составляющую (112a), используя уравнение:
,
и/или диффузную составляющую, используя уравнение:
,
где k - дискрет времени, n - частотный отсчет, W(k,n) - первый даунмикс-сигнал, ψ(k,n)-первый параметр диффузности, S(k,n) - направленная составляющая, и N(k,n) - диффузная составляющая, полученная из первого даунмикс-сигнала.

13. Устройство по п. 11, в составе которого модификатор даунмикс-сигнала (302) выполнен с возможностью выведения второго микшированного с понижением сигнала (212) исходя из взвешенной версии направленной составляющей (112а), зависимой от направленности взвешенной версии диффузной составляющей (112b), или из сочетания зависимой от направленности взвешенной версии направленной составляющей (112а) и зависимой от направленности взвешенной версии диффузной составляющей (112b).

14. Устройство по п. 13, в составе которого модификатор даунмикс-сигнала (302) выполнен с возможностью выведения зависимой от направленности взвешенной версии направленной составляющей (112а) путем применения к направленной составляющей следующей функции зависимости от направленности (H₁), которая предусматривает усиление направленной составляющая (112а), если первый параметр направленности (114а) входит в следующий расчетный средний диапазон первых параметров направленности, и/или которая предусматривает ослабление постоянной составляющей (112а), если первый параметр направленности (114а) выходит за пределы следующего расчетного диапазона первых параметров направленности.

15. Устройство по п. 13, в составе которого модификатор даунмикс-сигнала предусматривает выведение зависимой от направленности взвешенной версии диффузной составляющей (112b) путем применения функции зависимости от направленности (Н₂) к диффузной составляющей (112b), при этом функция зависимости от направленности ослабляет диффузную составляющую, если первый параметр направленности (114а) входит в заданный средний диапазон первых параметров направленности, и/или усиливает диффузную составляющую (112b), если первый параметр направленности (114а) выходит за пределы заданного диапазона первых параметров направленности, или при этом функция зависимости от направленности ослабляет диффузную компоненту, если второй параметр направленности (214а) входит в заданный средний диапазон вторых параметров направленности, и/или усиливает диффузную компоненту (112b), если второй параметр направленности (214а) выходит за пределы заданного диапазона вторых параметров направленности.

16. Система для преобразования первого параметрического пространственного аудиосигнала, включающая в себя: устройство по одному из пп. 1-15; и видеокамеру, где устройство подключено к видеокамере и принимает управляющий сигнал, содержащий команды, соответствующие вращению или зум-эффекту изображения.

17. Способ преобразования первого параметрического пространственного аудиосигнала (112, 114), представляющего исходное местоположение слушателя или исходную ориентацию слушателя в пространственной аудиосцене, во второй параметрический пространственный аудиосигнал (212, 214), представляющий второе местоположение слушателя или вторую ориентацию слушателя, включающий в себя: модификацию первого параметрического пространственного аудиосигнала в зависимости от изменения первоначального положения слушателя или первоначальной ориентации слушателя с формированием второго параметрического пространственного аудиосигнала, в котором второе местоположение слушателя или вторая ориентация слушателя соответствуют первоначальному положению слушателя или первоначальной ориентации слушателя с внесением соответствующих изменений; при этом первый параметрический пространственный аудиосигнал (112, 114) включает в себя даунмикс-сигнал (112), параметр DOA (214а) и параметр диффузности (114b), и при этом второй параметрический пространственный аудиосигнал включает в себя сигнал понижающего микширования (212), параметр DOA (214а) и параметр диффузности (214b).

18. Машиночитаемый носитель, на котором хранится программный код для осуществления способа по п. 17, когда программа запускается на компьютере.

19. Устройство (300), предназначенное для преобразования первого параметрического пространственного аудиосигнала (112, 114), представляющего исходное положение слушателя или исходную ориентацию слушателя в пространственной аудиосцене, во второй параметрический пространственный аудиосигнал (212, 214), представляющий второе местоположение слушателя или вторую ориентацию слушателя; включающее в свою конструкцию: модификатор пространственного аудиосигнала (301, 302), предназначенный для модификации первого параметрического пространственного аудиосигнала (112, 114) в зависимости от изменения первоначального положения слушателя или первоначальной ориентации слушателя в акустическом пространстве с формированием второго параметрического пространственного аудиосигнала (212, 214), при этом второе положение слушателя или вторая ориентация слушателя соответствуют первоначальному положению слушателя или первоначальной ориентации слушателя с внесенными соответствующими изменениями; модификатор пространственного аудиосигнала (301, 302) включает в свою схему модификатор параметров (301, 301а), предназначенный для преобразования первого параметра направленности (114а) первого параметрического пространственного аудиосигнала (112, 114) с выведением второго параметра направленности (214а) второго параметрического пространственного аудиосигнала (212, 214) в зависимости от управляющего сигнала (402), содержащего информацию о необходимых изменениях; при этом управляющий сигнал представляет собой сигнал управления направленным прямолинейным перемещением (402), содержащий данные (d) о поступательном движении в направлении первоначальной ориентации слушателя, причем модификатор параметров (301, 301а) выводит второй параметр направленности (214а), применяя нелинейную функцию координации (f_p), задающую второй параметр направленности в зависимости от первого параметра направленности (114а) и характеристик поступательного движения (d), содержащихся в управляющем сигнале.

20. Устройство (300), предназначенное для преобразования первого параметрического пространственного аудиосигнала (112, 114), представляющего исходное положение слушателя или исходную ориентацию слушателя в пространственной аудиосцене, во второй параметрический пространственный аудиосигнал (212, 214), представляющий второе местоположение слушателя или вторую ориентацию слушателя; включающее в свою конструкцию: модификатор пространственного аудиосигнала (301, 302), предназначенный для модификации первого параметрического пространственного аудиосигнала (112, 114) в зависимости от изменения первоначального положения слушателя или первоначальной ориентации слушателя в акустическом пространстве с формированием второго параметрического пространственного аудиосигнала (212, 214), при этом второе положение слушателя или вторая ориентация слушателя соответствуют первоначальному положению слушателя или первоначальной ориентации слушателя с внесенными соответствующими изменениями; модификатор пространственного аудиосигнала (301, 302) включает в свою схему модификатор параметров (301, 301а), предназначенный для преобразования первого параметра направленности (114а) первого параметрического пространственного аудиосигнала (112, 114) с выведением второго параметра направленности (214а) второго параметрического пространственного аудиосигнала (212, 214) в зависимости от управляющего сигнала (402), содержащего информацию о необходимых изменениях; и при этом управляющий сигнал представляет собой сигнал управления зум-эффектом (402), содержащий коэффициент трансфокации (d) в направлении первоначальной ориентации слушателя, причем модификатор параметров (301, 301а) выводит второй параметр направленности (214а), применяя нелинейную функцию координации (f_p), задающую второй параметр направленности в зависимости от первого параметра направленности (114а) и коэффициента трансфокации (d), содержащегося в сигнале управления зум-эффектом.

21. Устройство (300), предназначенное для преобразования первого параметрического пространственного аудиосигнала (112, 114), представляющего исходное положение слушателя или исходную ориентацию слушателя в пространственной аудиосцене, во второй параметрический пространственный аудиосигнал (212, 214), представляющий второе местоположение слушателя или вторую ориентацию слушателя; включающее в свою конструкцию: модификатор пространственного аудиосигнала (301, 302), предназначенный для модификации первого параметрического пространственного аудиосигнала (112, 114) в зависимости от изменения первоначального положения слушателя или первоначальной ориентации слушателя в акустическом пространстве с формированием второго параметрического пространственного аудиосигнала (212, 214), при этом второе положение слушателя или вторая ориентация слушателя соответствуют первоначальному положению слушателя или первоначальной ориентации слушателя с внесенными соответствующими изменениями; модификатор пространственного аудиосигнала (301, 302) включает в свою схему модификатор параметров (301, 301а), предназначенный для преобразования первого параметра направленности (114а) первого параметрического пространственного аудиосигнала (112, 114) с выведением второго параметра направленности (214а) второго параметрического пространственного аудиосигнала (212, 214) в зависимости от управляющего сигнала (402), содержащего информацию о необходимых изменениях; модификатор пространственного аудиосигнала (300) включает в свою конструкцию: модификатор даунмикс-сигнала (302), преобразующий первый микшированный с понижением аудиосигнал (112) первого параметрического пространственного аудиосигнала с формированием второго микшированного с понижением сигнала (212) второго параметрического пространственного аудиосигнала в зависимости от первого параметра направленности (114а) и/или первого параметра диффузности (114b), или модификатор даунмикс-сигнала (302), преобразующий первый микшированный с понижением аудиосигнал (112) первого параметрического пространственного аудиосигнала с формированием второго сигнала понижающего микширования (212) второго параметрического пространственного аудиосигнала в зависимости от второго параметра направленности (214а) и/или первого параметра диффузности (114b); при этом модификатор даунмикс-сигнала (302) разлагает первый даунмикс-сигнал (112) на направленную составляющую (112а) и диффузную составляющую (112b) в зависимости от первого параметра диффузности (114b); при этом модификатор даунмикс-сигнала (302) формирует второй сигнал понижающего микширования (212), комбинируя зависимую от направленности взвешенную версию направленной составляющей (112а) и зависимую от направленности взвешенную версию диффузной составляющей (112b); кроме того, модификатор даунмикс-сигнала (302) формирует зависимую от направленности взвешенную версию направленной составляющей (112а), применяя к направленной составляющей первую функцию зависимости от направленности (H₁), которая предусматривает усиление направленной составляющей (112а), если первый показатель направления (114а) входит в расчетный средний диапазон первых показателей направления, и/или ослабление направленной составляющей (112а), если первый показатель направления (114а) находится вне заданного диапазона первых показателей направления; и при этом модификатор даунмикс-сигнала (302) применяет вторую функцию зависимости от направленности (H₂) к диффузной составляющей с получением зависимой от направленности взвешенной версии диффузной компоненты.

22. Устройство (300), предназначенное для преобразования первого параметрического пространственного аудиосигнала (112, 114), представляющего исходное положение слушателя или исходную ориентацию слушателя в пространственной аудиосцене, во второй параметрический пространственный аудиосигнал (212, 214), представляющий второе местоположение слушателя или вторую ориентацию слушателя; включающее в свою конструкцию: модификатор пространственного аудиосигнала (301, 302), предназначенный для модификации первого параметрического пространственного аудиосигнала (112, 114) в зависимости от изменения первоначального положения слушателя или первоначальной ориентации слушателя в акустическом пространстве с формированием второго параметрического пространственного аудиосигнала (212, 214), при этом второе положение слушателя или вторая ориентация слушателя соответствуют первоначальному положению слушателя или первоначальной ориентации слушателя с внесенными соответствующими изменениями; модификатор пространственного аудиосигнала (301, 302), включающий в свою схему модификатор параметров (301, 301а), предназначенный для преобразования первого параметра направленности (114а) первого параметрического пространственного аудиосигнала (112, 114) с выведением второго параметра направленности (214а) второго параметрического пространственного аудиосигнала (212, 214) в зависимости от управляющего сигнала (402), содержащего информацию о необходимых изменениях; модификатор параметров (301, 301b), предназначенный для преобразования первого параметра диффузности (114b) первого параметрического пространственного аудиосигнала с выведением второго параметра диффузности (214b) второго параметрического пространственного аудиосигнала в зависимости от первого показателя направления (114а) или в зависимости от второго показателя направления (214а).

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении регулировки общего усиления без декодирования и дополнительного этапа повторного кодирования.

Аудиокодек, использующий синтез шума в течение неактивной фазы // 2586838

Изобретение относится к аудиокодеку, поддерживающему синтез шума в течение неактивных фаз. Техническим результатом является уменьшение скорости передачи битов с поддержанием достижимого качества формирования шума.

Кодирование и декодирование позиций импульсов дорожек аудиосигнала // 2586597

Изобретение относится к средствам кодирования и декодирования закодированного аудиосигнала. Технический результат заключается в обеспечении кодирования и декодирования информации импульсов с использованием меньшего количества битов для представления информации импульсов, что обеспечит возможность уменьшения скорости передачи соответствующим образом закодированного аудиосигнала.

Генерирование шума в аудиокодеках // 2585999

Изобретение относится к средствам генерирования шума в аудиокодеках. Технический результат заключается в обеспечении уменьшения скорости передачи битов и в повышении качества генерируемого шума.

Устройство и способ обработки речевого/аудио сигнала // 2585987

Изобретение относится к средствам обработки речевого/аудио сигнала. Технический результат заключается в обеспечении комфортного воспроизведения звука во время переключения полосы пропускания речевых/аудио сигналов.

Кодирование звука с малой задержкой, содержащее чередующиеся предсказательное кодирование и кодирование с преобразованием // 2584463

Изобретение относится к средствам кодирования цифрового звукового сигнала. Технический результат заключается в сокращении количества бит, необходимого для передачи закодированного сигнала без изменения качества кодирования.

Способ и система кодирования аудиоданных с адаптивной низкочастотной коррекцией // 2583717

Изобретение относится к вычислительной технике. Технический результат заключается в адаптивном применении низкочастотной коррекции в ходе кодирования звуковых сигналов, содержащих выраженные низкочастотные тональные составляющие, без изменения декодера.

Гибридное кодирование многоканального звука // 2581782

Изобретение относится к средствам кодирования и декодирования многоканального звукового сигнала. Технический результат заключается в повышении качества кодированного сигнала.

Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки // 2580796

Изобретения относятся к области цифровой связи и технологиям обработки речи в условиях зашумления. Технический результат заключается в повышении отношения сигнал-шум очищенного речевого сигнала.

Устройство для генерирования декоррелированного сигнала, используя переданную фазовую информацию // 2580084

Изобретение относится к области декодирования аудио. Техническим результатом является исключение случаев, когда компоненты переходных сигналов имеют отрицательные акустические воздействия на выходные сигналы.

Генератор водяного знака, декодер водяного знака, способ генерации сигнала водяного знака на основе данных двоичного сообщения, способ формирования данных двоичного сообщения на основе сигнала с водяным знаком и компьютерная программа с использованием дифференциального кодирования // 2586844

Изобретение относится к средствам генерирования, кодирования и декодирования водяного знака. Технический результат заключается в повышении надежности в случае воздействия на сигнал водяного знака доплеровского сдвига частоты. Генератор водяного знака для выработки, исходя из данных двоичного сообщения, сигнала цифрового водяного знака, содержит процессор информации, формирующий на основе информационных единиц данных двоичного сообщения первое время-частотное представление, где значения отображают данные двоичного сообщения; дифференциальный кодер, формирующий на базе первого время-частотного представления второе время-частотное представление, содержащее множество значений, разность двух из которых выражает соответствующее значение первого время-частотного представления, для выполнения дифференциального (разностного) кодирования значений первого время-частотного представления. Генератор водяного знака также содержит провайдер сигнала водяного знака, сконфигурированный для предоставления сигнала водяного знакана основе второго время-частотного представления. 15 н. и 8 з.п. ф-лы, 43 ил.

Декодер водяного знака и способ формирования данных двоичного сообщения // 2586845

Изобретение относится к средствам передачи данных двоичного сообщения. Технический результат заключается в оптимизации формирования данных двоичного сообщения в зависимости от сигнала, маркированного водяным знаком, которое позволило бы увеличить объем данных двоичного сообщения, получаемых с сигналом с водяным знаком. Декодер водяного знака, в схему которого введены блок формирования время-частотного представления, блок памяти, детектор синхронизации и экстрактор водяного знака. Блок формирования время-частотного представления создает представление сигнала с водяным знаком в частотной области для множества временных блоков. Блок памяти сохраняет представление сигнала с водяным знаком в частотной области для множества временных блоков. Детектор синхронизации идентифицирует временной блок совмещения на основе частотного представления сигнала с водяным знаком в множестве временных блоков. Экстрактор водяного знака извлекает данные двоичного сообщения из хранящихся в памяти частотных представлений сигнала с водяным знаком во временных блоках, предшествующих идентифицированному временному блоку совмещения, с учетом удаленности от идентифицированного временного блока совмещения. 5 н. и 7 з.п. ф-лы, 39 ил.

Декодер звукового сигнала, кодирующее устройство звукового сигнала, способы и компьютерная программа, использующие зависящее от частоты выборки кодирование контура деформации времени // 2586848

Изобретение относится к средствам кодирования и декодирования звукового сигнала. Технический результат заключается в повышении эффективности кодирования. Декодер звукового сигнала, сформированный для обеспечения декодированного представления звукового сигнала на основе кодированного представления звукового сигнала, включающего информацию о частоте дискретизации, кодированную информацию о деформации времени и кодированное представление спектра, включает вычислитель деформации времени и декодер деформации. Вычислитель деформации времени формируется, чтобы адаптировать правило отображения для отображения кодовых слов кодированной информации о деформации времени на декодированных значениях деформации времени, описывающих декодированную информацию о деформации времени в зависимости от информации о частоте дискретизации. Декодер деформации, сформированный, чтобы обеспечить декодированное представление звукового сигнала на основе кодированного представления спектра и в зависимости от декодированной информации о деформации времени. 6 н. и 11 з.п. ф-лы, 35 ил.

Устройство для формирования улучшенного сигнала микширования с понижением, способ формирования улучшенного сигнала микширования с понижением и компьютерная программа // 2586851

Изобретение относится к технике связи. Технический результат - обеспечение формирования улучшенного сигнала микширования с понижением. Устройство для формирования улучшенного сигнала микширования с понижением на основе многоканального микрофонного сигнала включает пространственный анализатор, выполненный с возможностью вычислить ряд пространственных параметров звука, включающих информацию о направлении, описывающую направление прибытия прямого звука, информацию о мощности прямого звука и информацию о мощности диффузного звука на основе многоканального микрофонного сигнала. Устройство также включает калькулятор фильтра для того, чтобы вычислить параметры фильтра расширения в зависимости от информации о направлении, описывающей направление прибытия прямого звука, информации о мощности прямого звука и информации о мощности диффузного звука. Устройство также включает фильтр для того, чтобы фильтровать микрофонный сигнал или сигнал, полученный из микрофонного сигнала, используя параметры фильтра расширения, чтобы получить улучшенный сигнал микширования с понижением. 6 н. и 12 з.п. ф-лы, 7 ил.

Устройство, способ и компьютерная программа для устранения артефактов амплитудного ограничения // 2586874

Изобретение относится к технологиям кодирования/декодирования аудиоинформации. Техническим результатом является обеспечение понижения амплитудных ограничений. Предложено устройство кодирования аудиоинформации. Устройство содержит кодер для кодирования временного фрагмента входного аудиосигнала, подлежащего кодированию, для получения соответствующего кодированного фрагмента сигнала. Устройство кодирования аудиоинформации дополнительно содержит декодер для декодирования кодированного фрагмента сигнала для получения повторно декодированного фрагмента сигнала. Устройство обнаружения амплитудного ограничения предусмотрено для анализа повторно декодированного фрагмента сигнала относительно по меньшей мере одного из фактического амплитудного ограничения сигнала или перцепционного амплитудного ограничения сигнала и для генерирования соответствующего предупреждения об амплитудном ограничении. Кодер дополнительно выполнен с возможностью повторного кодирования временного фрагмента аудиосигнала по меньшей мере с одним измененным параметром кодирования, приводящим к пониженной вероятности амплитудного ограничения, в ответ на предупреждение об амплитудном ограничении. 3 н. и 25 з.п. ф-лы, 5 ил.

Устройство формирования водяных знаков, устройство декодирования водяных знаков, способ обеспечения сигнала с водяным знаком на основе данных, содержащих дискретные значения, и способ обеспечения данных, содержащих дискретные значения, в зависимости от сигнала с водяным знаком // 2586877

Изобретение относится к системе связи и предназначено для формирования водяных знаков для обеспечения сигнала с водяным знаком на основе данных, содержащих дискретные значения. Технический результат - повышение устойчивости сигнала водяного знака. Устройство содержит устройство дифференциального кодирования, выполненное с возможностью применения чередования фаз к текущему потоковому значению из потоковых значений или к текущему символу водяного знака, причем текущий символ водяного знака соответствует текущему потоковому значению из потоковых значений, чтобы получить текущий коэффициент водяного знака сигнала водяного знака. Устройство дифференциального кодирования выполнено с возможностью извлечения фазы предыдущего спектрального коэффициента сигнала с водяным знаком, который является объединением главного сигнала и сигнала водяного знака, также выполнено с дополнительной возможностью обеспечения сигнала водяного знака, такого, что фазовый угол чередования фаз, применяемый к текущему потоковому значению или к текущему символу водяного знака, зависит от фазы предыдущего спектрального коэффициента сигнала с водяным знаком. 5 н. и 10 з.п. ф-лы, 16 ил.

Аудиокодер и аудиодекодер с метаданными громкости и границы программы // 2589362

Изобретение относится к средствам кодирования и декодирования аудиоданных. Технический результат заключается в повышении эффективности обработки аудиоданных. Кодированный битовый аудиопоток содержит аудиоданные и контейнер метаданных, причем контейнер метаданных включает заголовок, одну или несколько полезных нагрузок метаданных и защитные данные. Синтаксический анализатор, соединенный с аудиодекодером или интегрированный в него предназначен для выполнения синтаксического анализа кодированного битового аудиопотока. Заголовок содержит синхрослово, идентифицирующее начало контейнера метаданных, одна или несколько полезных нагрузок метаданных описывают аудиопрограмму, связанную с аудиоданными, защитные данные расположены после одной или нескольких полезных нагрузок метаданных, защитные данные имеют возможность быть использованными для проверки целостности контейнера метаданных и одной или нескольких полезных нагрузок в контейнере метаданных. 2 н. и 21 з.п. ф-лы, 2 табл., 11 ил.

Аудиокодер и аудиодекодер с метаданными сведений о программе или структуры вложенных потоков // 2589370

Изобретение относится к средствам генерирования кодированного битового аудиопотока, которое заключается во включении в битовый поток метаданных структуры вложенных потоков и/или метаданных сведений о программе и аудиоданных. Технический результат заключается в повышении качества генерируемых аудиоданных. Модуль обработки аудиоданных содержит подсистему обработки данных, связанную с указанной буферной памятью. Буферная память хранит один кадр кодированного битового аудиопотока, и указанный кадр содержит метаданные сведений о программе или метаданные структуры вложенных потоков в одном сегменте метаданных одного поля игнорируемых данных этого кадра и аудиоданные - в еще одном сегменте этого кадра. Указанная подсистема обработки данных выполнена с возможностью выполнения следующих операций: генерирования битового потока, декодирования битового потока или адаптивной обработки аудиоданных битового потока с использованием метаданных этого битового потока, или следующих операций: аутентификации, проверки достоверности аудиоданных или метаданных битового потока с использованием метаданных этого битового потока. Указанный сегмент метаданных содержит одну полезную нагрузку метаданных. 2 н. и 20 з.п. ф-лы, 8 ил., 2 табл.

Расположение элемента кадра в кадрах потока битов, представляющего аудио содержимое // 2589399

Изобретение относится к области кодирования. Технический результат - обеспечение компромисса между слишком высоким потоком битов и расходами на декодирование. Цифровой носитель данных имеет сохраненные на нем данные, для выполнения способа позиционирования элемента кадра, причем данные представляют поток битов, содержащий: блок конфигурации и последовательность кадров, соответственно представляющие последовательные периоды времени аудио содержимого, при этом блок конфигурации, содержит поле, указывающее количество N элементов в кадре на кадр, и часть синтаксиса индикации типа, указывающую, для каждой позиции элемента для последовательности из N позиций элемента, тип элемента из множества типов элемента; и при этом каждый кадр из последовательности кадров содержит последовательность из N элементов кадра, в которой каждый элемент кадра имеет тип элемента, указанный частью синтаксиса индикации типа, для соответствующей позиции элемента, в которой соответствующий элемент кадра позиционирован в последовательности из N элементов кадра соответствующего кадра в потоке битов. 7 н. и 21 з.п. ф-лы, 39 ил., 16 табл.

Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров) // 2591011

Группа изобретений относится к устройствам и способам кодирования и декодирования аудиосигнала с удалением алиасинга (наложения спектров). Техническим результатом является нейтрализация артефактов алиасинга при прохождении через декодер аудиосигнала. Способ включает этапы: преобразования из временной области в частотную область представления входных звуковых данных с формированием в частотной области представления аудиоконтента; формирования спектра частотного представления аудиоконтента или его предварительно обработанной модификации в зависимости от набора параметров области линейного предсказания для фрагмента аудиоконтента, кодируемого в области линейного предсказания, с получением частотного представления аудиоконтента, рассчитанного по форме спектра; и формирования представления сигнала стимуляции антиалиасинга с получением в результате фильтрации сигнала стимуляции антиалиасинга при учете, по меньшей мере, некоторого множества параметров области линейного предсказания сигнала безалиасингового синтеза с нейтрализацией артефактов наложения спектров (алиасинга) на стороне аудиодекодера. 6 н. и 12 з.п. ф-лы, 25 ил., 8 табл.