Устройство и способ для определения показателя для воспринимаемого уровня реверберации, аудио процессор и способ для обработки сигнала

Изобретение относится к обработке аудиосигналов и может быть применено в искусственных ревербераторах. Технический результат - улучшение характеристик воспринимаемого звука. Для этого устройство для определения показателя воспринимаемого уровня реверберации в смешанном сигнале, состоящем из прямой компоненты сигнала и реверберационной компоненты сигнала, содержит процессор модели громкости, содержащий каскад перцепционного фильтра для фильтрации «сухой» компоненты сигнала, реверберационной компоненты сигнала или смешанного сигнала, причем каскад перцепционного фильтра выполнен с возможностью моделирования механизма слухового восприятия объекта для получения фильтрованного прямого сигнала, фильтрованного реверберационного сигнала или фильтрованного смешанного сигнала, блок оценки громкости для оценки первого показателя громкости с использованием фильтрованного прямого сигнала и для оценки второго показателя громкости с использованием фильтрованного реверберационного сигнала или фильтрованного смешанного сигнала, где фильтрованный смешанный сигнал получен из суперпозиции прямой компоненты сигнала и реверберационной компоненты сигнала, блок объединения для объединения первого и второго показателей громкости. 6 н. и 10 з.п. ф-лы, 17 ил., 3 табл.

 

Настоящая заявка относится к обработке аудиосигналов и, в частности, к обработке аудиосигналов, применимой в искусственных ревербераторах.

Определение показателя для воспринимаемого уровня реверберации, например, желаемого для применений, где работает процессор искусственной реверберации в автоматическом режиме и нуждается в адаптации его параметров к входному сигналу так, чтобы воспринимаемый уровень реверберации соответствовал целевому значению. Следует отметить, что пока термин реверберация, упоминаемый в этой же теме, по-видимому, не имеет общепринятого определения, что делает его трудным для использования в качестве количественного показателя теста прослушивания и сценария предсказания.

Процессоры искусственной реверберации часто реализованы как линейные инвариантные по времени системы и работают в пути отправки - возвращения сигнала, как показано на фиг.6, с предварительной задержкой d, импульсной характеристикой реверберации (ИХР) и коэффициентом масштабирования g для управления отношением прямого сигнала к реверберационному сигналу (ОПР). При реализации, в качестве параметрических процессоров реверберации, они характеризуются различными параметрами, например, для управления формой и плотностью ИХР, и межканальной когерентностью (МКК) ИХР для многоканальных процессоров в одной или нескольких полосах частот.

Фиг.6 показывает прямой сигнал х[k], входящий на входе 600, и этот сигнал передается на сумматор 602 для добавления этого сигнала к реверберационной компоненте r[k] сигнала, выходящей из блока весовой обработки 604, который получает на своем первом входе сигнал, выведенный фильтром 606 реверберации, и который получает на своем втором входе, коэффициент g усиления. Фильтр 606 реверберации может иметь дополнительный каскад 608 задержки, подключенный перед фильтром 606 реверберации, но из-за того, что фильтр 606 реверберации будет включать в себя некоторую задержку сам по себе, задержка в блоке 608 может быть включена в фильтр 606 реверберации так, что верхняя ветвь на фиг.6, может включать в себя только единственный фильтр, включающий в себя задержку и реверберацию, или только включающий в себя реверберацию без какой-либо дополнительной задержки. Реверберационная компонента сигнала выводится фильтром 606, и эта реверберационная компонента сигнала может быть изменена умножителем 606 в ответ на коэффициент g усиления для того, чтобы получить обработанную реверберационную компоненту r[k] сигнала, которую затем объединяют с прямой компонентой сигнала, введенной на 600 для того, чтобы окончательно получить смешанный сигнал m[k] на выходе сумматора 602. Следует отметить, что термин «фильтр реверберации» относится к общим реализациям искусственных ревербераций (или в виде свертки, которая эквивалентна КИХ-фильтрации, или в виде реализаций, использующих рекурсивные структуры, такие как сети задержки обратной связи или сети всепропускающих фильтров и гребенчатые фильтры обратной связи или другие рекурсивные фильтры), но означает общую обработку, которая производит реверберирующий сигнал. Такие обработки могут включать в себя нелинейные процессы или изменяющиеся во времени процессы, такие как низкочастотные модуляции амплитуд сигналов или продолжительности задержки. В этих случаях термин «фильтр реверберации» не будет применяться в строгом техническом смысле линейной инвариантной по времени (ЛИВ) системы. Фактически, «фильтр реверберации» относится к обработке, которая выдает реверберирующий сигнал, возможно, включая в себя механизм для считывания рассчитанного или записанного реверберирующего сигнала из памяти.

Эти параметры оказывают влияние на полученный аудиосигнал, исходя из воспринимаемого уровня, расстояния, размера помещения, окраски и качества звука. Кроме того, воспринимаемые характеристики реверберации зависят от временных и спектральных характеристик входного сигнала [1]. Сосредоточимся на очень важном ощущении, а именно громкости, может наблюдаться, что громкость воспринимаемой реверберации монотонно связана с нестационарностью входного сигнала. Интуитивно говоря, аудиосигнал при больших колебаниях в своей огибающей возбуждает реверберацию на высоких уровнях и позволяет ей стать слышимее на более низких уровнях. В типичном сценарии, где долгосрочное ОПР, выраженное в децибелах, является положительным, прямой сигнал может маскировать реверберационный сигнал почти полностью в моменты времени, когда его энергетическая огибающая увеличивается. С другой стороны, когда сигнал прекращается, ранее возбужденный хвост реверберации проявляется в интервалах, превышающих минимальную продолжительность, определенную наклоном последующей маскировки (на максимум 200 мс) и временем интегрирования слуховой системы (при максимуме 200 мс для средних уровней).

Чтобы проиллюстрировать это, фиг.4а показывает огибающие сигнала-времени синтезированного аудиосигнала и искусственно сгенерированного реверберационного сигнала, и фиг.4b показывает функции предсказанной громкости и частичной громкости, вычисленные с вычислительной моделью громкости. Здесь используется ИХР с короткой предварительной задержкой в 50 мс, за исключением ранних отражений и синтезирования поздней части реверберации с экспоненциальным затуханием белого шума [2]. Входной сигнал был сформирован из гармонического широкополосного сигнала и огибающей функции так, что воспринимаются одна волна с коротким затуханием и вторая волна с длинным затуханием. Хотя длинная волна производит больше общей энергии реверберации, становится не удивительно, что это короткий звук, который воспринимается как более реверберирующий. Где затухающий наклон более длинной волны маскирует реверберацию, короткий звук уже исчез перед созданной реверберацией и тем самым открывается интервал, в котором воспринимается реверберация. Пожалуйста, обратите внимание, что определение маскировки, использованное здесь, включает в себя как полные, так и частичные маскировки [3].

Хотя такие наблюдения были сделаны много раз [4, 5, 6], по-прежнему стоит подчеркнуть их, потому что они качественно иллюстрируют, почему модели частичной громкости могут применяться в контексте этой работы. Фактически, было указано на то, что восприятие реверберации возникает из поточных сегрегационных процессов в слуховой системе [4, 5, 6] и находится под влиянием частичного маскирования реверберации за счет прямого звука.

Приведенные выше соображения мотивируют использование моделей громкости. Похожие исследования проводились Lee et al. и фокусировались на предсказании субъективного снижения скорости ИХР при их непосредственном прослушивании [7] и на влиянии уровня воспроизведения на реверберацию [8]. Блок предсказания для реверберации, использующий основанные на громкости ранние времена затухания, предложен в [9]. В отличие от этой работы, способы предсказания, предлагаемые здесь, обрабатывают прямой сигнал и реверберационный сигнал с вычислительной моделью частичной громкости (и с ее упрощенными вариантами в поисках реализаций низкой сложности) и тем самым учитывают влияние входного (прямого) сигнала на восприятие. Недавно Tsilfidis и Mourjopoulus [10] исследовали использование модели громкости для подавления поздней реверберации в одноканальных записях. Оценка прямого сигнала вычислена из реверберирующего входного сигнала с использованием метода спектрального вычитания, и индекс маскировки реверберации извлекается посредством вычислительной модели слухового маскирования, которая управляет обработкой реверберации.

Это характеристика многоканальных синтезаторов и других устройств для добавления реверберации для того, чтобы сделать звук лучше с точки зрения восприятия. С другой стороны, сгенерированная реверберация представляет собой искусственный сигнал, который при добавлении к сигналу на низком уровне, едва слышен и при добавлении на высоком уровне приводит к неестественному и неприятному звучанию конечного смешанного сигнала. Что делает вещи еще хуже того, как обсуждалось в контексте фиг.4a и 4b, что воспринимаемый уровень реверберации сильно зависит от сигнала и, следовательно, некий фильтр реверберации может работать очень хорошо для одного вида сигналов, но может не иметь звукового эффекта или, что еще хуже, может генерировать серьезные звуковые артефакты для других видов сигналов.

Еще одна проблема связана с реверберацией в том, что реверберированный сигнал предназначен для слуха объекта или индивидуума, такого как человек, и конечной целью генерации смешанного сигнала, имеющего прямую компоненту сигнала и реверберационную компоненту сигнала, является то, что субъект воспринимает этот смешанный сигнал или "реверберированный сигнал", как хорошее звучание или как естественное звучание. Однако механизм слухового восприятия или механизм, как звук на самом деле воспринимается индивидуумом, сильно нелинеен, не только по отношению к полосам частот, в которых работает человеческий слух, но также и по отношению к обработке сигналов в полосах частот. Кроме того, известно, что человеческое восприятие звука не столько направлено на уровень звукового давления, который может быть вычислен, например, возведением в квадрат цифровых выборок, но восприятие более контролируемо путем ощущения громкости. Кроме того, для смешанных сигналов, которые включают в себя прямую компоненту и реверберационную компоненту сигнала, ощущение громкости реверберационной компоненты зависит не только от вида прямой компоненты сигнала, но также и от уровня или громкости прямой компоненты сигнала.

Таким образом, существует необходимость в определении показателя для воспринимаемого уровня реверберации в сигнале, состоящем из прямой компоненты сигнала и реверберационной компоненты сигнала для того, чтобы справится с вышеуказанными проблемами, связанными с механизмом слухового восприятия объекта.

Задачей настоящего изобретения является, таким образом, обеспечение устройства и способа для определения показателя для воспринимаемого уровня реверберации или обеспечение аудио процессора или способа обработки аудиосигнала с улучшенными характеристиками.

Эта задача достигается устройством для определения показателя воспринимаемого уровня реверберации в соответствии с п.1, способом определения показателя воспринимаемого уровня реверберации в соответствии с п.10, аудио процессором в соответствии с п.11, способом обработки аудиосигнала в соответствии с п.14 или компьютерной программой в соответствии с п.15.

Настоящее изобретение основано на обнаружении того, что показатель для воспринимаемого уровня реверберации сигнала определяется процессором модели громкости, содержащим каскад перцепционного фильтра для фильтрации прямой компоненты сигнала, реверберационной компоненты сигнала или смешанной компоненты сигнала с использованием перцепционного фильтра для моделирования механизмов слухового восприятия объекта. На основе перцепционно фильтрованных сигналов, блок оценки громкости оценивает первый показатель громкости, используя фильтрованный прямой сигнал и второй показатель громкости, используя фильтрованный реверберационный сигнал или фильтрованный смешанный сигнал. Затем блок объединения объединяет первый показатель и второй показатель, чтобы получить показатель для воспринимаемого уровня реверберации. В частности, путем объединения двух различных показателей громкости, предпочтительно, вычислением разницы, дающим количественное значение или показатель насколько сильно ощущение реверберации по сравнению с ощущением прямого сигнала или смешанного сигнала.

Для вычисления показателей громкости могут быть использованы показатели абсолютной громкости и, в частности, показатели абсолютной громкости прямого сигнала, смешанного сигнала или реверберационного сигнала. Кроме того, частичная громкость также может быть вычислена, где первый показатель громкости определяется использованием прямого сигнала в качестве возбуждающего сигнала и реверберационного сигнала в качестве шума в модели громкости, а второй показатель громкости вычисляется использованием реверберационного сигнала в качестве возбуждающего сигнала и прямого сигнала в качестве шума. В частности, объединением этих двух показателей в блоке объединения, получается пригодный показатель для воспринимаемого уровня реверберации. Авторами было обнаружено, что такой пригодный показатель не может быть определен только генерацией одного показателя громкости, например, использованием отдельно прямого сигнала или отдельно смешанного сигнала или отдельно реверберационного сигнала. Вместо этого, из-за взаимозависимости человеческого слуха, объединяя показатели, которые получены отдельно из каждого из этих трех сигналов, воспринимаемый уровень реверберации в сигнале может быть определен или смоделирован с высокой степенью точности.

Предпочтительно процессор модели громкости обеспечивает частотно-временное преобразование и подтверждает передаточную функцию уха совместно с моделью возбуждения, фактически происходящей в человеческом слухе, моделируемой слуховыми моделями.

В предпочтительном варианте осуществления показатель для воспринимаемого уровня реверберации направляется в блок предсказания, который фактически обеспечивает воспринимаемый уровень реверберации в пригодном масштабе, таком как сон-масштаб. Этот блок предсказания предпочтительно обучен данными теста прослушивания, и параметры блока предсказания для предпочтительно линейного блока предсказания содержат свободный член и коэффициент масштабирования. Свободный член предпочтительно зависит от характеристики фактически используемого фильтра реверберации, и в одном из вариантов осуществления фильтра реверберации характеристический параметр Τ60, который может быть предоставлен для простых хорошо известных фильтров реверберации, использован в искусственных ревербераторах. Даже если, однако, эта характеристика не известна, например, когда реверберационная компонента сигнала отдельно не доступна, но была отделена от смешанного сигнала до обработки в устройстве по настоящему изобретению, оценка для свободного члена может быть получена.

Далее предпочтительные варианты осуществления настоящего изобретения описаны со ссылками на прилагаемые чертежи, на которых:

Фиг.1 является блок-схемой устройства или способа для определения показателя для воспринимаемого уровня реверберации;

Фиг.2а является иллюстрацией предпочтительного варианта осуществления процессора модели громкости;

Фиг.2b иллюстрирует другой предпочтительный вариант осуществления процессора модели громкости;

Фиг.3 иллюстрирует другой предпочтительный вариант осуществления процессора модели громкости;

Фиг.4a,b иллюстрируют примеры огибающих сигнала-времени и соответствующей громкости и частичной громкости;

Фиг.5a,b иллюстрируют информацию экспериментальных данных для обучения блока предсказания;

Фиг.6 иллюстрирует блок-схему процессора искусственной реверберации;

Фиг.7 иллюстрирует три таблицы для индикации параметров оценки для вариантов осуществления изобретения;

Фиг.8 иллюстрирует процессор аудиосигнала, реализованный для использования показателя воспринимаемого уровня реверберации с целью искусственной реверберации;

Фиг.9 иллюстрирует предпочтительный вариант осуществления блока предсказания, основанный на усредненных по времени воспринимаемых уровнях реверберации; и

Фиг.10 иллюстрирует уравнения из Moore Glasberg, Baer публикации 1997 года, используемые в предпочтительном варианте осуществления для расчета удельной громкости.

Воспринимаемый уровень реверберации зависит как от входного звукового сигнала, так и от импульсной характеристики. Варианты осуществления настоящего изобретения направлены на определение значений этих результатов наблюдения и предсказание воспринимаемого уровня поздней реверберации на основе отдельных сигнальных трактов прямого и реверберирующего сигналов, как они проявляются в цифровых аудио эффектах. Подход к проблеме разработан и впоследствии расширен с учетом влияния времени реверберации на предсказание результата. Это приводит к линейной регрессионной модели с двумя входными переменными, которая способна предсказать воспринимаемый уровень с высокой точностью, как показано на экспериментальных данных, полученных из тестов прослушивания. Вариации этой модели с различными степенью сложности и вычислительной сложностью сравниваются относительно их точности. Применения включают в себя управление цифровыми аудио эффектами для автоматического смешивания аудиосигналов.

Варианты осуществления настоящего изобретения не только пригодны для предсказания воспринимаемого уровня реверберации в речи и музыке, когда прямой сигнал и импульсная характеристика реверберации (ИХР) доступны отдельно. В других вариантах осуществления, в которых возникает реверберированный сигнал, настоящее изобретение может быть применено также. В этом случае, однако, прямой/пространственный или прямой/реверберационный сепаратор будет включен для отделения прямой компоненты сигнала и реверберационной компоненты сигнала из смешанного сигнала. Такой аудио процессор затем будет полезен для изменения соотношения прямой/реверберационный в этом сигнале для того, чтобы генерировать лучшее звучание реверберационного сигнала или лучшее звучание смешанного сигнала.

Фиг.1 иллюстрирует устройство для определения показателя воспринимаемого уровня реверберации в смешанном сигнале, содержащем прямую компоненту сигнала или «сухую» компоненту 100 сигнала и реверберационную компоненту 102 сигнала. «Сухая» компонента 100 сигнала и реверберационная компонента 102 сигнала вводятся в процессор 104 модели громкости. Процессор модели громкости сконфигурирован для получения прямой компоненты 100 сигнала и реверберационной компоненты 102 сигнала и включает в себя, кроме того, каскад 104а перцепционного фильтра и подключенный затем вычислитель 104b громкости, как проиллюстрировано на фиг.2a. Процессор модели громкости генерирует на своем выходе первый показатель 106 громкости и второй показатель 108 громкости. Оба показателя громкости вводятся в блок 110 объединения для объединения первого показателя 106 громкости и второго показателя 108 громкости чтобы, наконец, получить показатель 112 для воспринимаемого уровня реверберации. В зависимости от реализации, показатель для воспринимаемого уровня 112 может быть введен в блок 114 предсказания для предсказания воспринимаемого уровня реверберации на основе среднего значения по меньшей мере двух показателей для воспринимаемой громкости для разных сигналов, как будет описано в контексте фиг.9. Тем не менее, блок 114 предсказания на фиг.1 необязателен и фактически превращает параметр воспринимаемого уровня в некоторый диапазон значений или диапазон единиц, такой как диапазон сон-единиц, который является пригодным для предоставления количественных значений, связанных с громкостью. Тем не менее, другие коэффициенты для показателя для воспринимаемого уровня 112, которые не обрабатываются блоком 114 предсказания могут также использоваться, например, в аудио процессоре по фиг.8, который не обязательно должен опираться на выходные значения блока 114 предсказания, но который также может непосредственно обрабатывать параметр воспринимаемого уровня 112, либо в прямой форме либо предпочтительно в виде сглаженной формы, где сглаживание с течением времени является предпочтительным для того, чтобы не иметь сильно изменяющиеся коррекции уровня реверберированного сигнала или, как обсуждается позже, коэффициента g усиления, проиллюстрированного на фиг.6 или проиллюстрированного на фиг.8.

В частности, каскад перцепционного фильтра сконфигурирован для фильтрации прямой компоненты сигнала, реверберационной компоненты сигнала или смешанной компоненты сигнала, при этом каскад перцепционного фильтра сконфигурирован для моделирования механизма слухового восприятия объекта, такого как человек, чтобы получить фильтрованный прямой сигнал, фильтрованный реверберационный сигнал или фильтрованный смешанный сигнал. В зависимости от реализации, каскад перцепционного фильтра может включать в себя два фильтра, работающих параллельно или может включать в себя запоминающее устройство и один фильтр, так как один и тот же фильтр действительно может быть использован для фильтрации каждого из трех сигналов, т.е. реверберационного сигнала, смешанного сигнала и прямого сигнала. При этом, однако, следует отметить, что, несмотря на то, что фиг.2a иллюстрирует n фильтров моделирования механизма слухового восприятия, на самом деле двух фильтров будет достаточно, или одного фильтра фильтрующего два сигнала из группы, содержащей реверберационную компоненту сигнала, смешанную компоненту сигнала и прямую компоненту сигнала.

Вычислитель 104b громкости или блок оценки громкости сконфигурирован для оценки первого связанного с громкостью показателя с использованием фильтрованного прямого сигнала и для оценки второго показателя громкости с использованием фильтрованного реверберационного сигнала или фильтрованного смешанного сигнала, где смешанный сигнал получают из суперпозиции прямой компоненты сигнала и реверберационной компоненты сигнала.

Фиг.2с иллюстрирует четыре предпочтительных режима вычисления показателя для воспринимаемого уровня реверберации. Вариант осуществления 1 опирается на частичную громкость, где обе, прямая компонента x сигнала и реверберационная компонента r сигнала, используются в процессоре модели громкости, но где в целях определения первого показателя EST1 реверберационный сигнал используется в качестве сигнала возбуждения, а прямой сигнал используется в качестве шума. Для определения второго показателя EST2 громкости, ситуация изменилась, и прямая компонента сигнала используется в качестве сигнала возбуждения, а реверберационная компонента сигнала используется в качестве шума. Итак, показатель для воспринимаемого уровня коррекции, сгенерированный блоком объединения, является разностью между первым показателем EST1 громкости и вторым показателем EST2 громкости.

Однако, кроме того имеются другие вычислительно эффективные варианты осуществления, которые показаны в строках 2, 3 и 4 на фиг.2с. Эти более вычислительно эффективные показатели полагаются на вычисление общей громкости трех сигналов, включающих в себя смешанный сигнал m, прямой сигнал x и реверберационный сигнал n. Зависимость от требуемых вычислений, выполняемых блоком объединения, указана в последнем столбце фиг.2c, первым показателем EST1 громкости является общая громкость смешанного сигнала или реверберационного сигнала, а вторым показателем EST2 громкости является общая громкость прямой компоненты x сигнала или смешанной компоненты m сигнала, где фактические объединения проиллюстрированы на фиг.2с.

В дополнительном варианте осуществления процессор модели громкости 104 функционирует в частотной области, как обсуждается более подробно на фиг.3. В такой ситуации, процессор модели громкости и, в частности, вычислитель 104b громкости обеспечивает первый показатель и второй показатель для каждой полосы частот. Эти первые показатели по всем n полосам частот потом суммируют или объединяют вместе в сумматоре 104с для первой ветви и 104d для второй ветви для того, чтобы в конце концов получить первый показатель для широкополосного сигнала и второй показатель для широкополосного сигнала.

Фиг.3 иллюстрирует предпочтительный вариант осуществления процессора модели громкости, который уже обсуждался в некоторых аспектах по отношению к фиг.1, 2a, 2b, 2c. В частности, каскад 104a перцепционного фильтра включает в себя частотно-временной преобразователь 300 для каждой ветви, где, в варианте осуществления по фиг.3, x[k] означает сигнал возбуждения, а n[k] означает шум. Сигнал, преобразованный по времени/частоте, передается в блок 302 передаточной функции уха (Обратите внимание, что передаточная функция уха альтернативно может быть вычислена до частотно-временного преобразователя с аналогичными результатами, но более высокой вычислительной нагрузкой) и выходной сигнал этого блока 302 является входным сигналом в блок 304 вычисления модели возбуждения и идущего следом блока 306 временной интеграции. Затем, в блоке 308 в данном варианте осуществления вычисляется удельная громкость, где блок 308 соответствует блоку 104b вычисления громкости на фиг.2a. Далее, выполняется интегрирование по частоте в блоке 310, где блок 310 соответствует сумматору, уже описанному как 104c и 104d на фиг.2b. Следует отметить, что блок 310 генерирует первый показатель для первого комплекта возбуждающего сигнала и шума, и второй показатель для второго комплекта возбуждающего сигнала и шума. В частности, когда рассматривается фиг.2b, сигналом возбуждения для вычисления первого показателя является реверберационный сигнал, а шумом является прямой сигнал, в то время как для вычисления второго показателя, ситуация изменилась, и сигналом возбуждения является прямая компонента сигнала, а шумом - реверберационная компонента сигнала. Таким образом, для генерации двух различных параметров громкости, процедуры, проиллюстрированные на фиг.3 были выполнены дважды. Однако изменения в вычислении происходят только в блоке 308, который работает по-разному, как обсуждалось, кроме того, в контексте фиг.10, так что этапы, проиллюстрированные блоками 300 до 306, должны быть выполнены только один раз, и результат временной интеграции блока 306 может быть сохранен для того, чтобы вычислить первую оцененную громкость и вторую оцененную громкость для варианта осуществления 1 на фиг.2с. Следует отметить, что в других вариантах осуществления 2, 3, 4 на фиг.2c, блок 308 заменен отдельным блоком «вычисления общей громкости» для каждой ветви, где, в данном варианте осуществления это безразлично, будь то один сигнал, рассмотренный как возбуждающий сигнал или как шум.

Далее более подробно обсуждается модель громкости, проиллюстрированная на фиг.3.

Реализация модели громкости на фиг.3 следует описаниям в [11, 12] с модификациями, детализированными позже. Обучение и проверка предсказания используют данные из тестов прослушивания, описанных в [13] и кратко резюмированных позже. Применение модели громкости для предсказания воспринимаемого уровня поздней реверберации также описано позже. Экспериментальные результаты следуют ниже.

В этом разделе описывается реализация модели частичной громкости, данные теста прослушивания, которые был использованы в качестве экспериментальных данных для вычислительного предсказания воспринимаемого уровня реверберации, и предлагаемый способ предсказания, который основан на модели частичной громкости.

Модель громкости вычисляет частичную громкость Nx,n[k] сигнала x[k], который представлен вместе с маскирующим сигналом n[k]

Хотя ранние модели имели дело с восприятием громкости в установившемся фоновом шуме, существуют некоторые работы по восприятию громкости в фонах совместно модулированных случайных шумов [14], комплексных внешних звуков [12], и музыкальных сигналов [15]. Фиг.4b иллюстрирует общую громкость и частичную громкость компонент примерного сигнала, показанного на фиг.4а, вычисленных с моделью громкости, используемой здесь.

Модель, используемая в этой работе, аналогична модели в [11, 12], которая сама выведена в более раннем исследовании Fletcher, Munson, Stevens, и Zwicker, с некоторыми изменениями, как описано ниже. Блок-схема модели громкости показана на фиг.3. Входные сигналы обрабатываются в частотной области с использованием кратковременного преобразования Фурье (КВПФ). В [12], 6 ДПФ (дискретное преобразование Фурье) различной длины используются для того, чтобы получить хорошее совпадение для разрешения по частоте и временного разрешения с разрешением по частоте и временным разрешением человеческой слуховой системы на всех частотах. В этой работе используется только ДПФ одной длины ради вычислительной эффективности, с длиной кадра 21 мс при частоте дискретизации 48 кГц, 50% перекрытием и функцией окна Ханна. Передача через наружное и среднее ухо моделируется с фиксированным фильтром. Функция возбуждения вычисляется для 40 полос частот слухового фильтра расположенных на шкале эквивалентного прямоугольного диапазона частот (ЭПДЧ) с использованием модели зависимости от уровня возбуждения. В дополнение к временной интеграции из-за обработки методом окна КВПФ, рекурсивная интеграция реализуется с постоянной времени 25 мс, которая активна только в то время, когда затухает сигнал возбуждения.

Удельная частичная громкость, т.е. частичная громкость, вызванная в каждой полосе частот слухового фильтра, вычисляется из уровней возбуждения от важного сигнала (возбуждающего сигнала) и звуковых помех в соответствии с уравнениями (17)-(20) в [11], проиллюстрированных на фиг.10. Эти уравнения охватывают четыре случая, где сигнал выше порога слышимости в шуме или нет, и где возбуждение смешанного сигнала меньше 100 дБ или нет. Если никакой сигнал помехи не подается в модель, т.е. n[k]=0, результат равен общей громкости Nx[k] сигнала возбуждения x[k].

В частности, фиг.10 иллюстрирует уравнения 17, 18, 19, 20 публикации "A Model for the Prediction of Thresholds, Loudness and Partial Loudness", B.C.J. Moore, B.R. Glasberg, T. Baer, J. Audio Eng. Soc, изд. 45, No. 4, апрель 1997. Эта ссылка описывает случай сигнала, представленного вместе с фоновым звуком. Несмотря на то, что фон может быть любым типом звука, он упоминается как "шум" в этой ссылке, чтобы отличить его от сигнала, громкость которого оценивается. Наличие шума уменьшает громкость сигнала, эффект называется частичной маскировкой. Громкость сигнала растет очень быстро, когда его уровень увеличивается от порогового значения до значения 20-30 дБ выше порога. В публикации предполагается, что частичная громкость сигнала, представленная в шуме, может быть вычислена путем суммирования удельных частичных громкостей сигнала по частоте (на ЭПДЧ-шкале). Уравнения, полученные для вычисления удельной частичной громкости, рассматривают четыре предельных случаях. ESIG обозначает возбуждение вызванное сигналом, а ENOISE обозначает возбуждение, вызванное шумом. Предполагается, что ESIG>ETHRQ и ESIG плюс ENOISE<1010. Общая удельная громкость N'TOT определяется следующим образом:

Предполагается, что слушатель может разделить удельную громкость при заданной центральной частоте между удельной громкостью сигнала и удельной громкостью шума, но таким образом, что предпочитает общую удельную громкость.

Это предположение согласуется, так как в большинстве экспериментов по измерению частичного маскирования, слушатель слышит первым один только шум и затем шум плюс сигнал. Удельная громкость только для шума при условии, что он находится выше порога, будет

Таким образом, если удельная громкость сигнала была получена только зависимостью удельной громкости шума от общей удельной громкости, результатом будет

На практике, способ, удельная громкость которого распределена между сигналом и шумом, по-видимому меняется в зависимости от относительного возбуждения сигнала и шума.

Рассмотренные четыре ситуации показывают как удельная громкость определяется на разных уровнях сигнала. Пусть ETHRN обозначает пиковое возбуждение, вызванное синусоидальным сигналом, когда он является маскирующим порогом в фоновом шуме. Когда ESIG значительно ниже ETHRN, вся удельная громкость присвоена шуму, а частичная удельная громкость сигнала приближается к нулю. Во-вторых, когда ENOISE значительно ниже ETHRQ, частичная удельная громкость приближается к значению, которое она будет иметь для сигнала в тишине. В-третьих, когда сигнал находится на его маскирующем пороге, при возбуждении ETHRN, предполагается, что частичная удельная громкость будет равна значению, которое возникнет для сигнала на абсолютном пороге. Наконец, когда сигнал находится в центре узкополосного шума значительно выше его маскирующего порога, громкость сигнала приближается к своему демаскирующему значению. Поэтому частичная удельная громкость сигнала также приближается к своему демаскирующему значению.

Рассмотрим последствия этих различных граничных условий. На маскирующем пороге, удельная громкость равна той, что для сигнала на пороге в тишине. Эта удельная громкость меньше, чем можно было бы предсказать из приведенного выше уравнения, по-видимому, потому что некоторая удельная громкость сигнала приписывается к шуму. Для того, чтобы получить правильную удельную громкость для сигнала, предполагается, что удельная громкость, приписанная к шуму, увеличивается фактором B, где

Применение этого фактора ко второму члену в вышеизложенном уравнении для N'SIG дает

Предполагается, что, когда сигнал на маскирующем пороге, его пиковое возбуждение ETHRN равно KENOISE+ETHRQ, где K отношение сигнал-шум на выходе слухового фильтра, требующегося для порога на более высоких уровнях маскирования. Недавние оценки K, полученные для маскировки экспериментов, использующих шум с узкополосным провалом в спектре, предполагают, что K заметно возрастает на очень низких частотах, становится больше единицы. В этой ссылке значение К оценивается как функция частоты. Значение уменьшается от высоких уровней на низких частотах к неизменным низким уровням на более высоких частотах. К сожалению, нет оценки для K для центральных частот ниже 100 Гц, поэтому значения от 50 до 100 Гц заменяют ETHRN в вышеприведенных результатах уравнения в:

Когда ESIG=ETHRN это уравнение устанавливает пиковую удельную громкость для сигнала на абсолютном пороге в тишине.

Когда сигнал намного выше его маскирующего порога, то есть, когда ESIG>>ETHRN, удельная громкость сигнала приближается к значению, которое она будет иметь, когда не присутствуют фоновые шумы. Это означает, что удельная громкость, приписанная к шуму, становится исчезающе малой. Чтобы обеспечить это, вышеприведенное уравнение модифицировано путем введения дополнительного члена, который зависит от отношения ETHRN/ESIG. Этот член уменьшается, как только ESIG повысится выше значения, соответствующего маскирующему порогу. Таким образом, вышеприведенное уравнение становится уравнением 17 на фиг.10.

Это окончательное уравнение для N'SIG в случае, когда ESIG>ETHRN и ESIG+EN0ISE≤1010. Показатель 0,3 в конечном члене был выбран эмпирически так, чтобы получить хорошее соответствие данных громкости тона в шуме в зависимости от отношения сигнал-шум.

Потом рассматривается ситуация, где ESIG<ETHRN. В предельном случае, когда ESIG чуть ниже ETHRN, удельная громкость приблизилась бы к значению, указанному в уравнении 17 на фиг.10. Когда ESIG снижается до значения значительно ниже ETHRN, удельная громкость должна быстро стать очень малой. Это достигается уравнением 18 на фиг.10. Первый член в скобках определяет скорость, с которой уменьшается удельная громкость ESIG, снижается ниже ETHRN. Это описывает зависимость между удельной громкостью и возбуждением для сигнала в тишине, когда ESIG<ETHRQ, исключая что ETHRN была заменена в уравнении 18. Первый член в фигурных скобках обеспечивает приближение удельной громкости к значению, определяемому уравнением 17 фиг.10, как ESIG приближающуюся к ETHRN.

Описанные уравнения для частичной громкости до сих пор применяются, когда ESIG+ENOISE<1010. Применением тех же рассуждений, которые использовались для вывода уравнения (17) на фиг.10, может быть получено любое уравнение для случая ENOISE≥ETHRN и ESIG+ENOISE>1010, как указано в уравнении 19 на фиг.10. C2=C/(1,04·106)0,5. Аналогично, применением тех же рассуждений, используемых для вывода уравнения (18) на фиг.30, может быть получено уравнение для случая, когда ESIG<ETHRN и ESIG+ENOISE>1010, как указано в уравнении 20 на фиг.10.

Следующие пункты следует отметить. Эта известная модель применяется для настоящего изобретения, где на первом этапе, SIG соответствует, например, прямому сигналу в качестве "возбуждающего сигнала" и шуму соответствует, например, реверберационный сигнал или смешанный сигнал в качестве "шума". На втором этапе, как обсуждалось в контексте первого варианта осуществления на фиг.2с, SIG будет тогда соответствовать реверберационному сигналу в качестве "возбуждающего сигнала" и "шум" будет соответствовать прямому сигналу. Затем получаются два показателя громкости, которые затем объединяются в блоке объединения предпочтительно формированием разности.

Для того, чтобы оценить пригодность описанной модели громкости для задач предсказания воспринимаемого уровня поздней реверберации, массив экспериментальных данных, сгенерированный из ответов слушателя является предпочтительным. С этой целью данные исследования, характеризующие несколько тестов прослушивания [13], используются в данном документе, которые кратко сформулированы ниже. Каждый тест прослушивания состоял из множественных экранов графического пользовательского интерфейса, которые представлены смешениями разных прямых сигналов с разными условиями искусственной реверберации. Слушателям было предложено оценить это воспринимаемую величину реверберации по шкале от 0 до 100 баллов. Кроме того, два сигнала привязки были представлены на 10 баллах и на 90 баллах. Сигналы привязки были созданы из того же прямого сигнала с разными условиями реверберации.

Прямыми сигналами, используемыми для создания элементов теста, были монофонические записи речи, отдельных инструментов и музыки различных жанров с длиной около 4 секунд каждый. Было использовано большинство из элементов, происходящих от безэховой записи, а также коммерческие записи с малой величиной оригинальной реверберации.

ИХР представляют позднюю реверберацию и были сгенерированы с использованием экспоненциально затухающего белого шума с частотно-зависимыми скоростями затухания. Скорости затухания выбраны так, что время реверберации уменьшается от низких до высоких частот, начиная с основного времени реверберации T60. Ранними отражениями пренебрегли в этой работе. Реверберационный сигнал r[k] и прямой сигнал x[k] были измерены и суммированы так, что отношение их средних показателей громкости в соответствии с ITU-R BS.1770 [16] соответствует желаемой ОПР и так, что все смешения тестового сигнала имеют равную долгосрочную громкость. Все участники испытаний работали в области аудио и имели опыт работы с субъективными тестами прослушивания.

Экспериментальные данные, используемые для обучения и проверки/тестирования способа предсказания были взяты из двух тестов прослушивания и обозначены А и В, соответственно. Набор данных A состоял из оценок 14 слушателей для 54 сигналов. Слушатели повторили тест один раз и средняя оценка была получена от всех из 28 оценок для каждого элемента. 54 сигнала были сгенерированы объединением 6 различных прямых сигналов и 9 условий стереофонической реверберации, с T60 ∈ {1, 1,6, 2,4} с и ОПР ∈ {3, 7,5, 12} дБ, и без предварительной задержки.

Данные в B были получены из оценок 14 слушателей для 60 сигналов. Сигналы были получены использованием 15 прямых сигналов и 36 условий реверберации. Условия реверберации выбраны по четырем параметрам, а именно T60, ОПР, предварительная задержка, и МКК. Для каждого прямого сигнала 4 ИХР были выбраны так, что два не имеют предварительной задержки и два имеют короткую предварительную задержку в 50 мс, и два были монофоническими, а два были стереофоническими.

Далее обсуждаются дополнительные характеристики предпочтительного варианта осуществления блока 110 объединения на фиг.1.

Основной входной характеристикой для способа предсказания является вычисленная разность частичной громкости Nr,x[k] реверберационного сигнала r[k] (с прямым сигналом x[k] являющимся помехой) и громкости Nx,r[k] сигнала x[k] (где r[k] является помехой) в соответствии с уравнением 2.

Смысл уравнения (2) в том, что разность ΔNr,x[k] является показателем того, насколько сильно ощущение реверберации по сравнению с ощущением прямого сигнала. Взятие разности было также установлено, чтобы сделать результат предсказания примерно инвариантным по отношению к уровню воспроизведения. Уровень воспроизведения оказывает воздействие на исследуемое ощущение [17, 8], но в более тонкой степени, чем свидетельствует увеличение частичной громкости Nr,x с увеличением уровня воспроизведения. Как правило, музыкальные записи звучат более реверберирующими на средних и высоких уровнях (начиная примерно от 75-80 дБ), чем при примерно от 12 до 20 дБ нижних уровней. Этот эффект особенно очевиден в тех случаях, когда ОПР является положительным, что действительно «почти для всей записанной музыки» [18], но не во всех случаях для концертной музыки, где «слушатели находятся часто далеко за пределами критического расстояния» [6].

Уменьшение воспринимаемого уровня реверберации с уменьшением уровня воспроизведения лучше всего объясняется тем, что динамический диапазон реверберации меньше, чем прямые звуки (или частотно-временное представление реверберации более плотное, тогда как частотно-временное представление прямых звуков более редкое [19]). В таком сценарии реверберационный сигнал, скорее всего, ниже порога слышимости, чем прямые звуки.

Несмотря на то, что уравнение (2) описывает, в качестве операции объединения, разность между двумя показателями громкости Nr,x[k] и Nx,r[k], могут быть также выполнены другие объединения, такие как умножения, деления или даже дополнения. В любом случае, достаточно, чтобы две альтернативы, указанные двумя показателями громкости, были объединены для того, чтобы в результате иметь влияние обоих альтернатив. Однако эксперименты показали различные результаты в наилучших значениях из модели, т.е. в результатах модели, которые вписываются в тесты прослушивания в хорошей степени, разность является предпочтительным способом объединения.

Далее описаны подробности блока 114 предсказания, иллюстрированного на фиг.1, где эти подробности относятся к предпочтительным вариантам осуществления.

Способы предсказания, описанные ниже, являются линейными и используют подбор методом наименьших квадратов для вычисления коэффициентов модели. Простая структура предсказания является предпочтительной в случаях, когда размер наборов данных для обучения и тестирования предсказания ограничен, что может привести к подгонке модели при использовании методов регрессии с большими степенями свободы, например, нейронных сетей. Базовое предсказание Rb получается путем линейной регрессии в соответствии с уравнением (3) с коэффициентами ai, с К, являющимся длиной сигнала в кадрах,

Модель имеет только одну независимую переменную, т.е. среднее ΔNr,x[k]. Для отслеживания изменений и чтобы иметь возможность выполнять обработку в реальном времени, вычисление среднего может быть аппроксимировано с использованием квазиинтегратора. Модель параметров, полученных с использованием комплекта данных A для обучения a0=48,2 и a1=14,0, где a0 равно средней оценке для всех слушателей и элементов.

Фиг.5а изображает предсказания ощущений для комплекта данных A. Видно, что предсказания умеренно коррелируют со средними оценками слушателя с коэффициентом корреляции 0,71. Пожалуйста, обратите внимание, что выбор коэффициентов регрессии не влияет на эту корреляцию. Как показано на нижнем графике для каждого смешения, генерируемого теми же прямыми сигналами, точки показывают характерную форму по центру близко к диагонали. Эта форма указывает, что, хотя базовая модель может предсказать R в некоторой степени, она не отражает влияние T60 на оценки. Визуальный осмотр точек данных предполагает линейную зависимость от T60. Если значение T60 известно, как в случае при управлении звуковым эффектом, оно может быть легко включено в модель линейной регрессии для получения улучшенного предсказания

Параметры модели, полученные из комплекта данных A являются a0=48,2, a1=14,0, a2=10,2. Результаты показаны на фиг.5b отдельно для каждого комплекта данных. Оценка результатов будет описана более подробно в следующем разделе.

Кроме того, усреднение по блокам более или менее может быть выполнено, пока происходит усреднение, по меньшей мере, по двум блокам, хотя, в связи с теорией линейных уравнений, лучшие результаты могут быть получены, когда выполняется усреднение по всей музыкальной части до некоторого кадра. Однако для применений в реальном времени предпочтительно сократить количество кадров, по которым усредняют, в зависимости от конкретного применения.

Фиг.9 дополнительно иллюстрирует, что свободный член задан a0 и a2·T60. Второй член a2·T60 был выбран для того, чтобы быть в состоянии применить это уравнение не только к одному ревербератору, т.е. к ситуации, в которой фильтр 600 по фиг.6 не изменяется. Это уравнение, которое, конечно, является свободным членом, но которое зависит от фактически использованных фильтров 606 реверберации фиг.6, обеспечивает, таким образом, возможность использовать точно такое же уравнение для других фильтров реверберации, имеющих другие значения T60. Как известно из уровня техники, T60 это параметр, описывающий определенный фильтр реверберации и, в частности, означает, что энергия реверберации была уменьшена на 60 дБ от начального максимального значения энергии реверберации. Как правило, кривые реверберации уменьшаются со временем, и поэтому T60 указывает период времени, в котором энергия реверберации, генерируемая сигналом возбуждения, уменьшилась на 60 дБ. Аналогичные результаты с точки зрения точности предсказания получаются заменой T60 на параметры, представляющие аналогичную информацию (т.е. длину ИХР), например, T30.

Ниже модели оцениваются с использованием коэффициента r корреляции, средней абсолютной ошибки (САО) и среднеквадратической ошибки (СКО) между средними оценками слушателя и предсказанным ощущением. Эксперименты выполнены в виде двойной перекрестной проверки, то есть блок предсказания обучен комплектом данных A и протестирован комплектом данных B, и эксперимент повторялся с B для обучения и A для тестирования. Оценки показателей, полученные от обоих прохождений, усредняются отдельно для обучения и тестирования.

Результаты показаны в таблице 1 для моделей предсказания и . Параметр предсказания дает точные результаты с СКО на 10,6 балла. Среднее стандартное отклонение индивидуальных оценок слушателя на элемент приведены в качестве показателя дисперсии от среднего (от оценок всех слушателей на элемент) как =13,4 для комплекта данных A и =13,6 для комплекта данных B. Сравнение с СКО указывает, что , по крайней мере, точно, как средний слушатель в тесте прослушивания.

Точности предсказаний для комплектов данных немного различаются, например, для обоих САО и СКО примерно на один балл ниже среднего значения (как указано в таблице) при тестировании с комплектом данных A и на один балл выше среднего при тестировании с комплектом данных B. Тот факт, что оценки показателей для обучения и тестирования сопоставимы, указывает на то, что переобучения блока предсказания удалось избежать.

Для того, чтобы облегчить экономическую реализацию таких моделей предсказания, следующие эксперименты исследуют как использование характеристик громкости с меньшей вычислительной сложностью влияет на точность предсказания результата. Эксперименты направлены на замену вычисления частичной громкости оценками общей громкости и на упрощенную реализацию модели возбуждения.

Вместо использования разности частичной громкости ΔNr,x[k] исследованы оценки трех разностей общей громкости, с громкостью прямого сигнала Nx[k], громкостью реверберации Nr[k], и громкостью смешанного сигнала Nm[k], как показано в уравнениях (5)-(7) соответственно.

Уравнение (5) основано на предположении, что воспринимаемый уровень реверберационного сигнала может быть выражен как разность (увеличение) общей громкости, которая вызвана добавлением реверберации в «сухой» сигнал.

Ниже следует похожее обоснование как для разности частичной громкости в уравнении (2), Характеристики громкости использованием разностей общей громкости реверберационного сигнала и смешанного сигнала или прямого сигнала, соответственно, определено в уравнениях (6) и (7). Показатель для предсказания ощущения происходит от громкости реверберационного сигнала при прослушивании отдельно, с вычитанием членов для моделирования частичного маскирования и для нормализации по отношению уровня воспроизведения, полученного из смешанного сигнала или прямого сигнала, соответственно.

В таблице 2 показаны результаты, полученные с характеристиками, основанными на общей громкости и показывающими, что фактически две из них, ΔNm-x[k] и ΔNr-x[k], выдают предсказания почти с той же точностью, как . Однако, как показано в таблице 2, даже ΔNr-n[k] предусматривает использование для результатов.

Наконец, в дополнительном эксперименте, исследовано влияние реализации функции рассеяния. Это имеет особое значение для многих сценариев применения, потому что использование уровня зависимости моделей возбуждения требует реализаций высокой вычислительной сложности. Эксперименты с аналогичной обработкой, как для , но с использованием одной модели громкости без рассеяния и одной модели громкости с инвариантной по уровням функцией рассеяния, привели к результатам, показанным в таблице 2. Влияние рассеяния представляется незначительным.

Таким образом, уравнения (5), (6) и (7), которые показывают варианты осуществления 2, 3, 4 по фиг.2с иллюстрируют, что даже без частичных громкостей, но с общими громкостями, для различных объединений компонент сигнала или сигналов, хорошие значения или показатели для воспринимаемого уровня реверберации в смешанном сигнале также получены.

Далее, предпочтительное применение изобретательского определения показателей для воспринимаемого уровня реверберации обсуждается в контексте фиг.8. Фиг.8 иллюстрирует аудио процессор для генерации реверберационного сигнала из прямой компоненты сигнала, введенной на входе 800. Прямая или «сухая» компонента сигнала вводится в ревербератор 801, который может быть похожим на ревербератор 606 на фиг.6. «Сухая» компонента сигнала входа 800 дополнительно вводится в устройство 802 для определения показателя для воспринимаемой громкости, который может быть реализована, как обсуждалось в контексте фиг.1, фиг.2а и 2с, 3, 9 и 10. Выходным сигналом устройства 802 является показатель R для воспринимаемого уровня реверберации в смешанном сигнале, который вводится в контроллер 803. Контроллер 803 получает, еще на входе, целевое значение для показателя воспринимаемого уровня реверберации и вычисляет из этого целевого значения и фактического значения R снова значение на выходе 804.

Это значение усиления вводится в манипулятор 805, который выполнен для обработки, в этом варианте осуществления, реверберационной компоненты 806 сигнала, выведенной ревербератором 801. Как показано на фиг.8, устройство 802 дополнительно принимает реверберационную компоненту 806 сигнала, обсуждавшуюся в контексте с фиг.1 и других фиг, описывающих устройство для определения показателя воспринимаемой громкости. Выходной сигнал манипулятора 805 вводится в сумматор 807, где выходной сигнал манипулятора содержит в варианте осуществления фиг.8 обработанную реверберационную компоненту, а выходной сигнал сумматора 807 указывает смешанный сигнал 808 с воспринимаемой реверберацией, как определено целевым значением. Контроллер 803 может быть выполнен для реализации любого из правил управления, определенных в уровне техники, для управления обратной связью, где целевым значением является заданное значение и значение R, генерируемое устройством, является фактическим значением и усиление 804 выбирается так, чтобы фактическое значение R приближалось к целевому значению, введенному в контроллер 803. Хотя фиг.8 иллюстрирует, что реверберационный сигнал обработан усилением в манипуляторе 805 который, в частности, содержит умножитель или блок весовой обработки, другие реализации могут быть выполнены также. Еще одна реализация, например, состоит в том, что нет реверберационного сигнала 806, но «сухая» компонента сигнала обработана манипулятором, как указано дополнительной линией 809. В этом случае, необработанная реверберационная компонента сигнала в качестве выходного сигнала ревербератора 801 будет введена в сумматор 807, как указано дополнительной линией 810. Естественно, что даже обработка «сухой» компоненты сигнала и реверберационной компоненты сигнала может быть выполнена для того, чтобы ввести или установить некоторую степень воспринимаемой громкости реверберации в смешанном сигнале 808, выведенном сумматором 807. Еще одна реализация, например, состоит в том, что время реверберации T60 обрабатывают.

Настоящее изобретение обеспечивает простое и надежное предсказание воспринимаемого уровня реверберации и, в частности, поздней реверберации в речи и музыке, с использованием моделей громкости различной сложности вычислений. Модули предсказания были обучены и оценены с использованием субъективных данных, полученных из трех тестов прослушивания. В качестве отправной точки, использование модели частичной громкости привело к модели предсказания с высокой точностью, когда известен T60 из ИХР 606 по фиг.6. Этот результат также интересен с перцепционной точки зрения, когда считается, что модель частичной громкости не была первоначально разработана с возбуждением прямого и реверберационного звука, как обсуждено в контексте фиг.10. Последующие изменения вычисления входных характеристик для способа предсказания приводят к серии упрощенных моделей, которые были показаны для достижения сопоставимой производительности для имеющихся комплектов данных. Эти изменения включали использование моделей общей громкости и упрощенной функций рассеяния. Варианты осуществления настоящего изобретения также применимы для более разнообразных ИХР включая ранние отражения и большие предварительные задержки. Настоящее изобретение также пригодно для определения и управления вкладом воспринимаемой громкости других типов дополнения или реверберационных аудио эффектов.

Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют собой описание соответствующего способа, где блок или устройство соответствует этапу способа или характеристике этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего блока или элемента или признака соответствующего устройства.

В зависимости от некоторых требований реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может быть выполнена с использованием цифрового носителя информации, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющих электронным образом считываемые сигналы управления сохраненные на нем, которые взаимодействуют (или способны к взаимодействию) с программируемой компьютерной системой так, что выполняется соответствующий способ.

Некоторые варианты осуществления настоящего изобретения включают в себя невременные или материальные носители данных имеющие электронным образом считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой так, что выполняется один из способов, описанных здесь.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы в качестве компьютерного программного продукта с программным кодом, причем программный код функционирует для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, быть сохранен на машиночитаемом носителе.

Другие варианты осуществления включают в себя компьютерную программу для выполнения одного из способов, описанных здесь, хранящуюся на машиночитаемом носителе.

Другими словами, вариант осуществления способа согласно изобретению является, таким образом, компьютерной программой, имеющей программный код для выполнения одного из способов, описанных здесь, когда компьютерная программа выполняется на компьютере.

Еще одним вариантом осуществления способов изобретения является, таким образом, носитель данных (или цифровой носитель, или компьютерно-читаемый носитель), содержащий, записанную на нем, компьютерную программу для выполнения одного из способов, описанных здесь.

Еще одним вариантом осуществления способа изобретения является, таким образом, поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных здесь. Поток данных или последовательность сигналов могут, например, быть сконфигурированы для передачи через интерфейс передачи данных, например, через Интернет.

Еще один вариант осуществления включает в себя средства обработки, например, компьютер или программируемое логическое устройство, сконфигурированное или адаптированное для выполнения одного из способов, описанных здесь.

Другой вариант осуществления содержит компьютер, имеющий установленную на него компьютерную программу для выполнения одного из способов, описанных здесь.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных здесь. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных здесь. Вообще, способы предпочтительно выполнены любыми аппаратными средствами устройств.

Описанные выше варианты осуществления являются только иллюстративными для принципов настоящего изобретения. Понятно, что модификации и варианты механизмов и деталей, описанных здесь, будут очевидны для специалистов в данной области техники. Замысел, таким образом, должен быть ограничен только объемом последующей формулы изобретения, а не конкретными деталями, представленными посредством описания и объяснения вариантов осуществления в данном документе.

СПИСОК ЛИТЕРАТУРЫ:

1. Устройство для определения показателя воспринимаемого уровня реверберации в смешанном сигнале, состоящем из прямой компоненты (100) сигнала и реверберационной компоненты (102) сигнала, содержащее:
процессор (104) модели громкости, содержащий каскад перцепционного фильтра для фильтрации «сухой» компоненты (100) сигнала, реверберационной компоненты (102) сигнала или смешанного сигнала, причем каскад перцепционного фильтра выполнен с возможностью моделирования механизма слухового восприятия объекта для получения фильтрованного прямого сигнала, фильтрованного реверберационного сигнала или фильтрованного смешанного сигнала;
блок оценки громкости для оценки первого показателя громкости с использованием фильтрованного прямого сигнала и для оценки второго показателя громкости с использованием фильтрованного реверберационного сигнала или фильтрованного смешанного сигнала, где фильтрованный смешанный сигнал получен из суперпозиции прямой компоненты сигнала и реверберационной компоненты сигнала; и
блок (110) объединения для объединения первого и второго показателей (106, 108) громкости, чтобы получить показатель (112) для воспринимаемого уровня реверберации.

2. Устройство по п.1, в котором блок (104b) оценки громкости выполнен с возможностью оценки первого показателя громкости так, что фильтрованный прямой сигнал считается возбуждающим сигналом, а фильтрованный реверберационный сигнал считается шумом, или оценки второго показателя (108) громкости так, что фильтрованный реверберационный сигнал считается возбуждающим сигналом, а фильтрованный прямой сигнал считается шумом.

3. Устройство по п.1, в котором блок (104b) оценки громкости выполнен с возможностью вычисления первого показателя громкости в качестве громкости фильтрованного прямого сигнала или для вычисления второго показателя громкости в качестве громкости фильтрованного реверберационного сигнала или смешанного сигнала.

4. Устройство по п.1, в котором блок (110) объединения выполнен с возможностью вычисления разности с использованием первого показателя (106) громкости и второго показателя (108) громкости.

5. Устройство по п.1, дополнительно содержащее:
блок (114) предсказания для предсказания воспринимаемого уровня реверберации на основе среднего значения (904), по меньшей мере, двух показателей для воспринимаемой громкости для разных кадров (k) сигнала.

6. Устройство по п.5, в котором блок (114) предсказания выполнен с возможностью использования в предсказании (900) свободного члена (901, 903), линейного члена в зависимости от среднего значения (904) и коэффициента масштабирования (902).

7. Устройство по п.5, в котором свободный член (903) зависит от параметра реверберации, описывающего фильтр (606) реверберации, использованный для генерации реверберационного сигнала в искусственном ревербераторе.

8. Устройство по п.1, в котором каскад фильтра содержит каскад (300) частотно-временного преобразования,
причем блок (104b) оценки громкости выполнен с возможностью суммирования (104с, 104d) результатов, полученных для множества полос частот, для получения первого и второго показателей (106, 108) громкости для широкополосного смешанного сигнала, содержащего прямую компоненту сигнала и реверберационную компоненту сигнала.

9. Устройство по п.1, в котором каскад (104а) фильтра содержит:
фильтр (302) передачи уха, вычислитель (304) модели возбуждения, и временной интегратор (306) для получения фильтрованного прямого сигнала или фильтрованного реверберационного сигнала или фильтрованного смешанного сигнала.

10. Способ определения показателя для воспринимаемого уровня реверберации в смешанном сигнале, состоящем из прямой компоненты (100) сигнала и реверберационной компоненты (102) сигнала, содержащий:
фильтрацию (104) «сухой» компоненты (100) сигнала, реверберационной компоненты (102) сигнала или смешанного сигнала, причем фильтрацию выполняют с использованием каскада перцепционного фильтра, сконфигурированного для моделирования механизма слухового восприятия объекта для получения фильтрованного прямого сигнала, фильтрованного реверберационного сигнала или фильтрованного смешанного сигнала;
оценку первого показателя громкости с использованием фильтрованного прямого сигнала;
оценку второго показателя громкости с использованием фильтрованного реверберационного сигнала или фильтрованного смешанного сигнала, где фильтрованный смешанный сигнал получают из суперпозиции прямой компоненты сигнала и реверберационной компоненты сигнала; и
объединение (110) первого и второго показателей (106, 108) громкости, чтобы получить показатель (112) для воспринимаемого уровня реверберации.

11. Аудио процессор для генерации реверберированного сигнала (808) из прямой компоненты (800) сигнала, содержащий:
ревербератор (801) для реверберации прямой компоненты (800) сигнала, чтобы получить реверберированную компоненту (806) сигнала;
устройство для определения показателя воспринимаемого уровня реверберации в реверберированном сигнале, содержащем прямую компоненту сигнала и реверберированную компоненту сигнала, в соответствии с одним из пп.1-9;
контроллер (803) для приема воспринимаемого уровня (R), сгенерированного устройством (802) для определения показателя воспринимаемого уровня реверберации, и для генерации управляющего сигнала (804) в соответствии с воспринимаемым уровнем и целевым значением;
манипулятор (805) для обработки «сухой» компоненты (800) сигнала или реверберационной компоненты (806) сигнала в соответствии с управляющим значением (804); и
блок (807) объединения для объединения обработанной «сухой» компоненты сигнала и обработанной реверберационной компоненты сигнала, или для объединения «сухой» компоненты сигнала и обработанной реверберационной компоненты сигнала, или для объединения обработанной «сухой» компоненты сигнала и реверберационной компоненты сигнала, чтобы получить смешанный сигнал (808).

12. Аудио процессор по п.11, в котором манипулятор (805) содержит блок весовой обработки для взвешивания реверберационной компоненты сигнала значением усиления, причем значение усиления определяется посредством управляющего сигнала, или
в котором ревербератор (801) содержит переменный фильтр, причем фильтр способен изменяться в ответ на управляющий сигнал (804).

13. Аудио процессор по п.12, в котором ревербератор (801) имеет фиксированный фильтр,
в котором манипулятор (805) имеет блок весовой обработки, генерирующий обработанную реверберационную компоненту сигнала, и
в котором сумматор (807) сконфигурирован для суммирования прямой компоненты сигнала и обработанной реверберационной компоненты сигнала, чтобы получить смешанный сигнал (808).

14. Способ обработки аудиосигнала для генерации реверберированного сигнала (808) из прямой компоненты (800) сигнала, содержащий:
реверберацию (801) прямой компоненты (800) сигнала, чтобы получить реверберированную компоненту (806) сигнала;
способ определения показателя воспринимаемого уровня реверберации в реверберированном сигнале, содержащем прямую компоненту сигнала и реверберированную компоненту сигнала в соответствии с п.10;
получение воспринимаемого уровня (R), сгенерированного способом (802) для определения показателя воспринимаемого уровня реверберации,
генерацию (803) управляющего сигнала (804) в соответствии с воспринимаемым уровнем и целевым значением;
обработку (805) «сухой» компоненты (800) сигнала или реверберационной компоненты (806) сигнала в соответствии с управляющим значением (804); и
объединение (807) обработанной «сухой» компоненты сигнала и обработанной реверберационной компоненты сигнала, или объединение «сухой» компоненты сигнала и обработанной реверберационной компоненты сигнала, или объединение обработанной «сухой» компоненты сигнала и реверберационной компоненты сигнала, чтобы получить смешанный сигнал (808).

15. Машиночитаемый носитель, содержащий записанную на нем компьютерную программу, имеющую программный код для выполнения, при исполнении на компьютере, способа по п.10.

16. Машиночитаемый носитель, содержащий записанную на нем компьютерную программу, имеющую программный код для выполнения, при исполнении на компьютере, способа по п.14.



 

Похожие патенты:

Изобретение относится к аудиосигналам и к устройствам или способам для их получения, передачи, преобразования и воспроизведения. Технический результат заключается в улучшении стереофонического воспроизведения монофонически отображаемого источника звука.

Изобретение относится к способам и системам применения реверберации к многоканальному сведенному звуковому сигналу, указывающему на большее количество отдельных звуковых каналов.

Изобретение относится к области акустических средств и может быть применено при воспроизведении музыки и речи с созданием эффекта объемного звучания, активно воздействующего на психофизическое состояние человека.

Устройство для обеспечения набора пространственных указателей, связанных с аудиосигналом повышающего микширования, имеющим более двух каналов, на основе двухканального сигнала микрофона, содержит анализатор сигнала и генератор дополнительной пространственной информации.

Изобретение относится к устройствам и способам извлечения сигнала окружающей среды и получения весовых коэффициентов для извлечения сигнала окружающей среды. .

Изобретение относится к кодированию многоканального звукового сигнала, в частности к сведению фонограмм стереофонического речевого сигнала к монофоническому сигналу для кодирования с помощью монофонического кодера, такого как кодер линейного предсказания.

Изобретение относится к устройству и способу обработки звукового сигнала, а именно, предназначено для обработки звукового сигнала, принятого с цифрового носителя, и широкополосного сигнала.

Изобретение относится к способам кодирования/декодирования аудио, в частности к кодированию/декодированию аудио, включающего бинауральный виртуальный пространственный сигнал.

Изобретение относится к устройству и способу генерации декоррелированных сигналов и, более конкретно, к возможности получения декоррелированных сигналов из сигнала, содержащего переходные процессы.

Изобретение относится к кодированию многоканального аудиосигнала и, в частности, к концепции объединения параметрически кодированных аудиопотоков гибким и эффективным образом.

Изобретение относится к средствам обработки звука. Технический результат заключается в улучшении пространственного восприятия звукового сигнала. Система обработки звука принимает стереосигнал, который с помощью блока сегментации делится на частотно-временные сегменты стереосигнала, каждый из которых может соответствовать выборке частотной области в данном временном сегменте. Блок разложения разлагает частотно-временные сегменты сигнала, для каждой пары частотно-временных сегментов стереосигнала, путем осуществления этапов: определения меры подобия, указывающей степень подобия частотно-временных сегментов стереосигнала; генерации частотно-временного сегмента суммарного сигнала, как суммы частотно-временных сегментов стереосигнала; и генерации центрального частотно-временного сегмента сигнала из частотно-временного сегмента суммарного сигнала и пары боковых частотно-временных сегментов стереосигнала из пары частотно-временных сегментов стереосигнала в соответствии с мерой подобия. Затем генератор сигнала генерирует многоканальный сигнал, содержащий центральный сигнал, генерируемый из частотно-временных сегментов суммарного сигнала, и боковые сигналы, генерируемые из боковых частотно-временных сегментов стереосигнала. 2 н. и 12 з.п. ф-лы, 5 ил.

Изобретение относится к аудиосигналам и устройствам или способам для их формирования, передачи, преобразования и воспроизведения. Технический результат заключается в обеспечении уравновешивания или более сильного дифференцирования стереофонических (включая псевдостереофонические) сигналов. Технический результат достигается за счет формирования в MS-матрице суммарного сигнала путем суммирования первого входного сигнала, усиленного на коэффициент усиления, и второго входного сигнала, усиленного на коэффициент усиления, и формирования разностного сигнала из первого входного сигнала, усиленного на коэффициент усиления, минус второй входной сигнал, усиленный на коэффициент усиления. 2 н. и 24 з.п. ф-лы, 12 ил.

Изобретение относится к области генерации стереосигнала. Технический результат - обеспечение более гладкого звучания выходных каналов посредством манипулирования комбинационным сигналом. Устройство для генерирования выходного стереосигнала включает: генератор информации о манипуляции, выполненный с возможностью генерировать информацию о манипуляции в зависимости от первого значения отсчета сигнала первого входного канала и от второго значения отсчета сигнала второго входного канала; манипулятор для манипулирования комбинационным сигналом на основе информации о манипуляции для того, чтобы получать первый манипулированный сигнал в качестве первого выходного канала и второй манипулированный сигнал в качестве второго выходного канала; причем комбинационный сигнал представляет собой сигнал, полученный путем комбинирования первого входного канала и второго входного канала; причем манипулятор выполнен с возможностью манипулировать комбинационным сигналом в зависимости от отношения первого значения отсчета сигнала ко второму значению отсчета сигнала. 6 н. и 12 з.п. ф-лы, 10 ил.

Изобретение относится к воспроизведению многоканального аудио и используется, в частности, в системе воспроизведения домашнего кинотеатра/объемного звучания с использованием беспроводных блоков динамиков. Технический результат – увеличение гибкости и облегчение эксплуатации путем сокращения потребности в проводных соединениях. Система воспроизведения многоканального аудио содержит модуль воспроизведения аудио, который генерирует аудиосигналы для множества аудиоканалов. Множество взаимозаменяемых блоков динамиков содержит аккумулятор и аудиопреобразователь для воспроизведения аудиосигнала. Зарядный блок связан с конкретным аудиоканалом и содержит источник зарядки, который может заряжать аккумулятор присоединенного блока динамика. Связующая схема может связать блок динамика, когда он присоединен к зарядному блоку, с первым аудиоканалом. Система может непрерывно ассоциировать конкретные каналы с зарядными блоками (или пассивными основаниями динамиков, которые не могут осуществлять зарядку), а взаимозаменяемые блоки динамиков могут адаптироваться в зависимости от их присоединения. Данный подход может позволить осуществлять зарядку блока динамика (возможно, беспроводного) просто путем замены данного блока динамика на присоединенный к зарядному блоку. 2 н. и 13 з.п. ф-лы, 16 ил.

Изобретение относится к предоставлению аудиосигналов, которые выполняют рендеринг и выводят аудиосигналы, имеющие различные форматы, оптимальные для систем воспроизведения аудиосигнала. Технический результат – оптимизация звукового изображения для среды прослушивания за счет оптимизации канального аудиосигнала для этой среды прослушивания с помощью повышающего или понижающего микширования канального аудиосигнала и выполнения рендеринга объектного аудиосигнала в соответствии с геометрической информацией. Устройство предоставления аудио включает в себя блок рендеринга объекта, который выполняет рендеринг объектного аудиосигнала посредством использования геометрической информации, касающейся объектного аудиосигнала, блок рендеринга канала, который выполняет рендеринг аудиосигнала, имеющего первое количество каналов, в аудиосигнал, имеющий второе количество каналов, и блок смешивания, который смешивает рендерируемый объектный аудиосигнал с аудиосигналом, имеющим второе количество каналов. 2 н. и 12 з.п. ф-лы, 18 ил.

Изобретение относится к средствам посегментной настройки пространственного аудиосигнала к другой установке громкоговорителей для воспроизведения. Технический результат заключается в сохранении пространственного образа аудиосцены при перенастройке аудиосигнала к другой установке громкоговорителей. Предложено устройство для адаптации пространственного аудиосигнала, предназначенного для исходной установки громкоговорителя, к установке громкоговорителя для воспроизведения, которая отличается от исходной установки громкоговорителя. Устройство содержит блок декомпозиции на прямой звук и звук окружения, который выполнен с возможностью осуществления декомпозиции канальных сигналов в сегменте исходной установки громкоговорителя на компоненты прямого звука и окружения, и определения направления прихода для компонентов прямого звука. Блок представления прямого звука принимает информацию установки громкоговорителя для воспроизведения и настраивает компоненты прямого звука с использованием информации установки громкоговорителя для воспроизведения так, что воспринимаемое направление прихода для компонентов прямого звука в установке громкоговорителя для воспроизведения является идентичным направлению прихода для компонентов прямого звука. 3 н. и 13 з.п. ф-лы, 9 ил.

Изобретение относится к средствам для представления данных звуковых объектов. Технический результат заключается в улучшении локализации звуковых объектов. Принимают данные звуковоспроизведения, включающие один или несколько звуковых объектов. Звуковые объекты включают звуковые сигналы и связанные метаданные. Метаданные включают по меньшей мере данные положения звукового объекта и данные размера звукового объекта. Вычисляют для звукового объекта значений коэффициента усиления виртуального источника от виртуальных источников при соответствующих местоположениях виртуального источника в пределах области или объема звукового объекта, определенного данными положения звукового объекта и данными размера звукового объекта. Вычисляют набор значений коэффициентов усиления звукового объекта для каждого из множества выходных каналов на основании по меньшей мере частично вычисленных значений коэффициента усиления виртуального источника. Каждый выходной канал соответствует по меньшей мере одному воспроизводящему громкоговорителю. 3 н. и 43 з.п. ф-лы, 22 ил.

Изобретение относится к акустике, в частности к средствам для звукозаписи. Способ звукозаписи посредством трех микрофонов включает в себя запись звука по трем каналам; вычисление сигнала центрального канала, сигнала левого канала, сигнала правого канала, сигнала тылового левого канала и сигнала тылового правого канала в формате 5.1, вычисление сигнала низкочастотного канала в формате 5.1 и объединение сигналов для получения звукового сигнала формата 5.1. Первый микрофон расположен в направлении центрального звукового канала формата 5.1, второй микрофон расположен в направлении тылового левого звукового канала формата 5.1. А третий микрофон расположен в направлении тылового правого звукового канала формата 5.1. Сигнал первого микрофона используется как центральный канал; сигнал второго микрофона используется как тыловой левый канал, сигнал третьего микрофона используется как тыловой правый канал. Путем одновременного взвешенного усреднения амплитуд первого звукового сигнала и второго звукового сигнала получают четвертый звуковой сигнал, и используют четвертый звуковой сигнал в качестве сигнала левого канала. Путем одновременного взвешенного усреднения амплитуд первого звукового сигнала и третьего звукового сигнала получают пятый звуковой сигнал, и используют пятый звуковой сигнал в качестве сигнала правого канала. Технический результат - повышение качества звукового сигнала в записанном звуковом файле. 4 н. и 11 з.п. ф-лы, 11 ил.

Изобретение относится к обработке аудиоданных. Технический результат изобретения заключается в возможности разделения рассеянных и нерассеянных частей N входных звуковых сигналов. Повышающий микшер может быть выполнен с возможностью обнаружения случаев переходных состояний звукового сигнала. В случаях переходных состояний звукового сигнала повышающий микшер может быть выполнен с возможностью добавления сигнально-адаптивного управления к процессу расширения рассеянного сигнала, при котором выводятся M звуковых сигналов. Повышающий микшер может изменять процесс расширения рассеянного сигнала с течением времени таким образом, что в случаях переходных состояний звукового сигнала рассеянные части звуковых сигналов могут быть распределены главным образом только на выходные каналы, пространственно близкие к входным каналам. В случаях непереходных состояний звукового сигнала рассеянные части звуковых сигналов могут распределяться по существу равномерным образом. 3 н. и 39 з.п. ф-лы, 12 ил.
Наверх