Устройство и способ модификации входного аудиосигнала



Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала
Устройство и способ модификации входного аудиосигнала

 


Владельцы патента RU 2573246:

ФРАУНХОФЕР ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к средствам модификации входного аудиосигнала. Технический результат заключается в повышении эффективности модификации аудиосигнала при сохранении низкого уровня вычислительной сложности данной модификации. Устройство для модификации входного аудиосигнала содержит определитель возбуждения, запоминающее устройство и модификатор сигнала. Определитель возбуждения определяет значение параметра возбуждения субполосы из множества субполос входного аудиосигнала на основании энергосодержания субполосы. Кроме того, запоминающее устройство хранит таблицу поиска, которая содержит множество коэффициентов спектрального взвешивания. Коэффициент спектрального взвешивания из множества коэффициентов спектрального взвешивания связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Запоминающее устройство предоставляет коэффициент спектрального взвешивания, соответствующий определенному значению параметра возбуждения и соответствующий субполосе, для которой определено значение параметра возбуждения. 3 н. и 17 з.п. ф-лы, 7 ил.

 

Варианты осуществления, согласно настоящему изобретению, относятся к обработке аудиосигнала и, в частности, к устройству и способу модификации входного аудиосигнала.

Было предпринято много попыток, чтобы разработать удовлетворительный и объективный способ измерения громкости. В 1933 году Флетчер (Fletcher) и Мансон (Munson) установили, что человеческий слух менее чувствителен на низких и высоких частотах, чем на средних (или голосовых) частотах. Они также обнаружили, что относительное изменение чувствительности уменьшалось по мере того, как уровень звука увеличивался. Ранний измеритель громкости состоял из микрофона, усилителя, измерителя и комбинации фильтров, сконструированных так, чтобы грубо имитировать частотную характеристику слуха на низких, средних и высоких уровнях звука.

Хотя такие устройства и обеспечивали измерения громкости одиночного изолированного тона постоянного уровня, измерения более сложных звуков не очень хорошо соответствовали субъективным ощущениям громкости. Измерители уровня звука этого типа были стандартизированы, но использовались только для специфических задач, таких как мониторинг и контроль за промышленными шумами.

В начале 1950-х Цвикер (Zwicker) и Стивенс (Stevens), среди прочего, продолжили работу Флетчера и Мансона по разработке более реалистичной модели процесса восприятия громкости. Стивенс опубликовал способ "Вычисления громкости смешанного шума" ("Calculation of the Loudness of Complex Noise") в журнале Акустического общества Америки в 1956 году, а Цвикер опубликовал свою статью "Психологические и методические основы звука" ("Psychological and Methodical Basis of Loudness") в журнале "Акустика" в 1958 году. В 1959 году Цвикер опубликовал графическую процедуру расчета громкости, а также несколько подобных статей вскоре после этого. Способы Стивенса и Цвикера были стандартизированы в качестве ISO 532, части А и В (соответственно). Оба способа заключали в себе сходные этапы.

Прежде всего, изменяющееся во времени распределение энергии вдоль базилярной мембраны внутреннего уха, которое называется возбуждением, имитируется прохождением звукового сигнала через блок полосовых слуховых фильтров с центральными частотами, равномерно разнесенными по ступенчатой шкале критических полос. Каждый слуховой фильтр предназначен для имитации частотной характеристики в конкретном местоположении вдоль базилярной мембраны внутреннего уха, с центральной частотой фильтра, соответствующей этому местоположению. Ширина критической полосы определена как ширина полосы пропускания одного такого фильтра. Измеряемая в единицах Герц, ширина критической полосы этих слуховых фильтров увеличивается с увеличением центральной частоты. Поэтому полезно определять шкалу с неравномерным частотным разрешением из условия, чтобы ширина критической полосы для всех слуховых фильтров, измеренная по этой криволинейной шкале, была постоянной. Такая шкала с неравномерным частотным разрешением называется ступенчатой шкалой критических полос и очень полезна для понимания и имитации широкого диапазона физиологических явлений. Например, см. "Psychoacoustics - Facts and Models by E. Zwicker and H. Fastl, Springer-Verlag, Berlin, 1990". Способы Стивенса и Цвикера используют ступенчатую шкалу критических полос, которая называется шкалой Барка, и при этом ширина критической полосы является постоянной ниже 500 Гц и увеличивается выше 500 Гц. Позднее, Мур (Moore) и Гласберг (Glasberg) определили ступенчатую шкалу критических полос, которую они назвали шкалой эквивалентной прямоугольной полосы пропускания (ERB) (B. C. J. Moore, B. Glasberg, T. Baer "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness", Journal of the Audio Engineering Society, Vol. 45, No. 4, April 1997, pp. 224-240 (Б. С. Дж. Мур, Б. Гласберг и Т. Баер, "Модель предсказания пороговых значений, громкости и громкости частичных тонов", Журнал общества звукотехники, том 45, № 4, апрель, 1997, с. 224-240)). Благодаря психоакустическим экспериментам с использованием маскеров шума с узкополосным провалом в спектре, Мур и Гласберг продемонстрировали, что ширина критической полосы продолжает уменьшаться ниже 500 Гц, в противоположность шкале Барка, где ширина критической полосы остается постоянной.

Термин "критическая полоса" относится к работе Харви Флетчера (Harvey Fletcher), опубликованной в 1938 году, по маскированию звукоощущения сигналами звукового сопровождения ("J. B. Allen, "A short history of telephone psychophysics", Audio Eng. Soc. Convention, 1997" (Дж. Б. Аллен, "Краткая история телефонной психофизики", Конференция общества звукотехники, 1997)). Критические полосы можно изобразить, используя шкалу Барка, предложенную Цвикером в 1961 году, то есть каждая критическая полоса имеет ширину одного Барка (единица, названная в честь Генриха Баркгаузена (Heinrich Barkhausen). Помимо блоков фильтров, имитирующих слуховое восприятие человека, существует, например, шкала эквивалентной прямоугольной полосы пропускания (ERB) ("B. C. J. Moore, B. R. Glasberg and T. Baer "A model for the prediction of thresholds, loudness, and partial loudness", J. Audio Eng. Soc, 1997").

Термин "специфическая громкость" описывает ощущение громкости, вызванное сигналом в определенной области базилярной мембраны в определенной полосе частот, измеренной в критических полосах. Она измеряется в единицах сон/барк (Sone/Bark). Термин "критическая полоса" относится к частотным полосам блока слуховых фильтров, который содержит блоки неравномерных полосовых фильтров, выполненных для имитации частотного разрешения человеческого слуха. Общая громкость звука равна сумме/интегралу специфической громкости во всех критических полосах.

Способ обработки аудиосигнала был описан в патенте US 2009/0097676, A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal", 2009. Этот способ нацелен на управление специфической громкостью аудиосигнала, с приложениями для управления громкостью, управления динамическим диапазоном, динамической коррекцией амплитудно-частотной характеристики и компенсации фонового шума. В этом документе входной аудиосигнал (обычно в частотной области) модифицируется таким образом, чтобы его специфическая громкость соответствовала целевой специфической громкости.

Для иллюстрации преимущества обработки, представленной в патенте US 2009/0097676, A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal", следует рассмотреть управление громкостью аудиосигнала. Изменение уровня аудиосигнала при воспроизведении звука обычно нацелено на изменение его воспринимаемой громкости. Иначе говоря, управление громкостью традиционно осуществляется как управление уровнем звука. Однако наш повседневный опыт и знание психоакустики показывает, что это не оптимально.

Чувствительность человеческого слуха изменяется как в зависимости от частоты, так и от уровня, поэтому уменьшение уровня интенсивности звука ослабляет ощущение низких и высоких частот (например, приблизительно 100 Гц и 10000 Гц соответственно) больше, чем ощущение средних частот (например, в пределах 2000 и 4000 Гц). При уменьшении уровня воспроизведения от уровня "комфортного звучания" (например, 75-80 дБА) до низкого уровня, например на 18 дБ, воспринимаемое спектральное выравнивание аудиосигнала изменяется. Это иллюстрируется хорошо известными кривыми равной громкости, которые часто называются кривыми Флетчера-Мансона (в честь исследователей, которые первыми в 1933 году измерили кривые равной громкости). Кривые равной громкости показывают уровень давления звука (SPL) во всем частотном спектре, для которого слушатель воспринимает постоянную громкость в случае, когда ему воспроизводят чистые тона постоянного уровня.

Например, кривые равной громкости описаны в работе B. C. J. Moore, B. R. Glasberg and T. Baer, "A model for the prediction of thresholds, loudness, and partial loudness", J. Audio Eng. Soc., 1997, на стр.232, фиг.13. Откорректированное измерение было стандартизировано в качестве ISO 226:2003 в 2003 году.

Следовательно, традиционное управление громкостью не только изменяет громкость, но также и тембр. Влияние этого эффекта зависит от SPL (это менее ощутимо при изменении SPL, например, от 86 дБА до 68 дБА по сравнению с изменением от 76 дБА до 58 дБА), но нежелательно во всех классах.

Это компенсируется обработкой, которая описана в патенте US 2009/0097676, A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal", 2009.

На фиг.7 показана блок-схема алгоритма способа 700, описанного в патенте US 2009/0097676, A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal", 2009.

Выходной сигнал обрабатывается путем вычисления 710 сигнала возбуждения, вычисления 720 специфической громкости, вычисления 730 целевой специфической громкости, вычисления 740 целевого сигнала возбуждения, вычисления 750 спектральных весов и применения 760 спектральных весов к входному сигналу и повторного синтезирования выходного сигнала.

Спектральные веса Н представляют собой взвешивания частотных полос, которые зависят от специфической громкости входного сигнала и от целевой специфической громкости. Их вычисления, как описано в патенте US 2009/0097676, A. J. Seefeldt, "Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal", содержат вычисление специфической громкости и обратный процесс вычисления специфической громкости, который применяется к целевой специфической громкости.

Оба этапа обработки несут в себе высокую вычислительную нагрузку. Способы вычисления специфической нагрузки были представлены в "E. Zwicker, H. Fastl, U. Widmann, K. Kurakata, S. Kuwano and S. Namba, "Program for calculating loudness according to DIN 45631 (ISO 532 B)", J. Acoust. Soc. Jpn. (E), vol. 12, 1991" and "B. C. J. Moore, B. R. Glasberg and T. Baer "A model for the prediction of thresholds, loudness, and partial loudness", J. Audio Eng. Soc, 1997" (Е. Цвикер, Х. Фастл, Ю. Уидмэн, К. Кураката, С. Кувано и С. Намба, "Программа вычисления громкости по стандарту DIN 45631 (ISO 532 B)", Журнал общества звукотехники Японии (E), т.12, 1991, и Б. С. Дж. Мур, Б. Р. Гласберг и Т. Баер, "Модель предсказания пороговых значений, громкости и громкости частичных тонов", Журнал общества звукотехники, 1997).

Задача настоящего изобретения заключается в том, чтобы предоставить усовершенствованную концепцию модификации аудиосигналов для обеспечения возможности эффективной реализации с низкой вычислительной сложностью.

Эта задача решается с помощью устройства по п.1 формулы изобретения или способа по п.20 формулы изобретения.

Вариант осуществления настоящего изобретения предоставляет устройство для модификации входного аудиосигнала, содержащее определитель возбуждения, запоминающее устройство и модификатор сигнала. Определитель возбуждения сконфигурирован для определения значения параметра возбуждения субполосы из множества субполос входного аудиосигнала на основании энергосодержания сигнала субполосы. Запоминающее устройство сконфигурировано для хранения таблицы поиска, содержащей множество коэффициентов спектрального взвешивания, причем коэффициент спектрального взвешивания из множества коэффициентов спектрального взвешивания связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Кроме того, запоминающее устройство сконфигурировано для предоставления коэффициента спектрального взвешивания, соответствующего определенному значению параметра возбуждения и соответствующего субполосе, для которой определено значение параметра возбуждения. Модификатор сигнала сконфигурирован для модификации содержимого субполосы входного аудиосигнала, для которой определен параметр возбуждения, на основании предоставленного коэффициента спектрального взвешивания для предоставления модифицированной субполосы.

Варианты осуществления, согласно настоящему изобретению, основаны на главной идее, состоящей в том, что субполосы аудиосигнала можно легко модифицировать с использованием таблицы поиска, содержащей коэффициенты спектрального взвешивания, которые можно выбрать в зависимости от соответствующей субполосы и параметра возбуждения субполосы. Для этого таблица поиска содержит коэффициенты спектрального взвешивания для множества предварительно определенных значений параметра возбуждения, по меньшей мере, для одной предварительно определенной субполосы из множества субполос. Используя таблицу поиска, можно значительно уменьшить вычислительную сложность, поскольку вычисление в явном виде коэффициентов спектрального взвешивания (которое включает в себя вычисление громкости, его модификации и обратный процесс вычисления громкости) является необязательным. Поэтому эффективная реализация является возможной.

В некоторых вариантах осуществления, согласно настоящему изобретению, определитель возбуждения определяет значение параметра возбуждения не для всех субполос из множества субполос. Кроме того, таблица поиска содержит только коэффициенты спектрального взвешивания, связанные с субполосами, для которых определено значение параметра возбуждения. Таким образом, можно уменьшить требуемую область памяти таблицы поиска и затраты на вычисления для определителя возбуждения.

Некоторые варианты осуществления, согласно настоящему изобретению, относятся к таблице поиска, содержащей точно три измерения, которые связаны с предварительно определенными значениями параметра возбуждения, с субполосами из множества субполос и с предварительно определенными значениями внешнего параметра модификации.

Некоторые другие варианты осуществления, согласно настоящему изобретению, относятся к таблице поиска, содержащей точно четыре измерения, которые связаны с предварительно определенными значениями параметра возбуждения, с субполосами из множества субполос, с предварительно определенными значениями внешнего параметра модификации и с предварительно определенными значениями параметра фонового шума.

Ниже приведено подробное описание вариантов осуществления, согласно настоящему изобретению, со ссылкой на прилагаемые чертежи, на которых:

фиг.1 - блок-схема устройства для модификации входного аудиосигнала;

фиг.2 - схематичная иллюстрация кривых равной громкости;

фиг.3 - схематичная иллюстрация кривых равной громкости, нормализованных с помощью пропускающих фильтров;

фиг.4 - блок-схема устройства для модификации входного аудиосигнала;

фиг.5 - блок-схема алгоритма способа модификации входного аудиосигнала;

фиг.6 - блок-схема алгоритма способа модификации входного аудиосигнала; и

фиг.7 - блок-схема алгоритма известного способа модификации входного аудиосигнала.

В приведенном ниже описании подобные ссылочные позиции частично используются для объектов и функциональных блоков, имеющих подобные или похожие функциональные свойства, и их описание по отношению к фигуре будет применяться также к другим фигурам для того, чтобы уменьшить избыточность при описании вариантов осуществления.

На фиг.1 показана блок-схема устройства 100 для модификации входного аудиосигнала 102 субполосы, согласно варианту осуществления настоящего изобретения. Устройство 100 содержит определитель 110 возбуждения, запоминающее устройство 120 и модификатор 130 сигнала. Определитель 110 возбуждения подсоединен к запоминающему устройству 120, и запоминающее устройство 120 подсоединено к модификатору 130 сигнала. Определитель 110 возбуждения определяет значение 112 параметра возбуждения субполосы 102 из множества субполос входного аудиосигнала 102, основываясь на энергосодержании субполосы 102. Запоминающее устройство 120 сохраняет таблицу поиска, содержащую множество коэффициентов спектрального взвешивания, причем коэффициент 124 спектрального взвешивания из множества коэффициентов спектрального взвешивания связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Кроме того, запоминающее устройство 120 предоставляет коэффициент 124 спектрального взвешивания, соответствующий определенному значению 112 параметра возбуждения и соответствующий субполосе 102, для которой определено значение 112 параметра возбуждения. Модификатор 130 сигнала модифицирует содержимое субполосы 102 входного аудиосигнала, для которой определено значение 112 параметра возбуждения, основываясь на предоставленном коэффициенте 124 спектрального взвешивания для получения и обеспечения модифицированной субполосы 132.

Используя таблицу поиска, которая предоставляет коэффициенты 124 спектрального взвешивания для модификации входного аудиосигнала, можно значительно уменьшить вычислительную сложность по сравнению с известными концепциями.

Определитель 110 возбуждения определяет значение 112 параметра возбуждения, основываясь на энергосодержании субполосы 102. Это можно выполнить, например, путем измерения энергосодержания субполосы 102 для того, чтобы определить значение 112 параметра возбуждения для субполосы 102. Таким образом, параметр возбуждения может представлять собой единицу измерения для мощности для каждой субполосы или энергию за короткий период времени в специфической субполосе, поскольку энергосодержание может изменяться от времени и/или между различными субполосами. Альтернативно значение параметра возбуждения можно определить, основываясь на (уникальной, инъективной, биективной) функции энергии за короткий период времени субполосы (например, экспоненциальной функции, логарифмической функции или линейной функции). Например, можно использовать функцию квантования. В этом примере определитель 110 возбуждения позволяет измерять энергосодержание субполосы и позволяет квантовать измеренное энергосодержание субполосы для получения значения параметра возбуждения таким образом, чтобы значение параметра возбуждения было равно предварительно определенному значению параметра возбуждения. Другими словами, измеренное значение энергии можно присвоить предварительно определенному значению параметра возбуждения (например, наиболее близкое предварительно определенное значение параметра возбуждения). Альтернативно, значение параметра возбуждения указывает непосредственно измеренное энергосодержание, и запоминающее устройство 120 может присвоить определенное значение параметра возбуждения предварительно определенному значению параметра возбуждения.

Субполосы входного аудиосигнала могут представлять собой различные частотные полосы входного аудиосигнала. С учетом перцептуального распределения частотных полос, субполосы можно распределить, например, согласно шкале ERB, или шкале Барка или другому частотному интервалу, который имитирует частотное разрешение человеческого уха. Другими словами, субполосы из множества субполос входного аудиосигнала можно подвергнуть разделению по шкале ERB или шкале Барка.

Запоминающее устройство 120 содержит вход для параметра возбуждения (сигнала возбуждения) и для индекса субполосы, указывающего субполосу 102, для которой определено значение 112 параметра возбуждения. Альтернативно, запоминающее устройство содержит один или более дополнительных входов для дополнительных параметров.

Запоминающее устройство 120 может представлять собой цифровой запоминающий носитель, такой как постоянное запоминающее устройство (ROM), жесткий диск, CD, DVD, или энергонезависимую память любого другого типа, или оперативное запоминающее устройство (RAM).

Таблица поиска представляет собой, по меньшей мере, двухмерную матрицу, содержащую множество коэффициентов спектрального взвешивания. Коэффициент 124 спектрального взвешивания, который содержится в таблице поиска, однозначно связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Другими словами, каждый коэффициент спектрального взвешивания, который содержится в таблицах поиска, может быть связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Запоминающее устройство 120 может предоставлять коэффициент 124 спектрального взвешивания, связанный с предварительно определенным значением параметра возбуждения, наиболее близкого к определенному значению 112 параметра возбуждения. Альтернативно, например, запоминающее устройство 120 может линейно или логарифмически интерполировать два коэффициента спектрального взвешивания, которые связаны с двумя предварительно определенными значениями параметра возбуждения, наиболее близкого к определенному значению 112 параметра возбуждения.

Предварительно определенные значения параметра возбуждения могут быть линейно или логарифмически распределены.

Например, модификатор 130 сигнала может усиливать или ослаблять содержимое субполосы 102, для которой определено значение 112 параметра возбуждения, с помощью предоставленного коэффициента 124 спектрального взвешивания.

Используя описанную концепцию, например, можно легко компенсировать изменение ослабления ощущения человеческого слуха на низких, средних и высоких частотах, вызванное увеличением или уменьшением уровня интенсивности звука аудиосигнала. Например, при уменьшении уровня воспроизведения от одного уровня до другого уровня воспринимаемый спектральный баланс аудиосигнала изменяется. Это изображено на фиг.2 и фиг.3, на которых представлены кривые равной громкости. Особенно в низкочастотной области линии различной равной громкости не параллельны друг другу. Усиление или ослабление в низкочастотных полосах, которые отличаются от средних и/или высокочастотных полос, могут быть равны на изгибах кривых равной громкости, поэтому они могут быть параллельными или параллельными для большего количества линий, чем раньше. Таким образом, изменение воспринимаемого спектрального баланса можно компенсировать или почти компенсировать с использованием описанной концепции.

Различие между кривыми равной громкости, показанными на фиг.2, и кривыми равной громкости, показанными на фиг.3, представляют собой нормализацию, выполняемую с помощью пропускающего фильтра. Этот пропускающий фильтр позволяет моделировать эффект фильтрации пропускания аудио через внешнее и внутреннее ухо. По мере необходимости такой пропускающий фильтр можно реализовать в виде устройства, показанного на фиг.1, для фильтрации входного аудиосигнала перед получением его в определителе 110 возбуждения.

Для более длительной модификации входного аудиосигнала определитель 110 возбуждения может определить значение 112 параметра возбуждения более чем для одной субполосы из множества субполос. Затем, запоминающее устройство 120 может предоставить коэффициент 124 спектрального взвешивания для каждой субполосы 102, для которой определено значение 112 параметра возбуждения, и модификатор 130 сигнала может модифицировать содержимое каждой субполосы 102, для которой определено значение 112 параметра возбуждения, основываясь на соответствующем предоставленном коэффициенте 124 спектрального взвешивания.

Множество субполос входного аудиосигнала можно выполнить с помощью блока памяти или можно выработать с помощью блока фильтров анализа.

Параметр возбуждения можно определить для одной субполосы, для более чем одной субполосы или для всех субполос из множества субполос. С этой целью устройство 100 может содержать только один определитель 110 возбуждения, определяющий одно, более чем одно или все значения параметров возбуждения, или может содержать определитель 110 возбуждения для каждой субполосы 102, для которой определено значение 112 параметра возбуждения. Кроме того, устройство 100 может содержать один или более модификаторов 130 сигналов для одной или более субполос, для которых определяется параметр возбуждения. Однако достаточно использовать одну таблицу просмотра (и запоминающее устройство) для всех субполос 102, для которых определено значение 112 параметра возбуждения.

Определитель 110 возбуждения, запоминающее устройство 120 и модификатор сигнала могут быть независимыми аппаратными блоками, частью компьютера, микроконтроллером или процессором цифровых сигналов, а также компьютерной программой или продуктом программного обеспечения, сконфигурированным для исполнения на компьютере, микроконтроллере и процессоре цифровых сигналов.

На фиг.4 показана блок-схема устройства 400 для модификации входного аудиосигнала, согласно варианту осуществления настоящего изобретения. Устройство 400 подобно устройству, показанному на фиг.1, но дополнительно содержит блок 410 фильтров анализа и блок 420 фильтров синтеза. Блок 410 фильтров анализа разделяет входной аудиосигнал на множество субполос. Затем определитель 110 возбуждения определяет значение параметра возбуждения (вычисляет характерное значение) для одной или более субполос из множества субполос. После этого запоминающее устройство 120 предоставляет соответствующие один или более коэффициентов спектрального взвешивания в один или более модификаторов 130 сигналов. И, наконец, блок 420 фильтров синтеза объединяет множество субполос, содержащих, по меньшей мере, одну модифицированную субполосу, для получения и предоставления модифицированного аудиосигнала (или выходного аудиосигнала).

Пример, показанный на фиг.4, может представлять собой применение предложенного способа для обобщенного случая. Обработку, которая показана для n-го сигнала субполосы (n-й субполосы), можно применить для всех других сигналов субполосы (или только для всех субполос, для которых определено значение параметра возбуждения) тем же самым способом.

При необходимости коэффициент спектрального взвешивания, который содержится в таблице поиска, дополнительно связан с предварительно определенным значением внешнего параметра модификации, который указан пунктирной линией на фиг.4 (но который также применим к устройству, показанному на фиг.1). Внешний параметр модификации (или просто параметр модификации) может представлять собой, например, входное значение пользовательского интерфейса (например, установки громкости и/или акустического окружения). Поэтому, в этом случае, запоминающее устройство 120 может предоставить коэффициент спектрального взвешивания, соответствующий значению внешнего параметра модификации. Например, если пользователь увеличивает или уменьшает установку громкости, значение внешнего параметра модификации изменяется, и запоминающее устройство 120 может предоставить соответствующий другой коэффициент спектрального взвешивания. В итоге, запоминающее устройство 120 позволяет предоставить коэффициент спектрального взвешивания, соответствующий определенному значению параметра возбуждения субполосы, соответствующий субполосе, для которой определено значение параметра возбуждения, и соответствующий значению внешнего параметра модификации.

В этом примере таблица поиска может содержать точно три измерения, связанные с предварительно определенными значениями параметра возбуждения, связанные с субполосами множества субполос и связанные с предварительно определенными значениями внешнего параметра модификации. Это означает, что каждый коэффициент спектрального взвешивания, который содержится в таблице поиска, связан со специфическим предварительно определенным значением параметра возбуждения, с субполосой из множества субполос и со специфическим предварительно определенным значением внешнего параметра модификации. Другими словами, таблица поиска содержит для каждой комбинации заданного значения параметра возбуждения субполосу и предварительно определенное значение одного коэффициента спектрального взвешивания внешнего параметра модификации. Предварительно определенные значения внешнего параметра модификации можно распределить, например, линейным или логарифмическим образом на весь возможный диапазон внешнего параметра модификации.

Кроме того, в некоторых вариантах осуществления коэффициент спектрального взвешивания, который содержится в таблице поиска, также связан с предварительно определенным значением параметра фонового шума. Параметр фонового шума может представлять собой уровень фонового шума входного аудиосигнала. Таким образом, например, можно реализовать компенсацию эффекта частичного маскирования аудиосигнала при наличии фонового шума. В этом случае запоминающее устройство может предоставить коэффициент спектрального взвешивания, соответствующий значению параметра фонового шума. Это можно выполнить, дополнительно или альтернативно, по отношению к вышеупомянутому рассмотрению внешнего параметра модификации. Если рассматривать оба случая, запоминающее устройство может предоставить коэффициент спектрального взвешивания, соответствующий определенному значению параметра возбуждения субполосы, соответствующий субполосе, для которой определен параметр возбуждения, соответствующий значению внешнего параметра модификации и соответствующий значению параметра фонового шума. В этом случае таблица поиска может содержать точно четыре измерения, которые связаны с предварительно определенными значениями параметра возбуждения, связаны с субполосами из множества субполос, связаны с предварительно определенными значениями внешнего параметра модификации и связаны с предварительно определенными значениями параметра фонового шума. Предварительно определенные значения параметра фонового шума могут быть распределены, например, линейно или логарифмически на весь возможный диапазон параметра фонового шума.

Значение параметра фонового шума можно определить с помощью детектора фонового шума. Это можно выполнить для всего входного аудиосигнала перед разделением на субполосы или на уровне субполосы для одной полосы, для более чем одной субполосы или для всех субполос по отдельности. Альтернативно, если множество субполос входного аудиосигнала сохранено и предоставлено блоком памяти, значение параметра фонового шума может быть также предоставлено блоком памяти.

В любом случае запоминающее устройство не содержит входа для специфического параметра громкости или целевого специфического параметра громкости, хотя коэффициенты спектрального взвешивания, которые содержит таблица поиска, можно вычислить на основании специфического параметра громкости или целевого специфического параметра громкости. Вычисление коэффициентов спектрального взвешивания можно выполнить внешним образом, и после этого их можно сохранить с помощью запоминающего устройства. Поэтому вычислительную сложность устройства, реализованного согласно описанной концепции, можно значительно уменьшить по сравнению с известными устройствами, поскольку вычисление в явном виде коэффициента спектрального взвешивания не является обязательным.

Коэффициенты спектрального взвешивания можно вычислить с возможностью сохранения их в запоминающем устройстве, например, следующим образом.

Обработку аудио можно выполнить в цифровой области. Соответственно, входной сигнал аудио можно обозначить с помощью дискретной временной последовательности x[n], которая была выбрана из аудиоисточника с некоторой частотой fc дискретизации. Можно предположить, что последовательность x[n] была соответствующим образом масштабирована с тем, чтобы средняя квадратичная мощность x[n] в децибелах, которая имеет вид

,

находилась на уровне звукового давления в единицах дБ, на котором слушатель воспринимает аудио на слух. К тому же, для упрощения описания можно предположить, что аудиосигнал будет монофоническим.

Входной сигнал аудио используется в блоке фильтров анализа или в функции блока фильтров ("Analysis Filterbank" (блок фильтров анализа)). Каждый фильтр в блоке фильтров анализа предназначен для моделирования амплитудно-частотной характеристики в конкретном местоположении вдоль базилярной мембраны во внутреннем ухе. Блок фильтров может включать в себя набор линейных фильтров, чья полоса пропускания и интервал между ними являются постоянными на шкале частот эквивалентной прямоугольной полосы пропускания (ERB), как установлено в вышеупомянутой работе B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness".

Хотя шкала частот ERB наиболее точно соответствует восприятию человека и показывает повышенные характеристики при проведении объективных измерений громкости, что совпадает с субъективными результатами громкости, шкалу частот Барка можно использовать с пониженными характеристиками.

Для центральной частоты f, выраженной в Герцах, ширину одной полосы ERB в Герцах можно аппроксимировать следующим образом:

ERB(f)=24,7(4,37f/1000+1) (1).

Из этой зависимости шкала с неравномерным частотным разрешением определяется таким образом, чтобы в любой точке вдоль шкалы с неравномерным частотным разрешением соответствующая ERB в единицах шкалы с неравномерным частотным разрешением равнялась единице. Функция для преобразования из линейной частоты, выраженной в Герцах, в эту шкалу частот ERB получается путем интегрирования выражения, обратного уравнению 1:

(2а).

Полезно также выполнить преобразование шкалы ERB обратно в линейную шкалу частот путем решения уравнения 2а для f:

2(b),

где е представлено в единицах шкалы ERB.

Блок фильтров анализа может включать в себя В слуховых фильтров, которые называются субполосами, с центральными частотами fc[1]...fc[B], расположенными на равных интервалах друг от друга вдоль шкалы ERB. Более точно,

(3a)

для b=2...B

(3b),
(3c),

где Δ - требуемый интервал ERB блока фильтров анализа, и fmin и fmax - требуемые минимальная и максимальная центральные частоты соответственно. Можно выбрать Δ=1 и принять во внимание частотную полосу, выше которой человеческое ухо является восприимчивым, можно установить fmin=50 Гц и fmax=20000 Гц. При таких параметрах, например, применение уравнений 3а-с дает результат для слуховых фильтров В=40.

Амплитудно-частотную характеристику каждого слухового фильтра можно характеризовать с помощью сглаженной экспоненциальной функции, которая предложена Муром и Гласбергом. В частности, амплитудную характеристику фильтра с центральной частотой f[b] можно вычислить в виде:

(4a),

где

(4b),
(4c).

Операции фильтрации блока фильтров анализа можно удовлетворительно аппроксимировать с использованием дискретного преобразования Фурье с ограниченной длиной временного окна, которое обычно называется кратковременным дискретным преобразованием Фурье (STDFT), так как предполагается, что реализация, приводящая в действие фильтры на частоте дискретизации аудиосигнала, которая называется реализацией с полной скоростью, обеспечивает временное разрешение больше, чем это необходимо для точных измерений громкости.

STDFT входного аудиосигнала x[n] можно определить в виде:

(5a),

где k - индекс частоты, t - индекс временного блока, N - размер DFT, Т - размер скачка, и w[n] - окно длиной N, нормализованное следующим образом:

(5b).

Следует отметить, что переменная t в уравнении 5(а) представляет собой дискретный индекс, представляющий временной блок STDFT, в отличие от единицы измерения времени в секундах. Каждое приращение в t представляет собой скачок Т выборок вдоль сигнала x[n]. Последующие ссылки на индекс t допускают это определение. Хотя различные установки параметров и формы окна можно использовать в зависимости от деталей реализации, для fs=44100 Гц, выбор N=2048, T=1024 и наличие w[n], которое будет представлять собой окно Ханна (Hann), обеспечивает адекватный баланс разрешения по времени и частоте. STDFT, описанное выше, можно реализовать более эффективно с использованием быстрого преобразования Фурье (FFT).

Вместо STDFT можно использовать модифицированное дискретное косинусное преобразование (MDCT) для реализации блока фильтров анализа. MDCT представляет собой преобразование, которое обычно используется в перцептуальных аудиокодерах. MDCT входного аудиосигнала х[n] можно представить в виде:

,

где

(6).

Как правило, размер Т скачка выбирается равным половине длины N преобразования с тем, чтобы было возможно точное восстановление сигнала х[n].

Выходные сигналы блока фильтров анализа подаются в пропускающий фильтр или используются в функции пропускающего фильтра ("пропускающий фильтр"), которая обеспечивает фильтрацию каждой полосы блока фильтров в соответствии с пропусканием аудио через внешнее и среднее ухо.

Для того чтобы вычислить громкость входного аудиосигнала, необходимо измерить кратковременную энергию аудиосигналов в каждом фильтре блока фильтров анализа после применения функции пропускающего фильтра. Это изменение по времени и частоте называется возбуждением. Кратковременную энергию на выходе каждого фильтра в блоке фильтров анализа можно аппроксимировать в виде функции возбуждения E[b,t] путем умножения частотных характеристик фильтра в частотной области на спектр мощности входного сигнала:

(7),

где b - номер субполос, t - номер блоков, и Hb[k] и P[k] - частотные характеристики слухового фильтра и пропускающего фильтра соответственно, дискретизированные по частоте, соответствующей двоичному индексу k STDFT или MDCT. Следует отметить, что виды для амплитудной характеристики слуховых фильтров, которые отличаются от тех, которые определены в уравнениях 4а-с, можно использовать в уравнении 7 для достижений похожих результатов.

Таким образом, результатом функции возбуждения является представление в частотной области энергии Е в соответствующих полосах b ERB за период времени t.

Для конкретных предложений может потребоваться сглаживание возбуждения E[b,t] перед его преобразованием в специфическую громкость. Например, сглаживание можно выполнить рекурсивно в функции сглаживания согласно уравнению:

(8),

где постоянные времени λ b в каждой полосе b выбраны в соответствии с требуемым приложением. В большинстве случаев, постоянные времени можно преимущественно выбрать как пропорциональные времени интегрирования восприятия громкости человеком в пределах полосы b. Уотсон (Watson) и Генгель (Gengel) выполнили эксперименты, которые показали, что это время интегрирования находится в пределах диапазона 150-175 мс на низких частотах (125-200 Гц) и 40-60 мс на высоких частотах ("Charles S. Watson and Roy W. Gengel, "Signal Duration and Signal Frequency in Relation to Auditory Sensitivity" Journal of the Acoustical Society of America, Vol. 46, No. 4 (Part 2), 1969, pp. 989-997" (Чарльз С. Уотсон и Рой У. Генгель, "Зависимость слуховой чувствительности от длительности сигнала и частоты сигнала", Журнал Акустического общества Америки, т. 46, № 4 (часть 2), 1969, с. 989-999)).

В функции преобразования ("Специфическая громкость") каждую частотную полосу возбуждения можно преобразовать в значение составляющей специфической громкости, которое измеряется в сонах на ERB.

В начале, при вычислении специфической громкости, уровень возбуждения в каждой полосе Е ¯   [ b ,t ] можно преобразовать в эквивалентный уровень возбуждения на частоте 1 кГц, как определено, например, кривыми равной громкости, нормализованными пропускающим фильтром:

(9),

где T1kHz(E,f) представляет собой функцию, которая вырабатывает уровень на частоте 1 кГц, который равен уровню Е одинаковой громкости на частоте f. Переход на эквивалентные уровни на частоте 1 кГц упрощает приведенное ниже специфическое вычисление громкости.

Затем, специфическую громкость в каждой полосе можно вычислить следующим образом:

(10),

где NNB[b,t] и NWB[b,t] представляют собой значения специфической громкости, основанные на модели узкополосного и широкополосного сигнала соответственно. Значение α[b,t] представляет собой коэффициент интерполяции, принимающий значение в пределах 0 и 1, которое вычисляется из аудиосигнала.

Значения NNB[b,t] и NWB[b,t] узкополосной и широкополосной специфической громкости можно оценить из преобразованного возбуждения с использованием экспоненциальных функций:

(11a, 11b),

где TQ1kHz - уровень возбуждения с пороговым значением в тишине для тона 1 кГц. По кривым равной громкости находят значение TQ1kHz, равное 4,2 дБ. Следует отметить, что обе эти функции специфической громкости равны нулю в случае, когда возбуждение равно пороговому значению в тишине. Для возбуждений, больших, чем пороговое значение в тишине, обе функции монотонно возрастают в степенной зависимости в соответствии с законом Стивенса (Stevens) ощущения интенсивности. Экспонента узкополосной функции выбирается таким образом, чтобы она была больше, чем экспонента для широкополосной функции, что приводит к быстрому увеличению узкополосной функции по сравнению с широкополосной функцией. Специфический выбор экспонент β и коэффициентов усиления G для узкополосного и широкополосного случаев выполняют для того, чтобы обеспечить совпадение экспериментальных данных по увеличению громкости для тональных сигналов и шума.

Специфическая громкость может быть равна некоторому маленькому значению, отличному от нуля, когда возбуждение находится на пороге слышимости. Специфическая громкость должна затем монотонно убывать до нуля, когда возбуждение уменьшается до нуля. Обоснованием этого является то, что порог слышимости представляет собой вероятностное пороговое значение (точку, в которой тон обнаруживается в 50% случаев по времени) и что число тонов, каждое из которых находится на пороге слышимости, представленных вместе, можно сложить в звук, который более слышен, чем любой из отдельных тонов. Если определяют, что специфическая громкость равна нулю в случае, когда возбуждение находится на или ниже порогового значения, то отсутствует единственное решение при расчете коэффициентов усиления при возбуждении на или ниже порогового значения. С другой стороны, если определено, что специфическая громкость будет монотонно возрастать для всех значений возбуждения больше или равно нулю, то существует единственное решение. Коэффициент шкалы громкости звука больше единицы будет всегда приводить к коэффициенту усиления больше единицы и наоборот. Функции специфической громкости в уравнениях 11а и 11b можно изменять для получения требуемого свойства согласно:

(11c, 11d),

где постоянная λ больше единицы, экспонента η меньше единицы, и постоянные К и С выбираются таким образом, чтобы функция специфической громкости и ее первая производная были непрерывными в точке:

.

Из специфической громкости, полная или "полная" громкость L[t] имеет вид суммы специфической громкости во всех полосах b:

(12).

В специфической функции модификации специфической громкости ("Модификации специфической громкости"), целевую специфическую громкость, которая называется N ^ [ b , t ] , можно вычислить из специфической громкости различными способами. Как описано более подробно ниже, целевую специфическую громкость можно вычислить с использованием коэффициента масштабирования α, например, в случае управления громкостью. См. ниже уравнение 16 и связанное с ним описание. В случае автоматической регулировки усиления (AGC) и управления динамическим диапазоном (DRC), целевую специфическую громкость можно вычислить с использованием отношения требуемой выходной громкости к входной громкости. См. ниже уравнения 17 и 18 и связанные с ними описания. В случае динамической коррекции амплитудно-частотной характеристики, целевую специфическую громкость можно вычислить с использованием соотношения, приведенного в уравнении 23, и связанного с ним описания.

В этом примере для каждой полосы b и каждого интервала времени t функция решения для коэффициента усиления получает в качестве своих входных данных сглаженное возбуждение E ¯   [ b ,t ] и целевую специфическую громкость N ^ [ b , t ] и вырабатывает коэффициенты спектрального взвешивания, которые также называются коэффициентами усиления G[b,t], которые используются в дальнейшем для модификации аудио. Допустим, что функция Ψ { } представляет собой нелинейное преобразование из возбуждения в специфическую громкость в виде:

(13),

при этом решатель коэффициента усиления находит G[b,t] так, чтобы

(14a).

Функция нахождения решения для коэффициента усиления определяет коэффициенты усиления (коэффициенты спектрального взвешивания), изменяющиеся с частотой и временем, которые при применении к первоначальному возбуждению приводят в результате к специфической громкости, которая в идеальном случае равна требуемой целевой специфической громкости. На практике, функция решения для коэффициента усиления определяет коэффициенты усиления, изменяющиеся с частотой и временем, причем при применении в варианте для частотной области аудиосигнала она приводит к модификации аудиосигнала для того, чтобы уменьшить различие между своей специфической громкостью и целевой специфической громкостью. В идеальном случае модификация должна быть такой, чтобы модифицированный аудиосигнал имел специфическую громкость, которая представляет собой аппроксимацию дозы целевой специфической громкости. Решение уравнения 14а можно выполнить различными способами. Например, если существует математическое выражение в скрытом виде для обратной величины специфической громкости, представленной с помощью Ψ 1 { } , то коэффициенты усиления можно вычислить непосредственно путем реконфигурации уравнения 14а:

(14b).

Альтернативно, если решения в скрытой форме для Ψ 1 { } не существуют, то можно использовать итерационный метод, в котором для каждого итерационного уравнения 14а выполняется оценка с использованием текущей оценки коэффициентов усиления. Полученная в результате специфическая громкость сравнивается с требуемой целью, и коэффициенты усиления обновляются на основании ошибки. Если коэффициенты усиления обновляются правильно, то они будут совпадать с требуемым решением. Как упомянуто ранее, целевую специфическую громкость можно представить с помощью масштабирования специфической громкости:

(14c).

Подстановка уравнения 13 в 14с и затем 14с в 14b приводит к альтернативному выражению для коэффициентов усиления:

(14d).

Вычисленные коэффициенты спектрального взвешивания или коэффициенты усиления сохраняются в таблице поиска запоминающего устройства.

В некоторых вариантах осуществления, согласно настоящему изобретению, определитель возбуждения не определяет значение параметра возбуждения для всех субполос из множества субполос. В этом случае достаточно, чтобы таблица поиска содержала только коэффициенты спектрального взвешивания, связанные с субполосами, для которых определено значение параметра возбуждения. Таким образом, можно значительно уменьшить объем памяти запоминающего устройства, необходимый для хранения таблицы поиска.

Поскольку изгиб кривых равной громкости, который необходимо компенсировать, сильнее для низких частот (см. фиг.2 и 3), достаточно компенсировать изменение громкости только для низкочастотных субполос. Поэтому, это может быть полезно для вычисления параметров возбуждения и сохранения коэффициента спектрального взвешивания для низкочастотных субполос. Напротив, для высокочастотных субполос значение параметра возбуждения можно не определить и можно не сохранить коэффициент спектрального взвешивания, связанный с высокочастотными субполосами. Другими словами, субполоса, для которой определено значение параметра возбуждения, может содержать более низкие частоты по сравнению с субполосой, для которой не определено значение параметра возбуждения.

Кроме того, необязательно модифицировать высокочастотные субполосы. Другими словами, содержимое субполосы можно не модифицировать с помощью модификатора сигнала, если определитель возбуждения не определяет значение параметра возбуждения для этой субполосы. Это может иметь место только в случае, если другой параметр не рассматривается, например, такой как параметр внешней модификации или параметр фонового шума.

Альтернативно, коэффициент спектрального взвешивания, предоставленный запоминающим устройством, можно использовать с помощью модификатора сигнала для более чем одной субполосы. Другими словами, модификатор сигнала позволяет модифицировать содержимое субполосы, для которой не определено значение параметра возбуждения, основываясь на коэффициенте спектрального взвешивания, предоставленном для субполосы, для которой определено значение параметра возбуждения. Рассматривая поведение кривых равной громкости, показанных на фиг.2 и 3, достаточно модифицировать высокочастотные полосы, соответствующие одному и тому же коэффициенту спектрального взвешивания. Этот коэффициент спектрального взвешивания может представлять собой коэффициент спектрального взвешивания, предоставленный для субполосы, которая содержит самые высокие частоты из всех субполос, для которых определено значение параметра возбуждения. В общем, модификатор сигнала позволяет модифицировать содержимое субполосы, для которой не определено значение параметра возбуждения, основываясь на коэффициенте спектрального взвешивания, предоставленном для субполосы, содержащей более высокие частоты, чем все другие субполосы, для которых определено значение параметра возбуждения. Например, может быть достаточно, чтобы определитель возбуждения определял значение параметра возбуждения только для 5-15 (или 2-20, 7-12 или только 5, 6, 7, 8, 9, 10, 11, 12) субполос из множества субполос или только для менее чем одной четверти, одной трети, половины или двух третей субполос из множества субполос. Эти субполосы могут содержать более низкие частоты, чем все другие субполосы из множества субполос. Кроме того, модификатор сигнала позволяет модифицировать содержимое этих субполос в соответствии с коэффициентами спектрального взвешивания, предоставленными запоминающим устройством для этих субполос.

Например, шкала Барка содержит 25 частотных полос, этого может быть достаточно для модификации самых низких 7 частотных полос, поскольку самые низкочастотные полосы показывают самое сильное отклонение от режима молчания. Альтернативно, можно модифицировать самые низкие полосы шкалы ERB. Оставшиеся субполосы из множества субполос можно оставить немодифицированными, можно модифицировать в соответствии с параметром внешней модификации и/или параметром фонового шума или можно модифицировать в соответствии с коэффициентом спектрального взвешивания, предоставленным для субполосы, для которой определено значение параметра возбуждения и которая содержит более высокие частоты, чем все другие субполосы, для которых определено значение параметра возбуждения.

На фиг.5 показана блок-схема алгоритма способа 500 модификации входного аудиосигнала, согласно варианту осуществления настоящего изобретения. Способ 500 содержит этап, на котором определяют 510 значение параметра возбуждения субполосы из множества субполос входного аудиосигнала на основании энергосодержания субполосы. Кроме того, способ 500 содержит этап, на котором предоставляют 520 коэффициент спектрального взвешивания, соответствующий определенному значению параметра возбуждения и соответствующий субполосе, для которой определено значение параметра возбуждения. Коэффициент спектрального взвешивания сохраняется в таблице поиска, которая содержит множество коэффициентов спектрального взвешивания. Коэффициент спектрального взвешивания из множества коэффициентов спектрального взвешивания связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. И наконец, способ 500 содержит этап, на котором модифицируют субполосу, для которой определено значение параметра возбуждения, на основании предоставленного коэффициента спектрального взвешивания для получения и предоставления модифицированной субполосы.

Другими словами, способ 500 содержит этапы, на которых: вычисляют 510 сигнал возбуждения, извлекают 520 спектральные веса (коэффициенты спектрального взвешивания) из таблицы поиска и модифицируют 530 выходной аудиосигнал. При необходимости способ 500 содержит этап, на котором повторно синтезируют выходной аудиосигнал (объединяют субполосы для получения модифицированного аудиосигнала).

Например, это может быть способ для эффективной и универсальной модификации сигнала.

Кроме того, при необходимости можно также принять во внимание внешний параметр модификации (указанный пунктирной линией), как описано выше.

Дополнительное рассмотрение уровня субполосы фонового шума (параметр фонового шума) приведено с помощью способа 600, показанного на фиг.6.

Некоторые варианты осуществления, согласно настоящему изобретению, относятся к эффективной реализации перцептуальной обработки аудиосигналов. Описанная концепция относится к гибкой и высокоэффективной архитектуре для модификации и обработки частотно-избирательных аудиосигналов, которые могут легко включать характеристики психоакустических эффектов в их обработку без затруднений, связанных с вычислительной нагрузкой точного слухового моделирования. В качестве примера рассматривается реализация многополосного процессора для перцептуального управления громкостью, которая основывается на показанной архитектуре.

Это может быть эффективная реализация управления психоакустической громкости.

Описанную выше обработку можно сравнить с фильтрацией входного сигнала с помощью амплитудно-частотной характеристики фильтра, которой управляют с помощью входного уровня в пределах каждой полосы звуковых частот. Это можно реализовать более эффективно.

В основном, предложенный способ позволяет обойти вычисление специфической громкости и соответствующее обратное вычисление и, таким образом, избежать этапы обработки с интенсивными вычислениями при затратах на слегка повышенные требования к памяти.

Эффективную реализацию можно выполнить с использованием простой таблицы поиска (LUT), возможно с интерполяцией.

LUT вычисляют путем измерения входных значений и выходных значений в ходе процесса, реализация которого описана выше. LUT имеет, например, три измерения. Она выводит модифицированную субполосу или модифицированный аудиосигнал, который передает входное возбуждение, параметр модификации и индекс частотной полосы.

Например, это можно эффективно реализовать путем обнаружения того, что ее функциональные возможности зависят от индекса частотной полосы только для самых низкочастотных полос, например, при использовании блока слуховых фильтров с разрешением, соответствующим шкале Барка, блок фильтров может иметь 25 полосовых фильтров. Может быть достаточным только хранение передаточной функции в LUT для самых низкочастотных 7 полос, поскольку для индексов более высоких полос поддерживается отношение вход/выход так, как для индекса 7 полосы.

Эта эффективная обработка приводит к управлению громкостью, которое является корректным в психоакустическом смысле. Другие приложения, а именно управление динамическим диапазоном и/или динамическая коррекция амплитудно-частотной характеристики, получаются с помощью эффективной обработки, которая описана выше в отношении соответствующей индексации LUT.

И, наконец, компенсацию фонового шума (то есть компенсацию эффекта частичного маскирования аудиосигнала при наличии фонового шума) можно получить путем добавления четвертого измерения в LUT, которое представляет собой уровень фонового шума. Блок-схема предложенной обработки для компенсации шума изображена на фиг.6.

Хотя обработка, описанная до сих пор, была нацелена на имитацию алгоритма масштабирования психоакустической громкости, архитектура, описанная на фиг.1 или фиг.4, позволяет выработать гораздо более богатый спектр модификаций звука, которые будут доступны с помощью алгоритма масштабирования психоакустической громкости с ее LUT. Его можно выполнить в зависимости даже от большего количества факторов (например, установки пользовательских предпочтений, других зависящих от времени факторов и т.д.). Его можно свободно "настроить" по субъективному предпочтению слушателя за пределами характеристик, которые представлены с помощью функции, заданной в качестве близкого по форме выражения.

Таким образом, настоящее изобретение относится к гибкой и высокоэффективной архитектуре, предназначенной для модификации и обработки частотно-избирательных аудиосигналов, которая позволяет легко включать характеристики психоакустических эффектов в их обработку без затруднений, связанных с вычислительной нагрузкой при точном слуховом моделировании.

На абстрактном уровне, предложенная эффективная обработка содержит следующие этапы. На основе входного сигнала можно вычислить одно или более характерных значений (включая значение параметра возбуждения) для ряда частотных полос (например, критических полос). На основе этих характерных значений (и, возможно, другой информации) для каждой из этих частотных полос выполнена таблица поиска для того, чтобы определить один или несколько выходных параметров таблицы (коэффициентов спектрального взвешивания) для каждой частотной полосы. Эти выходные параметры таблицы затем используются для определения модификации (например, мультипликативного масштабирования) входного сигнала в соответствующих частотных полосах.

Обработка аудиосигналов в частотных полосах обычно предполагает использование блока фильтров, то есть входной сигнал разделяется на несколько частотных диапазонов (субполос) с помощью блока фильтров анализа, и окончательный выходной сигнал получается путем подачи модифицированных сигналов субполос в блок фильтров синтеза. Блоки фильтров анализа и синтеза объединены для восстановления входного временного сигнала в полной мере или почти в полной мере.

Типичное количество частотных полос находится между 4 и 40. Таблица поиска, основанная на характерных значениях, обычно включает в себя квантование характерных значений в ограниченном наборе значений, которые можно использовать в качестве индекса поиска в таблице. Кроме того, размер таблицы поиска можно уменьшить путем выбора достаточно грубого размера шага квантования и в дальнейшем интерполяции между (двумя или более) соседними значениями выходных параметров таблицы. Для того чтобы рассмотреть несколько входных характерных значений для вычисления значений выходных параметров, можно использовать таблицу поиска с несколькими измерениями, например, коэффициента модификации LUT, содержащего индекс (idx) возбуждения, idx тональности, idx частоты. В очень простом (и эффективном) случае значения выходных параметров непосредственно представляют собой коэффициенты умножения, которые будут применяться к входной субполосе для того, чтобы определить выходные сигналы субполосы. Это показано, например, на фиг.4.

Хотя некоторые аспекты представленной концепции были описаны в контексте устройства, ясно, что эти аспекты также представляют собой описание соответствующего способа, причем блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего блока или элемента или признака соответствующего устройства.

В зависимости от требований конкретной реализации, варианты осуществления настоящего изобретения можно реализовать в виде аппаратного обеспечения или в виде программного обеспечения. Реализацию можно выполнить с использованием цифрового запоминающего носителя, например гибкого диска, DVD, диска Blue-Ray, CD, ROM, PROM, EPROM, EEPROM или флеш-памяти, содержащего сохраненные на нем электронно-считываемые сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, чтобы выполнялся соответствующий способ. Поэтому цифровой запоминающий носитель может быть компьютерно-читаемым.

Некоторые варианты осуществления, согласно настоящему изобретению, содержат носитель данных, содержащий электронно-считываемые сигналы управления, которые могут взаимодействовать с программируемой компьютерной системой таким образом, чтобы выполнять один из описанных здесь способов.

В общем, варианты осуществления настоящего изобретения можно реализовать в виде компьютерного программного продукта с программным кодом, причем программный код функционирует для выполнения одного из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код можно хранить, например, на машиночитаемом носителе.

Дополнительные варианты осуществления содержат компьютерную программу для выполнения одного из описанных здесь способов, которая хранится на машиночитаемом носителе.

Другими словами, вариант осуществления способа, согласно изобретению, представляет собой, таким образом, компьютерную программу, содержащую программный код для выполнения одного из описанных здесь способов, когда компьютерная программа исполняется на компьютере.

Дополнительный вариант осуществления способа, согласно настоящему изобретению, представляет собой, таким образом, носитель данных (или цифровой запоминающий носитель информации, или компьютерно-читаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из описанных здесь способов.

Дополнительный вариант осуществления способа, согласно настоящему изобретению, представляет собой, таким образом, поток данных или последовательность сигналов, представляющих собой компьютерную программу для выполнения одного из описанных здесь способов. Поток данных или последовательность сигналов может, например, быть сконфигурирована для передачи посредством соединения для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, сконфигурированное или адаптированное для выполнения одного из описанных здесь способов.

Дополнительный вариант осуществления содержит компьютер, содержащий установленную на нем компьютерную программу для выполнения одного из описанных здесь способов.

В некоторых вариантах осуществления программируемое логическое устройство (например, логическую матрицу, программируемую пользователем) можно использовать для выполнения некоторых или всех функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления логическая матрица, программируемая пользователем, может взаимодействовать с микропроцессором для того, чтобы выполнить один из описанных здесь способов. В целом, способы предпочтительно выполнять с помощью каких-либо аппаратных устройств.

Описанные выше варианты осуществления являются только иллюстрацией принципов настоящего изобретения. Следует понимать, что модификация и изменение компоновок и деталей, описанных здесь, будут очевидны специалистам в данной области техники. Поэтому настоящее изобретение ограничено только объемом прилагаемой формулы изобретения и не ограничено конкретными деталями, представленными здесь посредством описания и пояснения вариантов осуществления.

1. Устройство (100) для модификации входного аудиосигнала, содержащее:
определитель (110) возбуждения, сконфигурированный для определения значения (112) параметра возбуждения субполосы (102) из множества субполос входного аудиосигнала на основании энергосодержания субполосы (102), причем значение (112) параметра возбуждения указывает мощность аудиосигнала в субполосе, или кратковременную энергию аудиосигнала в субполосе, или квантованное значение кратковременной энергии аудиосигнала в субполосе;
запоминающее устройство (120), хранящее таблицу поиска, которая содержит множество коэффициентов спектрального взвешивания, причем коэффициент спектрального взвешивания из множества коэффициентов спектрального взвешивания связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос, причем запоминающее устройство сконфигурировано для предоставления коэффициента (124) спектрального взвешивания, соответствующего определенному значению (112) параметра возбуждения и соответствующего субполосе (102), для которой определено значение (112) параметра возбуждения; и
модификатор (130) сигнала, сконфигурированный для модификации содержимого субполосы (102) входного аудиосигнала, для которой определено значение (112) параметра возбуждения, на основании предоставленного коэффициента (124) спектрального взвешивания для предоставления модифицированной субполосы (132) посредством мультипликативного масштабирования субполосы аудиосигнала с помощью коэффициента спектрального взвешивания, предоставленного таблицей поиска.

2. Устройство по п. 1, в котором определитель (110) возбуждения сконфигурирован для определения значения (112) параметра возбуждения для более чем одной субполосы (102) из множества субполос, причем запоминающее устройство (120) сконфигурировано для предоставления коэффициента (124) спектрального взвешивания для каждой субполосы (102), для которой определено значение (112) параметра возбуждения, и причем модификатор (130) сигнала сконфигурирован для модификации содержимого каждой субполосы (102), для которой определено значение (112) параметра возбуждения, на основании соответствующего предоставленного коэффициента (124) спектрального взвешивания.

3. Устройство по п. 1, дополнительно содержащее:
блок (410) фильтров анализа, сконфигурированный для разделения входного аудиосигнала на множество субполос; и
блок (420) фильтров синтеза, сконфигурированный для объединения множества субполос, содержащих по меньшей мере одну модифицированную субполосу (132), для предоставления модифицированного аудиосигнала.

4. Устройство по п. 1, в котором каждый коэффициент спектрального взвешивания, который содержится в таблице поиска, связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос.

5. Устройство по п. 1, в котором субполосы из множества субполос входного аудиосигнала разделены согласно шкале ERB, шкале Барка или другому частотному интервалу, который имитирует частотное разрешение человеческого уха.

6. Устройство по п. 1, в котором определитель (110) возбуждения сконфигурирован для определения значения (112) параметра возбуждения не для всех субполос из множества субполос и в котором таблица поиска содержит только коэффициенты спектрального взвешивания, связанные с субполосами, для которых определено значение параметра возбуждения.

7. Устройство по п. 6, в котором субполоса (102), для которой определено значение (112) параметра возбуждения, содержит более низкие частоты, чем субполоса, для которой не определен параметр возбуждения.

8. Устройство по п. 6, в котором содержимое субполосы входного аудиосигнала не модифицируется с помощью модификатора (130) сигнала, если определитель (110) возбуждения не определил значение (112) параметра возбуждения для этой субполосы.

9. Устройство по п. 1, в котором определитель (110) возбуждения сконфигурирован для определения значения (112) параметра возбуждения только менее чем для одной трети субполос из множества субполос и в котором модификатор (130) сигнала сконфигурирован для модификации содержимого субполос, для которых определено значение параметра возбуждения, на основании соответствующего предоставленного коэффициента спектрального взвешивания, причем эти субполосы содержат более низкие частоты, чем все другие субполосы из множества субполос, для которых определено значение параметра возбуждения.

10. Устройство по п. 1, в котором модификатор (130) сигнала сконфигурирован для модификации содержимого субполосы, для которой не определено значение параметра возбуждения, на основании коэффициента (124) спектрального взвешивания, предоставленного для субполосы (102), для которой определено значение (112) параметра возбуждения.

11. Устройство по п. 10, в котором модификатор (130) сигнала модифицирует содержимое субполосы, для которой не определено значение параметра возбуждения, основываясь на коэффициенте (124) спектрального взвешивания, предоставленном для субполосы (102), для которой определено значение (112) параметра возбуждения, содержащей более высокие частоты, чем все другие субполосы (102), для которых определено значение (112) параметра возбуждения.

12. Устройство по п. 1, в котором коэффициент спектрального взвешивания, который содержится в таблице поиска, дополнительно связан с предварительно определенным значением внешнего параметра модификации, причем запоминающее устройство (120) сконфигурировано для предоставления коэффициента (124) спектрального взвешивания, соответствующего определенному значению (112) параметра возбуждения субполосы (102), соответствующего субполосе (102), для которой определено значение (112) параметра возбуждения, и соответствующего значению внешнего параметра модификации.

13. Устройство по п. 12, в котором таблица поиска содержит точно три измерения, связанные с предварительно определенными значениями параметра возбуждения, с субполосами из множества субполос и с предварительно определенными значениями внешнего параметра модификации.

14. Устройство по п. 12, в котором модификатор (130) сигнала сконфигурирован для модификации содержимого субполосы, для которой не определено значение параметра возбуждения, на основании значения внешнего параметра модификации.

15. Устройство по п. 1, в котором коэффициент спектрального взвешивания, который содержится в таблице поиска, дополнительно связан с предварительно определенным значением параметра фонового шума, причем запоминающее устройство (120) сконфигурировано для предоставления коэффициента (124) спектрального взвешивания, соответствующего определенному значению (112) параметра возбуждения субполосы (102), соответствующего субполосе (102), для которой определено значение (112) параметра возбуждения, и соответствующего значению параметра фонового шума.

16. Устройство по п. 15, в котором таблица поиска содержит точно четыре измерения, связанные с предварительно определенными значениями параметра возбуждения, с субполосами из множества субполос, с предварительно определенными значениями внешнего параметра модификации и с предварительно определенными значениями параметра фонового шума.

17. Устройство по п. 1, в котором таблица поиска, хранимая с помощью запоминающего устройства (120), представляет собой единственную таблицу поиска устройства для модификации входного аудиосигнала.

18. Устройство по п. 1, в котором определитель (110) возбуждения сконфигурирован для измерения энергосодержания субполосы (102) и сконфигурирован для квантования измеренного энергосодержания субполосы для получения значения параметра возбуждения для того, чтобы значение параметра возбуждения было равно предварительно определенному значению параметра возбуждения.

19. Способ (500, 600) модификации входного аудиосигнала, содержащий этапы, на которых:
определяют (510) значение параметра возбуждения субполосы из множества субполос входного аудиосигнала на основании энергосодержания субполосы, причем значение параметра возбуждения указывает мощность аудиосигнала в субполосе, или кратковременную энергию аудиосигнала в субполосе, или квантованное значение кратковременной энергии аудиосигнала в субполосе;
предоставляют (520) коэффициент спектрального взвешивания, соответствующий предварительно определенному значению параметра возбуждения и соответствующий субполосе, для которой определено значение параметра возбуждения, причем коэффициент спектрального взвешивания хранят в таблице поиска, содержащей множество коэффициентов спектрального взвешивания, причем коэффициент спектрального взвешивания из множества коэффициентов спектрального взвешивания связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос;
модифицируют (530) субполосу, для которой определено значение параметра возбуждения, на основании предоставленного коэффициента спектрального взвешивания для предоставления модифицированной субполосы посредством мультипликативного масштабирования субполосы аудиосигнала с помощью коэффициента спектрального взвешивания, предоставленного таблицей поиска.

20. Машиночитаемый носитель, содержащий сохраненную на нем компьютерную программу с программным кодом для выполнения способа по п. 19, когда компьютерная программа исполняется на компьютере или микроконтроллере.



 

Похожие патенты:

Изобретение относится к средствам для предоставления информации об источнике звука через аудио устройство. Технический результат заключается в динамическом определении местоположения источника звука.

Изобретение относится к средствам регулировки громкости на основании местоположения слушателя. Технический результат заключается в осуществлении возможности регулирования громкости на основании местоположения слушателя.

Изобретение относится к радиосвязи и может быть использовано для повышения помехозащищенности приемника. .

Изобретение относится к устройствам для вычисления коэффициентов (H[k,m]) фильтрации для адаптивного фильтра. Технический результат заключается в повышении качества звука системы эхоподавления или системы эхокомпенсации.

Изобретение относится к средствам расширения верхней полосы звукового сигнала по нижней полосе звукового сигнала. Технический результат заключается в повышении эффективности расширения полосы звукового сигнала.

Изобретение относится к средствам для расширения полосы частот. Технический результат заключается в улучшении восприятия расширенного звукового сигнала.

Изобретение относится к системам кодирования источников звукового сигнала. Технический результат состоит в эффективной реализации высокочастотной реконструкции (HFR) путем усиления перекрестными произведениями, где новая составляющая с частотой QΩ+rΩ0 генерируется на основе существующих составляющих с частотами Ω и Ω+Ω0.

Изобретение относится к области кодирования акустических сигналов и может быть использовано при транспонировании в частотной области. Достигаемый технический результат - эффективная генерация качественного высокочастотного аудиосигнала путем раздельной обработки нестационарных и стационарных составляющих аудиосигнала.

Изобретение относится к радиотехнике и предназначено для управления аудиосигналом, включающим переходное событие. Технический результат - повышение точности воспроизведения сигнала.

Группа изобретений относится к средствам для анализа временных вариаций аудио сигналов. Технический результат заключается в создании средств, обладающих повышенной надежностью, для получения параметра, описывающего временные изменения сигнальной характеристики.

Изобретение относится к вычислительной технике. Технический результат заключается в улучшении слышимости речи в многоканальном звуковом сигнале.

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности выделения речевого сигнала в условиях наличия помех.

Изобретение относится к HFR (высокочастотной реконструкции/регенерации) звуковых сигналов и предназначено для выполнения HFR звуковых сигналов, содержащих большие изменения в уровне энергии в пределах низкочастотного диапазона, который используется для реконструкции высоких частот звукового сигнала.

Изобретение относится к средствам для обработки аудиоданных и к области техники связи. Технический результат заключается в повышении эффективности кодирования. Способ включает в себя: получение шумового кадра аудиосигнала и разложение текущего шумового кадра на шумовой сигнал полосы низких частот и шумовой сигнал полосы высоких частот; и кодирование и передачу шумового сигнала полосы низких частот посредством использования первого механизма прерывистой передачи и кодирование и передачу шумового сигнала полосы высоких частот посредством использования второго механизма прерывистой передачи. Согласно настоящему изобретению различные способы обработки используются для сигнала полосы высоких частот и сигнала полосы низких частот, вычислительная нагрузка и кодированные биты могут экономиться при допущении непонижения субъективного качества кодека, и биты, которые экономятся, могут помогать достигать цели уменьшения полосы пропускания передачи или повышения общего качества кодирования. 4 н. и 40 з.п. ф-лы, 9 ил.

Изобретение относится к средствам помехоустойчивой классификации режимов кодирования речи. Технический результат заключается в повышении эффективности классификации режимов речи для повышения эффективности многорежимного кодирования с переменной скоростью передачи данных. Параметры классификации вводятся в классификатор речи из внешних компонентов. Внутренние параметры классификации формируются в классификаторе речи из по меньшей мере одного из входных параметров. Устанавливается пороговое значение нормированной функции коэффициентов автокорреляции. Анализатор параметров выбирается согласно среде распространения сигнала. Классификация режима речи определяется на основании оценки шума многочисленных кадров входной речи. 4 н. и 39 з.п. ф-лы, 11 ил., 6 табл.
Наверх