Аппарат и способ улучшения аудиосигнала, система улучшения звука

Авторы патента:

ГАМПП Патрик (DE)

УЛЕ Кристиан (DE)

ФАРГА Штефан (DE)

ШАРРЕР Себастьян (DE)

ХЕЛЛЬМУТ Оливер (DE)

H04S3/02 - матричного типа, т.е. в которых входные сигналы совмещены алгебраически, например после фазового сдвига сигналов относительно друг друга

G10L19/008 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2666316:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к обработке аудиосигналов, в частности к аудиообработке моно- или двойного моносигнала. Технический результат – повышение качества звука аудиосигналов. Аппарат для улучшения аудиосигнала содержит процессор сигналов для обработки аудиосигнала, для того чтобы уменьшать или удалять переходные и тональные части обработанного сигнала, и декоррелятор для генерации первого декоррелированного сигнала и второго декоррелированного сигнала из обработанного сигнала. Аппарат дополнительно содержит объединитель для взвешенного объединения первого и второго декоррелированных сигналов и аудиосигнала или сигнала, получаемого из аудиосигнала посредством улучшения когерентности, с использованием изменяющихся во времени весовых коэффициентов и для получения двухканального аудиосигнала. Аппарат дополнительно содержит контроллер для управления изменяющимися во времени весовыми коэффициентами посредством анализа аудиосигнала таким образом, что различные части аудиосигнала умножают на различные весовые коэффициенты, и двухканальный аудиосигнал имеет изменяющуюся во времени степень декорреляции. 4 н. и 11 з.п. ф-лы, 20 ил.

Изобретение относится к обработке аудиосигналов и, в частности, к аудиообработке моно- или двойного моносигнала.

Акустическую обстановку можно моделировать как смесь прямых и окружающих звуков. Прямые (или направленные) звуки испускаются источниками звука, например музыкальным инструментом, вокалистом или громкоговорителем, и доходят до приемника, например уха слушателя или микрофона, кратчайшим возможным путем. При захвате прямого звука с помощью набора разнесенных в пространстве микрофонов принимаемые сигналы являются когерентными. Напротив, окружающие (или диффузные) звуки испускаются множеством разнесенных в пространстве источников звука или отражающих звук экранов, которые вносят вклад, например, в реверберацию в помещении, аплодисменты или невнятный шум. При захвате окружающего звукового поля с помощью набора разнесенных в пространстве микрофонов принимаемые сигналы являются по меньшей мере частично некогерентными.

Монофоническое воспроизведение звука можно считать целесообразным в некоторых сценариях воспроизведения (например, в танцевальных клубах) или для некоторых типов сигналов (например, записей речи), но большинство музыкальных записей, звук фильмов и телевизионный звук представляют собой стереофонические сигналы. Стереофонические сигналы могут создавать ощущение окружающих (или диффузных) звуков и направлений и габаритов источников звука. Это достигается с помощью стереофонической информации, которая закодирована с помощью пространственных характеристик. Наиболее важными пространственными характеристиками являются межканальная разница уровней (ICLD), межканальная временная разница (ICTD) и межканальная когерентность (ICC). Следовательно, стереофонические сигналы и соответствующие системы воспроизведения звука имеют больше одного канала. ICLD и ICTD вносят вклад в восприятие направления. ICC вызывает восприятие ширины звука и, в случае окружающих звуков, того, что звук расценивается приходящим со всех направлений.

Хотя существует многоканальное воспроизведение звука в различных форматах, большинство аудиозаписей и систем воспроизведения звука по-прежнему имеют два канала. Двухканальный стереофонический звук является стандартом для развлекательных систем, и слушатели привыкли к нему. Тем не менее, стереофонические сигналы не ограничены только двухканальными сигналами, но могут иметь сигнал больше чем с одним каналом. Аналогично, монофонические сигналы не ограничены сигналом только с одним каналом, но могут иметь сигналы с несколькими, но идентичными каналами. Например, аудиосигнал, содержащий сигналы с двумя идентичными каналами, может быть назван двойным моносигналом.

Существуют различные причины того, что слушателям доступны монофонические сигналы вместо стереофонических сигналов. Во-первых, старые записи являются монофоническими, поскольку стереофонические технологии в то время не использовались. Во-вторых, ограничения ширины полосы передачи или среды для хранения могут приводить к потере стереофонической информации. Известным примером является радиовещание с использованием частотной модуляции (FM). В этом случае мешающие источники, многолучевые искажения или другие нарушения передачи могут приводить к зашумлению стереофонической информации, которая для передачи двухканальных сигналов, как правило, закодирована в виде сигнала разности между обоими каналами. Обычной практикой является частичное или полное отбрасывание стереофонической информации при плохих условиях приема.

Потеря стереофонической информации может приводить к снижению качества звука. Обычно аудиосигнал, содержащий большее количество каналов, может иметь более высокое качество звука по сравнению с аудиосигналом, содержащим меньшее количество каналов. Слушатели могут предпочитать слушать аудиосигналы, имеющие высокое качество звука. По причинам эффективности, таким как скорости передачи данных, качество передаваемого или сохраненного в средах звука часто снижено.

Поэтому, существует потребность в повышении (улучшении) качества звука аудиосигналов.

Целью настоящего изобретения поэтому является предоставление аппарата или способа для улучшения аудиосигналов и/или повышения восприятия воспроизводимых аудиосигналов.

Эта цель достигается с помощью аппарата для улучшения аудиосигнала по п. 1, способа улучшения аудиосигнала по п. 14 и системы улучшения звука по п. 13 или компьютерной программы по п. 15.

Настоящее изобретение основано на обнаружении того, что принимаемый аудиосигнал может быть улучшен посредством искусственной генерации пространственных характеристик посредством разделения принимаемых аудиосигналов на по меньшей мере две доли и посредством декорреляции по меньшей мере одной из долей принимаемого сигнала. Взвешенная комбинация долей обеспечивает прием аудиосигнала, воспринимаемого как стереофонический и, следовательно, улучшенного. Управление применяемыми весами обеспечивает изменяющуюся степень декорреляции и, следовательно, изменяющуюся степень улучшения таким образом, что уровень улучшения может быть низким, когда декорреляция может приводить к неприятным эффектам, которые снижают качество звука. Таким образом, изменяющийся аудиосигнал может быть улучшенным, содержа части или интервалы времени, в которых применяют низкую декорреляцию или не применяют декорреляцию, как например для речевых сигналов, и содержа части или интервалы времени, в которых применяют большую или высокую степень декорреляции, как например для музыкальных сигналов.

Вариант осуществления настоящего изобретения предлагает аппарат для улучшения аудиосигнала. Аппарат содержит процессор сигналов для обработки аудиосигнала, для того чтобы уменьшать или удалять переходные и тональные части обработанного сигнала. Аппарат дополнительно содержит декоррелятор для генерации первого декоррелированного сигнала и второго декоррелированного сигнала из обработанного сигнала. Аппарат дополнительно содержит объединитель и контроллер. Объединитель выполнен с возможностью взвешенного объединения первого декоррелированного сигнала, второго декоррелированного сигнала и аудиосигнала или сигнала, получаемого из аудиосигнала посредством улучшения когерентности, с использованием изменяющихся во времени весовых коэффициентов и получения двухканального аудиосигнала. Контроллер выполнен с возможностью управления изменяющимися во времени весовыми коэффициентами посредством анализа аудиосигнала таким образом, что различные части аудиосигнала умножают на различные весовые коэффициенты, и двухканальный аудиосигнал имеет изменяющуюся во времени степень декорреляции.

Аудиосигнал, имеющий мало или не имеющий стереофонической (или многоканальной) информации, например, сигнал, имеющий один канал, или сигнал, содержащий сигналы с несколькими, но почти идентичными каналами, могут после применения улучшения восприниматься как многоканальный, например стереофонический, сигнал. Принимаемый моно- или двойной моноаудиосигнал может быть обработан различным образом в различный трактах, причем в одном тракте переходные и/или тональные части аудиосигнала уменьшают или удаляют. Сигнал, обработанный таким образом, является декоррелированным, и декоррелированный сигнал, взвешенным образом объединенный со вторым трактом, содержащим аудиосигнал или сигнал, получаемый из него, позволяет получить два сигнальных канала, которые могут иметь высокий коэффициент декорреляции друг по отношению к другу, так что два канала воспринимаются как стереофонический сигнал.

Посредством управления весовыми коэффициентами, используемыми для взвешенного объединения декоррелированного сигнала и аудиосигнала (или сигнала, получаемого из него), можно получать изменяющуюся во времени степень декорреляции, так что в ситуациях, в которых улучшение аудиосигнала будет, возможно, приводить к нежелательным эффектам, улучшение может быть уменьшено или опущено. Например, сигнал радиодинамика или другие выделяющиеся сигналы источников звука нежелательно улучшать, поскольку восприятие динамика из нескольких местоположений источников может приводить к неприятным эффектам для слушателя.

В соответствии с дополнительным вариантом осуществления аппарат для улучшения аудиосигнала содержит процессор сигналов для обработки аудиосигнала, для того чтобы уменьшать или удалять переходные и тональные части обработанного сигнала. Аппарат дополнительно содержит декоррелятор, объединитель и контроллер. Декоррелятор выполнен с возможностью генерации первого декоррелированного сигнала и второго декоррелированного сигнала из обработанного сигнала. Объединитель выполнен с возможностью взвешенного объединения первого декоррелированного сигнала и аудиосигнала или сигнала, получаемого из аудиосигнала посредством улучшения когерентности, с использованием изменяющихся во времени весовых коэффициентов и для получения двухканального аудиосигнала. Контроллер выполнен с возможностью управления изменяющимися во времени весовыми коэффициентами посредством анализа аудиосигнала таким образом, что различные части аудиосигнала умножают на различные весовые коэффициенты, и двухканальный аудиосигнал имеет изменяющуюся во времени степень декорреляции. Это делает возможным восприятие моносигнала или сигнала, похожего на моносигнал (такого как двойной моно или мультимоно), как стереоканальный аудиосигнал.

Для обработки аудиосигнала контроллер и/или процессор сигналов могут быть выполнены с возможностью обработки представления аудиосигнала в частотной области. Представление может содержать множество или совокупность полос частот (подполос), причем каждая содержит участок, то есть часть аудиосигнала спектра аудиосигнала, соответственно. Для каждой из полос частот контроллер может быть выполнен с возможностью предсказания воспринимаемого уровня декорреляции в двухканальном аудиосигнале. Контроллер может дополнительно быть выполнен с возможностью увеличения весовых коэффициентов для частей (полос частот) аудиосигнала, что делает возможной более высокую степень декорреляции, и уменьшения весовых коэффициентов для частей аудиосигнала, что делает возможной более низкую степень декорреляции. Например, часть, содержащая невыделяющийся сигнал источника звука, такой как аплодисменты или невнятный шум, может быть объединена с помощью весового коэффициента, который обеспечивает более высокую декорреляцию, чем часть, которая содержит выделяющийся сигнал источника звука, причем термин "выделяющийся сигнал источника звука" используется для частей сигнала, которые воспринимаются как прямые звуки, например речь, музыкальный инструмент, вокалист или громкоговоритель.

Процессор может быть выполнен с возможностью определения для каждой из некоторых или всех полос частот, содержит ли данная полоса частот переходные или тональные компоненты, и для определения спектральных взвешиваний, которые обеспечивают уменьшение переходных или тональных частей. Каждый из спектральных весов и коэффициентов масштабирования может иметь множество возможных значений, так что неприятные эффекты из-за бинарных решений могут быть уменьшены и/или предотвращены.

Контроллер может дополнительно быть выполнен с возможностью масштабирования весовых коэффициентов таким образом, что воспринимаемый уровень декорреляции в двухканальном аудиосигнале остается в пределах диапазона около целевого значения. Диапазон может доходить, например, до ±20%, ±10% или ±5% от целевого значения. Целевое значение может представлять собой, например, ранее определенное значение для величины тональной и/или переходной части, так что, например, для аудиосигнала, содержащего изменяющиеся переходные и тональные части, получают изменяющееся целевое значение. Это обеспечивает осуществление низкой декорреляции или даже неосуществление декорреляции, когда аудиосигнал является декоррелированным, или декорреляция нежелательна, как например для выделяющихся сигналов источника звука, таких как речь, и высокой декорреляции, если сигнал не является декоррелированным, и/или декорреляция желательна. Весовые коэффициенты и/или спектральные веса могут быть определены и/или выставлены на множество значений или даже почти непрерывно.

Декоррелятор может быть выполнен с возможностью генерации первого декоррелированного сигнала на основании реверберации или задержки аудиосигнала. Контроллер может быть выполнен с возможностью генерации тестового декоррелированного сигнала также на основании реверберации или задержки аудиосигнала. Реверберация может быть осуществлена посредством задержки аудиосигнала и посредством объединения аудиосигнала и его варианта с задержкой, аналогично структуре фильтра с конечной импульсной характеристикой, причем реверберация может также быть реализована как фильтр с бесконечной импульсной характеристикой. Время задержки и/или количество задержек и объединений могут изменяться. Время задержки для задержки или реверберации аудиосигнала для тестового декоррелированного сигнала может быть меньше, чем время задержки, что, например, приводит к меньшим коэффициентам фильтра в фильтре задержки, для задержки или реверберации аудиосигнала для первого декоррелированного сигнала. Для предсказания воспринимаемой интенсивности декорреляции могут быть достаточными более низкая степень декорреляции и, следовательно, меньшее время задержки, так что посредством уменьшения времени задержки и/или коэффициентов фильтра могут быть уменьшены вычислительные затраты и/или вычислительная мощность.

Далее предпочтительные варианты осуществления настоящего изобретения описаны в связи с прилагаемыми чертежами, на которых:

фиг. 1 показывает схематическую блок-схему аппарата для улучшения аудиосигнала;

фиг. 2 показывает схематическую блок-схему другого аппарата для улучшения аудиосигнала;

фиг. 3 показывает пример таблицы, показывающей вычисление коэффициентов масштабирования (весовых коэффициентов) на основании уровня предсказанной воспринимаемой интенсивности декорреляции;

фиг. 4A показывает схематическую блок-схему последовательности операций части способа, которая может быть выполнена для частичного определения весовых коэффициентов;

фиг. 4B показывает схематическую блок-схему последовательности операций дополнительных этапов способа с фиг. 4A, изображающую случай, когда величину воспринимаемого уровня декорреляции сравнивают с пороговыми значениями;

фиг. 5 показывает схематическую блок-схему декоррелятора, который может быть выполнен с возможностью работы в качестве декоррелятора на фиг. 1;

фиг. 6A показывает схематическую диаграмму, содержащую спектр аудиосигнала, содержащего по меньшей мере одну переходную (кратковременную) часть сигнала;

фиг. 6B показывает схематический спектр аудиосигнала, содержащего тональный компонент;

фиг. 7A показывает схематическую таблицу, иллюстрирующую возможную переходную обработку, осуществляемую ступенью переходной обработки;

фиг. 7B показывает пример таблицы, которая иллюстрирует возможную тональную обработку, как она может быть выполнена ступенью тональной обработки.

Фиг. 8 показывает схематическую блок-схему системы улучшения звука, содержащей аппарат для улучшения аудиосигнала;

фиг. 9A показывает схематическую блок-схему обработки входного сигнала, соответствующую обработке основного/фонового сигнала.

Фиг. 9B иллюстрирует разделение входного сигнала на основной и фоновый сигнал;

фиг. 10 показывает схематическую блок-схему, а также аппарат, выполненный с возможностью применения спектральных весов к входному сигналу;

фиг. 11 показывает блок-схему последовательности операций способа улучшения аудиосигнала;

фиг. 12 иллюстрирует аппарат для определения величины воспринимаемого уровня реверберации/декорреляции в смешанном сигнале, содержащем компонент прямого сигнала или компонент необработанного сигнала и компонент сигнала реверберации;

фиг. 13A-C показывают реализации процессора моделирования громкости; и

фиг. 14 иллюстрирует реализацию процессора моделирования громкости, который уже был в некоторых аспектах рассмотрен по отношению к фиг. 12, 13A, 13B, 13C.

Одинаковые или эквивалентные элементы или элементы с одинаковой или эквивалентной функциональностью обозначены в нижеследующем описании одинаковыми или эквивалентными ссылочными позициями даже на различных фигурах.

В нижеследующем описании изложено множество подробностей для предоставления более полного объяснения вариантов осуществления настоящего изобретения. Тем не менее, специалистам в данной области техники будет ясно, что варианты осуществления настоящего изобретения могут быть осуществлены без этих конкретных подробностей. В других случаях хорошо известные структуры и устройства показаны в форме блок-схемы, а не подробно, для того чтобы избежать затруднения понимания вариантов осуществления настоящего изобретения. Кроме того, признаки различных вариантов осуществления, описанных ниже в данном документе, могут быть объединены друг с другом, если специально не оговорено иное.

Далее будет рассмотрена обработка аудиосигнала. Аппарат или его компонент могут быть выполнены с возможностью приема, предоставления и/или обработки аудиосигнала. Соответствующий аудиосигнал может быть принят, предоставлен или обработан во временной области и/или в частотной области. Представление аудиосигнала во временной области может быть преобразовано в частотное представление аудиосигнала, например посредством преобразований Фурье или тому подобного. Частотное представление может быть получено, например, посредством использования кратковременного преобразования Фурье (STFT), дискретного косинусного преобразования и/или быстрого преобразования Фурье (FFT). В качестве альтернативы или дополнения, частотное представление может быть получено с помощью банка фильтров, который может содержать квадратурные зеркальные фильтры (QMF). Представление аудиосигнала в частотной области может содержать множество кадров, причем каждый содержит множество подполос, что известно из преобразований Фурье. Каждая подполоса содержит часть аудиосигнала. Поскольку временное представление и частотное представление аудиосигнала могут быть преобразованы друг в друга, нижеследующее описание не будет ограничено аудиосигналом в представлении во временной области или в представлении в частотной области.

Фиг. 1 показывает схематическую блок-схему аппарата 10 для улучшения аудиосигнала 102. Аудиосигнал 102 представляет собой, например, моносигнал или моноподобный сигнал, такой как двойной моносигнал, представленный в частотной области или во временной области. Аппарат 10 содержит процессор 110 сигналов, декоррелятор 120, контроллер 130 и объединитель 140. Процессор 110 сигналов выполнен с возможностью приема аудиосигнала 102 и обработки аудиосигнала 102 для получения обработанного сигнала 112, для того чтобы уменьшать или удалять переходные и тональные части обработанного сигнала 112 по сравнению с аудиосигналом 102.

Декоррелятор 120 выполнен с возможностью приема обработанного сигнала 112 и генерации первого декоррелированного сигнала 122 и второго декоррелированного сигнала 124 из обработанного сигнала 112. Декоррелятор 120 может быть выполнен с возможностью генерации первого декоррелированного сигнала 122 и второго декоррелированного сигнала 124 посредством, по меньшей мере частично, реверберации обработанного сигнала 112. Первый декоррелированный сигнал 122 и второй декоррелированный сигнал 124 могут иметь различные времена задержки для реверберации, так что первый декоррелированный сигнал 122 имеет меньшее или большее время задержки (время реверберации), чем второй декоррелированный сигнал 124. Первый или второй декоррелированный сигнал 122 или 124 могут также быть обработаны без фильтра задержки или реверберации.

Декоррелятор 120 выполнен с возможностью предоставления первого декоррелированного сигнала 122 и второго декоррелированного сигнала 124 на объединитель 140. Контроллер 130 выполнен с возможностью приема аудиосигнала 102 и управления изменяющимися во времени весовыми коэффициентами a и b посредством анализа аудиосигнала 102 таким образом, что различные части аудиосигнала 102 умножают на различные весовые коэффициенты a или b. Поэтому контроллер 130 содержит блок 132 управления, выполненный с возможностью определения весовых коэффициентов a и b. Контроллер 130 может быть выполнен с возможностью работы в частотной области. Блок 132 управления может быть выполнен с возможностью преобразования аудиосигнала 102 в частотную область посредством использования кратковременного преобразования Фурье (STFT), быстрого преобразования Фурье (FFT) и/или обычного преобразования Фурье (FT). Представление аудиосигнала 102 в частотной области может содержать множество подполос, как известно из преобразований Фурье. Каждая подполоса содержит часть аудиосигнала. В качестве альтернативы, аудиосигнал 102 может представлять собой представление сигнала в частотной области. Блок 132 управления может быть выполнен с возможностью управления и/или определения пары весовых коэффициентов a и b для каждой подполосы цифрового представления аудиосигнала.

Объединитель выполнен с возможностью взвешенного объединения первого декоррелированного сигнала 122, второго декоррелированного сигнала 124, сигнала 136, получаемого из аудиосигнала 102, с использованием весовых коэффициентов a и b. Сигнал 136, получаемый из аудиосигнала 102, может быть предоставлен контроллером 130. Поэтому контроллер 130 может содержать необязательный блок 134 получения. Блок 134 получения может быть выполнен с возможностью, например, адаптации, модификации или улучшения частей аудиосигнала 102. В частности, блок 110 получения может быть выполнен с возможностью усиления частей аудиосигнала 102, которые ослаблены, уменьшены или удалены процессором 110 сигналов.

Процессор 110 сигналов может быть также выполнен с возможностью работы в частотной области и обработки аудиосигнала 102 таким образом, что процессор 110 сигналов уменьшает или удаляет переходные и тональные части для каждой подполосы спектра аудиосигнала 102. Это может приводить к меньшей обработке или даже отсутствию обработки для подполос, содержащих мало или не содержащих переходных или содержащих мало или не содержащих тональных (то есть шумовых) частей. В качестве альтернативы, объединитель 140 может вместо получаемого сигнала принимать аудиосигнал 102, то есть контроллер 130 может быть реализован без блока 134 получения. Тогда сигнал 136 может быть равен аудиосигналу 102.

Также объединитель 140 выполнен с возможностью приема сигнала 138 взвешивания, содержащего весовые коэффициенты a и b. Объединитель 140 дополнительно выполнен с возможностью получения выходного аудиосигнала 142, содержащего первый канал y₁ и второй канал y₂, то есть аудиосигнал 142 представляет собой двухканальный аудиосигнал.

Процессор 110 сигналов, декоррелятор 120, контроллер 130 и объединитель 140 могут быть выполнены с возможностью обработки аудиосигнала 102, сигнала 136, получаемого из него, и/или обработанных сигналов 112, 122 и/или 124 по кадрам и по подполосам таким образом, что процессор 110 сигналов, декоррелятор 120, контроллер 130 и объединитель 140 могут быть выполнены с возможностью выполнения вышеописанных операций для каждой полосы частот посредством обработки одной или нескольких полос частот (частей сигнала) в один момент времени.

Фиг. 2 показывает схематическую блок-схему аппарата 200 для улучшения аудиосигнала 102. Аппарат 200 содержит процессор 210 сигналов, декоррелятор 120, контроллер 230 и объединитель 240. Декоррелятор 120 выполнен с возможностью генерации первого декоррелированного сигнала 122, обозначенного r1, и второго декоррелированного сигнала 124, обозначенного r2.

Процессор 210 сигналов содержит ступень 211 обработки переходных частей, ступень 213 обработки тональных частей и объединяющую ступень 215. Процессор 210 сигналов выполнен с возможностью обработки представления аудиосигнала 102 в частотной области. Представление аудиосигнала 102 в частотной области содержит множество подполос (полос частот), причем ступень 211 обработки переходных частей и ступень 213 обработки тональных частей выполнены с возможностью обработки каждой из полос частот. В качестве альтернативы, спектр, полученный посредством преобразования частоты аудиосигнала 102, может быть уменьшен, то есть обрезан, для исключения из дальнейшей обработки некоторых диапазонов частот или полос частот, таких как полосы частот ниже 20 Гц, 50 Гц или 100 Гц и/или выше 16 кГц, 18 кГц или 22 кГц. Это может позволить снизить вычислительные затраты и, следовательно, получить более быструю и/или более точную обработку.

Ступень 211 переходной обработки выполнена с возможностью определения для каждой из обработанных полос частот, содержит ли данная полоса частот переходные части. Ступень 213 тональной обработки выполнена с возможностью определения для каждой из полос частот, содержит ли аудиосигнал 102 тональные части в данной полосе частот. Ступень 211 переходной обработки выполнена с возможностью определения по меньшей мере для полос частот, содержащих переходные части, спектральных весовых коэффициентов 217, причем спектральные весовые коэффициенты 217 связаны с соответствующей полосой частот. Как будет показано на фиг. 6A и 6B, переходные и тональные характеристики могут быть идентифицированы с помощью спектральной обработки. Уровень переходности и/или тональности может быть измерен с помощью ступени 211 переходной обработки и/или ступени 213 тонально обработки и преобразован в спектральный вес. Ступень 213 тональной обработки выполнена с возможностью определения спектральных весовых коэффициентов 219 по меньшей мере для полос частот, содержащих тональные части. Спектральные весовые коэффициенты 217 и 219 могут иметь множество возможных значений, причем величина спектральных весовых коэффициентов 217 и/или 219 указывает на количество переходных и/или тональных частей в полосе частот.

Спектральные весовые коэффициенты 217 и 219 могут иметь абсолютное или относительное значение. Например, абсолютное значение может иметь значение энергии переходного и/или тонального звука в полосе частот. В качестве альтернативы, спектральные весовые коэффициенты 217 и/или 219 могут иметь относительное значение, такое как значение между 0 и 1, причем значение 0 указывает на то, что полоса частот не содержит или почти не содержит переходных или тональных частей, и значение 1 указывает на то, что полоса частот содержит большое количество или полностью состоит из переходных и/или тональных частей. Спектральные весовые коэффициенты могут иметь одно из множества значений, таких как число, равное 3, 5, 10, или больше значений (шагов), например (0, 0,3 и 1), (0,1, 0,2,..., 1) или тому подобное. Размер шкалы, число шагов между минимальным значением и максимальным значением, может составлять по меньшей мере нуль, но, предпочтительно, по меньшей мере один и больше, предпочтительно по меньшей мере пять. Предпочтительно, множество значений спектральных весов 217 и 219 содержит по меньшей мере три значения, включая минимальное значение, максимальное значение и значение, которое лежит между минимальным значением и максимальным значением. Большее число значений между минимальным значением и максимальным значением может обеспечивать более непрерывное взвешивание каждой из полос частот. Минимальное значение и максимальное значение могут быть приведены к масштабу между 0 и 1 или другим значениям. Максимальное значение может указывать на самый высокий или самый низкий уровень переходности и/или тональности.

Объединяющая ступень 215 выполнена с возможностью объединения спектральных весов для каждой из полос частот, как описано далее. Процессор 210 сигналов выполнен с возможностью применения объединенных спектральных весов к каждой из полос частот. Например, спектральные веса 217 и/или 219 или значение, получаемое из них, могут быть умножены на спектральные значения аудиосигнала 102 в обработанной полосе частот.

Контроллер 230 выполнен с возможностью приема спектральных весовых коэффициентов 217 и 219 или информации, ссылающейся на них, от процессора 210 сигналов. Получаемая информация может представлять собой, например, индексный номер таблицы, причем индексный номер связан со спектральными весовыми коэффициентами. Контроллер выполнен с возможностью улучшения аудиосигнала 102 для когерентных частей сигнала, то есть для частей, не уменьшенных или удаленных или только частично уменьшенных или удаленных ступенью 211 переходной обработки и/или ступенью 213 тональной обработки. Проще говоря, блок 234 получения может усиливать части, не уменьшенные или удаленные процессором 210 сигналов.

Блок 234 получения выполнен с возможностью предоставления сигнала 236, получаемого из аудиосигнала 102, обозначенного z. Объединитель 240 выполнен с возможностью приема сигнала z (236). Декоррелятор 120 выполнен с возможностью приема обработанного сигнала 212, обозначенного s, от процессора 210 сигналов.

Объединитель 240 выполнен с возможностью объединения декоррелированных сигналов r1 и r2 с весовыми коэффициентами (коэффициентами масштабирования) a и b для получения сигнал y1 первого канала и сигнал y2 второго канала. Сигнальные каналы y1 и y2 могут быть объединены с выходным сигналом 242 или выводиться по-отдельности.

Другими словами, выходной сигнал 242 представляет собой комбинацию (как правило) коррелированного сигнала z (236) и декоррелированного сигнала s (r1 или r2, соответственно). Декоррелированный сигнал получают в два этапа, первый - подавление (уменьшение или удаление) переходных и тональных компонентов сигнала, а второй - декорреляцию. Подавление переходных компонентов сигнала и тональных компонентов сигнала осуществляют посредством спектрального взвешивания. Сигнал обрабатывают по кадрам в частотной области. Спектральные веса вычисляют для каждого частотного элемента (полосы частот) и временного кадра. Таким образом, аудиосигнал представляет собой полную обработанную полосу, то есть обработаны все части, которые должны быть рассмотрены.

Входной сигнал обработки может представлять собой одноканальный сигнал x (102), выходной сигнал может представлять собой двухканальный сигнал y=[y1,y2], где индексы обозначают первый и второй канал, например левый и правый канал стереосигнала. Выходной сигнал y может быть вычислен с помощью линейного объединения двухканального сигнала r=[r1,r2] с одноканальным сигналом z с коэффициентами масштабирования a и b в соответствии с уравнениями

y1=a x z+b x r1 (1)

y2=a x z+b x r2 (2)

где "x" обозначает оператор умножения в уравнениях (1) и (2).

Уравнения (1) и (2) следует интерпретировать качественно, они указывают, что долей сигналов z, r1 и r2 можно управлять (изменять ее) с помощью изменяющихся весовых коэффициентов. Посредством формирования, например, обратных операций, таких как деление на обратное значение, те же или эквивалентные результаты могут быть получены с помощью осуществления других операций. В качестве альтернативы или дополнения, для получения двухканального сигнала y можно использовать справочную таблицу, содержащую коэффициенты масштабирования a и b и/или значения для y1 и/или y2.

Коэффициенты масштабирования a и/или b могут быть вычислены как монотонно убывающие с возрастанием воспринимаемой интенсивности корреляции. Предсказанное скалярное значение для воспринимаемой интенсивности можно использовать для управления коэффициентами масштабирования.

Декоррелированный сигнал r, содержащий r1 и r2, может быть вычислен в два этапа. Во-первых, ослабление переходных и тональных компонентов сигнала дает сигнал s. Во-вторых, может быть осуществлена декорреляция сигнала s.

Ослабление переходных компонентов сигнала и тональных компонентов сигнала осуществляют, например, посредством спектрального взвешивания. Сигнал обрабатывают по кадрам в частотной области. Для каждого частотного элемента и временного кадра вычисляют спектральные веса. Ослабление преследует двойную цель:

1. Переходные или тональные компоненты сигнала, как правило, принадлежат к так называемым основным сигналам, и при этом их положение в стереофоническом образе часто находится в центре.

2. Декорреляция сигналов, имеющих сильные переходные компоненты сигнала, приводит к воспринимаемым артефактам. Декорреляция сигналов, имеющих сильные тональные компоненты сигнала, также приводит к воспринимаемым артефактам, когда тональные компоненты (то есть синусоиды) модулированы по частоте, по меньшей мере когда частотная модуляция достаточно медленна для того, чтобы она воспринималась как изменение частоты, а не как изменение тембра из-за обогащения спектра сигнала (возможно негармоническими) обертонами.

Коррелированный сигнал z может быть получен посредством применения обработки, которая улучшает переходные и тональные компоненты сигнала, например, качественно, обратного преобразования подавления для вычисления сигнала s. В качестве альтернативы, входной сигнал, например необработанный, можно использовать, как есть. Следует отметить, что может иметь место случай, когда z также представляет собой двухканальный сигнал. Фактически, многие среды для хранения (например, компакт-диск) используют два канала, даже если сигнал является монофоническим. Сигнал, имеющий два идентичных канала, называется "двойным моно". Также может иметь место случай, когда входной сигнал z представляет собой стереосигнал, и целью обработки может быть повышение стереофонического эффекта.

Воспринимаемая интенсивность декорреляции может быть предсказана аналогично предсказанной воспринимаемой интенсивности поздней реверберации с использованием вычислительных моделей громкости, как описано в EP 2541542 A1.

Фиг. 3 показывает пример таблицы, показывающей вычисление коэффициентов масштабирования (весовых коэффициентов) a и b на основании уровня предсказанной воспринимаемой интенсивности декорреляции.

Например, воспринимаемая интенсивность декорреляции может быть предсказана таким образом, что ее значение имеет скалярное значение, которое может изменяться между значением, равным 0, указывающим на низкий уровень воспринимаемой декорреляции, нулевой, соответственно, и значением, равным 10, указывающим на высокий уровень декорреляции. Уровни могут быть определены, например, на основании тестирования слушателей или предиктивного моделирования. В качестве альтернативы, значение уровня декорреляции может содержать диапазон между минимальным значением и максимальным значением. Значение воспринимаемого уровня декорреляции может иметь возможность принимать более чем минимальное и максимальное значение. Предпочтительно, воспринимаемый уровень корреляции может принимать по меньшей мере три различных значения и, более предпочтительно, по меньшей мере семь различных значений.

Весовые коэффициенты a и b, которые должны применяться на основании определенного уровня воспринимаемой декорреляции, могут быть сохранены в памяти и доступны для контроллера 130 или 230. При повышении уровней воспринимаемой декорреляции коэффициент масштабирования a, который должен быть умножен на аудиосигнал или сигнал, получаемый из него с помощью объединителя, также может возрастать. Повышение уровня воспринимаемой декорреляции можно интерпретировать как "сигнал уже (частично) декоррелирован", так что при повышении уровней декорреляции аудиосигнал или сигнал, получаемый из него, имеет более высокую долю в выходном сигнале 142 или 242. При повышении уровней декорреляции весовой коэффициент b имеет возможность уменьшения, то есть сигналы r1 и r2, генерируемые декоррелятором на основании выходного сигнала процессора сигналов, могут иметь более низкую долю при объединении в объединителе 140 или 240.

Хотя весовой коэффициент a изображен имеющим скалярное значение, равное самое меньшее 1 (минимальное значение) и самое большее 9 (максимальное значение). Хотя весовой коэффициент b изображен имеющим скалярное значение в диапазоне, содержащем минимальное значение, равное 2, и максимальное значение, равное 8, оба весовых коэффициента a и b могут иметь значение в пределах диапазона, содержащего минимальное значение и максимальное значение и, предпочтительно, по меньшей мере одно значение между минимальным значением и максимальным значением. В качестве альтернативы значениям весовых коэффициентов a и b, изображенным на фиг. 3, и при повышении уровня воспринимаемой декорреляции весовой коэффициент a может возрастать линейно. В качестве альтернативы или дополнения, весовой коэффициент b может уменьшаться линейно при повышении уровня воспринимаемой декорреляции. Кроме того, для уровня воспринимаемой декорреляции сумма весовых коэффициентов a и b, определенная для кадра, может быть постоянной или почти постоянной. Например, весовой коэффициент a может возрастать от 0 до 10, а весовой коэффициент b может уменьшаться от значения, равного 10, до значения, равного 0, при повышении уровня воспринимаемой декорреляции. Если оба весовых коэффициента уменьшаются или возрастают линейно, например с шагом 1, сумма весовых коэффициентов a и b может иметь значение, равное 10, для каждого уровня воспринимаемой декорреляции. Весовые коэффициенты a и b, которые должны быть применены, могут быть определены с помощью моделирования или с помощью эксперимента.

Фиг. 4A показывает схематическую структурную схему части способа 400, которая может быть выполнена, например, контроллером 130 и/или 230. Контроллер выполнен с возможностью определения величины воспринимаемого уровня декорреляции на этапе 410, что дает, например, скалярное значение, как изображено на фиг. 3. Контроллер выполнен с возможностью сравнения определенной величины с пороговым значением на этапе 420. Контроллер выполнен с возможностью модификации или адаптации весовых коэффициентов a и/или b на этапе 430, если величина больше, чем пороговое значение. Контроллер выполнен с возможностью уменьшения весового коэффициента b, увеличения весового коэффициента a или уменьшения весового коэффициента b и увеличения весового коэффициента a по отношению к начальному значению a и b на этапе 430. Порог может изменяться, например, в полосах частот аудиосигнала. Например, порог может иметь низкое значение для полос частот, содержащих выделяющийся сигнал источника звука, что указывает на то, что низкий уровень декорреляции является предпочтительным или желательным. В качестве альтернативы или дополнения, порог может иметь высокое значение для полос частот, содержащих невыделяющийся сигнал источника звука, что указывает на то, что высокий уровень декорреляции является предпочтительным.

Может быть желательным повышение корреляции полос частот, содержащих невыделяющиеся сигналы источника звука и ограничение декорреляции для полос частот, содержащих выделяющиеся сигналы источника звука. Порог может составлять, например, 20%, 50% или 70% от диапазона значений, которые могут принимать весовые коэффициенты a и/или b. Например, и со ссылкой на фиг. 3, пороговое значение может быть меньше чем 7, меньше чем 5 или меньше чем 3 для частотного кадра, содержащего выделяющийся сигнал источника звука. Если воспринимаемый уровень декорреляции слишком высок, то, посредством выполнения этапа 430, воспринимаемый уровень декорреляции может быть снижен. Весовые коэффициенты a и b могут в один момент времени изменяться по-отдельности или вместе. Таблица, изображенная на фиг. 3 может представлять собой, например, значение, содержащее исходные значения для весовых коэффициентов a и/или b, причем данные исходные значения должны быть адаптированы контроллером.

Фиг. 4B показывает схематическую блок-схему последовательности операций дальнейших этапов способа 400, изображающую случай, когда величину воспринимаемого уровня декорреляции (определенную на этапе 410) сравнивают с пороговыми значениями, причем величина ниже, чем пороговое значение (этап 440). Контроллер выполнен с возможностью увеличения b, уменьшения a или увеличения b и уменьшения a по отношению к начальному значению для a и b для увеличения воспринимаемого уровня декорреляции и так, что величина имеет значение, которое составляет по меньшей мере пороговое значение.

В качестве альтернативы или дополнения, контроллер может быть выполнен с возможностью масштабирования весовых коэффициентов a и b таким образом, что воспринимаемый уровень декорреляции в двухканальном аудиосигнале остается в пределах диапазона около целевого значения. Целевое значение может представлять собой, например, пороговое значение, причем пороговое значение может изменяться на основании типа сигнала, содержащегося в полосе частот, для которой определяют весовые коэффициенты и/или спектральные веса. Диапазон около целевого значения может доходить до ±20%, ±10% или ±5% от целевого значения. Это может позволять прекращать адаптацию весовых коэффициентов, когда воспринимаемая декорреляция приблизительно равна целевому значению (порогу).

Фиг. 5 показывает схематическую блок-схему декоррелятора 520, который может быть выполнен с возможностью работы в качестве декоррелятора 120. Декоррелятор 520 содержит первый декоррелирующий фильтр 522 и второй декоррелирующий фильтр 524. Первый декоррелирующий фильтр 526 и второй декоррелирующий фильтр 528 выполнены с возможностью приема обработанного сигнала s (512), например от процессора сигналов. Декоррелятор 520 выполнен с возможностью объединения обработанного сигнала 512 и выходного сигнала 523 первого декоррелирующего фильтра 526 для получения первого декоррелированного сигнала 522 (r1) и объединения выходного сигнала 525 второго коррелирующего фильтра 528 для получения второго декоррелированного сигнала 524 (r2). Для объединения сигналов декоррелятор 520 может быть выполнен с возможностью свертки сигналов с импульсными характеристиками и/или умножения спектральных значений на действительные и/или мнимые значения. В качестве альтернативы или дополнения, могут быть выполнены другие операции, такие как деления, суммирования, вычитания или тому подобные.

Декоррелирующие фильтры 526 и 528 могут быть выполнены с возможностью реверберации или задержки обработанного сигнала 512. Декоррелирующие фильтры 526 и 528 могут содержать фильтр с конечной импульсной характеристикой (FIR) и/или с бесконечной импульсной характеристикой (IIR). Например, декоррелирующие фильтры 526 и 528 могут быть выполнены с возможностью свертки обработанного сигнала 512 с импульсной характеристикой, полученной от шумового сигнала, который спадает или экспоненциально спадает со временем и/или частотой. Это позволяет генерировать декоррелированный сигнал 523 и/или 525, который содержит реверберацию по отношению к сигналу 512. Время реверберации сигнала реверберации может иметь, например, значение между 50 и 1000 мс, между 80 и 500 мс и/или между 120 и 200 мс. Время реверберации можно понять как время, необходимое для снижения мощности реверберации до небольшого значения после ее возбуждения с помощью импульса, например для снижения на 60 дБ ниже исходной мощности. Предпочтительно, декоррелирующие фильтры 526 и 528 содержат IIR-фильтры. Это позволяет уменьшать количество вычислений, когда по меньшей мере некоторые из коэффициентов фильтра установлены равными нулю, так что вычисления для такого (нулевого) коэффициента фильтра могут быть опущены. Необязательно, декоррелирующий фильтр может содержать больше одного фильтра, причем фильтры соединяют последовательно и/или параллельно.

Другими словами, реверберация имеет декоррелирующий эффект. Декоррелятор может быть выполнен не только с возможностью декорреляции, но также и только небольшого изменения звучности. С технической точки зрения реверберацию можно рассматривать как линейную стационарную (LTI) систему, которую можно охарактеризовать по ее импульсной характеристике. Длину импульсной характеристики для реверберации часто выражают в виде RT60. Это время, после которого импульсная характеристика уменьшается на 60 дБ. Реверберация может иметь продолжительность вплоть до одной секунды или даже вплоть до нескольких секунд. Может быть реализован декоррелятор, содержащий аналогичную реверберации структуру, но имеющий другие значения параметров, которые влияют на длину импульсной характеристики.

Фиг. 6A показывает схематическую диаграмму, содержащую спектр аудиосигнала 602a, содержащий по меньшей мере одну переходную (кратковременную) часть сигнала. Переходная часть сигнала приводит к широкополосному спектру. Спектр изображен в виде величин S(f) в зависимости от частот f, причем спектр разделен на множество полос b1-3 частот. Переходная часть сигнала может быть определена в одной или нескольких из полос частот в b1-3.

Фиг. 6B показывает схематический спектр аудиосигнала 602b, содержащего тональный компонент. Пример спектра изображен в виде семи полос fb1-7 частот. Полоса fb4 частот расположена в центре полос fb1-7 частот и содержит максимальную величину S(f) по сравнению с другими полосами fb1-3 и fb5-7 частот. Полосы частот при возрастании расстояния по отношению к центральной частоте (полоса fb5 частот) содержат гармонические повторы тонального сигнала с уменьшающимися величинами. Процессор сигналов может быть выполнен с возможностью определения тонального компонента, например посредством оценки величины S(f). Повышение величины S(f) тонального компонента может быть введено процессором сигналов посредством уменьшения спектральных весовых коэффициентов. Таким образом, чем выше доля переходных и/или тональных компонентов в полосе частот, тем меньший вклад данная полоса частот может вносить в обработанный сигнал процессора сигналов. Например, спектральный вес для полос fb4 частот может иметь значение, равное нулю или близкое к нулю, или другое значение, указывающее на то, что полоса fb4 частот учитывается с низкой долей.

Фиг. 7A показывает схематическую таблицу, иллюстрирующую возможную переходную обработку 211, осуществляемую процессором сигналов, таким как процессор 110 и/или 210 сигналов. Процессор сигналов выполнен с возможностью определения количества, например доли, переходных компонентов в каждой из полос частот рассматриваемого представления аудиосигнала в частотной области. Оценка может содержать определение количества переходных компонентов со стартовым значением, составляющим не менее, чем минимальное значение (например, 1), и не более, чем максимальное значение (например, 15), причем более высокое значение может указывать на более высокое количество переходных компонентов в полосе частот. Чем выше количество переходных компонентов в полосе частот, тем ниже может быть соответствующий спектральный вес, например спектральный вес 217. Например, спектральный вес может иметь значение, равное не менее, чем минимальному значению, такому как 0, и не более, чем максимальному значению, такому как 1. Спектральный вес может иметь множество значений между минимальным и максимальным значением, причем спектральный вес может указывать на коэффициент учета и/или коэффициент учета полосы частот для последующей обработки. Например, спектральный вес, равный 0, может указывать, что полоса частот должна быть полностью удалена. В качестве альтернативы, также могут быть реализованы другие диапазоны масштабирования, то есть таблица, изображенная на фиг. 7A, может быть пересчитана и/или преобразована в таблицы с другими величинами шага по отношению к оценке полосы частот, являющейся переходной полосой частот, и/или величины шага спектрального веса. Спектральный вес может изменяться даже непрерывно.

Фиг. 7B показывает пример таблицы, которая иллюстрирует возможную тональную обработку, как она может быть выполнена, например, ступенью 213 тональной обработки. Чем выше количество тональных компонентов в полосе частот, тем ниже может быть соответствующий спектральный вес 219. Например, количество тональных компонентов в полосе частот может быть приведено к масштабу между минимальным значением, равным 1, и максимальным значением, равным 8, причем минимальное значение указывает на то, что полоса частот не содержит или почти не содержит тональных компонентов. Максимальное значение может указывать на то, что полоса частот содержит большое количество тональных компонентов. Соответствующий спектральный вес, такой как спектральный вес 219, может также иметь минимальное значение и максимальное значение. Минимальное значение, например, 0,1, может указывать на то, что полоса частот ослаблена почти полностью или полностью. Максимальное значение может указывать на то, что полоса частот почти не была ослаблена или полностью не была ослаблена. Спектральный вес 219 может принимать одно из множеств значений, включая минимальное значение, максимальное значение и, предпочтительно, по меньшей мере одно значение между минимальным значением и максимальным значением. В качестве альтернативы, спектральный вес может уменьшаться для сниженной доли тональных полос частот, так что спектральный вес представляет собой коэффициент учета.

Процессор сигналов может быть выполнен с возможностью объединения спектрального веса для переходной обработки и/или спектрального веса для тональной обработки с спектральными значениями полосы частот, как описано для процессора 210 сигналов. Например, для обработанной полосы частот среднее значение спектрального веса 217 и/или 219 может быть определено объединяющей ступенью 215. Спектральные веса полосы частот могут быть объединены, например перемножены, со спектральными значениями аудиосигнала 102. В качестве альтернативы, объединяющая ступень может быть выполнена с возможностью сравнения обоих спектральных весов 217 и 219 и/или выбора более низкого или более высокого спектрального веса из них обоих и объединения выбранного спектрального веса со спектральными значениями. В качестве альтернативы, спектральные веса могут быть объединены другим образом, например в виде суммы, в виде разности, в виде частного или в виде множителя.

Характеристика аудиосигнала может изменяться с течением времени. Например, сигнал радиовещания может вначале содержать речевой сигнал (выделяющийся сигнал источника звука), а после него музыкальный сигнал (невыделяющийся сигнал источника звука) или наоборот. Кроме того, могут иметь место изменения в пределах речевого сигнала и/или музыкального сигнала. Это может приводить к быстрым изменениям спектральных весов и/или весовых коэффициентов. Процессор сигналов и/или контроллер могут быть выполнены с возможностью дополнительной адаптации спектральных весов и/или весовых коэффициентов для уменьшения или для ограничения изменений между двумя кадрами, например посредством ограничения максимальной величины шага между двумя кадрами сигнала. Один или несколько кадров аудиосигнала могут быть суммированы за период времени, причем процессор сигналов и/или контроллер может быть выполнен с возможностью сравнения спектральных весов и/или весовых коэффициентов предшествующего периода времени, например одного или нескольких предшествующих кадров, и определения, превышает ли разность спектральных весов и/или весовых коэффициентов, определенная для текущего периода времени, пороговое значение. Пороговое значение может представлять собой, например, значение, которое приводит к неприятным эффектам для слушателя. Процессор сигналов и/или контроллер могут быть выполнены с возможностью ограничения изменений таким образом, что такие неприятные эффекты оказываются уменьшены или предотвращены. В качестве альтернативы, для сравнения спектральных весов и/или весовых коэффициентов предшествующего и текущего периода времени вместо разности могут быть определены также другие математические выражения, такие как отношение.

Другими словами, каждой полосе частот присваивают признак, содержащий величину тональных и/или переходных характеристик.

Фиг. 8 показывает схематическую блок-схему системы улучшения звука 800, содержащей аппарат 801 для улучшения аудиосигнала 102. Система улучшения звука 800 содержит сигнальный вход 106, выполненный с возможностью приема аудиосигнала и предоставления аудиосигнала на аппарат 801. Система улучшения звука 800 содержит два громкоговорителя 808a и 808b. Громкоговоритель 808a выполнен с возможностью приема сигнала y1. Громкоговоритель 808b выполнен с возможностью приема сигнала y2, так что посредством громкоговорителей 808a и 808b сигналы y1 и y2 могут быть переведены в звуковые волны или сигналы. Сигнальный вход 106 может представлять собой проводной или беспроводной сигнальный вход, такой как радиоантенна. Аппарат 801 может представлять собой, например, аппарат 100 и/или 200.

Коррелированный сигнал z получают посредством применения обработки, которая улучшает переходные и тональные компоненты (качественно обратно подавлению для вычисления сигнала s). Объединение, осуществляемое объединителем, может быть линейно выражено как y (y1/y2)=коэффициент масштабирования 1⋅z+коэффициент масштабирования 2⋅коэффициент масштабирования (r1/r2). Коэффициенты масштабирования могут быть получены посредством предсказания воспринимаемой интенсивности декорреляции.

В качестве альтернативы, сигналы y1 и/или y2 могут быть дополнительно обработаны до приема громкоговорителем 808a и/или 808b. Например, сигналы y1 и/или y2 могут быть усилены, выравнены или тому подобное таким образом, что на громкоговорители 808a и/или 808b передаются сигнал или сигналы, получаемые посредством обработки сигнала y1 и/или y2.

Искусственная реверберация, добавленная к аудиосигналу, может быть реализована таким образом, что уровень реверберации является слышимым, но не слишком громким (интенсивным). Уровни, которые являются слышимыми или неприятными, могут быть определены при тестировании и/или моделировании. Уровень, который слишком высок, звучит нехорошо, поскольку страдает ясность, ударные звуки соединяются во времени и так далее. Целевой уровень может зависеть от входного сигнала. Если входной сигнал содержит малое количество переходов и содержит малое количество тонов с частотными модуляциями, то реверберация слышна в меньшей степени, и уровень может быть увеличен. Аналогичный подход применяют к декорреляции, поскольку декоррелятор может иметь аналогичный принцип действия. Таким образом, оптимальная интенсивность декоррелятора может зависеть от входного сигнала. Вычисление может быть таким же с измененными параметрами. Декорреляция, выполняемая в процессоре сигналов и в контроллере, может быть осуществлена с помощью двух декорреляторов, которые могут быть одинаковы по структуре, но работать с различными наборами параметров. Процессоры декорреляции не ограничены двухканальными стереосигналами, но могут также применяться к каналам с более чем двумя сигналами. Декорреляция может быть определена количественно с помощью метрик корреляции, которые могут содержать вплоть до всех значений для декорреляции всех пар сигналов.

Результатом способа настоящего изобретения является генерация пространственных характеристик и введение пространственных характеристик в сигнал таким образом, что обработанный сигнал создает ощущение стереофонического сигнала. Обработка может быть рассмотрена как разработанная в соответствии со следующими критериями:

1. Источники прямого звука, которые имеют высокую интенсивность (или уровень громкости), локализованы в центре. Они представляют собой источники выделяющегося прямого звука, такими как певец или громкий инструмент в музыкальной записи.

2. Окружающие звуки воспринимаются как диффузные.

3. Диффузность добавляют к источникам прямого звука, имеющим низкую интенсивность (то есть, низкие уровни громкости), возможно в меньшей степени, чем к окружающим звукам.

4. Обработка должна звучать естественно и не должна вводить артефакты.

Критерии разработки согласуются с общепринятой практикой в производстве аудиозаписей и с характеристиками сигналов стереофонических сигналов:

1. Выделяющиеся прямые звуки, как правило, подают в центр, то есть их смешивают с незначительными ICLD и ICTD. Эти сигналы демонстрируют высокую когерентность.

2. Окружающие звуки демонстрируют низкую когерентность.

3. При записи в реверберирующей окружающей среде нескольких прямых источников, например оперных певцов с сопровождающим оркестром, величина диффузности каждого прямого звука связана с его расстоянием до микрофонов, поскольку отношение между прямым сигналом и реверберацией уменьшается, когда увеличивается расстояние до микрофона. Поэтому, звуки, которые захватываются с низкой интенсивностью, являются, как правило, менее когерентными (или наоборот, более диффузными), чем выделяющиеся прямые звуки.

Обработка генерирует пространственную информацию посредством декорреляции. Другими словами, ICC входных сигналов уменьшается. Только в крайних случаях декорреляция приводит к полностью некоррелированным сигналам. Как правило, достигается и является желательной частичная декорреляция. Обработка не управляет направленными характеристиками (то есть ICLD и ICTD). Причиной данного ограничения является то, что не доступна информация о первоначальном или предполагаемом положении источников прямого звука.

В соответствии с вышеуказанными критериями разработки декорреляцию выборочно применяют к компонентам сигнала в смешанном сигнале таким образом, что:

1. Декорреляцию не применяют или мало применяют к компонентам сигнала, рассмотренным в критерии разработки 1.

2. Декорреляцию применяют к компонентам сигнала, рассмотренным в критерии разработки 2. Эта декорреляция вносит большой вклад в воспринимаемую ширину смешанного сигнала, который получают на выходе обработки.

Декорреляцию применяют к компонентам сигнала, рассмотренным в критерии разработки 3, но в меньшей степени, чем к компонентам сигнала, рассмотренным в критерии разработки 2.

Эту обработку иллюстрирует модель сигнала, которая представляет входной сигнал x как аддитивную смесь основного сигнала x_a и фонового сигнала x_b, то есть x=x_a+x_b. Основной сигнал содержит все компоненты сигнала, рассмотренные в критерии разработки 1. Фоновый сигнал содержит все компоненты сигнала, рассмотренные в критерии разработки 2. Все компоненты сигнала, рассмотренные в критерии разработки 3, не относятся исключительно к какому-либо одному из отдельных компонентов сигнала, но частично содержатся в основном сигнале и в фоновом сигнале.

Выходной сигнал y вычисляют как y=y_a+y_b, где y_b вычисляют посредством декорреляции x_b, а y_a=x_a или, в качестве альтернативы, y_a вычисляют посредством декорреляции x_a. Другими словами, фоновый сигнал обрабатывают посредством декорреляции, а основной сигнал не обрабатывают посредством декорреляции или обрабатывают посредством декорреляции, но в меньшей степени, чем фоновый сигнал. Фиг. 9B иллюстрирует такую обработку.

Такой подход не только отвечает рассмотренным выше критериям разработки. Дополнительным преимуществом является то, что основной сигнал может проявлять тенденцию к нежелательному окрашиванию при применении декорреляции, тогда как фоновый может быть декоррелирован без введения таких слышимых артефактов. Поэтому описанная обработка выдает лучшее качество звука по сравнению с обработкой, которая применяет декорреляцию одинаково ко всем компонентам сигнала в смеси.

До этого момента входной сигнал раскладывают на два сигнала, обозначенные как "основной сигнал" и "фоновый сигнал", которые по-отдельности обрабатывают и объединяют в выходной сигнал. Следует отметить, что возможны эквивалентные способы, которые следуют тому же принципу.

Разложение сигнала не обязательно является обработкой, которая выводит аудиосигналы, то есть сигналы, которые похожи по форме волны с течением времени. Вместо этого разложение сигнала может приводить к любому другому представлению сигнала, которое может быть использовано в качестве входа для декоррелирующей обработки и затем преобразовано в волновой сигнал. Примером такого представления сигнала является спектрограмма, которую вычисляют посредством кратковременного преобразование Фурье. В целом, обратимые и линейные преобразования приводят к соответствующим представлениям сигналов.

В качестве альтернативы, пространственные характеристики выборочно генерируют без предшествующего разложения сигнала посредством генерации стереофонической информации на основании входного сигнала x. Получаемую стереофоническую информацию взвешивают с изменяющимися во времени и частотно-избирательными значениями и объединяют с входным сигналом. Изменяющиеся во времени и частотно-избирательные весовые коэффициенты вычисляют таким образом, что они велики в частотно-временных областях, в которых доминирует фоновый сигнал, и малы в частотно-временных областях, в которых доминирует основной сигнал. Это может быть формализовано посредством количественного определения изменяющегося во времени и частотно-избирательного отношения фонового сигнала и основного сигнала. Весовые коэффициенты могут быть вычислены по отношению фонового и основного сигнала, например с помощью монотонно возрастающих функций.

В качестве альтернативы, предшествующее разложение сигнала может приводить к более чем двум разделенным сигналам.

Фиг. 9A и 9B иллюстрируют разделение входного сигнала на основной и фоновый сигнал, например посредством подавления (уменьшения или удаления) тональных переходных частей в одном из сигналов.

Упрощенную обработку получают при использовании предположения, что входной сигнал представляет собой аддитивную смесь основного сигнала и фонового сигнала. Это иллюстрирует фигура 9B. В данном случае разделение 1 обозначает разделение или основного сигнала или фонового сигнала. Если разделяют основной сигнал, выход 1 обозначает основной сигнал, а выход 2 представляет собой фоновый сигнал. Если разделяют фоновый сигнал, выход 1 обозначает фоновый сигнал, а выход 2 представляет собой основной сигнал.

Разработка и реализация способа разделения сигналов основаны на том открытии, что основные сигналы и фоновые сигналы имеют различные характеристики. Однако отклонения от идеального разделения, то есть утечка компонентов сигнала источников выделяющегося прямого звука в фоновый сигнал или утечка компонентов сигнала окружения в основной сигнал, являются приемлемыми и не обязательно ухудшают качество звука конечного результата.

Для временных характеристик в целом можно наблюдать, что временные огибающие сигналов подполос основных сигналов демонстрируют более сильные модуляции амплитуды, чем временные огибающие сигналов подполос фоновых сигналов. Напротив, фоновые сигналы, как правило, являются менее переходными (или ударными, то есть более длительными), чем основные сигналы.

Для спектральных характеристик в целом можно наблюдать, что основные сигналы могут быть более тональными. Напротив, фоновые сигналы, как правило, больше зашумлены, чем основные сигналы.

Для фазовых характеристик в целом можно наблюдать, что фазовая информация фоновых сигналов больше зашумлена, чем у основных сигналов. Фазовая информация для многих примеров основных сигналов совпадает во множестве полос частот.

Сигналы, демонстрирующие характеристики, которые аналогичны выделяющимся сигналам источника звука, с большей вероятностью представляют собой основные сигналы, чем фоновые сигналы. Выделяющиеся сигналы источника звука характеризуются переходами между тональными и шумовыми компонентами сигнала, причем тональные компоненты сигнала представляют собой изменяющиеся во времени отфильтрованные последовательности импульсов, основная частота которых сильно модулирована. Спектральная обработка может быть основана на данных характеристиках, разложение может быть реализовано посредством спектрального вычитания или спектрального взвешивания.

Спектральное вычитание осуществляют, например, в частотной области, где обрабатывают спектры коротких кадров последовательных (возможно, перекрывающихся) частей входного сигнала. Основной принцип заключается в вычитании оценки спектра величины мешающего сигнала из спектров величины входных сигналов, которые, как предполагается, представляют собой аддитивную смесь желаемого сигнала и мешающего сигнала. Для отделения основного сигнала желаемый сигнал представляет собой основной, а мешающий сигнал представляет собой фоновый сигнал. Для отделения фонового сигнала желаемый сигнал представляет собой фоновый, а мешающий сигнал представляет собой основной сигнал.

Спектральное взвешивание (или кратковременное спектральное ослабление) следует тому же принципу и ослабляет мешающий сигнал посредством пересчета представления входного сигнала. Входной сигнал x(t) преобразуют с использованием кратковременного преобразования Фурье (STFT), банка фильтров или любого другого средства для получения представления сигнала с несколькими полосами X(n,k) частот, где индекс полосы частот n, а индекс времени k. Представления входных сигналов в частотной области обрабатывают таким образом, что сигналы подполос пересчитываются с помощью изменяющихся во времени весов G(n,k),

(3)

Результатом операции Y(n,k) взвешивания является представление выходного сигнала в частотной области. Выходной временной сигнал y(t) вычисляют с использованием обработки, обратной преобразованию в частотную область, например обратного STFT. Фигура 10 иллюстрирует спектральное взвешивание.

Декорреляция обозначает обработку одного или нескольких идентичных входных сигналов таким образом, что получают несколько выходных сигналов, которые взаимно (частично или полностью) некоррелированы, но которые звучат аналогично входному сигналу. Корреляция между двумя сигналами может быть измерена с помощью коэффициента корреляции или нормализованного коэффициента корреляции. Нормализованный коэффициент корреляции NCC в полосах частот для двух сигналов X₁(n,k) и X₂(n,k) определяется как

(4)

где и представляют собой автоматические спектральные плотности мощности (PSD) первого и второго входного сигнала, соответственно, и представляет собой перекрестную PSD, задаваемую уравнением

(5)

где представляет собой операцию ожидания, и X* обозначает комплексно сопряженную величину для X.

Декорреляция может быть реализована посредством использования декоррелирующих фильтров или посредством управления фазой входных сигналов в частотной области. Примером декоррелирующих фильтров является универсальный фильтр, который по определению не меняет спектр величины входных сигналов, но только их фазу. Это приводит к нейтрально звучащим выходным сигналам в том смысле, что выходные сигналы звучат аналогично входным сигналам. Другим примером является реверберация, которую также можно моделировать как фильтр или линейную стационарную систему. Обычно декорреляцию можно получить посредством добавления нескольких копий с задержкой (и, возможно, фильтрованных) входного сигнала к входному сигналу. В математических терминах искусственная реверберация может быть реализована в виде свертки входного сигнала с импульсной характеристикой реверберирующей (или декоррелирующей) системы. Когда время задержки мало, например меньше чем 50 мс, копии сигнала с задержкой не воспринимаются как отдельные сигналы (эхо). Точное значение времени задержки, которое приводит к ощущению эха, представляет собой порог эха и зависит от спектральных и временных характеристик сигнала. Оно, например, меньше для импульсовидных звуков, чем для звука, огибающая которого медленно возрастает. Для рассматриваемой проблемы желательно использовать времена задержки, которые меньше, чем порог эха.

В общем случае, декорреляция обрабатывает входной сигнал, имеющий N каналов, и выводит сигнал, имеющий M каналов, таким образом, что сигналы каналов выхода взаимно некоррелированы (частично или полностью).

Во многих сценариях применения описанного способа подходящей является не постоянная обработка входного сигнала, но ее активация и управление ее воздействием на основании анализа входного сигнала. Примером является FM-широковещание, где описанный способ применяют, только когда нарушения передачи приводят к полной или частичной потере стереофонической информации. Другим примером является слушание коллекции музыкальных записей, в которой часть записей являются монофоническими, а другая часть представляет собой стереозаписи. Оба сценария характеризуются изменяющимся во времени количеством стереофонической информации в аудиосигналах. Это требует управления активацией и воздействием стереофонического улучшения, то есть управления алгоритмом.

Управление реализуют посредством анализа аудиосигналов, который оценивает пространственные характеристики (ICLD, ICTD и ICC, или их подмножество) аудиосигналов. Оценка может быть осуществлена частотно-избирательным образом. Выход оценки преобразуют в скалярное значение, которое управляет активацией или воздействием обработки. Анализ сигналов обрабатывает входной сигнал или, в качестве альтернативы, отделенный фоновый сигнал.

Простым способом управления воздействием обработки является уменьшение ее воздействия посредством добавления (возможно, пересчитанной) копии входного сигнала к (возможно, пересчитанному) выходному сигналу стереофонического улучшения. Плавные переходы управления получают с помощью низкочастотной фильтрации сигнала управления во времени.

Фиг. 9A показывает схематическую блок-схему обработки 900 входного сигнала 102 в соответствии с обработкой основного/фонового сигнала. Входной сигнал 102 разделяют таким образом, что может быть обработан основной сигнал 914. На этапе 916 осуществляют декорреляцию основного сигнала 914. Этап 916 является необязательным. В качестве альтернативы, основной сигнал 914 может оставаться необработанным, то есть не декоррелированным. На этапе 922 пути 920 обработки выделяют, то есть отфильтровывают, фоновый сигнал 924. На этапе 926 фоновый сигнал 924 декоррелируют. На этапе 904 декоррелированный основной сигнал 918 (в качестве альтернативы, основной сигнал 914) и декоррелированный фоновый сигнал 928 смешивают таким образом, что получают выходной сигнал 906. Другими словами, фиг. 9A показывает блок-схему стереофонического улучшения. Вычисляют основной сигнал и фоновый сигнал. Фоновый сигнал обрабатывают посредством декорреляции. Необязательно, основной сигнал может быть обработан посредством декорреляции, но в меньшей степени, чем фоновый сигнал. Обработанные сигналы объединяют в выходной сигнал.

Фиг. 9B иллюстрирует схематическую блок-схему обработки 900ʹ, содержащей этап 912ʹ разделения входного сигнала 102. Этап 912ʹ разделения может быть осуществлен, как описано выше. Основной сигнал (выходной сигнал 1) 914ʹ получают с помощью этапа 912ʹ разделения. Фоновый сигнал 928ʹ получают с помощью объединения основного сигнала 914ʹ, весовых коэффициентов a и/или b и входного сигнала 102 на этапе 926ʹ объединения. Фоновый сигнал (выходной сигнал 2) 928ʹ получают с помощью этапа 926ʹ объединения.

Фиг. 10 показывает схематическую блок-схему, а также аппарат 1000, выполненный с возможностью применения спектральных весов к входному сигналу 1002, который может представлять собой, например, входной сигнал 1002. Входной сигнал 1002 во временной области разделяют на подполосы X(1,k)... X(n,k) в частотной области. Банк фильтров 1004 выполнен с возможностью разделения входного сигнала 1002 на N подполос. Аппарат 1000 содержит N вычислительных экземпляров, выполненных с возможностью определения переходного спектрального веса и/или тонального спектрального веса G(1,k)... G(n,k) для каждой из N подполос в момент времени (кадр) k. Спектральные веса G(1,k)... G(n,k) объединяют с сигналом X(1,k)... X(n,k) подполос таким образом, что получают взвешенные сигналы Y(1,k)... Y(n,k) подполос. Аппарат 1000 содержит блок 1008 обратной обработки, выполненный с возможностью объединения взвешенных сигналов подполос для получения отфильтрованного выходного сигнала 1012, обозначенного Y(t), во временной области. Аппарат 1000 может быть частью процессора 110 или 210 сигналов. Другими словами, фиг. 10 иллюстрирует разложение входного сигнала на основной сигнал и фоновый сигнал.

Фиг. 11 показывает схематическую блок-схему последовательности операций способа 1100 улучшения аудиосигнала. Способ 1100 содержит первый этап 1110, на котором аудиосигнал обрабатывают, для того чтобы уменьшать или удалять переходные и тональные части обработанного сигнала. Способ 1100 содержит второй этап 1120, на котором генерируют первый декоррелированный сигнал и второй декоррелированный сигнал из обработанного сигнала. На этапе 1130 способа 1100 первый декоррелированный сигнал, второй декоррелированный сигнал и аудиосигнал или сигнал, получаемый из аудиосигнала посредством улучшения когерентности, взвешенным образом объединяют посредством использования изменяющихся во времени весовых коэффициентов для получения двухканального аудиосигнала. На этапе 1140 способа 1100 изменяющимися во времени весовыми коэффициентами управляют посредством анализа аудиосигнала таким образом, что различные части аудиосигнала умножают на различные весовые коэффициенты, и двухканальный аудиосигнал имеет изменяющуюся во времени степень декорреляции.

Далее будут изложены подробности для иллюстрации возможности определения воспринимаемого уровня декорреляции на основании величины громкости. Как будет показано, величина громкости может позволять предсказывать воспринимаемый уровень реверберации. Как было указано выше, реверберация также связана с декорреляцией таким образом, что воспринимаемый уровень реверберации может также рассматриваться как воспринимаемый уровень декорреляции, причем для декорреляции реверберация может быть меньше чем одна секунда, например меньше чем 500 мс, меньше чем 250 мс или меньше чем 200 мс.

Фиг. 12 иллюстрирует аппарат для определения величины воспринимаемого уровня реверберации в смешанном сигнале, содержащем компонент прямого сигнала или компонент 1201 необработанного сигнала и компонент 102 сигнала реверберации. Компонент 1201 необработанного сигнала и компонент 1202 сигнала реверберации представляют собой вход для процессора 1204 моделирования громкости. Процессор моделирования громкости выполнен с возможностью приема компонента 1201 прямого сигнала и компонента 1202 сигнала реверберации и, кроме того, содержит ступень 1204a перцепционного фильтра и последовательно присоединенный калькулятор 1204b громкости, как проиллюстрировано на фиг. 13A. Процессор моделирования громкости генерирует на своем выходе первую величину 1206 громкости и вторую величину 1208 громкости. Обе величины громкости представляют собой вход для объединителя 1210 для объединения первой величины 1206 громкости и второй величины 1208 громкости для итогового получения величины 1212 воспринимаемого уровня реверберации. В зависимости от реализации величина воспринимаемого уровня 1212 может представлять собой вход для предсказывающего средства 1214 для предсказания воспринимаемого уровня реверберации на основании среднего значения по меньшей мере двух величин воспринимаемой громкости для различных кадров сигнала. Тем не менее, предсказывающее средство 1214 на фиг. 12 является необязательным и фактически преобразует величину воспринимаемого уровня в некоторый диапазон значений или диапазон единиц, такой как диапазон в единицах сон, что полезно для получения количественных значений, связанных с громкостью. Тем не менее, можно также использовать другие применения величины воспринимаемого уровня 1212, которая не обработана предсказывающим средством 1214, например в контроллере, который не обязательно должен зависеть от вывода значения предсказывающим средством 1214, но который может также непосредственно обрабатывать величину воспринимаемого уровня 1212, или в непосредственной форме, или, предпочтительно, в несколько сглаженной форме, где сглаживание во времени является предпочтительным, для того чтобы не получить сильно изменяющих уровень поправок к реверберированному сигналу или коэффициенту усиления g.

В частности, ступень перцепционного фильтра выполнена с возможностью фильтрации компонента прямого сигнала, компонента сигнала реверберации или компонента смешанного сигнала, причем ступень перцепционного фильтра выполнена с возможностью моделирования механизма слухового восприятия объекта, такого как человек, для получения отфильтрованного прямого сигнала, отфильтрованного сигнала реверберации или отфильтрованного смешанного сигнала. В зависимости от реализации ступень перцепционного фильтра может содержать два фильтра, работающих параллельно, или может содержать средство хранения и один фильтр, поскольку фактически можно использовать один и тот же фильтр для фильтрации каждого из трех сигналов, то есть сигнала реверберации, смешанного сигнала и прямого сигнала. В данном контексте следует, тем не менее, отметить, что хотя фиг. 13A иллюстрирует n фильтров, моделирующих механизм слухового восприятия, фактически достаточно будет двух фильтров или одного фильтра, фильтрующего два сигнала из группы, содержащей компонент сигнала реверберации, компонент смешанного сигнала и компонент прямого сигнала.

Калькулятор 1204b громкости или средство оценки громкости выполнены с возможностью оценки первой связанной с громкостью величины с использованием отфильтрованного прямого сигнала и оценки второй величины громкости с использованием отфильтрованного сигнала реверберации или отфильтрованного смешанного сигнала, где смешанный сигнал получают из суперпозиции компонента прямого сигнала и компонента сигнала реверберации.

Фиг. 13C иллюстрирует четыре предпочтительных режима вычисления величины воспринимаемого уровня реверберации. Реализация зависит от частичной громкости, причем как компонент прямого сигнала x, так и компонент сигнала реверберации r используют в процессоре моделирования громкости, но причем для того, чтобы определять первую величину EST1, используют сигнал реверберации в качестве стимула, а прямой сигнал используют в качестве шума. Для определения второй величины громкости EST2 ситуация меняется, и компонент прямого сигнала используют в качестве стимула, а компонент сигнала реверберации используют в качестве шума. Тогда величина воспринимаемого уровня коррекции, генерируемого объединителем, представляет собой разность между первой величиной громкости EST1 и второй величиной громкости EST2.

Тем не менее, дополнительно существуют другие вычислительно эффективные варианты осуществления, которые показаны в строках 2, 3 и 4 на фиг. 13C. Эти более вычислительно эффективные величины основаны на вычислении общей громкости трех сигналов, содержащих смешанный сигнал m, прямой сигнал x и сигнал n реверберации. В зависимости от требуемого вычисления, осуществляемого объединителем, указанного в последнем столбце на фиг. 13C, первая величина громкости EST1 представляет собой общую громкость смешанного сигнала или сигнала реверберации, а вторая величина громкости EST2 представляет собой общую громкость компонента x прямого сигнала или компонента m смешанного сигнала, причем фактические комбинации проиллюстрированы на фиг. 13C.

Фиг. 14 иллюстрирует реализацию процессора моделирования громкости, который уже был рассмотрен в некоторых аспектах по отношению к фиг. 12, 13A, 13B, 13C. В частности, ступень 1204a перцепционного фильтра содержит частотно-временной преобразователь 1401 для каждой ветви, причем в варианте осуществления в соответствии с фиг. 3 x[k] обозначает стимул, а n[k] обозначает шум. После частотно-временного преобразования сигнал передается в блок 1402 передаточной функции уха (следует отметить, что передаточная функция уха в качестве альтернативы может быть вычислена до частотно-временного преобразователя с аналогичными результатами, но более высокой вычислительной нагрузкой), и выход данного блока 1402 является входом для блока 1404 вычисления паттерна возбуждения, за которым следует блок 1406 временной интеграции. Затем в блоке 1408 вычисляется конкретная громкость в данном варианте осуществления, причем блок 1408 соответствует блоку 1204b калькулятора громкости на фиг. 13A. Далее осуществляют интегрирование по частоте в блоке 1410, где блок 1410 соответствует сумматору, уже показанному как 1204c и 1204d на фиг. 13B. Следует отметить, что блок 1410 генерирует первую величину для первого набора стимула и шума и вторую величину для второго набора стимула и шума. В частности, если обратиться к фиг. 13B, стимулом для вычисления первой величины является сигнал реверберации, а шумом является прямой сигнал, тогда как для вычисления второй величины ситуация меняется, и стимулом является компонент прямого сигнала, а шумом является компонент сигнала реверберации. Следовательно, для генерации двух различных величин громкости процедуру, проиллюстрированную на фиг. 14, осуществляют дважды. При этом изменения вычислений происходят только в блоке 1408, который работает различным образом, так что этапы, проиллюстрированные блоками 1401-1406, должны быть осуществлены только один раз, и для реализации, изображенной на фиг. 13C, результат блока 1406 временной интеграции может быть сохранен, для того чтобы вычислять первую оцениваемую громкость и вторую оцениваемую громкость. Следует отметить, что для другого внедрения блок 1408 может быть заменен отдельным блоком "вычисления общей громкости" для каждой ветви, причем в данной реализации безразлично, считается ли один сигнал стимулом или шумом.

Хотя некоторые аспекты были описаны в контексте приспособления, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока, или элемента, или признака соответствующего аппарата.

В зависимости от некоторых требований к реализации варианты осуществления настоящего изобретения могут быть реализованы в аппаратном обеспечении или в программном обеспечении. Реализация может быть осуществлена с использованием цифровой среды для хранения, например гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, содержащей электронным образом считываемые сигналы управления, сохраненные на ней, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что происходит осуществление соответствующего способа.

Некоторые варианты осуществления в соответствии с настоящим изобретением содержат носитель данных, содержащий электронным образом считываемые сигналы управления, которые способны к взаимодействию с программируемой компьютерной системой таким образом, что происходит осуществление одного из способов, описанных в настоящем документе.

Обычно варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, причем программный код выполнен с возможностью осуществления одного из способов при выполнении компьютерного программного продукта на компьютере. Программный код может, например, быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в настоящем документе, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления способа настоящего изобретения представляет собой, таким образом, компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в настоящем документе, при выполнении компьютерной программы на компьютере.

Другой вариант осуществления способов настоящего изобретения представляет собой, таким образом, носитель данных (или цифровую среду для хранения, или машиночитаемую среду), содержащий записанную на нем компьютерную программу для осуществления одного из способов, описанных в настоящем документе.

Другой вариант осуществления способа настоящего изобретения представляет собой, таким образом, поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов могут, например, быть выполнены с возможностью их передачи с помощью соединения для передачи данных, например с помощью интернета.

Другой вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, выполненное с возможностью или адаптированное для осуществления одного из способов, описанных в настоящем документе.

Другой вариант осуществления содержит компьютер, на котором установлена компьютерная программа для осуществления одного из способов, описанных в настоящем документе.

Вышеописанные варианты осуществления являются лишь иллюстрацией принципов настоящего изобретения. Следует понимать, что модификации и изменения конфигураций и подробностей, описанных в настоящем документе, будут очевидны для специалистов в данной области техники. Поэтому предполагается ограничение только объемом нижеследующей патентной формулы, а не конкретными подробностями, представленными в настоящем документе посредством описания и рассмотрения вариантов осуществления.

1. Аппарат (100; 200) для улучшения аудиосигнала (102), содержащий:

процессор (110; 210) сигналов для обработки аудиосигнала (102), для того чтобы уменьшать или удалять переходные и тональные части обработанного сигнала (112; 212);

декоррелятор (120; 520) для генерации первого декоррелированного сигнала и второго декоррелированного сигнала (124; r2) из обработанного сигнала (112; 212);

объединитель (140; 240) для взвешенного объединения первого декоррелированного сигнала (122; 522, r1), второго декоррелированного сигнала (124; r2) и аудиосигнала или сигнала, получаемого из аудиосигнала (102) посредством улучшения когерентности, с использованием изменяющихся во времени весовых коэффициентов (a, b) и для получения двухканального аудиосигнала (142; 242); и

контроллер (130; 230) для управления изменяющимися во времени весовыми коэффициентами (a, b) посредством анализа аудиосигнала (122) таким образом, что различные части (fb1-fb7) аудиосигнала умножают на различные весовые коэффициенты (a, b), и двухканальный аудиосигнал (142; 242) имеет изменяющуюся во времени степень декорреляции.

2. Аппарат по п. 1, в котором контроллер (130; 230) выполнен с возможностью увеличения весовых коэффициентов (a, b) для частей (fb1-fb7) аудиосигнала (102), что делает возможной более высокую степень декорреляции, и уменьшения весовых коэффициентов (a, b) для частей (fb1-fb7) аудиосигнала (102), что делает возможной более низкую степень декорреляции.

3. Аппарат по п. 1, в котором контроллер (130; 230) выполнен с возможностью масштабирования весовых коэффициентов (a, b) таким образом, что воспринимаемый уровень декорреляции в двухканальном аудиосигнале (142; 242) остается в пределах диапазона около целевого значения, причем диапазон доходит до ±20% от целевого значения.

4. Аппарат по п. 3, в котором контроллер (130; 230) выполнен с возможностью определения целевого значения посредством реверберации аудиосигнала (102) для получения реверберированного аудиосигнала и посредством сравнения реверберированного аудиосигнала (102) с аудиосигналом для получения результата сравнения, причем контроллер выполнен с возможностью определения воспринимаемого уровня декорреляции (232) на основании результата сравнения.

5. Аппарат по п. 1, в котором контроллер (130; 230) выполнен с возможностью определения выделяющейся части сигнала источника звука в аудиосигнале (102) и уменьшения весовых коэффициентов (a, b) для выделяющейся части сигнала источника звука по сравнению с частью аудиосигнала (102), не содержащей выделяющегося сигнала источника звука; и

причем контроллер (130; 230) выполнен с возможностью определения невыделяющейся части сигнала источника звука в аудиосигнале (102) и увеличения весовых коэффициентов (a, b) для невыделяющейся части сигнала источника звука по сравнению с частью аудиосигнала (102), не содержащей невыделяющегося сигнала источника звука.

6. Аппарат по п. 1, в котором контроллер (130; 230) выполнен с возможностью:

генерации тестового декоррелированного сигнала из части аудиосигнала (102);

получения величины воспринимаемого уровня декорреляции из части аудиосигнала и тестового декоррелированного сигнала; и

получения весовых коэффициентов (a, b) из величины воспринимаемого уровня декорреляции.

7. Аппарат по п. 6, в котором декоррелятор (120, 520) выполнен с возможностью генерации первого декоррелированного сигнала (122; r1) на основании реверберации аудиосигнала (102) с первым временем реверберации, причем контроллер (130; 230) выполнен с возможностью генерации тестового декоррелированного сигнала на основании реверберации аудиосигнала (102) со вторым временем реверберации, причем второе время реверберации меньше, чем первое время реверберации.

8. Аппарат по п. 1, причем

процессор (110; 210) сигналов выполнен с возможностью определения спектральных весов (217, 219) для второго множества полос частот, причем каждая из них представляет часть аудиосигнала (102) в частотной области, причем каждый спектральный вес (217, 219) имеет одно значение из третьего множества возможных значений, причем третье множество содержит по меньшей мере три значения, включая минимальное значение, максимальное значение и значение между минимальным значением и максимальным значением.

9. Аппарат по п. 1, в котором процессор (110; 210) сигналов выполнен с возможностью:

обработки аудиосигнала (102) таким образом, что аудиосигнал (102) передается в частотную область, и таким образом, что второе множество полос (fb1-fb7) частот представляет второе множество частей аудиосигнала (102) в частотной области;

определения для каждой полосы (fb1-fb7) частот первого спектрального веса (217), представляющего значение обработки для обработки (211) переходных частей аудиосигнала (102);

определения для каждой полосы (fb1-fb7) частот второго спектрального веса (219), представляющего значение обработки для обработки (213) тональных частей аудиосигнала (102); и

применения для каждой полосы (fb1-fb7) частот по меньшей мере одного из первого спектрального веса (217) и второго спектрального веса (219) к спектральным значениям аудиосигнала (102) в полосе (fb1-fb7) частот;

причем каждый первый спектральный вес (217) и второй спектральный вес (219) имеют одно значение из третьего множества возможных значений, причем третье множество содержит по меньшей мере три значения, включая минимальное значение, максимальное значение и значение между минимальным значением и максимальным значением.

10. Аппарат по п. 9, в котором процессор (110; 210) сигналов выполнен с возможностью сравнения, для каждого из второго множества полос (fb1-fb7) частот, первого спектрального веса (217) и второго спектрального веса (219), определенных для полосы (fb1-fb7) частот, для определения, имеет ли одно из двух значений меньшее значение, и для применения спектрального веса (217, 219), имеющего меньшее значение, к спектральным значениям аудиосигнала (102) в полосе (fb1-fb7) частот.

11. Аппарат по п. 1, в котором декоррелятор (520) содержит первый декоррелирующий фильтр (526), выполненный с возможностью фильтрации обработанного аудиосигнала (512, s) для получения первого декоррелированного сигнала (522, r1), и второй фильтр (528) декорреляции, выполненный с возможностью фильтрации обработанного аудиосигнала (512, s) для получения второго декоррелированного сигнала (524, r2), причем объединитель (140; 240) выполнен с возможностью взвешенного объединения первого декоррелированного сигнала (522, r1), второго декоррелированного сигнала (524, r2) и аудиосигнала (102) или сигнала (136; 236), получаемого из аудиосигнала (102), для получения двухканального аудиосигнала (142; 242).

12. Аппарат по п. 1, причем для второго множества полос (fb1-fb7) частот, причем каждая из полос (fb1-fb7) частот содержит часть аудиосигнала (102), представленную в частотной области, и с первым периодом времени;

контроллер (130; 230) выполнен с возможностью управления весовыми коэффициентами (a, b) таким образом, что каждый весовой коэффициент (a, b) имеет одно значение из первого множества возможных значений, причем первое множество содержит по меньшей мере три значения, включая минимальное значение, максимальное значение и значение между минимальным значением и максимальным значением, и адаптации весовых коэффициентов (a, b), определенных для текущего периода времени, если отношение или разность, основанные на значении весовых коэффициентов (a, b), определенном для текущего периода времени, и значении весовых коэффициентов (a, b), определенном для предшествующего периода времени, больше или равно пороговому значению, таким образом, что значение отношения или разности уменьшается; и

процессор (110; 210) сигналов выполнен с возможностью определения спектральных весов (217, 219), причем каждый из них имеет одно значение из третьего множества возможных значений, причем третье множество содержит по меньшей мере три значения, включая минимальное значение, максимальное значение и значение между минимальным значением и максимальным значением.

13. Система (800) улучшения звука, содержащая:

аппарат (801) для улучшения аудиосигнала по одному из предшествующих пунктов;

сигнальный вход (106), выполненный с возможностью приема аудиосигнала (102);

по меньшей мере два громкоговорителя (808a, 808b), выполненных с возможностью приема двухканального аудиосигнала (y₁/y₂) или сигнала, получаемого из двухканального аудиосигнала (y₁/y₂), и генерации акустических сигналов из двухканального аудиосигнала (y₁/y₂) или сигнала, получаемого из двухканального аудиосигнала (y₁/y₂).

14. Способ (1100) улучшения аудиосигнала (102), содержащий этапы, на которых:

обрабатывают (1110) аудиосигнал (102), для того чтобы уменьшать или удалять переходные и тональные части обработанного сигнала (112; 212);

генерируют (1120) первый декоррелированный сигнал (122, r1) и второй декоррелированный сигнал (124, r2) из обработанного сигнала (112, 212);

осуществляют взвешенное объединение (1130) первого декоррелированного сигнала (122, r1), второго декоррелированного сигнала (124, r2) и аудиосигнала (102) или сигнала (136; 236), получаемого из аудиосигнала (102) посредством улучшения когерентности, с использованием изменяющихся во времени весовых коэффициентов (a, b) и для получения двухканального аудиосигнала (142; 242); и

управляют (1140) изменяющимися во времени весовыми коэффициентами (a, b) посредством анализа аудиосигнала (102) таким образом, что различные части аудиосигнала умножают на различные весовые коэффициенты (a, b), и двухканальный аудиосигнал (142; 242) имеет изменяющуюся во времени степень декорреляции.

15. Машиночитаемый носитель, содержащий хранящийся на нем программный код, который, когда выполняется на компьютере, обеспечивает выполнение компьютером способа улучшения аудиосигнала по п. 14.

Изобретение относится к средствам для формирования одного или более аудиоканалов. Технический результат заключается в повышении эффективности кодирования метаданных.

Устройство и способ для осуществления понижающего микширования saoc объемного (3d) аудиоконтента // 2666239

Изобретение относится к средствам для осуществления понижающего микширования SAOC объемного аудиоконтента. Технический результат заключается в повышении эффективности понижающего микширования аудиоконтента.

Многоканальный аудиодекодер, многоканальный аудиокодер, способы, компьютерная программа и кодированное аудиопредставление с использованием декорреляции представленных посредством рендеринга аудиосигналов // 2665917

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен.

Устройство и способ масштабирования центрального сигнала и улучшения стереофонии на основе отношения сигнал-понижающее микширование // 2663345

Изобретение относится к средствам для масштабирования центрального сигнала. Технический результат заключается в повышении разборчивости речи.

Способ и устройство для применения сжатия динамического диапазона к сигналу амбиофонии высшего порядка // 2658888

Изобретение относится к технике связи и предназначено для управления динамическим диапазоном. Технический результат – уменьшение динамического диапазона аудиосигнала.

Устройство и способ декодирования кодированного аудиосигнала для получения модифицированных выходных сигналов // 2653240

Изобретение относится к кодированию аудиообъектов. Технический результат изобретения заключается в сокращении вычислительных ресурсов, что минимизирует обработку пространственного кодирования аудиообъектов SAOC.

Аудиокодер и аудиодекодер // 2643489

Изобретение относится к средствам аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования аудиоданных.

Способ трансаурального синтеза для придания звуку пространственной формы // 2639955

Изобретение относится к средствам для создания цифрового пространственного стереоаудиофайла из исходного многоканального аудиофайла. Технический результат заключается в формировании ощущения, что звуковая среда экстернализирована.

Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования // 2614573

Изобретение относится к средствам кодирования и декодирования звуковых сигналов. Технический результат заключается в повышении качества кодирования сигнала.

Способ кодирования и устройство для декодирования основывающегося на объектах аудиосигнала // 2544789

Изобретение относится к средствам кодирования и декодирования основывающихся на объектах аудиосигналов. Технический результат заключается в предоставлении средств кодирования и декодирования аудио.

Устройство и способ для эффективного кодирования метаданных объектов // 2666282

Устройство и способ для улучшенного плавного изменения сигнала для переключаемых систем кодирования звука во время маскирования ошибок // 2666250

Изобретение относится к декодированию звукового сигнала. Технический результат – обеспечение улучшенных концепций для систем кодирования звука.

Устройство и способ для осуществления понижающего микширования saoc объемного (3d) аудиоконтента // 2666239

Аудио декодер, аудио кодер, способ обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления, способ обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов и компьютерная программа, использующие расширение диапазона // 2666230

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования и декодирования трехмерных аудио сцен.

Оценивание фонового шума в аудиосигналах // 2665916

Изобретение относится к средствам для оценивания фонового шума в аудиосигнале. Технический результат заключается в повышении точности оценивания, содержит ли аудиосигнал активную речь или музыку или нет.

Устройство и способ формирования расширенного сигнала с использованием заполнения независимым шумом // 2665913

Изобретение относится к средствам для формирования расширенного сигнала с использованием заполнения независимым шумом. Технический результат заключается в повышении качества кодированного аудиосигнала.

Поиск формы пирамидального векторного квантователя // 2665898

Изобретение относится к векторному квантованию (VQ), выполняемому кодером. Технический результат изобретения заключается в возможности кодера удерживать сложность поиска на разумном уровне, обеспечивая возможность кодеру применять цикл увеличенной точности только, когда это может быть необходимо, посредством анализа того, потребуется ли в наступающем внутреннем цикле внутренний цикл с более высокой точностью, нежели точность, используемая в текущее время.

Выбор процедуры маскирования потери пакета // 2665889

Изобретение относится к декодированию аудио и более конкретно к выбору процедуры маскирования потери пакета при декодировании аудио. Технический результат – обеспечение высокого качества восстановленного звукового сигнала после потери пакета.

Декодирование битовых аудиопотоков с метаданными расширенного копирования спектральной полосы по меньшей мере в одном заполняющем элементе // 2665887

Изобретение относится к средствам для декодирования битового аудиопотока с метаданными расширенного копирования спектральной полосы. Технический результат заключается в повышении эффективности декодирования.

Устройство и способ для улучшенного маскирования адаптивной таблицы кодирования при acelp-образном маскировании с использованием улучшенной повторной синхронизации импульсов // 2666327

Изобретение относится к обработке аудиосигналов, в частности к обработке речи, и предназначено для улучшения маскирования адаптивной таблицы кодирования при ACELP-образном маскировании. Технический результат – повышение точности восстановления кадра. Устройство содержит модуль определения для определения разности числа выборок, модуль восстановления кадров для восстановления восстановленного кадра посредством восстановления первого цикла основного тона, который должен быть восстановлен в качестве первого восстановленного цикла основного тона. Модуль восстановления кадров выполнен с возможностью восстанавливать восстановленный кадр таким образом, что восстановленный кадр полностью или частично содержит первый восстановленный цикл основного тона, таким образом, что восстановленный кадр полностью или частично содержит второй восстановленный цикл основного тона, и таким образом, что число выборок первого восстановленного цикла основного тона отличается от числа выборок второго восстановленного цикла основного тона. 3 н. и 9 з.п. ф-лы, 15 ил.