Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов



Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов

 


Владельцы патента RU 2608447:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение оносится к аудиокодированию и основано, в частности, на процедурах улучшения спектра частот, таких как расширение полосы частот, репликация спектрального диапазона или интеллектуальное заполнение интервалов. Технический результат – расширение полосы частот и повышение качества закодированного низкочастотного сигнала. Устройство для генерирования сигнала с улучшенным спектром содержит: генератор сигнала для генерирования сигнала расширения из основного сигнала, причем сигнал расширения содержит частотный диапазон расширения, не включенный в основной сигнал, в котором текущая временная часть сигнала расширения или основного сигнала содержит сигналы поддиапазонов для множества поддиапазонов; контроллер для того, чтобы вычислить одну и ту же информацию сглаживания для множества сигналов поддиапазонов частотного диапазона расширения или основного сигнала, и в котором генератор сигнала конфигурируется для сглаживания множество сигналов поддиапазонов частотного диапазона расширения или основного сигнала, используя одну и ту же информацию сглаживания. 6 н. и 8 з.п. ф-лы, 18 ил.

 

Настоящее изобретение основано на кодировании аудио и, в частности, на процедурах улучшения спектра частот, таких как расширение полосы частот, репликация спектрального диапазона или интеллектуальное заполнение провалов (интервалов).

Настоящее изобретение в частности относится к неуправляемым процедурам улучшения спектра частот, то есть когда сторона декодера работает без побочной информации или только с минимальной величиной побочной информации.

Перцепционные аудиокодеки часто квантуют и кодируют только низкочастотную часть всего воспринимаемого частотного диапазона аудиосигнала, особенно когда работают при (относительно) низких скоростях передачи в битах. Хотя этот подход гарантирует приемлемое качество для закодированного низкочастотного сигнала, большинство слушателей воспринимают отсутствие высокочастотной части как ухудшение качества. Чтобы преодолеть эту проблему, недостающая высокочастотная часть может быть синтезирована в соответствии со схемами расширения полосы частот.

Кодеки, известные из уровня техники, часто используют или сохраняющий форму колебаний кодер, такой как AAC, или параметрический кодер, такой как речевой кодер, чтобы закодировать низкочастотный сигнал. Эти кодеры функционируют вплоть до некоторой конечной частоты. Эту частоту называют частотой разделения. Частотная часть ниже частоты разделения называют низким частотным диапазоном. Сигнал выше частоты разделения, который синтезируется посредством схемы расширения полосы частот, называют высоким частотным диапазоном.

Расширение полосы частот типично синтезирует недостающую полосу частот (высокий частотный диапазон) посредством переданного сигнала (низкого частотного диапазона) и дополнительной побочной информации. Если применяется в области кодирования аудио с низкой скоростью передачи в битах, эта дополнительная информация должна потреблять как можно меньше дополнительной скорости передачи в битах. Таким образом, обычно параметрическое представление выбирают для этой дополнительной информации. Это параметрическое представление или передают от кодера при сравнительно низкой скорости передачи в битах (управляемое расширение полосы частот) или оценивают в декодере на основании конкретных характеристик сигнала (неуправляемое расширение полосы частот). В последнем случае эти параметры вообще не потребляют скорости передачи в битах.

Синтез высокого частотного диапазона типично состоит из двух частей:

1. Генерирование высокочастотного контента. Это может быть выполнено или копированием или переключением (части) низкочастотного контента на высокий частотный диапазон, или вставкой белого или сформированного шума или других искусственных частей сигнала в высокий частотный диапазон.

2. Регулирование сгенерированного высокочастотного контента согласно параметрической информации. Это включает в себя манипуляцию формой, тональностью/уровнем шума и энергией согласно параметрическому представлению.

Цель процесса синтеза обычно состоит в том, чтобы достичь сигнала, который является перцепционно близким к первоначальному сигналу. Если эта цель не может быть полностью достигнута, синтезируемая часть должна быть наименее тревожащей для слушателя.

В отличие от управляемой схемы BWE неуправляемое расширение полосы частот не может полагаться на дополнительную информацию для синтеза высокого частотного диапазона. Вместо этого оно типично использует эмпирические правила для использования корреляции между низким частотным диапазоном и высоким частотным диапазоном. Принимая во внимание, что большинство музыкальных частей и высказанных речевых сегментов проявляет высокую корреляцию между высоким и низким частотным диапазоном, обычно это не является случаем для неголосовых или фрикативных речевых сегментов. Фрикативные звуки имеют очень небольшую энергию в диапазоне более низких частот, в то же время имея высокую энергию выше некоторой частоты. Если эта частота близка к частоте разделения, то может быть проблематично генерировать искусственный сигнал выше частоты разделения, так как в этом случае низкий диапазон частот в действительности содержит небольшие релевантные части сигнала. Чтобы справиться с этой проблемой, полезно хорошее обнаружение таких звуков.

HE-AAC является известным кодеком, который состоит из сохраняющего форму колебаний кодека для низкого частотного диапазона (AAC) и параметрического кодека для высокого частотного диапазона (SBR). На стороне декодера сигнал высокого частотного диапазона генерируется посредством преобразования декодированного сигнала AAC в частотную область, используя банк фильтров QMF. Затем поддиапазоны сигнала низкого частотного диапазона копируются в высокий частотный диапазон (генерирование высокочастотного контента). Этот сигнал высокого частотного диапазона затем регулируется по спектральной огибающей, тональности и уровню шума на основании переданной параметрической побочной информации (регулирование сгенерированного высокочастотного контента). Так как этот способ использует управляемый подход BWE, слабая корреляция между высоким и низким частотным диапазоном обычно не является проблематичной и может быть преодолена передачей соответствующих наборов параметров. Однако, это требует дополнительной скорости передачи в битах, которая может не быть приемлемой для заданного сценария приложения.

Стандарт ITU G.722.2 является речевым кодеком, который работает только во временной области, то есть без выполнения вычислений в частотной области. Такой декодер выдает сигнал временной области при частоте дискретизации 12,8 кГц, которая затем подвергается повышающей дискретизации до 16 кГц. Генерирование высокочастотного контента (6,4-7,0 кГц) основано на вставке полосового шума. В большинстве режимов работы спектральное формирование шума выполняется без использования побочной информации, только в режиме работы с информацией с самой высокой скоростью передачи в битах вблизи энергии шума, передаваемой в потоке битов. По причинам простоты, и так как не все сценарии приложений могут позволить передачу наборов дополнительных параметров, ниже описано только генерирование сигнала высокого частотного диапазона без использования побочной информации.

Для генерирования сигнала высокого частотного диапазона сигнал шума масштабируют, чтобы он имел ту же энергию как основной сигнал возбуждения. Чтобы придать больше энергии неголосовым частям сигнала, наклон спектра e вычисляют как:

,

где s - фильтрованный декодированный основной сигнал высокого частотного диапазона с частотой среза 400 Гц,n - индекс выборки.

В случае голосовых сегментов, где в высоких частотах присутствует меньше энергии, e приближается к 1, в то время как для неголосовых сегментов e близко к нулю. Чтобы иметь больше энергии в сигнале высокого частотного диапазона для невокализованной речи энергия шума умножается на (1-e). Наконец, масштабированный сигнал шума фильтруется фильтром, который выводится из фильтра кодирования с линейным предсказанием (LPC) основной полосы частот посредством экстраполяции в области линейных спектральных частот (LSF).

Неуправляемое расширение полосы частот из G.722.2, которое полностью функционирует во временной области, имеет следующие недостатки:

1. Сгенерированный ВЧ-онтент основан на шуме. Это создает слышимые артефакты, если ВЧ-игнал объединен с тональным, гармоническим низкочастотным сигналом (например, музыкой). Чтобы избежать таких артефактов, G.722.2 сильно ограничивает энергию сгенерированного ВЧ-игнала, что также ограничивает потенциальные выгоды расширения полосы частот. Таким образом, к сожалению, также максимальное возможное улучшение яркости звука или максимальное получаемое увеличение четкости речевого сигнала ограничивается.

2. Так как это неуправляемое расширение полосы частот работает во временной области, операции фильтра вызывают дополнительную алгоритмическую задержку. Эта дополнительная задержка понижает качество пользовательского опыта (восприятия) в сценариях двунаправленной связи или может быть не разрешена в соответствии с терминами требования заданного стандарта технологии связи.

3. Кроме того, так как эта обработка сигнала выполняется во временной области, операции фильтра являются склонными к нестабильностям. Кроме того, фильтры временной области имеют высокую вычислительную сложность.

4. Так как только полная сумма энергии сигнала высокого частотного диапазона адаптирована к энергии основного сигнала (и далее взвешена наклоном спектра), может быть существенное локальное несоответствие энергии на частоте разделения между верхним частотным диапазоном основного сигнала (сигнал непосредственно ниже частоты разделения) и сигналом высокого частотного диапазона. Например, это будет иметь место особенно для тональных сигналов, которые обнаруживают концентрацию энергии в самом низком частотном диапазоне, но содержат мало энергии в верхнем частотном диапазоне.

5. Кроме того, в вычислительном отношении сложно оценить наклон спектра в представлении во временной области. В частотной области экстраполяция наклона спектра может быть сделана очень эффективно. Так как большая часть энергии, например фрикативных звуков, сконцентрирована в высоком частотном диапазоне, они могут казаться тусклыми, если применяется консервативная стратегия оценки энергии и наклона спектра, как в G.722.2 (см. 1).

В качестве итога, известные неуправляемые или слепые схемы расширения полосы частот могут требовать существенной вычислительной сложности на стороне декодера и, тем не менее, привести к ограниченному качеству аудио специально для проблематичных речевых звуков, таких как фрикативные звуки. Кроме того, управляемые схемы расширения полосы частот, хотя обеспечивают лучшее качество аудио и иногда требуют меньшей вычислительной сложности на стороне декодера, не могут обеспечить существенное сокращение скорости передачи в битах вследствие того, что дополнительная параметрическая информация относительно высокого частотного диапазона может требовать существенной дополнительной скорости передачи в битах относительно кодированного основного сигнала аудио.

Поэтому задачей настоящего изобретения является обеспечить улучшенную концепцию для обработки аудио в контексте неуправляемых технологий улучшения спектра частот.

Эта задача достигается устройством для генерирования расширенного по частоте сигнала согласно пункту 1 формулы изобретения, способом генерирования расширенного по частоте сигнала согласно пункту 11 формулы изобретения, системой, содержащей кодер и устройство для генерирования расширенного по частоте сигнала согласно пункту 12 формулы изобретения, связанного способа по пункту 13, или компьютерной программой согласно пункту 14 формулы изобретения.

Настоящее изобретение обеспечивает схему улучшения спектра частот, например схему расширения полосы частот аудиокодеков. Эта схема стремится расширить полосу частот аудиокодека без необходимости в дополнительной побочной информации или с только минимальной величиной, значительно уменьшенной по сравнению с полным параметрическим описанием недостающих частотных диапазонов, как в управляемых схемах расширения полосы частот.

Устройство для генерирования сигнала с улучшенным спектром содержит вычислитель для вычисления значения, описывающего распределение энергии относительно частоты в основном сигнале. Генератор сигнала для генерирования сигнала расширения, содержащего частотный диапазон расширения, не включенный в основной сигнал, работает с использованием основного сигнала и затем выполняет формирование сигнала расширения или основного сигнала так, чтобы спектральная огибающая сигнала расширения зависела от значения, описывающего распределение энергии.

Таким образом, огибающая сигнала расширения или сигнал расширения формируется на основании этого значения, описывающего распределение энергии. Это значение может быть легко вычислено, и это значение затем определяет полную форму огибающей или полную форму сигнала расширения. Таким образом, декодер может работать с низкой сложностью и в то же самое время получается хорошее качество аудио. В частности, распределение энергии в основном сигнале, когда используется для спектрального формирования сигнала с улучшенным спектром, приводит к хорошему качеству аудио даже при том, что обработка вычисления этого значения в отношении распределения энергии, такого как спектральный центроид, в основном сигнале, и регулировка сигнала расширения на основании этого спектрального центроида является процедурой, которая является прямой и может быть выполнена с низкими вычислительными ресурсами.

Кроме того, эта процедура позволяет, чтобы абсолютная энергия и наклон (спад частотной характеристики) сигнала высокого частотного диапазона были выведены из абсолютной энергии и наклона (спада частотной характеристики) основного сигнала, соответственно. Предпочтительно выполнять эти операции в частотной области, так чтобы они могли быть выполнены в вычислительном отношении эффективным способом, так как формирование спектральной огибающей эквивалентно простому умножению частотного представления с амплитудной характеристикой, и эта амплитудная характеристика выводится из значения, описывающего распределение энергии относительно частоты в основном сигнале.

Кроме того, в вычислительном отношении сложно точно оценить и экстраполировать заданную спектральную форму во временной области. Таким образом, такие операции предпочтительно выполняются в частотной области. Фрикативные звуки, например, имеют типично только низкую величину энергии на низких частотах и высокую величину энергии на высоких частотах. Увеличение энергии зависит от фактического фрикативного звука и может начинаться только немного ниже частоты разделения. Во временной области трудно обнаружить эту ситуацию и в вычислительном отношении сложно получить достоверную экстраполяцию из этого. Для нефрикативных звуков обеспечивается, что энергия искусственного сгенерированного спектра всегда понижается с возрастанием частоты.

В другом аспекте применяется процедура временного сглаживания. Обеспечивается генератор сигнала для генерирования сигнала расширения из основного сигнала. Временная часть сигнала расширения или основного сигнала содержит сигналы поддиапазонов для множества поддиапазонов. Обеспечивается контроллер для того, чтобы вычислить одну и ту же информацию сглаживания для множества сигналов поддиапазонов частотного диапазона расширения, и эта информация сглаживания затем используется генератором сигнала для сглаживания множества сигналов поддиапазонов частотного диапазона расширения, в частности, используя одну и ту же информацию сглаживания или, альтернативно, когда сглаживание выполняется перед генерированием высокой частоты, то множество сигналов поддиапазонов основного сигнала все сглаживаются, используя одну и ту же информацию сглаживания. Это временное сглаживание избегает непрерывности меньших быстрых флуктуаций энергии, которые унаследованы от низкого частотного диапазона, для высокого частотного диапазона, и таким образом приводит к более приятному перцепционному впечатлению. Флуктуации энергии низкого частотного диапазона обычно вызываются ошибками квантования лежащего в основе основного кодера, которые приводят к нестабильностям. Сглаживание является адаптивным к сигналу, так как зависит от (долгосрочной) стационарности сигнала. Кроме того, использование одной и той же информации сглаживания для всех индивидуальных поддиапазонов дает уверенность, что когерентность между поддиапазонами не изменяется временным сглаживанием. Вместо этого все поддиапазоны сглаживаются одинаковым образом, и информация сглаживания выводится из всех поддиапазонов или только из поддиапазонов в частотном диапазоне расширения. Таким образом получают значительно лучшее качество аудио по сравнению с индивидуальным сглаживанием сигнала каждого поддиапазона индивидуально.

Другой аспект относится к выполнению ограничения энергии, предпочтительно в конце всей процедуры для генерирования сигнала расширения. Обеспечивается генератор сигнала для генерирования сигнала расширения из основного сигнала, где сигнал расширения содержит частотный диапазон расширения, не включенный в основной сигнал, где временная часть сигнала расширения содержит сигналы поддиапазонов для одного или множества поддиапазонов. Обеспечивается банк фильтров синтеза для генерирования сигнала с улучшенным спектром, используя сигнал расширения, где генератор сигнала конфигурируется для того, чтобы выполнить ограничение энергии, чтобы обеспечить, что сигнал с улучшенным спектром, полученный банком фильтров синтеза, является таким, что энергия более высокого частотного диапазона была, самое большее, равна энергии в более низком частотном диапазоне или больше чем, самое большее, заранее заданный порог. Это может применяться к единственному частотному диапазону расширения. Затем выполняется сравнение или ограничение энергии, используя энергию самого высокого частотного диапазона основного сигнала. Это может также применяться к множеству частотных диапазонов расширения. Затем самый низкий диапазон расширения ограничивают по энергии с использованием энергии самого высокого частотного диапазона основного сигнала и самый высокий частотный диапазон расширения ограничивают по энергии относительно второго самого высокого частотного диапазона расширения.

Эта процедура особенно полезна для неуправляемых схем расширения полосы частот, но может также помочь в управляемых схемах расширения полосы частот, так как неуправляемые схемы расширения полосы частот являются склонными к артефактам, вызванным спектральными компонентами, которые противоестественно выступают, особенно в сегментах, которые имеют отрицательный наклон спектра. Эти компоненты могут привести к высокочастотным шумовым всплескам. Чтобы избежать такой ситуации, ограничение энергии предпочтительно применяют в конце обработки, что ограничивает приращение энергии по частоте. В одной реализации энергия в поддиапазоне k QMF (квадратурной зеркальной фильтрации) не должна превысить энергию в поддиапазоне k-1 QMF. Это ограничение энергии может быть выполнено на основе интервала времени или для экономии на сложности, только однократно для каждого кадра. Таким образом, обеспечивают уверенность, чтобы избежать любых неестественных ситуаций в схемах расширения полосы частот, так как очень неестественно, что частотный диапазон более высокой частоты имеет больше энергии, чем частотный диапазон более низкой частоты или что энергия частотного диапазона более высокой частоты выше на большую величину, чем заранее заданный порог, например, чем порог 3 дБ, чем энергия в более низком частотном диапазоне. Как правило, все сигналы речи/музыки имеют низкочастотную характеристику, то есть имеют более или менее монотонно уменьшающуюся величину энергии по частоте. Это может быть применимо к единственному диапазону расширения. Затем выполняют сравнение или ограничение энергии, используя энергию самого высокого частотного диапазона основного сигнала. Это может также быть применено к множеству частотных диапазонов расширения. Затем самый низкий частотный диапазон расширения ограничивают по энергии, с использованием самого высокого частотного диапазона основного сигнала, и самый высокий частотный диапазон расширения ограничивают по энергии относительно второго самого высокого частотного диапазона расширения.

Хотя технологии формирования сигнала с улучшенным спектром, временного сглаживания сигналов поддиапазонов улучшения спектра частот и ограничения энергии могут быть выполнены индивидуально и отдельно друг от друга, эти процедуры могут также быть выполнены все вместе в рамках предпочтительно неуправляемой схемы улучшения спектра частот.

Кроме того, ссылка делается на зависимые пункты формулы изобретения, которые относятся к конкретным вариантам осуществления. Предпочтительные варианты осуществления настоящего изобретения описаны ниже со ссылками на сопроводительные чертежи, на которых:

Фиг. 1 иллюстрирует вариант осуществления, содержащий технологии формирования сигнала с улучшенным спектром, сглаживания сигнала поддиапазона и ограничения энергии;

Фиг. 2a-2c иллюстрируют различные реализации генератора сигнала согласно Фиг. 1;

Фиг. 3 иллюстрирует индивидуальные временные части, где кадр имеет длинную временную часть и слот имеет короткую временную часть, и каждый кадр содержит множество слотов;

Фиг. 4 иллюстрирует спектральную диаграмму, указывающую спектральную позицию основного сигнала и сигнала расширения в реализации приложения расширения полосы частот;

Фиг. 5 иллюстрирует устройство для генерирования сигнала, расширенного по частоте, используя спектральное формирование на основании значения, описывающего распределение энергии основного сигнала;

Фиг. 6 иллюстрирует реализацию технологии формирования;

Фиг. 7 иллюстрирует различные спады частотной характеристики, определенные некоторым спектральным центроидом;

Фиг. 8 иллюстрирует устройство для генерирования сигнала, расширенного по частоте, содержащего одну и ту же информацию сглаживания для сглаживания сигналов поддиапазонов основного сигнала или сигнала с улучшенным спектром;

Фиг. 9 иллюстрирует предпочтительную процедуру, примененную контроллером и генератором сигнала согласно Фиг. 8;

Фиг. 10 иллюстрирует дополнительную процедуру, применяемую контроллером и генератором сигнала согласно Фиг. 8;

Фиг. 11 иллюстрирует устройство для генерирования расширенного по частоте сигнала, которое выполняет процедуру ограничения энергии в сигнале расширения так, чтобы более высокий частотный диапазон сигнала расширения мог, самое большее, иметь ту же энергию смежного более низкого частотного диапазона или был, самое большее, выше по энергии на заранее заданный порог;

Фиг. 12a иллюстрирует спектр сигнала расширения перед ограничением;

Фиг. 12b иллюстрирует спектр согласно Фиг. 12a после ограничения;

Фиг. 13 иллюстрирует процесс, выполняемый генератором сигнала в одной реализации;

Фиг. 14 иллюстрирует одновременное применение технологий формирования, сглаживания и ограничения энергии в пределах области банка фильтров; и

Фиг. 15 иллюстрирует систему, содержащую кодер и декодер неуправляемого улучшения спектра частот.

Фиг. 1 иллюстрирует устройство для генерирования сигнала 140, расширенного по частоте, в предпочтительной реализации, в которой технологии формирования, временного сглаживания и ограничения энергии выполняются все вместе. Однако эти технологии могут также быть индивидуально применены, как описано в контексте Фиг. 5-7 для технологии формирования, Фиг. 8-10 для технологии сглаживания и Фиг. 11-13 для технологии ограничения энергии.

Предпочтительно устройство для генерирования сигнала 140, расширенного по частоте, согласно фиг. 1 содержат банк фильтров анализа или декодер 100 основного сигнала или любое другое устройство для того, чтобы обеспечить основной сигнал в области банка фильтров, например в области QMF, когда декодер основного сигнала выдает сигналы поддиапазона QMF. Альтернативно, банк 100 фильтров анализа может быть банком фильтров QMF или другим банком фильтров анализа, когда основной сигнал является сигналом временной области или предоставлен в любой области, отличной от спектральной области или области поддиапазонов.

Индивидуальные сигналы поддиапазонов основного сигнала 110, которые доступны в 120, затем вводятся в генератор 200 сигнала, и вывод генератора 200 сигнала является сигналом 130 расширения. Этот сигнал 130 расширения содержит частотный диапазон расширения, который не включен в основной сигнал 110, и генератор сигнала генерирует этот сигнал расширения, например, не (только) формируя шум или подобное, но используя основной сигнал 110 или предпочтительно поддиапазоны 120 основного сигнала. Банк фильтров синтеза затем комбинирует поддиапазоны 120 основного сигнала и сигнал 130 с улучшенным спектром, и банк 300 фильтров синтеза затем выводит сигнал, расширенный по частоте.

В основном, генератор 200 сигнала содержит блок 202 генерирования сигнала, который обозначен как "генерирование ВЧ", где ВЧ обозначает высокую частоту. Однако расширение по частоте на Фиг. 1 не ограничено технологией, в которой генерируется высокая частота. Вместо этого также могут генерироваться низкая частота или промежуточная частота и может даже иметь место регенерация спектрального провала в основном сигнале, то есть когда основной сигнал имеет более высокий частотный диапазон и более низкий частотный диапазон и когда имеется недостающий промежуточный частотный диапазон, как например, известно из интеллектуального заполнения промежутка (IGF). Генерирование сигнала 202 может содержать процедуры копирования, как известно из HE-AAC, или зеркальные процедуры, то есть когда для генерирования высокочастотного диапазона или диапазона улучшения спектра основной сигнал отражают, а не копируют.

Кроме того, генератор сигнала содержит функциональные возможности 204 формирования, который управляется вычислением для того, чтобы вычислить значение, указывающее распределение энергии относительно частоты в основном сигнале 120. Это формирование может быть формированием сигнала, сгенерированного блоком 202, или альтернативно, формированием низкой частоты, когда порядок между функциональными возможностями 202 и 204 инвертируется, как описано в контексте Фиг. 2a-2c.

Другими функциональными возможностями являются функциональные возможности 206 временного сглаживания, которыми управляет контроллер 800 сглаживания. Ограничение 208 энергии предпочтительно выполняют в конце процедуры, но ограничение энергии может также быть помещено в любую другую позицию в цепи обработки функциональных возможностей 202-208, пока гарантируется, что объединенный сигнал, выведенный банком 300 фильтров синтеза, удовлетворяет критерию ограничения энергии, например, частотный диапазон более высокой частоты не должен иметь больше энергии, чем смежный частотный диапазон более низкой частоты, или что частотный диапазон более высокой частоты не должен иметь большей энергии по сравнению со смежным частотным диапазоном более низкой частоты, где приращение ограничивается, самое большее, заранее заданным порогом, таким как 3 дБ.

Фиг. 2a иллюстрирует другой порядок, в котором формирование 204 выполняется вместе с временным сглаживанием 206 и ограничением 208 энергии прежде, чем выполнить генерирование ВЧ 202. Таким образом, основной сигнал формируют/сглаживают/ограничивают и затем уже окончательный сформированный/сглаженный/ограниченный сигнал копируют или отражают в частотный диапазон расширения. Кроме того, важно понять, что порядок этапов 204, 206, 208 может быть выполнен любым способом, как можно также видеть, когда Фиг. 2a сравнивается с порядком соответствующих этапов на Фиг. 1.

Фиг. 2b иллюстрирует ситуацию, в которой временное сглаживание и формирование выполняются в отношении низкочастотного или основного сигнала и генерирование ВЧ 202 затем выполняется перед ограничением 208 энергии. Кроме того, Фиг. 2c иллюстрирует ситуацию, в которой выполняется формирование сигнала для низкочастотного сигнала и последующее генерирование ВЧ, например, копированием, или выполняется отражение, чтобы получить сигнал для частотного диапазона расширения, и этот сигнал затем сглаживается 206 и ограничивается 208 по энергии.

Кроме того, нужно подчеркнуть, что функциональные возможности формирования, временного сглаживания и ограничения энергии могут все быть выполнены, применяя некоторые коэффициенты к сигналу поддиапазона как, например, иллюстрировано на Фиг. 14. Формирование реализовано умножителями 402a, 1401a и 1400a для индивидуальных частотных диапазонов i, i+1, i+2.

Кроме того, временное сглаживание выполняется умножителями 1402b, 1401b и 1400b. Дополнительно, ограничение энергии выполняется коэффициентами 1402c, 1401c и 1400c ограничения для индивидуальных частотных диапазонов i+2, i+1 и i. Вследствие того факта, что все эти функциональные возможности реализованы в этом варианте осуществления коэффициентами умножения, нужно отметить, что все эти функциональные возможности могут также быть применены к индивидуальным сигналам поддиапазона посредством единственного коэффициента умножения 1402, 1401, 1400 для каждого индивидуального частотного диапазона, и этот единственный "главный" коэффициент умножения может быть затем произведением индивидуальных коэффициентов 1402a, 1402b и 1402c для частотного диапазона i+2, и ситуация будет аналогичной в других частотных диапазонах i+1 и i. Таким образом, вещественные/мнимые значения выборок поддиапазона для этих поддиапазонов затем умножаются на этот единственный "главный" коэффициент умножения, и выходной результат получают как перемноженные вещественные/мнимые значения выборки поддиапазона на выходе блока 1402, 1401 или 1400, которые затем вводят в банк 300 фильтров синтеза согласно фиг. 1. Таким образом, выходной сигнал блоков 1400, 1401, 1402 соответствует сигналу 1300 расширения, типично охватывающему частотный диапазон расширения, не включенный в основной сигнал.

Фиг. 3 иллюстрирует диаграмму, указывающую различные временные разрешения, используемые в процессе генерирования сигнала. В основном, сигнал обрабатывается покадрово. Это означает, что банк 100 фильтров анализа предпочтительно реализован, чтобы генерировать следующие во времени кадры 320 сигналов поддиапазонов, где каждый кадр 320 сигналов поддиапазонов содержит один или множество слотов или слотов 340 банка фильтров. Хотя Фиг. 3 иллюстрирует четыре слота для каждого кадра, может также быть 2, 3 или даже больше, чем четыре слота для каждого кадра. Как иллюстрировано на Фиг. 14, формирование сигнала расширения или основного сигнала на основании распределения энергии основного сигнала выполняется однократно для каждого кадра. С другой стороны, временное сглаживание выполняется с высоким временным разрешением, то есть предпочтительно однократно для каждого слота 340, и ограничение энергии может еще раз быть выполнено однократно для каждого кадра, когда требуется низкая сложность, или однократно для каждого слота, когда более высокая сложность не является проблематичной для конкретной реализации.

Фиг. 4 иллюстрирует представление спектра, имеющего пять поддиапазонов 1, 2, 3, 4, 5 в частотном диапазоне основного сигнала. Кроме того, пример на Фиг. 4 имеет четыре сигнала поддиапазонов или поддиапазоны 6, 7, 8, 9 в диапазоне сигнала расширения, и диапазон основного сигнала и диапазон сигнала расширения отделены частотой 420 разделения. Кроме того, иллюстрируется начальный диапазон 410 частот, который используется для вычисления значения, описывающего распределение энергии относительно частоты с целью формирования 204, как описано ниже. Эта процедура гарантирует, что самый низкий или множество самых низких поддиапазонов не используются для вычисления значения, описывающего распределение энергии в отношении частоты, чтобы получить лучшее регулирование сигнала расширения.

Затем иллюстрируется реализация генерирования 202 частотного диапазона расширения, не включенного в основной сигнал, используя основной сигнал.

Чтобы генерировать искусственный сигнал выше частоты разделения, типично значения QMF из частотного диапазона ниже частоты разделения копируются ("вставляются") в высокий частотный диапазон. Эта операция копирования может быть выполнена, только перемещая выборки QMF из диапазона более низкой частоты в область выше частоты разделения или дополнительно (зеркально) отражая эти выборки. Преимущество отражения состоит в том, что сигнал непосредственно ниже частоты разделения и искусственный сгенерированный сигнал будут иметь очень схожую структуру энергии и гармоник на частоте разделения. Отражение или копирование могут быть применены к единственному поддиапазону основного сигнала или ко множеству поддиапазонов основного сигнала.

В случае упомянутого банка фильтров QMF зеркальная вставка предпочтительно состоит из отрицательного комплексно сопряженного значения базового частотного диапазона, чтобы минимизировать смещение поддиапазонов в области перехода:

Qr(t, xover + f-1) = -Qr(t, xover-f); f=1.. nBands

Qi(t, xover + f-1) = Qi(t, xover-f); f=1.. nBands

Здесь Qr(t, f) является вещественным значением QMF при индексе t времени и индексе f поддиапазона и Qi(t, f) является мнимым значением; xover - поддиапазон QMF, относящийся к частоте разделения; nBands - целое число частотных диапазонов, которые должны быть экстраполированы. Знак минус в вещественной части обозначает отрицательную комплексно сопряженную операцию.

Предпочтительно, генерирование ВЧ 202 или вообще генерирование частотного диапазона расширения полагаются на представление поддиапазона, предоставленное блоком 100. Предпочтительно, изобретенное устройство для генерирования сигнала, расширенного по частоте, должно быть декодером множества полос пропускания, который в состоянии повторяющимся образом осуществлять выборки декодированного сигнала 110, чтобы варьировать частоты осуществления выборок, чтобы поддержать, например узкополосный, широкополосный и сверхширокополосный выходной сигнал. Поэтому банк 100 фильтров QMF берет декодированный сигнал временной области в качестве ввода. Посредством заполнения нулями в частотной области банк фильтров QMF может быть использован для повторения выборки декодированного сигнала, и один и тот же банк фильтров QMF предпочтительно также используется для создания сигнала высокого частотного диапазона.

Предпочтительно, устройство для генерирования сигнала, расширенного по частоте, работает, чтобы выполнять все операции в частотной области. Таким образом, существующая система, уже имеющая внутреннее представление частотной области на стороне декодера, расширяется, как иллюстрируется на Фиг. 1, посредством указания блока 100 в качестве "основного декодера", который обеспечивает, например, уже выходной сигнал области банка фильтров QMF.

Это представление просто повторно используется для дополнительных задач, подобных преобразования частоты осуществления выборок и других манипуляций с сигналом, которые предпочтительно выполняются в частотной области (например, вставка сформированного комфортного шума, высокочастотная/низкочастотная фильтрация). Таким образом, никакое дополнительное времячастотное преобразование не должно быть вычислено.

Вместо использования шума для ВЧ-контента, сигнал высокого частотного диапазона генерируется на основании сигнала низкого частотного диапазона только в этом варианте осуществления. Это может быть выполнено посредством копирования или «заворачивания» (зеркального отражения) операции в частотной области. Таким образом, устанавливается сигнал высокого частотного диапазона с той же самой гармонической и временной прекрасной структурой как сигнал низкого частотного диапазона. Это избегает в вычислительном отношении дорогостоящего «заворачивания» сигнала временной области и дополнительной задержки.

Ниже функциональные возможности технологии формирования 204 согласно Фиг. 1 описаны в контексте Фиг. 5, 6 и 7, где формирование может быть выполнено в контексте Фиг. 1, 2a-2c или отдельно и индивидуально вместе с другими функциональными возможностями, известными из других управляемых или неуправляемых технологий улучшения спектра частот.

Фиг. 5 иллюстрирует устройство для генерирования сигнала 140, расширенного по частоте, содержащее вычислитель 500 для вычисления значения, описывающего распределение энергии относительно частоты в основном сигнале 120. Кроме того, генератор 200 сигнала конфигурируется для генерирования сигнала расширения, содержащего частотный диапазон расширения, не включенный в основной сигнал, из основного сигнала, как иллюстрировано линией 502. Кроме того, генератор 200 сигнала конфигурируется для того, чтобы формировать сигнал расширения такой, как выводится блоком 202 на Фиг. 1, или основной сигнал 120 в контексте Фиг. 2a так, чтобы спектральная огибающая сигнала расширения зависела от значения, описывающего распределение энергии.

Предпочтительно, устройство дополнительно содержит объединитель 300 для объединения сигнала 130 расширения, выведенный блоком 200, и основного сигнала 120, чтобы получить сигнал 140, расширенный по частоте. Дополнительные операции, такие как временное сглаживание 206 или ограничение 208 энергии, являются предпочтительными, чтобы также обработать сформированный сигнал, но не обязательно требуются в некоторых реализациях.

Генератор 200 сигнала конфигурируется, чтобы сформировать сигнал расширения так, чтобы уменьшение первой спектральной огибающей от первой частоты в частотном диапазоне расширения ко второй более высокой частоте в частотном диапазоне расширения было получено для первого значения, описывающего распределение энергии. Кроме того, уменьшение второй спектральной огибающей от первой частоты в диапазоне расширения ко второй частоте в диапазоне расширения получают для второго значения, описывающего второе распределение энергии. Если вторая частота больше, чем первая частота, и уменьшение второй спектральной огибающей больше, чем уменьшение первой спектральной огибающей, то первое значение указывает, что основной сигнал имеет концентрацию энергии в диапазоне более высокой частоты основного сигнала по сравнению со вторым значением, описывающим концентрацию энергии в диапазоне более низкой частоты основного сигнала.

Предпочтительно, вычислитель 500 конфигурируется, чтобы вычислить меру для спектрального центроида текущего кадра в качестве значения информации в отношении распределения энергии. Затем генератор 200 сигнала выполняет формирование в соответствии с этой мерой для спектрального центроида так, чтобы спектральный центроид на более высокой частоте приводил к меньшему наклону спектральной огибающей по сравнению со спектральным центроидом на более низкой частоте.

Информация относительно распределения энергии, вычисленная вычислителем 500 распределения энергии, вычисляется в отношении частотной части основного сигнала, начинающейся на первой частоте и заканчивающейся на второй частоте, являющейся более высокой, чем первая частота. Первая частота ниже, чем самая низкая частота в основном сигнале, как, например, иллюстрировано посредством 410 на Фиг. 4. Предпочтительно, вторая частота является частотой 420 разделения, но может также быть частотой ниже, чем частота 420 разделения, в зависимости от обстоятельств. Однако расширение второй частоты, используемой для того, чтобы вычислить меру для спектрального распределения в максимально возможной степени к частоте 420 разделения, является предпочтительным и приводит к лучшему качеству аудио.

В одном варианте осуществления процедура согласно Фиг. 6 применяется вычислителем 500 распределения энергии и генератором 200 сигнала. На этапе 602 значение энергии вычисляют для каждого частотного диапазона основного сигнала, обозначенное посредством E (i). Затем единственное значение распределения энергии, такое как sp, используемое для регулирования всех частотных диапазонов частотного диапазона расширения, вычисляют на этапе 604. Затем на этапе 606 взвешивающие коэффициенты вычисляют для всех частотных диапазонов частотного диапазона расширения, используя для этого единственное значение, где взвешивающие коэффициенты предпочтительно равны attf.

Затем на этапе 608, выполняемом генератором 208 сигнала, взвешивающие коэффициенты применяют к вещественным и мнимым частям выборок поддиапазонов.

Фрикативные звуки обнаруживают посредством вычисления спектрального центроида текущего кадра в области QMF. Спектральный центроид является мерой, которая имеет диапазон 0,0-1,0. Высокий спектральный центроид (значение, близкое к единице) означает, что спектральная огибающая звука есть возрастающий наклон. Для речевых сигналов это означает, что текущий кадр наиболее вероятно содержит фрикативный звук. Чем ближе значение спектрального центроида приближается к единице, тем более крутым является наклон спектральной огибающей, или больше энергии сконцентрировано в диапазоне более высокой частоты.

Спектральный центроид вычисляют согласно:

,

где E(i) является энергией поддиапазона QMF i и start является индексом поддиапазона QMF, по отношению к 1 кГц. Скопированные поддиапазоны QMF взвешиваются коэффициентом attf:

,

где att = 0,5*sp + 0,5. Вообще, att может быть вычислено, используя следующее уравнение:

att = p(sp),

в котором p является полиномом. Предпочтительно, полином имеет степень 1:

att = a*sp + b,

в котором a, b или вообще коэффициенты полинома все находятся между 0 и 1.

Кроме вышеупомянутого уравнения могут быть применены другие уравнения, имеющие сопоставимую производительность. Такие другие уравнения являются следующими:

В частности значение ai должно быть таким, чтобы это значение было выше для более высоких i и, важно, значения bi является ниже, чем значения ai, по меньшей мере для индекса i>1. Таким образом, подобный результат, но с другим уравнением по сравнению с вышеупомянутым уравнением, получают. Вообще, ai, bi являются монотонно увеличивающимися или уменьшающимися с i значениями.

Кроме того, ссылка делается на Фиг. 7. Фиг. 7 иллюстрирует индивидуальные взвешивающие коэффициенты attf для за различных значений sp распределения энергии. Когда sp равно 1, то вся энергия основного сигнала сконцентрирована в самом высоком частотном диапазоне основного сигнала. Затем att равно 1, и взвешивающие коэффициенты attf являются постоянными по частоте, как иллюстрировано посредством позиции 700. Когда, с другой стороны, полная энергия в основном сигнале сконцентрирована в самом низком частотном диапазоне основного сигнала, то sp равно 0 и att равно 0,5 и соответствующее поведение коэффициентов регулирования по частоте иллюстрировано посредством позиции 706.

Поведения коэффициентов формирования по частоте, обозначенное посредством позиций 702 и 704, являются для соответственно увеличивающихся спектральных значений распределения. Таким образом, для элемента 704 значение распределения энергии больше, чем 0, но меньше, чем значение распределения энергии для элемента 702, как обозначено параметрической стрелкой 708.

Фиг. 8 иллюстрирует устройство для генерирования расширенного по частоте сигнала используя технологию временного сглаживания. Устройство содержит генератор 200 сигнала для генерирования сигнала расширения из основного сигнала 120, 110, где сигнал расширения содержит частотный диапазон расширения, не включенный в основной сигнал. Текущая временную часть, такая как кадр 320 и предпочтительно слот 340 сигнала расширения или основного сигнала, содержит сигналы поддиапазонов для множества поддиапазонов.

Контроллер 800 служит для того, чтобы вычислить одну и ту же информацию 802 сглаживания для множества сигналов поддиапазонов частотного диапазона расширения или основного сигнала. Кроме того, генератор 200 сигнала конфигурируется для сглаживания множества сигналов поддиапазонов частотного диапазона расширения, используя одну и ту же информацию 802 сглаживания, или для сглаживания множества сигналов поддиапазонов основного сигнала, используя одну и ту же информацию 802 сглаживания. Выходной сигнал генератора 200 сигнала является, на Фиг. 8, сглаженным сигналом расширения, который затем может быть введен в объединитель 300. Как описано в контексте Фиг. 2a-2c, сглаживание 206 может быть выполнено в любом месте в цепи обработки согласно Фиг. 1 или даже может быть выполнено индивидуально в контексте любой другой схемы улучшения спектра частот.

Контроллер 800 предпочтительно конфигурируется, чтобы вычислить информацию сглаживания, используя объединенную энергию множества сигналов поддиапазонов основного сигнала и сигнала с улучшенным спектром или используя только сигнал с улучшенным спектром этой временной части. Кроме того, используется средняя энергия множества сигналов поддиапазонов основного сигнала и сигнала с улучшенным спектром или только основного сигнала из одного или более ранних временных частей, предшествующих текущей временной части. Информация сглаживания является единственным коэффициентом коррекции для множества сигналов поддиапазонов частотного диапазона расширения во всех частотных диапазонах, и поэтому генератор 200 сигнала конфигурируется, чтобы применить этот коэффициент коррекции ко множеству сигналов поддиапазонов частотного диапазона расширения.

Как описано в контексте Фиг. 1, устройство кроме того содержит банк фильтров 100 или источник для того, чтобы обеспечить множество сигналов поддиапазонов основного сигнала для множества следующих во времени слотов банка фильтров. Кроме того, генератор сигнала конфигурируется, чтобы получить множество сигналов поддиапазонов частотного диапазона расширения для множества следующих во времени слотов банка фильтров, используя множество сигналов поддиапазонов основного сигнала, и контроллер 800 конфигурируется, чтобы вычислить индивидуальную информацию 802 сглаживания для каждого слота банка фильтров, и сглаживание затем выполняется, для каждого слота банка фильтров, с новой индивидуальной информацией сглаживания.

Контроллер 800 конфигурируется, чтобы вычислять значение управления интенсивностью сглаживания на основании основного сигнала или сигнала с улучшенным спектром текущей временной части, и на основании одного или более предыдущих временных частей, и контроллер 800 затем конфигурируется, чтобы вычислять информацию сглаживания, используя значение управления сглаживанием таким образом, что интенсивность сглаживания изменяется в зависимости от разности между энергией основного сигнала или сигналом с улучшенным спектром текущей временной части и средней энергией основного сигнала или сигнала с улучшенным спектром одной или более предыдущих временных частей.

Ссылка делается на Фиг. 9, иллюстрирующую процедуру, выполняемую контроллером 800 и генератором 200 сигнала. Этап 900, который выполняется контроллером 800, содержит нахождение решения об интенсивности сглаживания, которое может, например, быть найдено на основании разности между энергией в текущей временной части и средней энергией в одной или более предыдущих временных частях, но любые другие процедуры для нахождения решения об интенсивности сглаживания также могут использоваться. Одна альтернатива заключается в использовании вместо или в дополнение будущих временных слотов. Другой альтернативой является та, что имеется только единственное преобразование для каждого кадра, и затем можно сгладить следующие во времени кадры. Обе эти альтернативы, однако, могут ввести задержку. Это может быть непроблематично в применениях, где задержка не является проблемой, например, приложение потоковой передачи. Для приложений, где задержка является проблематичной, например, для двусторонней связи, например, используя мобильные телефоны, прошлые или предыдущие кадры являются предпочтительными перед будущим кадрам, так как использование прошлых кадров не вводит задержку.

Затем на этапе 902 информация сглаживания вычисляется на основании решения об интенсивности сглаживания этапа 900. Этот этап 902 также выполняется контроллером 800. Затем генератор 200 сигнала выполняет этап 904, содержащий применение информации сглаживания к нескольким частотным диапазонам, где одна и та же информация 802 сглаживания применяется к этим нескольким частотным диапазонам или в основном сигнале или в частотном диапазоне расширения.

Фиг. 10 иллюстрирует предпочтительную процедуру реализации последовательностей этапов Фиг. 9. На этапе 1000 вычисляют энергию текущего слота. Затем на этапе 1020 вычисляется средняя энергия одного или более предыдущих слотов. Затем на этапе 1040 определяют коэффициент сглаживания для текущего слота на основании разности между значениями, полученными этапами 1000 и 1020. Затем этап 1060 содержит вычисление коэффициента коррекции для текущего слота, и этапы 1000-1060 все выполняются контроллером 800. Затем на этапе 1080, который выполняется генератором 200 сигнала, выполняется фактическая операция сглаживания, то есть соответствующий коэффициент коррекции применяется ко всем сигналам поддиапазона в пределах одного слота.

В одном варианте осуществления временное сглаживание выполняется в двух этапах:

Решение об интенсивности сглаживания. Для решения об интенсивности сглаживания оценивается стационарность сигнала во времени. Возможный способ выполнить эту оценку состоит в том, чтобы сравнить энергию текущего краткосрочного окна или временного слота QMF с усредненными значениями энергии предыдущих краткосрочных окон или временных слотов QMF. Чтобы сэкономить на сложности, это может быть оценено только для части высокого частотного диапазона. Чем ближе сравненные значения энергии, тем ниже должна быть интенсивность сглаживания. Это отражено в коэффициенте сглаживания a, где 0<a≤1. Чем больше a, тем выше интенсивность сглаживания.

Применение сглаживания к высокому частотному диапазону. Сглаживание применяется для части высокого частотного диапазона на основе временных слотов QMF. Поэтому, энергия высокого частотного диапазона текущего временного слота Ecurrt адаптируется к усредненной энергии высокого частотного диапазона Eavgt одного или множественных предыдущих временных слоев QMF:

Ecurr вычисляется как сумма энергий QMF высокого частотного диапазона в одном временном слоте:

Eavg является скользящим средним значением энергий во времени:

,

где start и stop являются границами интервала, используемого для того, чтобы вычислять скользящее среднее значение.

Вещественные и мнимые значения QMF, используемые для синтеза, умножаются на коэффициент коррекции currFac:

который выводится из Ecurr и Eavg:

Коэффициент а может быть фиксирован или зависимым от разности энергии Ecurr и Eavg.

Как уже описано на Фиг. 14, временное разрешение для временного сглаживания установлено, чтобы быть выше чем временное разрешение формирования или временное разрешение технологии ограничения энергии. Это гарантирует, что получают ход временного сглаживания сигналов поддиапазонов, в то время как, в то же самое время, в вычислительном отношении более интенсивное формирование должно быть выполнено только однократно для каждого кадра. Однако любое сглаживание от одного поддиапазона к другому поддиапазону, то есть в направлении частоты, не выполняется, так как, как было найдено, это по существу уменьшает субъективное качество слушания.

Предпочтительно использовать одну и ту же информацию сглаживания, такую как коэффициент коррекции для всех поддиапазонов в диапазоне расширения. Однако может также иметь место реализация, в которой одна и та же информация сглаживания применяется не для всех частотных диапазонов, а для группы частотных диапазонов, причем такая группа имеет по меньшей мере два поддиапазона.

Фиг. 11 иллюстрирует другой аспект, направленный на технологию 208 ограничения энергии, проиллюстрированную на Фиг. 1. В частности, Фиг. 11 иллюстрирует устройство для генерирования расширенного по частоте сигнала, содержащего генератор 200 сигнала для генерирования сигнала расширения, причем сигнал расширения содержит частотный диапазон расширения, не включенный в основной сигнал. Кроме того, временная часть сигнала расширения содержит сигналы поддиапазонов для множества поддиапазонов. Дополнительно, устройство содержит банк 300 фильтров синтеза для генерирования сигнала 140, расширенного по частоте, используя сигнал 130 расширения.

Чтобы реализовать процедуру ограничения энергии, генератор 200 сигнала конфигурируется для того, чтобы выполнить ограничение энергии, чтобы обеспечить, чтобы сигнал 140, расширенный по частоте, полученный банком 300 фильтров синтеза, был таким, чтобы энергия более высокого частотного диапазона была, самое большее, равной энергии в более низком частотном диапазоне, или больше, чем энергия в более низком частотном диапазоне, самое большее, на заранее заданный порог.

Генератор сигнала предпочтительно реализуется, чтобы обеспечить, что более высокий поддиапазон QMF k не должен превысить энергию в поддиапазоне k - 1 QMF. Однако генератор 200 сигнала может также быть реализован, чтобы разрешить некоторое возрастающее увеличение, которое может предпочтительно быть порогом в 3 дБ, и порог может предпочтительно составить 2 дБ и еще более предпочтительно 1 дБ или еще меньше. Этот заранее определенный порог может быть постоянным для каждого частотного диапазона или зависящим от спектрального центроида, вычисленного ранее. Предпочтительная зависимость состоит в том, что порог становится ниже, когда центроид приближается к более низким частотам, то есть становится меньшим, в то время как порог может стать больше, чем ближе центроид приближается к более высоким частотам или sp приближается к 1.

В еще одной реализации генератор 200 сигнала конфигурируется, чтобы проверять сигнал первого поддиапазона в первом поддиапазоне и проверять сигнал поддиапазона во втором поддиапазоне, являющемся смежным по частоте к первому поддиапазону и имеющем центральную частоту выше, чем центральная частота первого поддиапазона, и генератор сигнала не будет ограничивать сигнал второго поддиапазона, когда энергия сигнала второго поддиапазона будет равна энергии сигнала первого поддиапазона или когда энергия сигнала второго поддиапазона больше, чем энергия сигнала первого поддиапазона на меньше, чем заранее заданный порог.

Кроме того, генератор сигнала конфигурируется, чтобы формировать множество операций по обработке в последовательности, как иллюстрировано, например, на Фиг. 1 или Фиг. 2a-2c. Затем генератор сигнала предпочтительно выполняет ограничение энергии в конце последовательности, чтобы получить сигнал 130 расширения, вводимый в банк 300 фильтров синтеза. Таким образом, банк 300 фильтров синтеза конфигурируется, чтобы принять, в качестве ввода, сигнал 130 расширения, сгенерированный в конце последовательности посредством заключительного процесса ограничения энергии.

Кроме того, генератор сигнала конфигурируется, чтобы выполнить спектральное формирование 204 или временное сглаживание 206 перед ограничением энергии.

В предпочтительном варианте осуществления генератор 200 сигнала конфигурируется, чтобы генерировать множество сигналов поддиапазонов сигнала расширения посредством зеркального отражения множества поддиапазонов основного сигнала.

Для зеркального отражения предпочтительно выполняется процедура отрицания или вещественной части или мнимой части, как описано ранее.

В дальнейшем варианте осуществления генератор сигнала конфигурируется для того, чтобы вычислить коэффициент коррекции limFac, и этот коэффициент ограничения limFac затем применяется к сигналам поддиапазона основного или частотного диапазона расширения следующим образом:

Пусть Ef является энергией одного частотного диапазона, усредненного по отрезку времени stop - start:

Если эта энергия превышает среднюю энергию предыдущего частотного диапазона на некоторый уровень, энергия этого частотного диапазона умножается на коэффициент коррекции/ограничения limFac:

если Ef > fac*Ef-1

и вещественные и мнимые значения QMF корректируются посредством:

Коэффициент или заранее определенный порог fac может быть постоянным для каждого частотного диапазона или зависящим от спектрального центроида, вычисленного ранее.

является ограниченной по энергии вещественной частью сигнала поддиапазона в поддиапазоне, обозначенном f. является соответствующей мнимой частью сигнала поддиапазона, следующей за ограничением энергии в поддиапазоне f. Qrt,f и Qit,f являются соответствующими вещественной и мнимой частями сигналов поддиапазонов перед ограничением энергии, таких как сигналы поддиапазонов непосредственно, когда какое-либо формирование или временное сглаживание не выполняется, или сформированные и временно сглаженные сигналы поддиапазона.

В другой реализации коэффициент ограничения limFac вычисляют, используя следующее уравнение:

В этом уравнении Elim является энергией ограничения, которая типично является энергией более низкого частотного диапазона или энергией более низкого частотного диапазона, увеличенного на некоторый порог fac. Ef(i) является энергией текущего частотного диапазона f или i.

Ссылка делается на Фиг. 12a и 12b, иллюстрирующие некоторый пример, где имеются семь частотных диапазонов в частотном диапазоне расширения. Частотный диапазон 1202 больше, чем частотный диапазон 1201 относительно энергии. Таким образом, как становится ясно из Фиг. 12b, частотный диапазон 1202 является ограниченным по энергии, как обозначено посредством 1250 на Фиг. 12b для этого частотного диапазона. Кроме того, частотные диапазоны 1205, 1204 и 1206 все больше, чем частотный диапазон 1203. Таким образом, все три частотных диапазона являются ограниченными по энергии, как иллюстрируется посредством 1250 на Фиг. 12b. Единственные неограниченные частотные диапазоны, которые остаются, являются частотными диапазонами 1201 (это первый частотный диапазон в диапазоне реконструкции), и частотные диапазоны 1203 и 1207.

Как описано в общих чертах, Фиг. 12a/12b иллюстрирует ситуацию, в которой ограничение является таким, чтобы более высокий частотный диапазон не имел большей энергии, чем более низкий частотный диапазон. Однако ситуация может выглядеть немного другой, если некоторое приращение будет разрешено.

Ограничение энергии может применяться к единственному частотному диапазону расширения. Затем выполняется сравнение или ограничение энергии, используя энергию самого высокого основного частотного диапазона. Это может также применено к множеству частотных диапазонов расширения. Затем самый низкий частотный диапазон расширения ограничивается по энергии с использованием самого высокого основного частотного диапазона, и самый высокий частотный диапазон расширения ограничивается по энергии относительно второго самого высокого частотного диапазона расширения.

Фиг. 15 иллюстрирует систему передачи или, вообще, систему, содержащую кодер 1500 и декодер 1510. Кодер предпочтительно является кодером для генерирования кодированного основного сигнала, который выполняет сокращение полосы частот или обычно который удаляет несколько частотных диапазонов в первоначальном аудиосигнале 1501, которые не должны обязательно быть полным высоким частотным диапазоном или более высоким частотным диапазоном, но которые могут также быть любым частотным диапазоном между основными частотными диапазонами. Затем кодированный основной сигнал передают от кодера 1500 к декодеру 1510 без какой-либо побочной информации, и декодер 1510 затем выполняет неуправляемое улучшение спектра, чтобы получить сигнал 140 с улучшенным спектром. Таким образом, декодер может быть реализован, как описано на любой из фиг. 1-14.

Хотя настоящее изобретение было описано в контексте блок-схем, где блоки представляют фактические или логические компоненты аппаратного обеспечения, настоящее изобретение может также быть реализовано реализуемым компьютером способом. В последнем случае блоки представляют соответствующие этапы способа, где эти этапы обозначают функциональные возможности, выполняемые соответствующими логическими или физическими блоками аппаратного обеспечения.

Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или использованы) устройства аппаратного обеспечения, например микропроцессором, программируемым компьютером или электронной схемой. В некоторых вариантах осуществления некоторые один или более самых важных этапов способа могут быть выполнены таким устройством.

Изобретенный переданный или кодированный сигнал может быть сохранен на цифровом запоминающем носителе или может быть передан по среде передачи, такой как беспроводный носитель передачи или проводной носитель передачи, такой как Интернет.

В зависимости от некоторых требований реализации варианты осуществления изобретения могут быть реализованы в аппаратном обеспечении или в программном обеспечении. Реализация может быть выполнена, используя цифровой запоминающий носитель, например гибкий диск, DVD, Blu-ray, CD, ROM, PROM, и EPROM, EEPROM или флэш-память, имея электронно-считываемые сохраненные на нем управляющие сигналы, которые взаимодействуют (или способны к взаимодействию) с программируемой компьютерной системой таким образом, что соответствующий способ выполняется. Поэтому, цифровой запоминающий носитель может быть считываемым компьютером.

Некоторые варианты осуществления согласно изобретению содержат носитель информации, имеющий электронно-считываемые управляющие сигналы, которые способны к взаимодействию с программируемой компьютерной системой, таким образом что один из способов, описанных здесь, выполняется.

Вообще, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код функционирует для того, чтобы выполнять один из способов, когда компьютерный программный продукт запускается на компьютере. Программный код может, например, быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для того, чтобы выполнять один из способов, описанных здесь, сохраненную на машиночитаемом носителе.

Другими словами, вариантом осуществления изобретательного способа является поэтому компьютерная программа, имеющая программный код для того, чтобы выполнять один из способов, описанных здесь, когда компьютерная программа работает на компьютере.

Другим вариантом осуществления изобретательного способа является поэтому носитель информации (или невременный запоминающий носитель, такой как цифровой запоминающий носитель, или считываемый компьютером носитель), содержащий записанную на нем компьютерную программу для того, чтобы выполнить один из способов, описанных здесь. Носитель информации, цифровой запоминающий носитель или записанный носитель типично являются материальными и/или невременными.

Другим вариантом осуществления изобретательного способа является поэтому поток данных или последовательность сигналов, представляющих компьютерную программу для того, чтобы выполнить один из способов, описанных здесь. Поток данных или последовательность сигналов могут, например, конфигурироваться, чтобы быть переданными через соединение передачи данных, например через Интернет.

Другой вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, конфигурируемое или приспособленное для выполнения одного из способов, описанных здесь.

Другой вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для того, чтобы выполнить один из способов, описанных здесь.

Другой вариант осуществления согласно изобретению содержит устройство или систему, конфигурируемую, чтобы передать (например, электронным образом или оптически) компьютерную программу для того, чтобы выполнить один из способов, описанных здесь, на приемник. Приемник может, например, быть компьютером, мобильным устройством, запоминающим устройством или подобным. Устройство или система могут, например, содержать файл-сервер для того, чтобы передать компьютерную программу приемнику.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для выполнения некоторых или всех функциональных возможностей способов, описанных здесь. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных здесь. Вообще, способы предпочтительно выполняются любым устройством аппаратного обеспечения.

Вышеупомянутые описанные варианты осуществления являются просто иллюстративными для принципов настоящего изобретения. Подразумевается, что модификации и изменения компоновок и деталей, описанных здесь, будут очевидны для специалистов в данной области техники. Поэтому имеется намерение быть ограниченным только объемом охватывающей формулы изобретения, а не конкретными деталями, представленными здесь посредством описания и объяснения вариантов осуществления.

1. Устройство для генерирования сигнала (130) с улучшенным спектром, содержащее:

генератор (200) сигнала для генерирования сигнала расширения из основного сигнала (120, 110), причем сигнал расширения содержит частотный диапазон расширения, не включенный в основной сигнал, в котором текущая временная часть (320, 340) сигнала расширения или основного сигнала содержит сигналы поддиапазонов для множества поддиапазонов;

контроллер (800) для вычисления одной и той же информации (802) сглаживания для множества сигналов поддиапазонов частотного диапазона расширения или основного сигнала, и

при этом генератор (200) сигнала сконфигурирован для сглаживания множества сигналов поддиапазонов частотного диапазона расширения или основного сигнала, используя одну и ту же информацию (802) сглаживания,

при этом контроллер (800) сконфигурирован, чтобы вычислять информацию (802) сглаживания, используя объединенную энергию множества сигналов поддиапазонов основного сигнала и сигнала с улучшенным спектром или используя только сигнал с улучшенным спектром текущей временной части, и использовать среднюю энергию множества сигналов поддиапазонов основного сигнала и сигнала с улучшенным спектром или основного сигнала только одной или больше более ранних временных частей, предшествующих текущей временной части, или одной или больше более поздних временных частей, следующих после текущей временной части.

2. Устройство по п. 1, в котором информация (802) сглаживания является единственным коэффициентом (1402b, 1401b, 1400b) коррекции для множества сигналов поддиапазонов частотного диапазона расширения и в котором генератор (200) сигнала сконфигурирован, чтобы применять упомянутый коэффициент коррекции ко множеству сигналов поддиапазонов частотного диапазона расширения.

3. Устройство по п. 1, дополнительно содержащее банк фильтров или провайдер (100), чтобы обеспечить множество сигналов поддиапазонов основного сигнала для множества следующих во времени слотов (340) банка фильтров,

в котором генератор (200) сигнала сконфигурирован, чтобы выводить множество сигналов поддиапазонов частотного диапазона расширения для множества следующих во времени слотов (340) банка фильтров, используя упомянутое множество сигналов поддиапазонов основного сигнала (120), и

в котором контроллер (800) сконфигурирован, чтобы вычислять индивидуальную информацию сглаживания для каждого слота (340) банка фильтров.

4. Устройство по п. 1, в котором контроллер (800) сконфигурирован, чтобы вычислять значение (1040) управления интенсивностью сглаживания на основании основного сигнала или сигнала с улучшенным спектром текущей временной части и одной или более предыдущих временных частей, и

в котором контроллер (800) сконфигурирован, чтобы вычислять информацию (802) сглаживания, используя значение (1060) управления сглаживанием таким образом, чтобы интенсивность сглаживания изменялась в зависимости от разности между энергией основного сигнала или сигнала с улучшенным спектром в текущей временной части и средней энергией в основном сигнале или сигнале с улучшенным спектром одной или более предыдущих временных частей.

5. Устройство по п. 1, в котором контроллер (800) сконфигурирован, чтобы вычислять информацию (802) сглаживания на основании следующего уравнения:

,

в котором Ecurrt является энергией в текущей временной части, причем Eavgt является средним одной или более предшествующих или более поздних временных частей, и при этом а является параметром, управляющим интенсивностью сглаживания, и

в котором генератор сигнала сконфигурирован, чтобы применять информацию сглаживания к каждой выборке поддиапазона из множества поддиапазонов расширенного по частоте сигнала.

6. Устройство по п. 1, в котором генератор (200) сигнала сконфигурирован, чтобы формировать (204) основной сигнал или сигнал расширения в дополнение к сглаживанию.

7. Устройство по п. 6, в котором текущая временная часть и по меньшей мере одна последующая временная часть формируют кадр (340),

при этом генератор (200) сигнала сконфигурирован, чтобы применять одну и ту же информацию формирования для всего кадра (340), и при этом генератор (200) сигнала сконфигурирован для сглаживания, используя индивидуальную информацию (802) сглаживания для каждой временной части (340) в пределах кадра (320).

8. Устройство по п. 1,

в котором генератор (200) сигнала сконфигурирован, чтобы выполнять ограничение энергии в отношении сигнала с улучшенным спектром или основного сигнала, чтобы убедиться, что сигнал, полученный банком (300) фильтров синтеза, является таким, что энергия более высокого частотного диапазона, самое большее, равна энергии в более низком частотном диапазоне или больше чем, самое большее, на заранее заданный порог 3 дБ или меньше.

9. Устройство по п. 1,

в котором генератор (200) сигнала сконфигурирован, чтобы зеркально отражать (202) единственный сигнал поддиапазона основного сигнала или множество сигналов поддиапазонов основного сигнала при вычислении множества сигналов поддиапазонов сигнала с улучшенным спектром.

10. Способ генерирования сигнала (130) с улучшенным спектром, содержащий:

генерирование (200) сигнала расширения из основного сигнала (120, 110), причем сигнал расширения содержит частотный диапазон расширения, не включенный в основной сигнал, в котором текущая временная часть (320, 340) сигнала расширения или основного сигнала содержит сигналы поддиапазонов для множества поддиапазонов;

вычисление (800) одной и той же информации (802) сглаживания для множества сигналов поддиапазонов частотного диапазона расширения или основного сигнала, и

в котором генерирование (200) содержит сглаживание множества сигналов поддиапазонов частотного диапазона расширения или основного сигнала, используя одну и ту же информацию (802) сглаживания,

при этом вычисление (800) содержит вычисление информации (802) сглаживания, используя объединенную энергию множества сигналов поддиапазонов основного сигнала и сигнала с улучшенным спектром, или используя только сигнал с улучшенным спектром текущей временной части, и используя среднюю энергию множества сигналов поддиапазонов основного сигнала и сигнала с улучшенным спектром или основного сигнала только одной или больше более ранних временных частей, предшествующих текущей временной части, или одной или больше более поздних временных частей, следующих после текущей временной части.

11. Система для обработки сигналов аудио, содержащая:

кодер (1500) для генерирования кодированного основного сигнала (110); и

устройство для генерирования сигнала с улучшенным спектром по любому из пп. 1-9.

12. Способ обработки аудиосигналов, содержащий:

генерирование (1500) кодированного основного сигнала (110); и

генерирование сигнала с улучшенным спектром, используя способ по п. 10.

13. Машиночитаемый носитель, содержащий компьютерную программу для того, чтобы выполнять, при выполнении на компьютере или процессоре, способ по п. 10.

14. Машиночитаемый носитель, содержащий компьютерную программу для того, чтобы выполнять, при выполнении на компьютере или процессоре, способ по п. 12.



 

Похожие патенты:

Изобретение относится к средствам ослабления опережающих эхо-сигналов в цифровом звуковом сигнале. Технический результат заключается в обеспечении возможности ослабления высоких частот и паразитных опережающих эхо-сигналов при декодировании без передачи кодирующим устройством какой-либо вспомогательной информации.

Изобретение относится к средствам для кодирования и декодирования кодированного аудиосигнала. Технический результат заключается в предоставлении усовершенствованного принципа кодирования/декодирования, позволяющего уменьшить скорость передачи битов.

Изобретение относится к средствам для генерирования и воспроизведения аудиосигнала. Технический результат заключается в обеспечении возможности генерирования и воспроизведения аудиосигнала при уменьшении доступной скорости передачи данных.

Изобретение описывает способ сравнения первого входящего аудиотрека с индексированным аудиотреком. Технический результат – устранение затрат производительной мощности, имеющих место при сравнении более крупных частей аудиосигнатур.

Изобретение относится к области техники кодирования, декодирования и обработки аудиосигнала, в частности, он относится к средствам восстановления высокочастотного контента аудиосигнала из низкочастотного контента того же аудиосигнала.

Изобретение относится к области обработки звуковых сигналов. Технический результат изобретения заключается в уменьшении амплитудного спектра шума.

Изобретение относится к обработке аудиосигналов и предназначено для для произвольных сдвигов частоты в области поддиапазонов. Технический результат - повышение качества воспроизведения аудиосигнала.

Изобретение относится к средствам генерации аудиосигнала. Технический результат заключается в уменьшении шумовых составляющих в речевом аудиосигнале.

Изобретение относится к средствам для обработки аудио сигнала. Технический результат заключается в уменьшении влияния переходных процессов на качество звука.

Данное изобретение относится к технологиям распознавания речи, т.е. перевода звукового сигнала, содержащего речь, в транскрипционное представление.

Изобретение относится к средствам для управления усилениями в полосах в расширенной области полосы частот на основе информации о положениях пиков. Технический результат заключается в повышении качества расширения полосы частот гармонических аудиосигналов. Принимают множество значений усиления, ассоциированных с полосой b частот, и множество соседних полос частот для полосы b. Определяют, содержит ли реконструированная соответствующая полоса b’ частот спектральный пик. Когда полоса b’ содержит спектральный пик, значение усиления, ассоциированное с полосой b’, устанавливают как первое значение на основе принятого множества значений усиления; и в противном случае, значение усиления устанавливают как второе значение на основе принятого множества значений усиления. 4 н. и 8 з.п. ф-лы, 10 ил.
Наверх