Устройство для расширения полосы частот

Авторы патента:

МЮЛЛЮЛА Вилле Микаель (FI)

АЛКУ Пааво Ильмари (FI)

ЛААКСОНЕН Лаура (FI)

ПУЛАККА Ханну Юхани (FI)

G10L21/0208 - Обработка сигналов речи для получения иного слышимого или неслышимого сигнала, например визуального, осязаемого, для того, чтобы модифицировать их качество или их разборчивость (G10L 19/00 имеет преимущество)

G10L19/04 - с использованием способов прогнозирования

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

G10L19/012 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2552184:

Нокиа Корпорейшн (FI)

Изобретение относится к средствам для расширения полосы частот. Технический результат заключается в улучшении восприятия расширенного звукового сигнала. Генерируют сигнал возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов. Выделяют вектор признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области. Определяют по меньшей мере один параметр формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов. Генерируют сигнал поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра. 3 н. и 18 з.п. ф-лы, 10 ил.

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к устройству и способу, которые предназначены для улучшения качества звукового сигнала. В частности, настоящее изобретение относится к устройству и способу, которые предназначены для расширения полосы частот звукового сигнала.

УРОВЕНЬ ТЕХНИКИ

Звуковые сигналы, такие как речь или музыка, могут кодироваться для обеспечения возможности эффективной передачи или хранения.

Полоса частот звуковых сигналов может быть ограничена, и ее размер обычно определяется доступной пропускной способностью системы передачи и емкостью носителя информации. Однако в некоторых случаях желательно воспринимать декодированный звуковой сигнал в более широкой полосе частот по сравнению с той, что использовалась при первоначальном кодировании этого звукового сигнала. В этих случаях в декодере могут быть реализованы средства искусственного расширения полосы частот, которые могут расширять полосу частот декодируемого звукового сигнала с использованием информации, определяемой исключительно на основе этого декодируемого сигнала.

Одной из областей, в которой применяется такое искусственного расширения полосы частот, является область мобильной связи. Обычно в системе мобильной связи, такой как глобальная система для мобильной связи (GSM, Global System for Mobile Communications), речевой сигнал может ограничиваться полосой частот, меньшей чем 4 кГц, другими словами, этот сигнал является узкополосным речевым сигналом. Однако в естественной речи могут содержаться существенные частотные компоненты с частотой до 10 кГц. Дополнительные высокочастотные компоненты могут улучшать общее качество и разборчивость речевого сигнала, в результате чего формируется более четкий и привлекательный звук по сравнению с эквивалентным узкополосным сигналом.

В существующих способах улучшения качества и разборчивости узкополосного речевого сигнала путем искусственного расширения полосы частот может применяться кодовый словарь для генерации дополнительных высокочастотных компонентов. Кодовый словарь может содержать частотные векторы различных спектральных характеристик, которые в совокупности перекрывают диапазон представляющих интерес частот. Диапазон частот может расширяться по кадрам путем выбора оптимального вектора и добавления к нему спектральных компонентов из принятого декодированного сигнала.

Кроме того, в способах искусственного расширения полосы частот может применяться технология повышающей дискретизации для создания альтернативных копий принятого сигнала на высокочастотных компонентах. Затем амплитуда уровней энергии альтернативных частотных компонентов может регулироваться для создания репрезентативных высоких частот речевого сигнала.

Однако существующие способы искусственного расширения полосы частот могут характеризоваться плохим качеством и неэффективностью.

Например, в некоторых способах искусственного расширения полосы частот может применяться система, классифицирующая входящие речевые кадры по их фонетическому содержимому, для того чтобы определить огибающую высокочастотного диапазона. Затем огибающая может использоваться для формирования частотного спектра, создаваемого путем наложения низких частот.

Однако высокочастотные диапазоны, которые сгенерированы с помощью этого подхода, могут не всегда звучать натурально. Это может происходить частично потому, что переход между различными фонемами в речевом сигнале естественным образом осуществляется плавно. В то же время, использование системы классификации фонем может привести к нарушению непрерывности на границах принятия решений.

Кроме того, и другие факторы при использовании вышеупомянутого подхода к искусственному расширению полосы частот могут привести к возникновению неестественного звучания, например, некорректная классификация входящих кадров речевого сигнала и неточная оценка формы спектра верхнего диапазона.

КРАТКОЕ ОПИСАНИЕ НЕКОТОРЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Настоящее изобретение исходит из того, что использование существующих схем искусственного расширения полосы частот может привести в целом к ухудшению воспринимаемой естественности расширенного звукового сигнала. Это ухудшение в особенности может распространяться на общее восприятие шипящих звуков.

ВАРИАНТЫ ОСУЩЕСТВЛЕНИЯ, НАПРАВЛЕННЫЕ НА РЕШЕНИЕ УКАЗАННОЙ ВЫШЕ ПРОБЛЕМЫ

В соответствии с первым аспектом некоторых вариантов осуществления настоящего изобретения предлагается способ, включающий: генерацию сигнала возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов; выделение вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области; определение по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов; и генерацию сигнала поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра.

В соответствии с вариантом осуществления способ при генерации сигнала возбуждения может включать генерацию остаточного сигнала путем фильтрации звукового сигнала с использованием инверсного фильтра с линейным предсказанием; фильтрацию остаточного сигнала с использованием секции постфильтра, содержащей фильтр авторегрессионного скользящего среднего, основанный на фильтре с линейным предсказанием; и генерацию сигнала возбуждения путем повышающей дискретизации и спектрального свертывания выходного сигнала секции постфильтра.

Секция постфильтра также может содержать фильтр спектрального наклона и фильтр гармоник.

Частотные компоненты сигнала поддиапазона могут распределяться согласно психоакустической шкале, разбитой на множество перекрывающихся диапазонов, и частотные характеристики банка фильтров могут соответствовать распределению частотных компонентов сигнала поддиапазона.

Перекрывающиеся диапазоны могут распределяться согласно Mel-шкале, и при этом сигнал поддиапазона может быть маскирован с использованием треугольной функции маскирования.

В альтернативном варианте перекрывающиеся диапазоны могут распределяться согласно Mel-шкале, и при этом сигнал поддиапазона может быть маскирован с использованием трапецеидальной функции маскирования.

Процедура определения по меньшей мере одного параметра формы спектра на основе вектора признаков может включать: использование нейронной сети для определения по меньшей мере одной формы спектра на основе вектора признаков, при этом вектор признаков, выделенный из звукового сигнала, может формировать входной целевой вектор для нейронной сети, и нейронная сеть может обучаться с целью предоставления параметра формы спектра поддиапазона для входного целевого вектора.

Параметр формы спектра может представлять собой значение уровня энергии поддиапазона.

Параметр формы спектра может представлять собой коэффициент усиления поддиапазона, основанный на значении уровня энергии поддиапазона.

Значение уровня энергии поддиапазона может ослабляться, если мощность звукового сигнала достигает оценочного значения уровня шумов в звуковом сигнале.

По меньшей мере один признак компонента в частотной области в векторе признаков может включать по меньшей мере одно из следующих значений: группу, состоящую из множества уровней энергии звукового сигнала, при этом каждый из уровней энергии звукового сигнала соответствует энергии перекрывающегося диапазона звукового сигнала; значение, представляющее центроид спектра в частотной области звукового сигнала; и значение, представляющее степень равномерности спектра в частотной области.

По меньшей мере один признак компонента во временной области в векторе признаков может включать по меньшей мере одно из следующих значений: индекс градиента, основанный на сумме градиентов в точках звукового сигнала, в которых изменяется направление формы волны звукового сигнала; отношение энергии кадра звукового сигнала к энергии предыдущего кадра звукового сигнала, и классификацию звукового сигнала как активного или неактивного детектором речевой активности.

Способ может также включать объединение сигнала поддиапазона со звуковым сигналом для формирования звукового сигнала с расширенной полосой частот.

В соответствии со вторым аспектом некоторых вариантов осуществления настоящего изобретения предлагается устройство, содержащее по меньшей мере один процессор и по меньшей мере одну память, в которой хранится компьютерный код, при этом по меньшей мере одна память и компьютерный код сконфигурированы таким образом, чтобы при взаимодействии по меньшей мере с одним процессором устройство выполняло по меньшей мере следующие операции: генерацию сигнала возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов; выделение вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области; определение по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов; и генерацию сигнала поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра.

В соответствии с вариантом осуществления, устройство, в котором по меньшей мере одна память и компьютерный код сконфигурированы таким образом, чтобы при взаимодействии по меньшей мере с одним процессором устройство выполняло генерацию сигнала возбуждения, также может быть сконфигурировано для выполнения следующих операций: генерация остаточного сигнала путем фильтрации звукового сигнала с использованием инверсного фильтра с линейным предсказанием; фильтрация остаточного сигнала с использованием секции постфильтра, содержащей фильтр авторегрессионного скользящего среднего, основанный на фильтре с линейным предсказанием; и генерация сигнала возбуждения путем повышающей дискретизации и спектрального свертывания выходного сигнала секции постфильтра.

Секция постфильтра также может содержать фильтр спектрального наклона и фильтр гармоник.

Перекрывающиеся поддиапазоны могут распределяться согласно Mel-шкале, при этом сигнал поддиапазона может быть маскирован с использованием треугольной функции маскирования.

В альтернативном варианте перекрывающиеся диапазоны могут распределяться согласно Mel-шкале, при этом сигнал поддиапазона может быть маскирован с использованием трапецеидальной функции маскирования.

По меньшей мере одна память и компьютерный код, сконфигурированные таким образом, чтобы при взаимодействии по меньшей мере с одним процессором устройство выполняло определение по меньшей мере одного параметра формы спектра на основе вектора признаков, также могут быть сконфигурированы для: использования нейронной сети для определения по меньшей мере одной формы спектра на основе вектора признаков, при этом вектор признаков, выделенный из звукового сигнала, формирует входной целевой вектор для нейронной сети, и нейронная сеть обучается с целью предоставления параметра формы спектра поддиапазона для входного целевого вектора.

Параметр формы спектра может представлять собой значение уровня энергии поддиапазона.

По меньшей мере один признак компонента во временной области может включать по меньшей мере одно из следующих значений: индекс градиента, основанный на сумме градиентов в точках звукового сигнала, в которых изменяется направление формы волны звукового сигнала; отношение энергии кадра звукового сигнала к энергии предыдущего кадра звукового сигнала и классификацию звукового сигнала как активного или неактивного детектором речевой активности.

По меньшей мере одна память и компьютерный код также сконфигурированы для выполнения объединения сигнала поддиапазона со звуковым сигналом для формирования звукового сигнала с расширенной полосой частот.

В соответствии с третьим аспектом некоторых вариантов осуществления настоящего изобретения предлагается компьютерное программное изделие, в котором на машиночитаемом носителе хранится программный код, который при исполнении процессором реализует следующие операции: генерацию сигнала возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов; выделение вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области; определение по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов; и генерацию сигнала поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра.

В соответствии с вариантом осуществления настоящего изобретения если код компьютерного программного изделия при исполнении процессором реализует операцию генерации сигнала возбуждения, то этот код может также реализовать следующие операции: генерацию остаточного сигнала путем фильтрации звукового сигнала с использованием инверсного фильтра с линейным предсказанием; фильтрацию остаточного сигнала с использованием секции постфильтра, содержащей фильтр авторегрессионного скользящего среднего, основанный на фильтре с линейным предсказанием; и генерацию сигнала возбуждения путем повышающей дискретизации и спектрального свертывания выходного сигнала секции постфильтра.

Секция постфильтра также может содержать фильтр спектрального наклона и фильтр гармоник.

Код, исполняемый процессором и реализующий операцию определения по меньшей мере одного параметра формы спектра на основе вектора признаков, также может реализовать следующие операции: использование нейронной сети для определения по меньшей мере одной формы спектра на основе вектора признаков, при этом вектор признаков, выделенный из звукового сигнала, может формировать входной целевой вектор для нейронной сети, и нейронная сеть может обучаться с целью предоставления параметра формы спектра поддиапазона для входного целевого вектора.

Параметр формы спектра может представлять собой значение уровня энергии поддиапазона.

Код может также реализовать операцию объединения сигнала поддиапазона со звуковым сигналом для формирования звукового сигнала с расширенной полосой частот.

В соответствии с четвертым аспектом некоторых вариантов осуществления настоящего изобретения предлагается устройство, содержащее: генератор сигнала возбуждения, сконфигурированный для генерации сигнала возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов; блок выделения признаков, сконфигурированный для выделения вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области; блок определения спектральных параметров, сконфигурированный для определения по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов; и банк фильтров, сконфигурированный для генерации сигнала поддиапазона путем фильтрации сигнала возбуждения и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра.

Генератор сигнала возбуждения может содержать: инверсный фильтр с линейным предсказанием, сконфигурированный для генерации остаточного сигнала путем фильтрации звукового сигнала; секцию постфильтра, включающую фильтр авторегрессионного скользящего среднего, сконфигурированный для фильтрации остаточного сигнала, при этом фильтр авторегрессионного скользящего среднего зависит от инверсного фильтра с линейным предсказанием; и повышающий дискретизатор, сконфигурированный для генерации сигнала возбуждения путем повышающей дискретизации и спектрального свертывания выходного сигнала секции постфильтра.

Секция постфильтра может также содержать: фильтр спектрального наклона и фильтр гармоник.

Частотные компоненты сигнала поддиапазона могут распределяться согласно психоакустической шкале, разбитой на множество перекрывающихся диапазонов, и частотные характеристики банка фильтров соответствуют распределению частотных компонентов сигнала поддиапазона.

Перекрывающиеся поддиапазоны могут распределяться согласно Mel-шкале, при этом сигнал поддиапазона может быть маскирован с использованием треугольной и/или трапецеидальной функции маскирования.

Блок определения спектральных параметров может содержать: нейронную сеть, сконфигурированную для определения по меньшей мере одной формы спектра на основе вектора признаков, при этом вектор признаков, выделенный из звукового сигнала, формирует входной целевой вектор для нейронной сети, и нейронная сеть обучается с целью предоставления параметра формы спектра поддиапазона для входного целевого вектора.

Параметр формы спектра может представлять собой значение уровня энергии поддиапазона.

Банк фильтров может содержать аттенюатор, сконфигурированный для ослабления значения уровня энергии поддиапазона, если мощность звукового сигнала достигает оценочного значения уровня шумов в звуковом сигнале.

По меньшей мере один признак компонента в частотной области в векторе признаков может включать по меньшей мере одно из следующих значений: группу, состоящую из множества уровней энергии звукового сигнала, при этом каждый из уровней энергии звукового сигнала соответствует энергии перекрывающегося поддиапазона звукового сигнала; значение, представляющее центроид спектра в частотной области звукового сигнала; и значение, представляющее степень равномерности спектра в частотной области.

По меньшей мере один признак компонента во временной области в векторе признаков может включать по меньшей мере одно из следующих значений: индекс градиента, основанный на сумме градиентов в точках звукового сигнала, в которых изменяется направление формы волны звукового сигнала; отношение энергии кадра звукового сигнала к энергии предыдущего кадра звукового сигнала и классификацию звукового сигнала как активного или неактивного детектором речевой активности.

Устройство может также содержать объединитель сигналов, сконфигурированный для объединения сигнала поддиапазона со звуковым сигналом с целью формирования звукового сигнала с расширенной полосой частот.

Электронный прибор может включать в свой состав описанное выше устройство.

Набор микросхем может включать в свой состав описанное выше устройство.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Для лучшего понимания сути настоящего изобретения далее в примерах приводятся ссылки на прилагаемые чертежи, на которых:

на фиг.1 схематично показан электронное устройство, в котором используются варианты осуществления настоящего изобретения;

на фиг.2 схематично показана система декодера, в которой используются варианты осуществления настоящего изобретения;

на фиг.3 схематично показан декодер, с помощью которого реализуется первый вариант осуществления настоящего изобретения;

на фиг.4 схематично показано устройство расширения полосы частот в соответствии с некоторыми вариантами осуществления настоящего изобретения;

на фиг.5 показаны преимущества применения критических диапазонов и слухового маскирования к входному звуковому сигналу устройства для расширения полосы частот для упрощения выполнения процесса выделения признаков;

на фиг.6 показаны преимущества применения критических диапазонов для упрощения выполнения процесса генерации сигнала с искусственно расширенной полосой частот;

на фиг.7 показаны преимущества применения банка фильтров, в котором поддиапазоны определяются критическими диапазонами;

на фиг.8 показан алгоритм, иллюстрирующий работу устройства для расширения полосы частот в соответствии с некоторыми вариантами осуществления настоящего изобретения;

на фиг.9 показан алгоритм, более подробно иллюстрирующий ряд операций, выполняемых устройством для расширения полосы частот в варианте осуществления, представленном на фиг.4; и

на фиг.10 показан алгоритм, более подробно иллюстрирующий ряд дополнительных операций, выполняемых устройством в варианте осуществления, представленном на фиг.4.

НЕКОТОРЫЕ ВАРИАНТЫ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Далее более подробно описываются возможные механизмы реализации искусственного расширения полосы частот декодированного звукового сигнала. Вначале со ссылкой на фиг.1 рассматривается блок-схема типового электронного устройства 10, которое может включать в свой состав кодек, соответствующий варианту осуществления настоящего изобретения.

Электронное устройство 10 может, например, представлять собой мобильный терминал или пользовательское оборудование системы беспроводной связи. В некоторых иных вариантах осуществления настоящего изобретения устройство 10 может представлять собой любой подходящий компонент звуковой системы или подсистемы в составе электронного устройства, такого как аудиоплеер (также называемый МР3-плеер) или медиаплеер (также называемый МР4-плеер).

Электронное устройство 10 содержит микрофон 11, который через аналого-цифровой преобразователь (ADC, analogue-to-digital converter) 14 соединяется с процессором 21. Процессор 21 далее через цифроаналоговый преобразователь (DAC, digital-to-analogue converter) 32 соединяется с громкоговорителем (громкоговорителями) 33. Процессор 21 также соединяется с приемопередатчиком (RX/TX) 13, пользовательским интерфейсом (UI, user interface) 15 и памятью 22.

Процессор 21 может быть сконфигурирован для исполнения различных программных кодов. Выполняемые программные коды 23 могут содержать коды для декодирования звукового или речевого сигнала. Выполняемые программные коды 23 могут храниться, например, в памяти 22, из которой они при необходимости считываются процессором 21. В памяти 22 также может быть отведен раздел 24 для хранения данных, например, данных, закодированных в соответствии с вариантами осуществления настоящего изобретения.

Код для декодирования в соответствии с вариантами осуществления настоящего изобретения может быть реализован в виде электронных схем аппаратного или микропрограммного обеспечения.

Пользовательский интерфейс 15 позволяет пользователю вводить команды, управляющие электронным устройством 10, например, с помощью клавиатуры, и/или получать информацию от электронного устройства 110, например, на дисплее. Приемопередатчик 13 позволяет осуществлять связь с другими электронными устройствами, например, через сеть беспроводной связи.

Следует понимать, что структура электронного устройства 10 может быть дополнена и изменена различными способами.

В состав электронного устройства 10 может входить микрофон 11, используемый для ввода речевого сигнала, который должен передаваться в некоторые другие электронные устройства или сохраняться в разделе 24 данных памяти 22. С этой целью пользователем через пользовательский интерфейс 15 активизируется соответствующее приложение. Это приложение, которое может запускаться процессором 21, инициирует исполнение процессором 21 кода, хранящегося в памяти 22.

Аналого-цифровой преобразователь 14 преобразует входной аналоговый звуковой сигнал в цифровой звуковой сигнал и подает этот сигнал в процессор 21.

Электронное устройство 10 может через свой приемопередатчик 13 принимать от другого электронного устройства битовый поток, содержащий соответствующим образом закодированные данные. В альтернативном варианте закодированные данные могут сохраняться в секции 24 данных, расположенной в памяти 22, например, для последующего их представления электронным устройством 10. В обоих случаях процессор 21 может исполнять программный код для декодирования, хранимый в памяти 22. Процессор 21 декодирует принятые данные, например, таким образом, как это описано со ссылкой на фиг.3 и 4, и подает декодированные данные в цифроаналоговый преобразователь 32. Цифроаналоговый преобразователь 32 преобразует цифровые закодированные данные в аналоговые звуковые данные и выводит их через громкоговоритель (громкоговорители) 33. Исполнение программного кода для декодирования может инициироваться приложением, вызванным пользователем из среды пользовательского интерфейса 15.

Кроме того, принятые закодированные данные могут не сразу выводиться через громкоговорители 33, а могут сохраняться в разделе 24 данных памяти 22, например, для последующего предоставления или пересылки в другое электронное устройство.

Необходимо принимать во внимание, что схематические структуры, показанные на фиг.3 и 4, и шаги способа, показанные на фиг.8, 9 и 10, представляют только часть операций, выполняемых устройством для расширения полосы частот, пример реализации которого в электронном устройстве изображен на фиг.1.

Основные операции, выполняемые кодеками речевого и звукового сигналов, известны на существующем уровне техники, поэтому функции таких кодеков, не относящиеся к разъяснению сущности вариантов осуществления настоящего изобретения, подробно не описываются.

Далее описываются варианты осуществления настоящего изобретения со ссылками на фиг.2-10.

Основные операции, выполняемые декодерами речевого и звукового сигналов согласно вариантам осуществления настоящего изобретения, показаны на фиг.2. На фиг 2 схематично показана основная система 102 декодирования. Система 102 может содержать память или медиа-канал 106 (также называемый каналом связи) и декодер 108.

Декодер 108 распаковывает битовый поток 112 и формирует выходной звуковой сигнал 114. Скорость передачи битового потока 112 и качество выходного звукового сигнала 114 относительно входного сигнала 110 являются основными характеристиками, которые определяют рабочие параметры системы 102 кодирования.

На фиг.3 схематично показан декодер 108 в соответствии с некоторыми вариантами осуществления настоящего изобретения. Декодер 108 содержит вход 302, с которого закодированный поток 112 может приниматься через медиа-канал 106. Вход 302 в некоторых вариантах осуществления подключается к декодеру 301 звукового сигнала. Декодер 301 звукового сигнала в таких вариантах осуществления сконфигурирован для приема закодированных данных, поступающих из медиа-канала или канала связи, в результате чего принятые данные могут быть сохранены и распакованы. Декодер 301 звукового сигнала в таких вариантах осуществления также сконфигурирован для декодирования закодированных данных, поступающих из медиа-канала 106, с целью формирования выходного потока 304, основанного на выборках звукового сигнала. Выходной поток звукового сигнала из декодера 301 звукового сигнала может подаваться на вход устройства 303 искусственного расширения полосы частот. Устройство 303 для расширения полосы частот в некоторых вариантах осуществления настоящего изобретения может быть настроено для расширения полосы частот поступающего на вход потока 304 звукового сигнала с целью формирования выходного звукового сигнала 306 с расширенной полосой частот.

Звуковой сигнал 306 с расширенной полосой частот может в некоторых вариантах осуществления настоящего изобретения формировать выходной звуковой сигнал 114, передаваемый из декодера 108.

Следует принимать во внимание, что декодер 301 звукового сигнала может специальным образом настраиваться для декодирования входных закодированных данных, передаваемых с входа 302. Другими словами, технология декодирования звукового сигнала, применяемая декодером 301 звукового сигнала, может определяться технологией кодирования звукового сигнала, используемой для формирования закодированных данных.

Кроме того, следует иметь в виду, что в некоторых вариантах осуществления настоящего изобретения декодер 301 звукового сигнала может настраиваться для декодирования либо звуковых, либо речевых закодированных данных.

Например, в некоторых вариантах осуществления настоящего изобретения декодер 301 звукового сигнала может быть сконфигурирован для декодирования речевого сигнала, который может быть кодирован в соответствии со стандартом адаптивного многоскоростного кодирования речи (AMR, Adaptive multirate).

Подробное описание кодека AMR содержится, например, в технических спецификациях 3GPP TS 26.090.

Далее со ссылкой на фиг.4 более подробно описывается устройство 303 для расширения полосы частот звукового сигнала в соответствии с некоторыми вариантами осуществления настоящего изобретения.

Устройство 303 искусственного расширения полосы частот имеет вход 401, который может быть сконфигурирован для приема выходного потока 304 выборок звукового сигнала из декодера 301 звукового сигнала.

Следует иметь в виду, что декодированный поток выборок звукового сигнала, поступающий в устройство 303 для расширения полосы частот, может рассматриваться как сигнал нижнего диапазона частот. Устройство 303 для расширения полосы частот в некоторых вариантах осуществления настоящего изобретения затем может проанализировать сигнал нижнего диапазона частот для идентификации определенных признаков. Идентифицированные признаки в таких вариантах осуществления настоящего изобретения затем могут использоваться для создания звукового сигнала верхнего диапазона, который затем можно объединить со звуковым сигналом нижнего диапазона для формирования звукового сигнала 306 с расширенной полосой частот.

Кроме того, необходимо принимать во внимание, что компонент верхнего диапазона частот звукового сигнала с расширенной полосой частот в вариантах осуществления настоящего изобретения может формироваться без необходимости получения дополнительной информации из кодера.

В некоторых вариантах осуществления настоящего изобретения входной сигнал нижнего диапазона частот может характеризоваться полосой частот телефонной линии, составляющей от 300 до 3400 Гц, с частотой дискретизации 8 кГц. В этих вариантах осуществления настоящего изобретения устройство 303 для расширения полосы частот может преобразовать входной звуковой сигнал в широкополосный звуковой сигнал с частотой дискретизации, составляющей 16 кГц, и с диапазоном частот, который может превышать диапазон частот входного сигнала.

Следует принимать во внимание, что в данном случае термин «верхний диапазон» может означать расширенные частотные компоненты, генерированные устройством 303 для расширения полосы.

Для того чтобы лучше понять суть изобретения, далее более подробно описывается функционирование устройства 303 для расширения полосы частот со ссылкой на алгоритм, показанный на фиг.8.

В некоторых вариантах осуществления устройство 303 для расширения полосы частот звукового сигнала содержит сборщик 403 кадров.

Вход 401 в некоторых вариантах осуществления подключается к сборщику 403 кадров, с помощью которого входной звуковой сигнал (называемый также потоком выборок звукового сигнала) разделяется и объединяется в непрерывную последовательность звуковых кадров.

В некоторых вариантах осуществления настоящего изобретения количество выборок звукового сигнала, объединяемых в кадр, может зависеть от частоты дискретизации входного звукового сигнала.

Например, в некоторых вариантах осуществления настоящего изобретения частота дискретизации входного звукового сигнала 304 может составлять 8 кГц. В таких вариантах осуществления сборщик 403 кадров может настраиваться для разделения входного звукового сигнала на множество звуковых кадров, каждый из которых занимает временной интервал, равный 12 мс. Другими словами, в таком варианте осуществления настоящего изобретения каждый звуковой кадр содержит 96 выборок звукового сигнала с частотой дискретизации, равной 8 кГц.

Кроме того, сборщик 403 кадров в некоторых вариантах осуществления настоящего изобретения может настраиваться на использование перекрывающихся кадров, в результате чего время обновления кадров становится меньше длины кадра звукового сигнала.

Например, в некоторых вариантах осуществления настоящего изобретения кадр звукового сигнала может обновляться сборщиком 403 кадров каждые 10 мс (80 выборок), при условии, что может осуществляться перекрытие 16 выборок между кадрами.

Следует принимать во внимание, что сборщик 403 кадров в некоторых вариантах осуществления может работать на избыточных частотах дискретизации и с избыточными размерами кадров, и что функционирование устройства 303 для расширения полосы частот не ограничено примерами, приведенными в рамках описания некоторых вариантов осуществления настоящего изобретения.

Шаг объединения выборок входного звукового сигнала в кадре 404 звукового сигнала, выполняемый сборщиком 403 кадров, показан на фиг.8 как шаг 801 обработки.

В некоторых вариантах осуществления устройство 303 искусственного расширения полосы частот содержит преобразователь 405 из временной области в частотную.

Выходной сигнал из сборщика 403 кадров может в некоторых вариантах осуществления настоящего изобретения передаваться в преобразователь 405 из временной области в частотную, в результате чего временной кадр 404 звукового сигнала может ортогонально преобразовываться на покадровой основе.

В некоторых вариантах осуществления настоящего изобретения ортогональное преобразование может быть реализовано с использованием быстрого преобразования Фурье (FFT, Fast Fourier Transform), в результате чего временной кадр 404 звукового сигнала, состоящий из 96 выборок, может быть преобразован в частотную область с использованием 128 точек FFT. В этих вариантах осуществления настоящего изобретения применение 128 точек FFT может осуществляться путем дополнения кадра 404 звукового сигнала дополнительными обнуленными выборками.

Следует принимать во внимание, что в некоторых вариантах осуществления настоящего изобретения преобразование кадра 404 звукового сигнала в частотные коэффициенты упрощает выполнение процесса выделения признаков в частотной области.

Следует также иметь в виду, что в некоторых вариантах осуществления настоящего изобретения частотные коэффициенты, генерируемые для кадра 404 звукового сигнала, могут рассматриваться в качестве звукового сигнала нижнего диапазона в частотной области.

Шаг преобразования кадра 404 звукового сигнала в представление в частотной области, содержащее частотные коэффициенты, показан на фиг.8 как шаг 803 обработки.

В некоторых вариантах осуществления устройство 303 искусственного расширения полосы частот содержит блок 407 выделения признаков.

Коэффициенты в частотной области кадра 404 звукового сигнала могут в этих вариантах осуществления передаваться на вход блока 407 выделения признаков.

В некоторых вариантах осуществления блок 407 выделения признаков также может настраиваться для приема дополнительного входного сигнала из сборщика 403 кадров. Этот дополнительный вход может использоваться для передачи кадра 404 звукового сигнала непосредственно из сборщика 403 кадров в блок 407 выделения признаков, вследствие чего не используется преобразователь 405 из временной области в частотную.

Как показано на фиг.4, кадр 404 звукового сигнала во временной области может в этих вариантах осуществления передаваться с помощью соединения 440, установленного между сборщиком 403 кадров и блоком 407 выделения признаков.

Блок 407 выделения признаков может в некоторых вариантах осуществления использоваться для выделения признаков как из кадра звукового сигнала, так и из преобразованного в частотную область кадра звукового сигнала. Признаки, выделенные с помощью блока 407 выделения признаков, могут в некоторых вариантах осуществления использоваться для генерации расширенной частотной области кадра звукового сигнала.

Следует иметь в виду, что в данном случае расширенная частотная область кадра звукового сигнала может называться сигналом верхнего диапазона частот.

Следует также иметь в виду, что в данном случае преобразованный в частотную область кадр звукового сигнала может в некоторых вариантах осуществления настоящего изобретения называться сигналом в частотной области.

В некоторых вариантах осуществления настоящего изобретения для каждого кадра входного звукового сигнала и сигнала в частотной области может быть выделен вектор признаков с девятью измерениями, содержащий признаки как частотной, так и временной области.

В некоторых других вариантах осуществления настоящего изобретения для каждого кадра может выделяться вектор признаков с десятью или другим количеством измерений, содержащий признаки как частотной, так и временной области.

В некоторых вариантах осуществления настоящего изобретения первый набор компонентов признаков в частотной области может быть получен путем разделения сигнала в частотной области на ряд перекрывающихся поддиапазонов с последующим определением энергии каждого поддиапазона. Значение энергии каждого поддиапазона в таких вариантах осуществления может затем формировать компонент вектора признаков в частотной области.

В некоторых вариантах осуществления настоящего изобретения энергия каждого поддиапазона может определяться путем возведения в квадрат амплитуды каждого коэффициента в частотной области в пределах поддиапазона. Другими словами, признаки в частотной области могут в этих вариантах осуществления выделяться, по меньшей мере частично, путем определения спектральной плотности мощности частотных коэффициентов входного сигнала.

В некоторых вариантах осуществления настоящего изобретения сигнал в частотной области может разделяться на множество перекрывающихся поддиапазонов, имеющих одинаковую полосу частот в соответствии с Mel-шкалой, полученной психоакустическим способом.

Например, в некоторых вариантах осуществления настоящего изобретения, согласно которым входной звуковой сигнал подается в устройство 303 для расширения полосы частот с частотой дискретизации 8 кГц, звуковому сигналу нижнему диапазона может соответствовать эффективный диапазон частот в пределах от 250 до 3500 Гц. В этих вариантах осуществления сигнал в частотной области может разделяться на пять поддиапазонов с одинаковой полосой частот в соответствии с Mel-шкалой, полученной психоакустическим способом.

В некоторых вариантах осуществления настоящего изобретения преобразование частотных компонентов, значение которых определяется в Гц, в единицы Mel-шкалы может быть выражено следующим образом:

m=2595log₁₀(1+f/700),

где f - частота в Гц, а m - значение, получаемое после преобразования в Mel-шкалу и соответствующее частотному компоненту.

В этих вариантах осуществления настоящего изобретения каждый из эквивалентно разделенных (по Mel-шкале) перекрывающихся поддиапазонов может фильтроваться согласно фильтру с треугольной полосой пропускания. Другими словами, маска треугольной формы может применяться к компонентам в частотной области каждого поддиапазона, для того чтобы получить значение энергии поддиапазона.

Использование маски треугольной формы в некоторых вариантах осуществления настоящего изобретения позволяет моделировать характеристики слухового маскирования частот в пределах одинакового критического диапазона слуховой системы человека.

В других вариантах осуществления настоящего изобретения каждый из эквивалентно разделенных перекрывающихся поддиапазонов может фильтроваться согласно характеристикам фильтров диапазонов с трапецеидальной полосой пропускания.

Следует принимать во внимание, что в некоторых вариантах осуществления настоящего изобретения маскирующие фильтры с треугольной или трапецеидальной формой полосы пропускания могут быть реализованы таким образом, чтобы фильтрация осуществлялась в более широком диапазоне по сравнению с критическим диапазоном слуховой системы человека.

Необходимо отметить, что в некоторых вариантах осуществления настоящего изобретения фильтр может применяться по очереди к каждому поддиапазону в частотной области, благодаря чему осуществляется моделирование частотного разрешения слуховой системы человека по всему диапазону входного звукового сигнала. Это преимущество иллюстрируется на фиг.5, где показано применение фильтров с треугольной частотной характеристикой к компонентам сигнала в частотной области.

На фиг.5 также показано, что слуховые фильтры в частотной области могут в некоторых вариантах осуществления настоящего изобретения иметь более узкую полосу частот в диапазоне низких частот по сравнению со слуховыми фильтрами на более высоких частотах. Кроме того, можно также видеть, что полоса частот каждого последующего слухового фильтра в некоторых вариантах осуществления настоящего изобретения увеличивается в соответствии с Mel-шкалой.

Следует иметь в виду, что в некоторых вариантах осуществления настоящего изобретения значения спектральной плотности мощности для кадра входного звукового сигнала могут фильтроваться с использованием фильтров поддиапазонов согласно Mel-шкале. Другими словами, значения спектральной плотности мощности могут фильтроваться с использованием последовательности фильтров поддиапазонов, основанных на слуховом восприятии, как это показано на фиг.5.

Следует также иметь в виду, что в некоторых вариантах осуществления настоящего изобретения преимущество описанного выше шага фильтрации заключается в разделении представления спектральной плотности мощности входного кадра звукового сигнала на ряд поддиапазонов, которые равномерно разнесены на Mel-шкале.

После фильтрации кадра входного звукового сигнала с разделением на ряд поддиапазонов энергия для каждого поддиапазона может в соответствии с этими вариантами осуществления настоящего изобретения определяться путем суммирования фильтрованных значений спектральной плотности мощности в пределах поддиапазона.

В общем случае следует учитывать, что в некоторых вариантах осуществления настоящего изобретения значение уровня энергии поддиапазона может определяться путем начального вычисления частотного спектра сигнала, на основании которого спектр мощности может определяться посредством возведения в квадрат значений спектральных амплитуд. Затем для каждого поддиапазона спектральные значения мощности, составляющие конкретный исследуемый поддиапазон, могут взвешиваться (или формироваться) с использованием слухового фильтра, такого как треугольное окно, упомянутое выше. Уровень энергии каждого поддиапазона затем задается суммой взвешенных спектральных компонентов мощности в этом поддиапазоне.

В некоторых вариантах осуществления настоящего изобретения могут использоваться пять значений энергии поддиапазонов, каждое из которых может соответствовать одному из пяти поддиапазонов. Однако следует принимать во внимание, что в некоторых иных вариантах осуществления настоящего изобретения может быть определено большее или меньшее количество значений энергии поддиапазонов.

Следует принимать во внимание, что значения энергии поддиапазонов могут обеспечивать краткое представление формы спектра и уровня мощности кадра 404 звукового сигнала.

Кроме того, необходимо принимать во внимание, что в некоторых вариантах осуществления настоящего изобретения значения энергии поддиапазонов, соответствующие первым пяти диапазонам, могут формировать первые пять признаков вектора признаков, получаемого для каждого кадра звукового сигнала.

В некоторых вариантах осуществления настоящего изобретения значения энергии поддиапазонов, соответствующие первым пяти диапазонам, могут преобразовываться в соответствии со шкалой, выраженной в децибелах.

Блок 407 выделения признаков может в некоторых вариантах осуществления настоящего изобретения также выделять из сигнала в частотной области дополнительные признаки в частотной области. Эти дополнительные признаки в частотной области могут быть основаны на центроиде, называемом иначе "центром тяжести", частотного спектра сигнала.

В некоторых вариантах осуществления настоящего изобретения центроид С частотного спектра сигнала может определяться с использованием возведения в квадрат амплитуды частотного спектра, вычисленной преобразователем 405 из временной области в частотную.

Центроид С частотного спектра сигнала, состоящего из N выборок, в соответствии с некоторыми вариантами осуществления настоящего изобретения может определяться следующим образом:

$C = (\frac{\sum_{i = 0}^{N / 2} f (i) P (i)}{(N / 2 + 1) \sum_{i = 0}^{n / 2} P (i)})$

где i является индексом, обозначающим частотный компонент в пределах нижнего диапазона частот звукового сигнала, P(i) обозначает возведенную в квадрат амплитуду частотного компонента i, и f(i) обозначает частоту, соответствующую индексу i.

Следует принимать во внимание, что в некоторых вариантах осуществления настоящего изобретения центроид частотного спектра сигнала может формировать шестой компонент выделенного признака.

В некоторых вариантах осуществления настоящего изобретения путем определения спектральной неравномерности кадра входного звукового сигнала может быть получен седьмой признак, основанный на частотной области. Этот признак может использоваться для индикации тонального характера кадра входного звукового сигнала.

В этих вариантах осуществления значение спектральной равномерности сигнала может быть получено путем определения отношения между средним геометрическим и средним арифметическим спектра мощности сигнала.

Мера спектральной равномерности в некоторых вариантах осуществления настоящего изобретения может вычисляться согласно следующей формуле:

$x_{s f} = \log_{10} \frac{\sqrt[n_{s f}]{\prod_{i = N_{l}}^{N_{h}} P (i)}}{\frac{1}{N_{s f}} \sum_{i = N_{l}}^{N_{h}} P (i)}$

где Р(i) обозначает значение спектра мощности с частотным индексом i, N_l и N_h обозначают индексы первого и последнего частотных компонентов, по которым определяется мера спектральной равномерности, и N_sf обозначает количество компонентов в пределах этого диапазона.

В некоторых вариантах осуществления настоящего изобретения измерение спектральной неравномерности может осуществляться в пределах частотного диапазона от 300 Гц до 3,4 кГц.

Как указано выше, блок 407 выделения признаков может в некоторых вариантах осуществления также выделять из кадра 404 звукового сигнала признаки, относящиеся к временной области, путем обработки сигнала, передаваемого по соединению 440, во временной области.

В некоторых вариантах осуществления настоящего изобретения первый признак, основанный на временной области и выделяемый блоком 407 выделения признаков, может представлять собой индекс градиента, основанный на сумме амплитуд градиента речевого сигнала во временной области.

Следует принимать во внимание, что градиент в таких вариантах осуществления может определяться в любой точке формы речевого сигнала. Однако в этих вариантах осуществления индекс градиента может определяться для тех точек речевого сигнала, в которых может измениться знак значения градиента. Другими словами, в некоторых вариантах осуществления настоящего изобретения индекс градиента может быть основан на сумме амплитуд градиента в тех точках речевого сигнала, в которых изменяется направление этого сигнала.

В некоторых вариантах осуществления настоящего изобретения индекс X_gi градиента может определяться следующим образом:

$\frac{\sum_{n = 1}^{N_{T} - 1} Δ Ψ (n) | s (n) - s (n - 1) |}{\sqrt{\sum_{n = 0}^{N - 1} (s {(n)}^{2})}}$ ,

где s(n) обозначает выборку речевого сигнала в момент времени n, а N_T представляет количество речевых выборок в кадре 404 звукового сигнала, ΔΨ(n) может представлять изменение знака градиента в момент времени n и может определяться следующим образом:

ΔΨ(n)=½|ΔΨ(n)-ΔΨ(n-1)|,

где ΔΨ(n) обозначает знак градиента s(n)-s(n-1) и может вычисляться по следующей формуле:

$Ψ (n) = \frac{s (n) - s (n - 1)}{| s (n) - s (n - 1) |}$

В некоторых вариантах осуществления настоящего изобретения можно определить, что индекс x_gi градиента может принимать низкие значения во время передачи вокализованных звуков и высокие значения - во время передачи невокализованных звуков.

В некоторых вариантах осуществления настоящего изобретения можно также выделить второй признак во временной области, который может зависеть от отношения энергий кадров звукового сигнала.

В этих вариантах осуществления признак может определяться путем вычисления отношения энергии текущего кадра 404 звукового сигнала к энергии предыдущего кадра звукового сигнала. Результирующее значение в некоторых вариантах осуществления настоящего изобретения затем может масштабироваться в диапазоне, определяемом децибелами.

Некоторые варианты осуществления настоящего изобретения позволяют использовать указанный выше признак для различения невокализованного звука постоянной остановки от других невокализованных речевых звуков.

В некоторых вариантах осуществления настоящего изобретения можно получить третий признак, относящийся к временной области, для кадра звукового сигнала путем определения, находится ли сигнал в активной или неактивной области.

В этих вариантах осуществления кадр 404 звукового сигнала может обрабатываться детектором речевой активности (VAD, voice activity detector), для того чтобы определить, в каком состоянии находится сигнал - активном или неактивном.

В некоторых вариантах осуществления настоящего изобретения VAD может быть реализован путем начального преобразования сигнала во временной области (в другом варианте называемого кадром 404 звукового сигнала) в частотную область с помощью подходящих средств ортогонального преобразования, таких как FFT. После преобразования в частотную область входного сигнала, поступающего в VAD, этот сигнал может быть сгруппирован в множество поддиапазонов. Обычно в некоторых вариантах осуществления настоящего изобретения эта операция группирования может быть выполнена с использованием нелинейной шкалы, на которой большее количество частотных компонентов размещаются в нижних поддиапазонах, более важных с точки зрения восприятия. Отношения сигнал/шум (SNR, signal to noise ratio) для каждого поддиапазона затем могут вычисляться с учетом энергии сигнала и фоновых шумов в пределах каждого поддиапазона. Решение VAD затем может быть принято на основе сравнения суммы SNR для каждого поддиапазона и адаптивного порогового значения.

Обычно в некоторых вариантах осуществления настоящего изобретения энергия шумов для каждого поддиапазона может адаптироваться в пределах зашумленных входных кадров с использованием авторегрессионной схемы.

В некоторых вариантах осуществления настоящего изобретения может использоваться множество способов предотвращения принятия неверных решений VAD. Например, в некоторых вариантах осуществления может применяться "период затягивания", в течение которого решение VAD о переходе из активного в неактивное состояние задерживается, для того чтобы предотвратить принятие неверного решения, когда сигнал имеет невокализованные характеристики. К другим способам в некоторых вариантах осуществления настоящего изобретения может относиться измерение различий между текущим кадром и кадром SNR для увеличения порогового значения принятия решения VAD при передаче сигналов с высоким уровнем флуктуации.

В некоторых вариантах осуществления настоящего изобретения могут применяться способы обнаружения речевой активности, например, определенные в рамках проекта совместной координации разработки систем третьего поколения (3GPP, 3rd Generation Partnership Project) стандартом 3GPP TS 26.090 для адаптивного многоскоростного (AMR) речевого кодека.

Следует принимать во внимание, что в некоторых вариантах осуществления настоящего изобретения три временные признака, описанные выше, могут формировать дополнительные признаки, выделяемые блоком 407 выделения признаков. Другими словами, индекс градиента, отношение энергий и двоичный выход VAD могут в некоторых вариантах осуществления формировать три дополнительных компонента вектора признаков, генерируемого блоком 407 выделения признаков.

Следует также иметь в виду, что в некоторых вариантах осуществления настоящего изобретения вектор признаков, определяемый блоком 407 выделения признаков, может определяться для каждого кадра на основе входного звукового сигнала 401.

Шаг обработки кадра 404 звукового сигнала как во временной, так и в частотной области для выделения вектора признаков показан как шаг 805 обработки на фиг.8.

В некоторых вариантах осуществления устройство 303 для искусственного расширения полосы частот содержит процессор 409 нейронной сети.

Вектор признаков, определенный блоком 407 выделения признаков, в некоторых вариантах осуществления настоящего изобретения передается в процессор 409 нейронной сети.

Процессор 409 нейронной сети может в некоторых вариантах осуществления использоваться для частичной генерации формы спектра искусственно сгенерированного сигнала 431 верхнего диапазона.

В некоторых вариантах осуществления настоящего изобретения процессор 409 нейронной сети может включать в свой состав нейронную сеть, которая с использованием различных данных может обучаться для развития собственных возможностей в различных вариантах осуществления и условиях, например, в условиях шумов различных типов и уровней и при использовании различных языков.

В некоторых вариантах осуществления настоящего изобретения для развития нейронной сети может применяться способ нейроэволюции, основанный на генетических алгоритмах. Такие развивающиеся нейронные сети могут быть рекуррентными, другими словами, они могут накапливать и использовать хронологическую информацию о процессе эволюции, причем параметры этих сетей не ограничены признаками входного вектора, поступающего из блока 407 выделения признаков.

В некоторых вариантах осуществления настоящего изобретения может использоваться способ нейроэволюции, основанный на нарастающих топологиях нейронных сетей. Обычно выполнение алгоритма согласно этому способу начинается с топологии минимальной сети, которая затем может с приращением развиваться путем добавления дополнительных узлов и сетевых линий совместно с модификацией коэффициентов взвешивания, связанных с сетевыми узлами.

Обычно в некоторых вариантах осуществления настоящего изобретения нейронная сеть, основанная на нейроэволюции нарастающих топологий (NEAT, neuroevolution of augmenting topologies), может развиваться как сеть, основанная на восприятии с прямой связью, состоящая только из входных и выходных нейронов. По мере развития с использованием дискретных шагов сложность сетевой топологии может возрастать либо в результате добавления в соединительные пути новых нейронов, либо в результате создания новых соединений между (ранее несвязанными) нейронами.

В некоторых вариантах осуществления настоящего изобретения нейронная сеть NEAT может обучаться в автономном режиме с помощью обучающей базы данных, содержащей множество выборок звукового сигнала.

В некоторых других вариантах осуществления настоящего изобретения операции классификации и распознавания образов могут выполняться любыми устройствами или с помощью любых алгоритмов распознавания образов, например с помощью любой искусственной нейронной сети, самоорганизующейся карты или самоорганизующейся карты признаков, Байесовской сети и т.д.

Образцы звукового сигнала из обучающей базы данных в некоторых вариантах осуществления могут представлять собой первый сигнал, отфильтрованный высокочастотным фильтром для моделирования входной частотной характеристики мобильной станции. Фильтрация в некоторых вариантах осуществления настоящего изобретения может выполняться входным фильтром мобильной станции (MSIN, mobile station input filter) таким образом, как это определено стандартом G.191 Международного союза электросвязи (ITU, International Telecommunications Union).

Векторы признаков для каждого образца звукового сигнала в обучающей базе данных в некоторых вариантах осуществления настоящего изобретения могут выделяться, как описано выше, для использования в процессе обучения нейронной сети NEAT.

Кроме того, в некоторых вариантах осуществления настоящего изобретения может генерироваться набор целевых выходных сигналов для нейронной сети, при этом каждый целевой выходной сигнал нейронной сети соответствует конкретному образцу звукового сигнала, содержащемуся в обучающей базе данных. Эти целевые выходные сигналы затем могут использоваться для определения рабочих параметров нейронной сети на фазе обучения. Другими словами, выходной сигнал нейронной сети для каждого образца звукового сигнала обучающей базы данных может сравниваться с соответствующим целевым выходным сигналом с целью определения рабочих параметров нейронной сети.

В некоторых вариантах осуществления настоящего изобретения целевой выходной сигнал нейронной сети может генерироваться в результате определения параметров, связанных со спектральной формой искусственно сгенерированного сигнала верхнего диапазона, для каждого соответствующего образца звукового сигнала обучающей базы данных.

Кроме того, следует принимать во внимание, что для обучения описанной выше нейронной сети может потребоваться генерация целевого выходного сигнала для каждого образца из обучающей базы данных, при этом каждый обучающий образец звукового сигнала может содержать широкополосный звуковой сигнал.

Целевой выходной сигнал, связанный с каждым обучающим образцом звукового сигнала, в некоторых вариантах осуществления настоящего изобретения может генерироваться путем начального определения компонента верхнего диапазона каждого обучающего образца широкополосного звукового сигнала, а затем - генерирования параметров формы спектра, связанных с каждым из определенных высокочастотных компонентов.

Следует принимать во внимание, что каждый набор параметров формы спектра в некоторых вариантах осуществления настоящего изобретения может формировать целевой выходной сигнал нейронной сети, и каждый выходной целевой сигнал в этих вариантах осуществления настоящего изобретения может быть связан с конкретным обучающим образцом звукового сигнала, содержащимся в обучающей базе данных.

В соответствии с некоторыми вариантами осуществления настоящего изобретения обучающий процесс указанной выше нейронной сети может выполняться следующим образом: каждый широкополосный обучающий сигнал может разделяться на несколько кадров, длина каждого из которых определяется длиной рабочего кадра устройства 303 для расширения полосы частот; затем может быть определен компонент верхнего диапазона каждого кадра; и далее для каждого компонента верхнего диапазона может быть вычислена спектральная форма, представленная в виде уровней энергии каждого поддиапазона (компонента верхнего диапазона).

Следует принимать во внимание, что именно уровни энергии каждого из поддипазонов компонента верхнего диапазона формируют целевые значения для анализатора нейронной сети.

Следует также отметить, что упомянутый выше сигнал верхнего диапазона аналогичен искусственно сгенерированному сигналу 431 верхнего диапазона. Другими словами, сигнал верхнего диапазона является представлением искусственно сгенерированного сигнала 431 верхнего диапазона, который сформирован с целью обучения нейронной сети в процессоре 409 нейронной сети.

В некоторых вариантах осуществления настоящего изобретения форма искусственно сгенерированного спектра верхнего диапазона может быть сформирована в виде набора уровней энергии, каждый из которых может соответствовать одному из множества поддиапазонов. Другими словами, набор параметров формы спектра искусственно сгенерированного спектра верхнего диапазона может в таких вариантах осуществления формироваться таким же образом, как описанный выше набор уровней энергии.

В некоторых вариантах осуществления настоящего изобретения спектральная форма искусственно сгенерированного спектра верхнего диапазона может быть сформирована с помощью уровней энергии четырех частично перекрывающихся поддиапазонов, полученных на основе психоакустической Mel-шкалы. Другими словами, частотные компоненты широкополосного сигнала, дискретизированные с частотой 16 кГц, могут моделироваться как четыре поддиапазона, которые равномерно расположены на логарифмической шкале в пределах от 4 кГц до 8 кГц.

Полосовой фильтр, связанный с каждым поддиапазоном, может в некоторых вариантах осуществления быть реализован в частотной области с использованием функции треугольного окна, и уровень энергии каждого поддиапазона может затем определяться путем вычисления спектра мощности частотных компонентов, расположенных в поддиапазоне.

В некоторых вариантах осуществления настоящего изобретения энергия каждого поддиапазона может определяться путем суммирования квадратов амплитуд частотных компонентов в фильтруемом поддиапазоне.

Преимущество применения функций треугольного окна к сигналу верхнего диапазона можно видеть на фиг.6, где показано распределение поддиапазонов для искусственно сгенерированного сигнала 431 верхнего диапазона в частотной области.

Кроме того, на фиг.6 показано, что база каждого полосового фильтра, другими словами, функция треугольного окна, может лежать примерно между центральными частотами двух смежных поддиапазонов.

Таким образом, следует принимать во внимание, что описанный выше процесс определения уровней энергии для каждого перекрывающегося поддиапазона (иначе называемых параметрами формы спектра) может по очереди выполняться для каждого образца из обучающей базы данных.

Следует также отметить, что эти уровни энергии перекрывающихся поддиапазонов в некоторых вариантах осуществления настоящего изобретения могут формировать целевые выходные сигналы для нейронной сети в процессе автономной фазы обучения. Другими словами, каждый набор уровней энергии перекрывающихся поддиапазонов, связанный с верхним диапазоном каждого широкополосного образца из обучающей базы данных, формирует целевой выходной сигнал для нейронной сети NEAT.

Следует принимать во внимание, что в некоторых вариантах осуществления, в которых нейронная сеть NEAT работает в "оперативном" режиме, развитые геномы нейронной сети затем могут использоваться для обработки каждого вектора признаков из блока 407 выделения признаков. Это, в свою очередь, может использоваться процессором 409 нейронной сети для генерации параметров формы спектра для сигнала 431 верхнего диапазона. Другими словами, вектор признаков, выделенный из звукового сигнала (нижнего диапазона), может использоваться процессором 409 нейронной сети для генерации соответствующего набора параметров формы спектра для искусственно сгенерированного сигнала 431 верхнего диапазона.

Генерация соответствующего набора параметров формы спектра может выполняться для кадра звукового сигнала на покадровой основе.

Следует также принимать во внимание, что в некоторых вариантах осуществления настоящего изобретения на выходе процессора 409 нейронной сети NEAT при работе в "оперативном" режиме могут формироваться уровни энергии четырех поддиапазонов, соответствующих четырем перекрывающимся поддиапазонам Mel-шкалы, как это было описано выше.

Следует иметь в виду, что в некоторых вариантах осуществления настоящего изобретения параметры формы спектра, другими словами уровни энергии для каждого из поддиапазонов, могут определяться с использованием признаков, выделенных исключительно из кадра 404 звукового сигнала (нижнего диапазона).

Шаг определения процессором 409 нейронной сети параметров формы спектра показан на фиг.8 в виде шага 807 обработки.

В некоторых вариантах осуществления настоящего изобретения устройство 303 искусственного расширения полосы частот содержит блок 411 сглаживания энергии диапазона. Выход процессора 409 нейронной сети может соединяться с входом блока 411 сглаживания энергии диапазона.

Блок 411 сглаживания энергии диапазона может в некоторых вариантах осуществления настоящего изобретения выполнять фильтрацию уровня энергии для каждого поддиапазона на основе текущего и предшествующего значений. Это может давать преимущество, заключающееся в том, что нейтрализуется негативное воздействие, возникающее в результате выбора процессором 409 нейронной сети уровней энергии поддиапазонов, которые в некоторых вариантах осуществления могут быть слишком высокими. Другими словами, в результате фильтрации каждого уровня энергии поддиапазона сглаживаются любые быстро изменяющиеся уровни.

В некоторых вариантах осуществления блок 411 сглаживания энергии диапазона может подавать уровень энергии каждого поддиапазона в авторегрессивный фильтр первого порядка. Другими словами, взвешенное среднее значение может рассчитываться для каждого уровня энергии поддиапазона с использованием текущего уровня энергии поддиапазона и предшествующего отфильтрованного уровня энергии поддиапазона.

В некоторых вариантах осуществления настоящего изобретения авторегрессивный фильтр, применяемый для каждого уровня энергии, может быть представлен следующим образом:

E_f(n)=φE(n)+γE_f(n-1),

где значения Е(n) и E_f(n) представляют, соответственно, уровень энергии поддиапазона и отфильтрованный уровень энергии поддиапазона в экземпляре n кадра; φ обозначает весовой коэффициент, применимый к текущему уровню энергии Е(n); и γ обозначает весовой коэффициент, применимый к предыдущему отфильтрованному уровню энергии E_f(n-1) поддиапазона.

В некоторых вариантах осуществления настоящего изобретения описанный выше авторегрессивный фильтр может применяться только для уровней энергии поддиапазонов, которые больше отфильтрованных ранее уровней энергии. Другими словами, фильтр в таких вариантах осуществления может применяться только тогда, когда Е(n)>E_f(n-1).

Следует принимать во внимание, что в этих вариантах осуществления настоящего изобретения описанный выше авторегрессивный фильтр может применяться к уровню энергии последовательно для каждого поддиапазона.

Следует также принимать во внимание, что описанный выше процесс фильтрации может выполняться для каждого кадра n.

В первой группе вариантов осуществления значения φ и γ могут, соответственно, принимать значения 0,25 и 0,75.

Следует принимать во внимание, что в некоторых других вариантах осуществления настоящего изобретения значения φ и γ могут принимать значения, отличные от указанных выше. Например, в некоторых вариантах осуществления настоящего изобретения могут применяться другие значения φ и γ, например, значения, выбранные таким образом, чтобы выполнялось равенство φ+γ=1.

В некоторых вариантах осуществления настоящего изобретения блок 411 сглаживания энергии диапазона может выполнять дополнительный шаг обработки, согласно которому сигнал верхнего диапазона может ослабляться, если мощность входного звукового сигнала 404 (другими словами, сигнала нижнего или телефонного диапазона) близка к оценочному уровню адаптивного шума.

Для выполнения этого дополнительного шага обработки может вычисляться энергия входного звукового сигнала 404 для каждого кадра. В некоторых вариантах осуществления настоящего изобретения это вычисление может выполняться сборщиком 403 кадров.

Нижняя оценка уровня шума входного звукового сигнала может в некоторых вариантах осуществления настоящего изобретения определяться фильтрацией контура энергии в пределах кадров входного звукового сигнала. Фильтрация может, например, выполняться с использованием рекурсивного фильтра первого порядка.

В некоторых вариантах осуществления настоящего изобретения в рекурсивном фильтре первого порядка могут использоваться коэффициенты, изменяющиеся согласно изменению направления контура энергии. Например, в некоторых вариантах осуществления настоящего изобретения, в которых контур энергии изменяется в верхнем направлении, в рекурсивном фильтре первого порядка может применяться конкретный коэффициент, значение которого может отличаться от коэффициента фильтра, используемого при изменении контура энергии в нижнем направлении.

Значение коэффициентов фильтра может в некоторых вариантах осуществления настоящего изобретения может выбираться таким образом, чтобы оценочный уровень шума постепенно возрастал в периоды речевой активности и быстро уменьшался до минимума в паузах звукового сигнала 404.

Уровни энергии, связанные с текущим кадром искусственно сгенерированного сигнала 431 верхнего диапазона, могут в некоторых вариантах осуществления настоящего изобретения ослабляться в соответствии с разностью между уровнем энергии текущего кадра звукового сигнала и нижней пороговой оценкой шума с использованием преобразования с кусочно-линейной характеристикой.

Описанный выше способ адаптивного ослабления позволяет в таких вариантах осуществления уменьшать воспринимаемый шум в искусственно сгенерированном сигнале 431 верхнего диапазона.

Шаг фильтрации уровней энергии, связанных с каждым поддиапазоном искусственно сгенерированного сигнала 431 верхнего диапазона, показан на фиг.8 в виде шага 809 обработки.

В некоторых вариантах осуществления настоящего изобретения устройство 303 искусственного расширения полосы частот содержит генератор 417 сигнала возбуждения, повышающий дискретизатор 419, банк 421 фильтров и процессор 415 взвешивания диапазона и суммирования.

Искусственно сгенерированный сигнал 431 верхнего диапазона может в таких вариантах осуществления формироваться, по меньшей мере частично, путем подачи кадров во временной области на вход генератора 417 сигнала возбуждения, повышающей дискретизации выходного сигнала генератора 417 сигнала возбуждения в повышающем дискретизаторе 419, фильтрации сигнала возбуждения с повышенной дискретизацией в банке 421 фильтров и последующего взвешивания каждого сигнала поддиапазона с использованием коэффициента усиления, полученного на основе соответствующих уровней энергии диапазона Mel-шкалы. Другими словами, каждый поддиапазон на выходе банка 421 фильтров может в некоторых вариантах осуществления взвешиваться индивидуально с помощью соответствующего коэффициента усиления поддиапазона. Коэффициент усиления в некоторых вариантах осуществления может быть получен на основе уровня энергии, связанного с конкретным поддиапазоном, а также уровнями энергии, связанными с соседними поддиапазонами. В таких вариантах осуществления искусственно сгенерированный сигнал 431 верхнего диапазона может формироваться путем совместного суммирования взвешенных сигналов поддиапазонов в процессоре 415 взвешивания диапазона и суммирования.

В некоторых вариантах осуществления настоящего изобретения коэффициент усиления каждого поддиапазона банка 421 фильтров может определяться преобразователем 413 энергии в коэффициент усиления, в результате чего уровень энергии, связанный с конкретным поддиапазоном банка фильтров, может в таких вариантах осуществления преобразовываться в подходящий коэффициент усиления.

Следует принимать во внимание, что в некоторых вариантах осуществления настоящего изобретения полоса частот, в пределах которой процессор 409 нейронной сети определяет каждый уровень энергии, может соответствовать полосе частот каждого поддиапазона последующего банка фильтров. Другими словами, последующий банк фильтров может использовать те же частично перекрывающиеся поддиапазоны, что и поддиапазоны, используемые процессором 409 нейронной сети для определения уровней энергии верхнего диапазона.

В некоторых вариантах осуществления настоящего изобретения банк фильтров может формировать четыре поддиапазона, которые могут быть эквивалентны четырем поддиапазонам, используемым для получения уровней энергии верхнего диапазона. Однако в некоторых других вариантах осуществления настоящего изобретения для получения уровней энергии верхнего диапазона может использоваться количество поддиапазонов большее или меньшее четырех.

Пример распределения частот каждого поддиапазона банка 421 фильтров, применяемого в рамках первой группы вариантов осуществления настоящего изобретения, показан на фиг.7.

Путем сравнения распределения частот поддиапазонов, показанных на фиг.7 и фиг.6, можно определить, что полоса частот и распределение частот четырех поддиапазонов банка фильтров эквивалентны распределению частот четырех поддиапазонов, которые используются для получения уровней энергии верхнего диапазона в процессоре 409 нейронной сети. Другими словами, центральные частоты и диапазоны частот каждого поддиапазона эквивалентны в обоих наборах банков фильтров.

На фиг.4 показано, что вход преобразователя 413 энергии в коэффициент усиления может в некоторых вариантах осуществления соединяться с выходом блока 411 сглаживания энергии диапазона. В таких конфигурациях уровень энергии, связанный с каждым поддиапазоном, может передаваться из блока 411 сглаживания энергии диапазона в преобразователь 413 энергии в коэффициент усиления.

Как отмечалось выше преобразователь 413 энергии в коэффициент усиления может в некоторых вариантах осуществления настоящего изобретения использоваться для определения коэффициентов усиления каждого поддиапазона банка фильтров.

Для того чтобы лучше понять функционирование системы в рамках некоторых вариантов осуществления настоящего изобретения, уровень Е энергии поддиапазона далее выражается в виде функции с индексом к поддиапазона.

В некоторых вариантах осуществления настоящего изобретения для определения коэффициента усиления g(k) каждого поддиапазона k банка 421 фильтров может применяться итеративный способ.

Для лучшего понимания сути изобретения далее со ссылкой на алгоритм, показанный на фиг.9, описывается шаг определения коэффициента усиления каждого поддиапазона банка 421 фильтров.

Шаг подачи уровня энергии поддиапазона с выхода блока 411 сглаживания энергии диапазона показан на фиг.9 в виде шага 901 обработки.

Следует принимать во внимание, что в некоторых вариантах осуществления настоящего изобретения функция окна, полученная психоакустическим способом, может представлять собой функцию треугольного окна, соответствующую Mel-шкале, как это описано выше.

Кроме того, следует принимать во внимание, что структура поддиапазона, полученная психоакустическим способом, для искусственно сгенерированного сигнала 431 верхнего диапазона может в этих вариантах осуществления содержать множество перекрывающихся поддиапазонов, в результате чего энергия одного поддиапазона может вносить вклад в энергии соседних поддиапазонов. Пример перекрывающихся поддиапазонов показан на фиг.7, где видно, что энергия второго поддиапазона вносит вклад в энергию первого и третьего соседних поддиапазонов.

В первом примере начальный коэффициент g₀(k) усиления может определяться для каждого поддиапазона путем оценки значения усиления, которое получается в виде энергии Е поддиапазона k без учета соседних поддиапазонов.

В некоторых вариантах осуществления настоящего изобретения этот начальный коэффициент g₀(k) усиления для поддиапазона k может рассчитываться следующим образом:

$g_{0} (k) = \sqrt{\frac{E (k)}{c_{k}}}$

где Е(k) - уровень энергии поддиапазона k, а с_k - предварительно вычисленная константа, представляющая энергию k-го синтезируемого диапазона.

Шаг определения начального коэффициента g₀(k) усиления для поддиапазона к показан на фиг.9 в виде шага 903 обработки.

После определения начального значения g₀(k) усиления для конкретного поддиапазона может быть вычислено новое оценочное значение коэффициента g₁(k) усиления на основе взвешивания начального коэффициента усиления для конкретного поддиапазона k. Новое оценочное значение коэффициента g₁(k) усиления для конкретного поддиапазона k может в некоторых вариантах осуществления настоящего изобретения рассматриваться как первая итерация в ходе выполнения алгоритма определения коэффициента g(k) усиления поддиапазона. Процедура взвешивания начального коэффициента усиления может в этих вариантах осуществления настоящего изобретения выполняться с учетом отношения уровня энергии Е(k) для поддиапазона k (иначе называемого уровнем энергии Е поддиапазона k) к значению уровня энергии поддиапазона k, который распространяется на смежные диапазоны. В первой итерации выполнения процесса определения коэффициента усиления поддиапазона значение уровня энергии для поддиапазона k может обозначаться как Е₀(k). Весовой коэффициент в таких вариантах осуществления может затем определяться путем извлечения квадратного корня из отношения энергий.

Следует принимать во внимание, что значение Е(k) энергии поддиапазона k может в некоторых вариантах осуществления настоящего изобретения представлять собой значение энергии поддиапазона, определенное на выходе блока 411 сглаживания энергии диапазона в процессе выполнения шага 809 обработки.

Операция определения весового коэффициента показана на фиг.9 в виде шагов 905 и 907 обработки.

В соответствии с некоторыми вариантами осуществления настоящего изобретения новое оценочное значение коэффициента усиления в первой итерации для поддиапазона k может вычисляться следующим образом:

$g_{1} (k) = g_{0} (k) \sqrt{\frac{E (k)}{E_{0} (k)}}$

В общем случае в результате выполнения итерации i алгоритма может быть получен следующий коэффициент усиления поддиапазона k:

$g_{i} (k) = g_{i - 1} (k) \sqrt{\frac{E (k)}{E_{i - 1} (k)}}$ ,

где g_i(k) обозначает коэффициент усиления, соответствующий i-й итерации, g_i-1(k) обозначает значение коэффициента усиления поддиапазона, соответствующее предыдущей итерации (i-1), и Е_i-1(k) соответствует значению уровня энергии поддиапазона k. В некоторых вариантах осуществления настоящего изобретения значение Е_i-1(k) может определяться как взвешенная сумма квадратов значений коэффициентов g_i-1(k) усиления и произведений смежных коэффициентов усиления соседних поддиапазонов, то есть g_i-1(k-1)*g_i-1(k) и g_i-1(k)*g_i-1(k+1).

Преимущество этих вариантов осуществления настоящего изобретения состоит в том, что при определении значения Е_i-1(k) учитывается энергия соседних поддиапазонов.

В некоторых вариантах осуществления настоящего изобретения в рамках приведенного выше вычисления значения Е_i-1(k) может также выполняться взвешивание квадратов коэффициентов усиления и умножение смежных коэффициентов усиления на весовые коэффициенты. Весовые коэффициенты могут быть определены следующим образом: частоты, расположенные выше центральной точки фильтра самого верхнего поддиапазона банка 421 фильтров, находятся в области единичного усиления, и частоты, расположенные ниже центральной точки фильтра самого нижнего поддиапазона банка 421 фильтров, также находятся в области единичного усиления.

Шаг взвешивания коэффициента усиления на основе предшествующей итерации для формирования нового значения коэффициента усиления показан на фиг.9 в виде шага 909 обработки.

Алгоритм определения коэффициента усиления может выполняться в течение ряда итераций, пока не будет выполнено условие прерывания.

Шаг определения условия прерывания показан на фиг.9, как шаг 911 обработки, а шаг повторного выполнения процесса на следующей итерации в том случае, если условие прерывания не выполнено, показан на фиг.9? как шаг 913 обработки.

Например, в некоторых вариантах осуществления настоящего изобретения определяется, что достаточно выполнить две итерации алгоритма для оценки коэффициента усиления поддиапазона. Это значение определено экспериментально, как обеспечивающее эффективный результат.

Шаг определения того, что в процессе текущей итерации определен коэффициент усиления для конкретного поддиапазона, показан на фиг.9 в виде шага 915 обработки.

Следует принимать во внимание, что в некоторых вариантах осуществления настоящего изобретения описанный выше процесс определения коэффициента усиления может повторяться для каждого перекрывающегося поддиапазона искусственно сгенерированного сигнала верхнего диапазона.

Например, в некоторых вариантах осуществления настоящего изобретения описанный выше процесс определения коэффициента усиления может выполняться одновременно для каждого поддиапазона с целью учета воздействия соседних поддиапазонов.

Следует также принимать во внимание, что в некоторых вариантах осуществления настоящего изобретения описанный выше процесс определения коэффициента усиления поддиапазона может выполняться для каждого кадра звукового сигнала.

Шаг определения коэффициента усиления каждого поддиапазона банка 421 фильтров показан на фиг.8 в виде шага 811 обработки.

Коэффициенты усиления поддиапазонов затем могут передаваться в процессор 415 взвешивания диапазона и суммирования через соединение от преобразователя 413 энергии в коэффициент усиления.

Как указано выше, искусственно сгенерированный сигнал верхнего диапазона может формироваться путем передачи сигнала в банк 421 фильтров и последующего взвешивания каждого выходного сигнала поддиапазона согласно соответствующему коэффициенту усиления поддиапазона.

В некоторых вариантах осуществления настоящего изобретения следует принимать во внимание, что процесс фильтрации сигнала возбуждения с использованием банка фильтров и затем взвешивания каждого последующего сигнала поддиапазона с помощью соответствующего коэффициента усиления поддиапазона может рассматриваться как получение формы спектра верхнего диапазона искусственно сгенерированного сигнала 431 верхнего диапазона.

Сигнал возбуждения в некоторых вариантах осуществления настоящего изобретения может генерироваться на основе входного (узкополосного) звукового сигнала, подаваемого в устройство 303 искусственного расширения полосы частот, другими словами, сигнала 401.

Для того чтобы упростить выполнение процесса генерации сигнала возбуждения для банка фильтров, выход сборщика 403 кадров может в некоторых вариантах осуществления дополнительно соединяться с генератором 417 сигнала возбуждения. Затем в таких вариантах осуществления может выполняться фильтрация кадра 404 входного звукового сигнала с использованием анализа с линейным предсказанием (LP, Linear predictive), для того чтобы сгенерировать сигнал возбуждения по существу с равномерным спектром.

В некоторых вариантах осуществления настоящего изобретения фильтрация с использованием анализа с линейным предсказанием может выполняться на покадровой основе, в результате чего коэффициенты фильтра, основанного на анализе с LP, могут вычисляться для каждого кадра 404 звукового сигнала.

Для лучшего понимания процесса генерации сигнала возбуждения далее описывается функционирование генератора 414 сигнала возбуждения со ссылкой на алгоритм, показанный на фиг.10.

Для определения коэффициентов фильтра, использующего анализ с LP, генератор 417 сигнала возбуждения может в некоторых вариантах осуществления анализировать краткосрочные корреляции кадра 404 звукового сигнала в соответствии с информацией, предоставляемой сборщиком 403 кадров.

В некоторых вариантах осуществления настоящего изобретения анализ краткосрочных корреляций кадра звукового сигнала может выполняться в процессе кодирования с линейным предсказанием (LPC, linear predictive coding). Этот способ основывается на вычислении либо ковариационной функции, либо коэффициента автокорреляции кадра входного звукового сигнала в пределах диапазона различных задержек, впри этом диапазон задержек может определяться порядком фильтра.

В некоторых вариантах осуществления настоящего изобретения анализ с LPC может выполняться с использованием способа автокорреляции, при помощи которого результат вычисления значений автокорреляции в пределах диапазона различных задержек (определяемых порядком фильтра) может формироваться в виде симметричной квадратной матрицы, известной как матрица Теплица. Матрица Теплица симметрична относительно основной диагонали, и все ее элементы, расположенные по любой заданной диагонали, равны. Для определения коэффициентов фильтра с LPC матрица в некоторых вариантах осуществления может инвертироваться с использованием алгоритма Левинсона-Дурбина.

В некоторых вариантах осуществления настоящего изобретения анализ с LPC может выполняться с использованием ковариационной функции.

При использовании ковариационной функции для формирования ковариационной матрицы может определяться ковариация в диапазоне различных задержек в пределах звукового кадра. Размер матрицы определяется диапазоном задержек, на основе которых рассчитываются различные значения ковариации.

Как отмечалось выше, следует принимать во внимание, что диапазон задержек, в пределах которого могут рассчитываться значения ковариации, определяется количеством коэффициентов LPC и, следовательно, порядком последующего фильтра, использующего анализ LP.

В некоторых вариантах осуществления настоящего изобретения ковариационная матрица симметрична относительно главной диагонали. Однако, в отличие от матрицы Теплица, значения в пределах заданной диагонали не обязательно одинаковы. В этих вариантах осуществления, для того чтобы получить коэффициенты фильтра, использующего LPC, матрица может быть инвертирована с использованием декомпозиции Холесского.

Следует принимать во внимание, что в этих вариантах осуществления для выполнения способа ковариации не требуется масштабирование кадра звукового сигнала с использованием подходящей функции формирования окна перед анализом с LPC. Следовательно, в таких вариантах осуществления функция формирования окна в сборщике 403 может не выполняться.

Шаг определения коэффициентов LPC входного кадра 404 звукового сигнала показан на фиг.10 в виде шага 1001 обработки.

После того, как коэффициенты фильтра, использующего LPC, определены в генераторе 417 сигнала возбуждения, входной кадр 404 звукового сигнала в некоторых вариантах осуществления настоящего изобретения может быть отфильтрован фильтром, использующим анализ LP, для формирования остаточного сигнала LP.

В некоторых вариантах осуществления настоящего изобретения форма фильтра, использующего анализ LP, может быть представлена следующим выражением:

$A (z) = 1 + \sum_{i = 1}^{M} α_{i} z^{- 1}$ ,

где α является коэффициентом фильтра, использующего LPC, z - задержка на i интервалов дискретизации, а М - порядок фильтра, использующего LPC.

В некоторых вариантах осуществления настоящего изобретения порядок М LPC может определяться десятью. Это значение определено экспериментально, как обеспечивающее эффективный результат.

Шаг преобразования кадра 404 звукового сигнала фильтром, использующим анализ LPC, показан на фиг.10, как шаг 1003 обработки.

Остаточный сигнал LP затем может фильтроваться с использованием фильтра авторегрессионного скользящего среднего (ARMA, auto regressive moving average), сформированного на основе коэффициентов фильтра с LPC, вычисленных для текущего кадра звукового сигнала.

Следует также принимать во внимание, что процесс фильтрации с анализом LP может в некоторых вариантах осуществления воздействовать на усиление спектральных минимумов сигнала таким образом, чтобы в результате общая спектральная форма могла быть равномерной. Однако спектральные минимумы обычно могут быть связаны с областями низкого отношения сигнал/шум декодированного звукового сигнала. Следовательно, в некоторых вариантах осуществления процесс фильтрации с анализом LP может оказывать негативное воздействие, заключающееся в усилении шумов остаточного сигнала LP.

Для того чтобы противодействовать некоторым описанным выше последствиям, фильтр ARMA может в некоторых вариантах осуществления применяться к остаточному сигналу LP. Преимущество применения фильтра ARMA в некоторых вариантах осуществления настоящего изобретения состоит в незначительном усилении формант при незначительном ослаблении спектральных минимумов. Такой подход также обладает преимуществом, состоящим в уменьшении уровня шума остаточного сигнала LP.

Форма фильтра ARMA в некоторых вариантах осуществления может быть подобна форме постфильтра, используемого во многих кодеках, таких как кодек AMR, определенный в технической спецификации 3GPP TS 26.090 проекта совместной координации разработки систем третьего поколения.

Форма фильтра ARMA может быть представлена следующим выражением:

$H_{f f} (z) = \frac{A (z / β)}{A (z / α)} = \frac{1 + \sum_{i = 1}^{M} α_{i} β^{i} z^{- 1}}{1 + \sum_{i = 1}^{M} α_{i} α^{i} z^{- i}}$

где коэффициенты α и β могут рассматриваться как весовые коэффициенты, значение которых может находиться в пределах диапазона 0<β<α<1. Коэффициент α воздействует на вытягивание полюсов указанного фильтра ARMA по направлению к центру единичной окружности, и, подобным же образом, коэффициент β воздействует на вытягивание нулевых точек по направлению к центру единичной окружности.

В некоторых вариантах осуществления настоящего изобретения весовые коэффициенты α и β могут определяться соответственно значениями 0,9 и 0,5. Эти значения определены экспериментально, как обеспечивающие эффективный результат.

Следует принимать во внимание, что в других вариантах осуществления настоящего изобретения весовые коэффициенты фильтров ARMA могут принимать значения, отличающиеся от тех, которые используются в первой группе вариантов осуществления.

Шаг постфильтрации остаточного сигнала, формируемого фильтром с анализом LPC, показан на фиг.10, как шаг 1005 обработки.

В некоторых вариантах осуществления настоящего изобретения, в которых для повышения качества остаточного сигнала используется описанный выше фильтр ARMA, может выполняться дополнительный шаг обработки, заключающийся в применении фильтра спектрального наклона.

Следует принимать во внимание, что в этих вариантах осуществления в результате использования указанного выше фильтра ARMA возможен спектральный наклон частот отфильтрованного остаточного сигнала LP. Для того чтобы нейтрализовать это негативное воздействие, фильтр спектрального наклона может в некоторых вариантах осуществления применяться к остаточному, отфильтрованному посредством ARMA сигналу LP, что, в свою очередь, может усиливать ослабленные частотные составляющие для восстановления преимущественно равномерного спектра остаточного сигнала LP.

В некоторых вариантах осуществления настоящего изобретения указанный выше фильтр спектрального наклона может иметь форму фильтра с полюсами и нулями первого порядка, который может определяться следующим выражением:

$H_{t} (z) = \frac{1 - μ z^{- 1}}{1 + μ z^{- 1}}$ ,

где коэффициент усиления µ пропорционален первому коэффициенту отражения указанного выше фильтра Н_ff ARMA и может определяться следующим образом:

$μ = k_{t} \frac{R (1)}{R (0)}$ ,

где R(0) и R(1) представляют собой, соответственно, нулевой и первый коэффициенты автокорреляции усеченной импульсной характеристики для фильтра H_ff ARMA, a k_t является константой, посредством которой осуществляется управление спектральным наклоном в фильтре.

В некоторых вариантах осуществления настоящего изобретения константа k_t может принимать значение 0,6. Это значение определено экспериментально, как обеспечивающее эффективный результат.

Шаг применения спектрального наклона к выходному сигналу секции постфильтрации ARMA показан на фиг.10 в виде шага 1007 обработки.

В некоторых вариантах осуществления настоящего изобретения может выполняться дополнительный шаг обработки, с помощью которого могут ослабляться гармоники остаточного сигнала LP. Этот дополнительный шаг обработки может в конкретных вариантах использоваться для случаев, в которых входной сигнал нижнего диапазона характеризуется мощными гармоническими составляющими. Например, речь некоторых женщин может иметь особенно сильные вокализованные области, которые проявляются в ненатуральном металлическом звоне в расширенном сигнале.

Для того чтобы нейтрализовать это воздействие, в некоторых вариантах осуществления настоящего изобретения дополнительный фильтр гармоник может применяться к остаточному сигналу LP в форме:

H_pf(z)=1-k_pfgz^-M,

где М - период основного тона (или запаздывание) остаточного сигнала LP, a g - соответствующее оптимальное усиление основного тона. Коэффициент k_pf может в некоторых вариантах осуществления настоящего изобретения использоваться для управления величиной ослабления, применяемой в пределах каждого периода основного тона. Другими словами, коэффициент k_pf может использоваться для управления гармоническими составляющими остаточного сигнала LP.

В некоторых вариантах осуществления настоящего изобретения коэффициент k_pf может принимать значение 0,65. Это значение определено экспериментально, как обеспечивающее эффективный результат.

В некоторых вариантах осуществления настоящего изобретения период М основного тона (или запаздывание) и соответствующее оптимальное усиление g основного тона могут определяться с использованием оценки запаздывания основного тона без обратной связи, согласно которому значения корреляции кадра звукового сигнала могут рассчитываться в пределах ряда различных задержек основного тона. Период М основного тона и соответствующее оптимальное усиление g основного тона могут затем в таких вариантах осуществления определяться в качестве значений запаздывания и усиления основного тона, которые максимизируют значения корреляции кадра звукового сигнала.

В некоторых других вариантах осуществления настоящего изобретения период основного тона и оптимальное запаздывание основного тона могут определяться путем максимизации значений корреляции остаточного сигнала LP, а не входного кадра звукового сигнала.

Пример алгоритма определения подходящего основного тона, который может использоваться в процессе фильтрации гармонических составляющих, содержится в технической спецификации 3GPP TS 26.090 кодека AMR, составленной в рамках проекта совместной координации разработки систем третьего поколения.

Следует принимать во внимание, что описанная выше структура фильтра гармоник может соответствовать гребенчатому фильтру.

Операция фильтрации гармонических составляющих остаточного сигнала LPC показана на фиг.10 в виде шага 1009 обработки.

Следует также принимать во внимание, что на выходе гребенчатого фильтра в некоторых вариантах осуществления может формироваться сигнал возбуждения.

Операция генерации сигнала возбуждения с использованием генератора 417 сигнала возбуждения показана на фиг.8 в виде шага 813 обработки.

Выходной сигнал возбуждения генератора 417 сигнала возбуждения может в некоторых вариантах осуществления настоящего изобретения подаваться на вход повышающего дискретизатора 419.

В некоторых вариантах осуществления повышающий дискретизатор 419 может выполнять повышающую дискретизацию входного остаточного сигнала LP с помощью указанного коэффициента.

В этих вариантах осуществления повышающая дискретизация может выполняться посредством вставки обнуленных выборок между каждой из выборок остаточного сигнала LP. Для создания непрерывного сигнала во временной области могут использоваться процессы перекрытия и сложения.

Следует принимать во внимание, что низкочастотная фильтрация может не использоваться в указанном выше повышающем дискретизаторе 419 для предоставления возможности наложения спектров в спектре остаточного сигнала LP. Это позволяет генерировать сигнал, расширенный в пределах всего диапазона.

В некоторых вариантах осуществления настоящего изобретения повышающая дискретизация, применяемая к остаточному сигналу LP, может выполняться с использованием коэффициента, равного двум. Другими словами, повышающая дискретизация, применяемая к остаточному сигналу LP, может выполняться в диапазоне от 8 кГц до 16 кГц путем вставки обнуленных выборок между каждым из значений выборок.

Операция повышающей дискретизации, применяемая к сигналу возбуждения банка фильтров, показана на фиг.8 в виде шага 815 обработки.

Остаточный сигнал LP после повышающей дискретизации может в некоторых вариантах осуществления настоящего изобретения формировать сигнал возбуждения с повышенной дискретизацией для банка 421 фильтров.

Как указывалось выше, банк 421 фильтров может в некоторых вариантах осуществления иметь частотные характеристики, подобные тем, что используются для определения уровней энергии поддиапазонов на основе данных, поступающих из процессора 409 нейронной сети. Другими словами, банк 421 фильтров может в таких вариантах осуществления формироваться как множество перекрывающихся поддиапазонов, соответствующих той же полученной психоакустическим способом Mel-шкале, что и шкала, используемая для определения уровней энергии для спектра искусственно сгенерированного сигнала 431 верхнего диапазона.

Таким образом, следует принимать во внимание, что распределение поддиапазонов в банке 421 фильтров может в некоторых вариантах осуществления настоящего изобретения примерно соответствовать критическим диапазонам слуховой системы человека.

В некоторых вариантах осуществления настоящего изобретения каждый поддиапазон банка фильтров может быть индивидуально реализован с использованием фильтра с линейной фазочастотной импульсной характеристикой (FIR, frequency impulse response).

В некоторых вариантах осуществления настоящего изобретения банк 421 фильтров может содержать четыре поддиапазона, каждый из которых реализован в виде фильтра FIR со 128 отводами.

Каждый сигнал поддиапазона может в некоторых вариантах осуществления формироваться путем фильтрации сигнала возбуждения с использованием соответствующего фильтра FIR.

На фиг.7 показано распределение поддиапазонов в банке 421 фильтров в соответствии с первой группой вариантов осуществления настоящего изобретения.

Операция генерации сигналов множества поддиапазонов путем подачи сигнала возбуждения на вход банка 421 фильтров показана на фиг.8 в виде шага 817 обработки.

Сигналы поддиапазонов с выхода банка 421 фильтров затем могут подаваться на вход процессора 415 взвешивания диапазона и суммирования.

Затем процессор 415 взвешивания диапазона и суммирования в некоторых вариантах осуществления может индивидуально взвешивать сигнал каждого поддиапазона с использованием соответствующего ему коэффициента усиления.

Как указано выше, коэффициенты усиления поддиапазонов могут определяться для каждого поддиапазона преобразователем 413 энергии в коэффициент усиления. Коэффициенты усиления поддиапазонов могут передаваться из преобразователя 413 энергии в коэффициент усиления через дополнительный вход в процессор 415 взвешивания диапазона и суммирования.

После индивидуального взвешивания сигнала каждого поддиапазона с использованием соответствующего коэффициента усиления этого поддиапазона, взвешенные сигналы поддиапазонов могут в некоторых вариантах осуществления суммироваться для формирования искусственно сгенерированного сигнала 431 верхнего диапазона.

Операция взвешивания сигнала каждого поддиапазона с использованием соответствующего весового коэффициента показана на фиг.8 в виде шага 823 обработки.

В некоторых вариантах осуществления настоящего изобретения коэффициенты усиления поддиапазонов могут постепенно изменяться при переходе от кадра к кадру в каждом поддиапазоне. Другими словами, коэффициент усиления конкретного поддиапазона может вычисляться путем интерполяции между коэффициентом усиления поддиапазона в текущем и последующем кадрах.

Интерполяция коэффициентов усиления поддиапазонов в пределах последовательных кадров может в некоторых вариантах осуществления настоящего изобретения выполняться с помощью функции синусоидального изменения.

Следует принимать во внимание, что в некоторых вариантах осуществления частота дискретизации искусственно сгенерированного сигнала 431 верхнего диапазона связана с эквивалентной полосой расширенного звукового сигнала 435 по Найквисту.

Например, если определяется, что искусственно сгенерированный сигнал 431 верхнего диапазона находится в полосе частот по Найквисту, эквивалентной полосе частот входного звукового сигнала 401 по Найквисту, то частота дискретизации искусственно сгенерированного сигнала 431 верхнего диапазона может удваиваться по сравнению с частотой дискретизации входного звукового сигнала 401. Другими словами, частота дискретизации искусственно сгенерированного сигнала 431 верхнего диапазона может в два раза превосходить частоту дискретизации входного звукового сигнала 401, чтобы разместить дополнительные частотные компоненты, генерируемые в процессе искусственного расширения полосы частот.

Кроме того, необходимо принимать во внимание, что в целом частота дискретизации звукового сигнала 435 с искусственно расширенной полосой частот в некоторых вариантах осуществления также может совпадать с частотой дискретизации искусственно сгенерированного сигнала 431 верхнего диапазона.

В некоторых вариантах осуществления полоса частот входного кадра звукового сигнала 404 по Найквисту может составлять 4 кГц. В таких вариантах осуществления в процессе искусственного расширения полосы частот создается искусственно сгенерированный сигнал верхнего диапазона, занимающий частотный диапазон от 4 кГц до 8 кГц с частотой дискретизации 16 кГц.

Искусственно сгенерированный сигнал 431 верхнего диапазона в некоторых вариантах осуществления затем передается на вход сумматора 427, в котором сигнал 431 объединяется с входным звуковым сигналом 433, к которому применена повышающая дискретизация, для формирования сигнала 435 с расширенной полосой частот.

Следует иметь в виду, что в некоторых вариантах осуществления настоящего изобретения частота дискретизации входного звукового сигнала 433 может совпадать с частотой дискретизации искусственно сгенерированного сигнала 431 верхнего диапазона.

С целью облегчения процесса повышающей дискретизации звукового сигнала входной звуковой сигнал 401 может в некоторых вариантах осуществления настоящего изобретения также подаваться на вход дополнительного повышающего дискретизатора 423. Дополнительный повышающий дискретизатор 423 может в таких вариантах осуществления выполнять повышающую дискретизацию входного звукового сигнала 401 с использованием коэффициента, совпадающего с коэффициентом повышающего дискретизатора 419, применяемого в тракте остаточного сигнала.

Следует принимать во внимание, что дополнительный повышающий дискретизатор 423 может быть реализован путем вставки нулей между каждой выборкой входного звукового сигнала 401 с последующей низкочастотной фильтрацией результирующего сигнала с целью удаления нежелательных мнимых компонентов.

В некоторых вариантах осуществления дополнительный повышающий дискретизатор 423 может выполнять повышающую дискретизацию входного звукового сигнала 401 с использованием коэффициента, равного двум. В этих вариантах осуществления частота дискретизации входного звукового сигнала 401 может повышаться от 8 кГц до 16 кГц.

Операция повышающей дискретизации входного звукового сигнала 401, выполняемая таким образом, чтобы частота дискретизации была такой же, как и для искусственно сгенерированного сигнала 431 верхнего диапазона, показана на фиг.8 в виде шага 819 обработки.

Выход повышающего дискретизатора 423 может в некоторых вариантах осуществления соединяться с входом устройства 425 задержки сигнала. Устройство 425 задержки сигнала может в таких вариантах осуществления конфигурироваться для задержки по времени выборки входного звукового сигнала, к которому применена повышающая дискретизация.

В некоторых вариантах осуществления устройство 425 задержки сигнала может выполнять задержку входного звукового сигнала 401, к которому применена повышающая дискретизация, таким образом, чтобы по времени он выравнивался с искусственно сгенерированным сигналом 431 верхнего диапазона.

Операция задержки входного звукового сигнала, к которому применена повышающая дискретизация, показана на фиг.8 в виде шага 821 обработки.

В таких вариантах осуществления настоящего изобретения задержанный входной звуковой сигнал, к которому применена повышающая дискретизация, формирует входной сигнал 433 для сумматора 427, в котором входной звуковой сигнал объединяется с искусственно сгенерированным сигналом 431 верхнего диапазона для формирования сигнала 435 с расширенной полосой частот, как это описано выше.

Операция формирования сигнала 435 с расширенной полосой частот показана на фиг.8 в виде шага 825 обработки.

Сигнал 435 с расширенной полосой частот затем может подаваться на выход 306 устройства 303 искусственного расширения полосы частот.

Таким образом, в целом по меньшей мере в одном из вариантов осуществления настоящего изобретения способ включает: генерацию сигнала возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов; выделение вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области; определение по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов; и генерацию сигнала поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра.

Хотя в приведенных выше примерах описываются варианты осуществления настоящего изобретения, работающие в составе кодека электронного устройства или блока 10, следует принимать во внимание, что изобретение, как описано ниже, может быть реализовано как часть любого процесса декодирования звукового сигнала. Так, например, варианты осуществления настоящего изобретения могут быть реализованы в декодере звукового сигнала, который может выполнять декодирование звуковых сигналов, передаваемых по фиксированным или проводным линиям связи.

Следовательно, пользовательское оборудование может содержать устройство для расширения полосы частот, подобное тому, которое описано в представленных выше вариантах осуществления настоящего изобретения.

Следует отметить, что термин пользовательское оборудование охватывает пользовательское оборудование беспроводной связи любого подходящего типа, например мобильные телефоны, портативные устройства обработки данных или портативные веб-браузеры.

Кроме того, элементы наземной сети мобильной связи общего пользования (PLMN, public land mobile network) также могут содержать описанные выше кодеки звукового сигнала.

В целом, различные варианты осуществления настоящего изобретения могут быть реализованы в виде аппаратуры или специализированных схем, программного обеспечения, логических схем или любой комбинации указанных средств. Например, некоторые аспекты могут быть реализованы в виде аппаратных средств, в то время как другие аспекты могут быть реализованы в виде микропрограммного или программного обеспечения, которое может выполняться контроллером, микропроцессором или другим вычислительным устройством, хотя изобретение не ограничено только перечисленными средствами. Хотя различные аспекты настоящего изобретения могут быть проиллюстрированы и описаны в виде блок-схем, алгоритмов или с использование некоторых других графических представлений, достаточно очевидно, что описанные здесь блоки, устройства, системы, методы или способы могут быть реализованы (не ограничиваясь приведенными примерами) в виде аппаратного, программного, микропрограммного обеспечения, специализированных схем или логических схем, универсальных аппаратных средств или контроллера, или других вычислительных устройств, или некоторой комбинации указанных средств.

Варианты осуществления этого изобретения могут быть реализованы с помощью компьютерного программного обеспечения, выполняемого процессором мобильного устройства, например блоком процессора, или с помощью аппаратного обеспечения, или посредством комбинации программного и аппаратного обеспечения. Кроме того, в этом отношении следует отметить, что различные показанные на чертежах блоки логических алгоритмов могут представлять собой шаги программы или взаимосвязанные логические схемы, блоки и функции, или комбинацию шагов программы и логических схем, блоков и функций.

Таким образом, в кратком изложении, по меньшей мере в одном из вариантов осуществления настоящего изобретения устройство сконфигурировано для выполнения следующих операций: генерация сигнала возбуждения на основе звукового сигнала, при этом звуковой сигнал содержит множество частотных компонентов; выделение вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области; определение по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов; и генерация сигнала поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра.

Блоки памяти могут быть любого типа, подходящего к локальной технической среде, и могут быть реализованы с использованием любых подходящих технологий хранения данных и представлять собой, например, устройства полупроводниковой памяти, устройства и системы магнитной памяти, устройства и системы оптической памяти, постоянное запоминающее устройство и съемные блоки памяти. Процессоры данных могут быть любого типа, подходящего для локальной технической среды, и могут, например, содержать один или более универсальных компьютеров, специализированных компьютеров, микропроцессоров, цифровых сигнальных процессоров (DSP, digital signal processor) и процессоров, основанных на многоядерной архитектуре, а также другие подобные устройства.

Варианты осуществления настоящего изобретения могут быть выполнены в виде различных компонентов, таких как модули интегральных схем. В целом, конструирование интегральных схем является в высшей степени автоматизированным процессом. Имеются комплексные и эффективные программные средства для преобразования конструкции логического уровня в полупроводниковую схему, подготовленную для травления и формирования полупроводниковой основы.

Программы, производимые, например, компаниями Synopsys, Inc., Маунтин Вью, Калифорния, и Cadence Design, Сан Хосе, Калифорния, автоматически разводят проводники и размещают компоненты на полупроводниковом кристалле с использованием четко установленных правил конструирования, а также библиотек, в которых хранятся заранее записанные конструктивные модули. По окончании разработки полупроводниковой схемы полученная в результате конструкция в стандартизованном электронном формате (например, Opus, GDSII и т.п.) может быть передана в средство производства полупроводникового устройства или производственный модуль для изготовления.

Приведенное описание с помощью типовых примеров, не ограничивающих возможности реализации изобретения, предоставляет полное и информативное описание вариантов осуществления настоящего изобретения. Однако специалист в соответствующей области техники в рамках изложенного описания, в совокупности с прилагаемыми чертежами и формулой изобретения, может предложить различные модификации и адаптации. Тем не менее, любые виды таких и подобных модификаций изложенных идей остаются в пределах объема настоящего изобретения, определенного в прилагаемой формуле изобретения.

1. Способ расширения полосы частот звукового сигнала, включающий:
генерацию сигнала возбуждения из звукового сигнала, при этом звуковой сигнал имеет полосу частот и содержит множество частотных компонентов;
выделение вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области;
определение по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов, расширяющих упомянутую полосу частот звукового сигнала; и
генерацию сигнала поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания фильтрованного сигнала возбуждения с использованием упомянутого по меньшей мере одного параметра формы спектра,
при этом параметр формы спектра представляет собой значение уровня энергии поддиапазона, и это значение уменьшают, если мощность звукового сигнала достигает оценочного значения уровня шумов в звуковом сигнале.

2. Способ по п. 1, отличающийся тем, что генерация сигнала возбуждения включает:
генерацию остаточного сигнала путем фильтрации звукового сигнала с использованием инверсного фильтра с линейным предсказанием;
фильтрацию остаточного сигнала с использованием секции постфильтра, содержащей фильтр авторегрессионного скользящего среднего, основанный на фильтре с линейным предсказанием; и
генерацию сигнала возбуждения путем повышающей дискретизации и спектрального свертывания выходного сигнала секции постфильтра.

3. Способ по п. 2, отличающийся тем, что секция постфильтра также содержит фильтр спектрального наклона и фильтр гармоник.

4. Способ по п. 1 или 2, отличающийся тем, что частотные компоненты сигнала поддиапазона распределены согласно психоакустической шкале, содержащей множество перекрывающихся диапазонов, и частотные характеристики банка фильтров соответствуют распределению частотных компонентов сигнала поддиапазона.

5. Способ по п. 4, отличающийся тем, что перекрывающиеся диапазоны распределены согласно Mel-шкале, при этом сигнал поддиапазона маскируется с использованием по меньшей мере одной из следующих функций:
треугольной функции маскирования и
трапецеидальной функции маскирования.

6. Способ по п. 1 или 2, отличающийся тем, что определение по меньшей мере одного параметра формы спектра на основе вектора признаков включает:
использование нейронной сети для определения по меньшей мере одной формы спектра на основе вектора признаков, при этом вектор признаков, выделенный из звукового сигнала, формирует входной целевой вектор для нейронной сети, и нейронная сеть обучается для предоставления параметра формы спектра поддиапазона для входного целевого вектора.

7. Способ по п. 1, отличающийся тем, что параметр формы спектра представляет собой коэффициент усиления поддиапазона, основанный на значении уровня энергии поддиапазона.

8. Способ по п. 1 или 2, отличающийся тем, что по меньшей мере один признак компонента в частотной области включает по меньшей мере одно из следующего:
группу, состоящую из множества уровней энергии звукового сигнала, при этом каждый из множества уровней энергии звукового сигнала соответствует энергии перекрывающегося диапазона звукового сигнала;
значение, представляющее центроид частотного спектра звукового сигнала; и
значение, представляющее степень равномерности частотного спектра.

9. Способ по п. 1 или 2, отличающийся тем, что по меньшей мере один признак компонента во временной области включает по меньшей мере одно из следующего:
индекс градиента, основанный на сумме градиентов в точках звукового сигнала, в которых изменяется направление формы волны звукового сигнала;
отношение энергии кадра звукового сигнала к энергии предшествующего кадра звукового сигнала; и
классификация звукового сигнала как активного или неактивного детектором речевой активности.

10. Способ по п. 1 или 2, включающий также объединение сигнала поддиапазона со звуковым сигналом для формирования звукового сигнала с расширенной полосой частот.

11. Устройство для расширения полосы частот звукового сигнала, содержащее по меньшей мере один процессор и по меньшей мере одну память, в которой хранится компьютерный код, при этом по меньшей мере одна память и компьютерный код сконфигурированы таким образом, чтобы при взаимодействии по меньшей мере с одним процессором устройство выполняло по меньшей мере следующие операции:
генерацию сигнала возбуждения на основе звукового сигнала, при этом звуковой сигнал имеет полосу частот и содержит множество частотных компонентов;
выделение вектора признаков из звукового сигнала, при этом вектор признаков содержит по меньшей мере один признак компонента в частотной области и по меньшей мере один признак компонента во временной области;
определение по меньшей мере одного параметра формы спектра на основе вектора признаков, при этом по меньшей мере один параметр формы спектра соответствует сигналу поддиапазона, содержащему частотные компоненты, которые принадлежат дополнительному множеству частотных компонентов, расширяющих упомянутую полосу частот звукового сигнала; и
генерацию сигнала поддиапазона путем фильтрации сигнала возбуждения с помощью банка фильтров и взвешивания отфильтрованного сигнала возбуждения с использованием по меньшей мере одного параметра формы спектра,
при этом параметр формы спектра представляет собой значение уровня энергии поддиапазона, и это значение уменьшают, если мощность звукового сигнала достигает оценочного значения уровня шумов в звуковом сигнале.

12. Устройство по п. 11, отличающееся тем, что по меньшей мере одна память и компьютерный код, сконфигурированные таким образом, чтобы при взаимодействии по меньшей мере с одним процессором устройство выполняло по меньшей мере генерацию сигнала возбуждения, также сконфигурированы для выполнения следующих операций:
генерация остаточного сигнала путем фильтрации звукового сигнала с использованием инверсного фильтра с линейным предсказанием;
фильтрация остаточного сигнала с использованием секции постфильтра, содержащей фильтр авторегрессионного скользящего среднего, основанный на фильтре с линейным предсказанием; и
генерация сигнала возбуждения путем повышающей дискретизации и спектрального свертывания выходного сигнала секции постфильтра.

13. Устройство по п. 12, отличающееся тем, что секция постфильтра также содержит фильтр спектрального наклона и фильтр гармоник.

14. Устройство по любому из пп. 11-13, отличающееся тем, что частотные компоненты сигнала поддиапазона распределены согласно психоакустической шкале, разбитой на множество перекрывающихся диапазонов, и частотные характеристики банка фильтров соответствуют распределению частотных компонентов сигнала поддиапазона.

15. Устройство по п. 14, отличающееся тем, что перекрывающиеся диапазоны распределяются согласно Mel-шкале, при этом сигнал поддиапазона маскируется с использованием треугольной функции маскирования и/или трапецеидальной функции маскирования.

16. Устройство по любому из пп. 11-13, отличающееся тем, что по меньшей мере одна память и компьютерный код, сконфигурированные таким образом, чтобы при взаимодействии по меньшей мере с одним процессором устройство выполняло по меньшей мере определение по меньшей мере одного параметра формы спектра на основе вектора признаков, также сконфигурированы для выполнения следующего:
использование нейронной сети для определения по меньшей мере одной формы спектра на основе вектора признаков, при этом вектор признаков, выделенный из звукового сигнала, формирует входной целевой вектор для нейронной сети, и нейронная сеть обучается для предоставления параметра формы спектра поддиапазона для входного целевого вектора.

17. Устройство по п. 13, отличающееся тем, что параметр формы спектра представляет собой коэффициент усиления поддиапазона, основанный на значении уровня энергии поддиапазона.

18. Устройство по любому из пп. 11-13, отличающееся тем, что по меньшей мере один признак компонента в частотной области в векторе признаков включает по меньшей мере одно из следующего:
группу, состоящую из множества уровней энергии звукового сигнала, при этом каждый из множества уровней энергии звукового сигнала соответствует энергии перекрывающегося диапазона звукового сигнала;
значение, представляющее центроид спектра в частотной области звукового сигнала; и
значение, представляющее степень равномерности спектра в частотной области.

19. Устройство по любому из пп. 11-13, отличающееся тем, что по меньшей мере один признак компонента во временной области в векторе признаков включает по меньшей мере одно из следующего:
индекс градиента, основанный на сумме градиентов в точках звукового сигнала, в которых изменяется направление формы волны звукового сигнала;
отношение энергии кадра звукового сигнала к энергии предшествующего кадра звукового сигнала; и
классификация звукового сигнала как активного или неактивного детектором речевой активности.

20. Устройство по любому из пп. 11-13, отличающееся тем, что по меньшей мере одна память и компьютерный код также сконфигурированы для объединения сигнала поддиапазона со звуковым сигналом для формирования звукового сигнала с расширенной полосой частот.

21. Машиночитаемый носитель, на котором хранится программный код, при этом указанный код, исполняемый процессором, реализует способ по любому из пп. 1-10.

Изобретение относится к средствам для синхронизации беспроводных наушников. Технический результат заключается в уменьшении эффекта Хааса.

Способ выделения речевого сигнала в условиях наличия помех и устройство для его осуществления // 2536343

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности выделения речевого сигнала в условиях наличия помех.

Способ озвучивания видеотрансляции // 2527732

Изобретение относится к способу озвучивания видеотрансляций. Технический результат заключается в формировании отдельных каналов с одинаковой видеодорожкой и разными аудиодорожками от разных комментаторов с возможностью автоматически либо вручную переключаться между каналами, при этом комментарии могут осуществляться на разных языках.

Коснитесь любого места, чтобы говорить // 2526758

Изобретение относится к мобильным вычислительным устройствам. Технический результат заключается в предоставлении максимальной величины целевой поверхности экрана для начала прослушивания блока распознавания речи.

Электронно-вычислительное устройство // 2523220

Изобретение относится к вычислительной технике. Технический результат заключается в распознавании речи злектронно-вычислительным устройством, используя чтение по губам.

Устройство вставки цифровой информации в аудиосигнал // 2492579

Изобретение относится к технике передачи цифровых сообщений, встроенных в аудио программу радиостанций аналогового вещания. .

Способ передачи речевых сигналов (варианты) // 2490727

Изобретение относится к многоканальным системам связи, а именно к системам, в которых применяется сужение спектра частот отдельных сигналов и последующее расширение этого спектра.

Способ, система и пользовательский интерфейс для автоматического создания атмосферы, в частности освещенной атмосферы, на основании ввода ключевого слова // 2479018

Изобретение относится к автоматическому созданию атмосферы, в частности, атмосферы освещения, на основании ввода ключевого слова, например ключевого слова, набранного или произнесенного пользователем.

Устройство для ввода-вывода речевой информации // 1704571

Способ вокодерных преобразований речевых сигналов и устройство для его осуществления // 1525731

Аудиокодек, поддерживающий режимы кодирования во временной области и в частотной области // 2547241

Изобретение относится к средствам, поддерживающим режимы кодирования во временной области и в частотной области. Технический результат заключается в уменьшении задержки и повышении эффективности кодирования с точки зрения отношения скорость/искажения.

Устройство, способ и машиночитаемый носитель для получения параметра, описывающего изменение характеристики сигнала // 2543308

Группа изобретений относится к средствам для анализа временных вариаций аудио сигналов. Технический результат заключается в создании средств, обладающих повышенной надежностью, для получения параметра, описывающего временные изменения сигнальной характеристики.

Аудио или видео кодер, аудио или видео и относящиеся к ним способы для обработки многоканальных аудио или видеосигналов с использованием переменного направления предсказания // 2541864

Изобретение относится к средствам обработки многоканальных аудио или видеосигналов с использованием переменного направления предсказания. Технический результат заключается в повышении качества аудио или видео.

Стереофоническое кодирование на основе mdct с комплексным предсказанием // 2525431

Изобретение относится к средствам для стереофонического кодирования и декодирования с использованием комплексного предсказания в частотной области. Технический результат заключается в повышении скорости кодирования в диапазоне высоких скоростей передачи битов.

Способ и устройство для селективного кодирования сигнала на основе характеристик базового кодера // 2504026

В селективном кодере сигнала входной сигнал сначала кодируется (1004) с использованием кодера базового уровня для формирования кодированного сигнала базового уровня.

Кодирующее устройство, декодирующее устройство и способ // 2502138

Раскрыто кодирующее устройство, которое может точно указать полосу, имеющую большую ошибку среди всех полос, с использованием небольшого объема вычислений. Устройство включает в себя: модуль (201) идентификации первого положения, который использует ошибочный коэффициент преобразования первого уровня, указывающий ошибку в декодировании сигнала для входного сигнала, чтобы найти полосу, имеющую большую ошибку в относительно широкой полосе пропускания во всех полосах входного сигнала, и формирует информацию о первом положении, указывающую идентифицированную полосу; модуль (202) идентификации второго положения, который ищет целевую полосу частот, имеющую большую ошибку в относительно узкой полосе пропускания в полосе, идентифицированной модулем (201) идентификации первого положения, и формирует информацию о втором положении, указывающую идентифицированную целевую полосу частот; и модуль (203) кодирования, который кодирует ошибочный коэффициент преобразования в декодировании первого уровня, содержащийся в целевой полосе частот.

Устройство аудио кодирования и декодирования для кодирования фреймов, представленных в виде выборок звуковых сигналов // 2498419

Устройство аудио кодирования (100), предназначенное для кодирования фреймов представленного в виде выборок звукового сигнала для получения закодированных фреймов, причем фрейм состоит из нескольких аудио выборок во временной области, включая стадии анализа для кодирования с предсказанием (110) и определения информации о коэффициентах фильтра синтеза и информации о фрейме области предсказания на основе фрейма из аудио выборок.

Способ кодирования аудиосигнала, способ декодирования аудиосигнала, устройство кодирования, устройство декодирования, система обработки аудиосигнала, программа кодирования аудиосигнала и программа декодирования аудиосигнала // 2493620

Изобретение относится к способам кодирования и декодирования аудиосигнала, к устройствам кодирования и декодирования и системе обработки аудиосигнала. Сущность способа кодирования заключается в том, что когда кадр, непосредственно предшествующий целевому кадру кодирования, подлежащий кодированию с помощью первого модуля кодирования, работающему согласно схеме кодирования с линейным предсказанием, кодируется с помощью второго модуля кодирования, работающего согласно схеме кодирования, отличной от схемы кодирования с линейным предсказанием, целевой кадр кодирования может быть кодирован согласно схеме кодирования с линейным предсказанием с помощью инициализации внутреннего состояния первого модуля кодирования.

Изобретение относится к способу и устройству кодирования аудиосигнала и к способу и устройству декодирования аудиосигнала. Сущность состоит в том, что когда кадр, непосредственно предшествующий целевому кадру кодирования, подлежащий кодированию с помощью первого модуля кодирования, работающему согласно схеме кодирования с линейным предсказанием, кодируется с помощью второго модуля кодирования, работающего согласно схеме кодирования, отличной от схемы кодирования с линейным предсказанием, целевой кадр кодирования может быть кодирован согласно схеме кодирования с линейным предсказанием с помощью инициализации внутреннего состояния первого модуля кодирования.

Компенсатор и способ компенсации потери кадров звукового сигнала в области модифицированного дискретного косинусного преобразования // 2488899

Гармоническое преобразование на основе блока поддиапазонов, усиленное перекрестными произведениями // 2551817

Изобретение относится к системам кодирования источников звукового сигнала. Технический результат состоит в эффективной реализации высокочастотной реконструкции (HFR) путем усиления перекрестными произведениями, где новая составляющая с частотой QΩ+rΩ0 генерируется на основе существующих составляющих с частотами Ω и Ω+Ω0.