Расширение полосы пропускания звукового сигнала нижней полосы

Авторы патента:

ГРАНЧАРОВ Володя (SE)

СВЕРРИССОН Сигурдур (SE)

БРУН Стефан (SE)

ПОБЛОТ Харальд (SE)

G10L21/02 - усиление речи, например подавление шума, нейтрализация эхо-сигнала (подавление эхо-сигнала в громкоговорящих телефонных системах H04M 9/08, в аппаратах для людей с дефектами слуха H04R 15/00)

Владельцы патента RU 2568278:

ТЕЛЕФОНАКТИЕБОЛАГЕТ ЛМ ЭРИКССОН (ПАБЛ) (SE)

Изобретение относится к средствам расширения верхней полосы звукового сигнала по нижней полосе звукового сигнала. Технический результат заключается в повышении эффективности расширения полосы звукового сигнала. Расширение полосы звукового сигнала включает в себя следующие этапы: извлекают (S1) набор особенностей звукового сигнала нижней полосы; сопоставляют (S2) извлеченные особенности по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования; сдвигают (S3) по частоте копию звукового сигнала нижней полосы в верхнюю полосу; управляют (S4) огибающей сдвинутой по частоте копии звукового сигнала нижней полосы с помощью упомянутого по меньшей мере одного параметра верхней полосы. 4 н. и 9 з.п. ф-лы, 14 ил.

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Настоящее изобретение относится к кодированию звука, и в частности, к расширению полосы пропускания звукового сигнала нижней полосы.

УРОВЕНЬ ТЕХНИКИ

Настоящее изобретение относится к расширению полосы пропускания (BWE) звуковых сигналов. Схемы BWE все больше используют в кодировании/декодировании речи и аудиосигналов для улучшения воспринимаемого качества при заданной скорости передачи битов. Главной идеей в основе BWE является то, что часть звукового сигнала не передают, а восстанавливают (оценивают) в декодере из компонентов принятого сигнала.

Таким образом, в схеме BWE часть спектра сигнала восстанавливают в декодере. Восстановление выполняют, используя некоторые особенности спектра сигнала, который был фактически передан, используя традиционные методы кодирования. Обычно верхнюю полосу (HB) сигнала восстанавливают из некоторых особенностей звукового сигнала нижней полосы (LB).

Зависимости между особенностями LB и характеристиками сигнала HB часто моделируют с помощью модели гауссовых смесей (GMM) или скрытых марковских моделей (ХМ), например, [1-2]. Чаще всего предсказанные характеристики HB относятся к спектральным и/или временным огибающим.

Существуют два основных подхода BWE:

• В первом подходе характеристики сигнала HB полностью предсказывают из некоторых особенностей LB. Эти решения BWE вносят артефакты в восстановленный сигнал HB, что в некоторых случаях приводит к ухудшению качества по сравнению с сигналом с ограниченной полосой. Сложные сопоставления (например, основанные на GMM или ХМ) вполне вероятно приводят к ухудшению качества при неизвестных данных. Практика обычно такова, что чем сложнее сопоставление (большое количество обучающих параметров), тем более вероятно возникновение артефактов при данных того типа, который не присутствует в обучающем наборе данных. Не является тривиальной задачей найти сопоставление с такой сложностью, которая обеспечивает оптимальный баланс между общей точностью предсказания и низким количеством выбросов (данных, которые заметно отклоняются от данных в обучающем наборе, т.е. компонентов, которые не могут быть очень хорошо смоделированы).

• Вторым подходом (пример описан в [3]) является восстановление сигнала HB из комбинации особенностей LB и небольшого количества переданной информации HB. Схемы BWE с помощью переданной информации HB приводят к улучшению эффективности (за счет увеличения битового бюджета), но не предлагают обобщенную схему объединения переданных и предсказанных параметров. Обычно один набор параметров HB передают, а другой набор параметров HB предсказывают, что означает, что переданная информация не может компенсировать неудачи в предсказанных параметрах.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Задачей настоящего изобретения является достижение улучшенной схемы BWE.

Эта задача достигается с помощью прилагаемой формулы изобретения.

Согласно первому аспекту настоящее изобретение содержит способ оценки расширения верхней полосы звукового сигнала нижней полосы. Этот способ включает в себя следующие этапы. Извлекают набор особенностей звукового сигнала нижней полосы. Извлеченные особенности сопоставляют по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования. Копию звукового сигнала нижней полосы сдвигают по частоте в верхнюю полосу. Огибающей сдвинутой по частоте копии звукового сигнала нижней полосы управляют по меньшей мере с помощью одного параметра верхней полосы.

Согласно второму аспекту настоящее изобретение содержит устройство для оценки расширения верхней полосы звукового сигнала нижней полосы. Блок извлечения особенностей конфигурируют для извлечения набора особенностей звукового сигнала нижней полосы. Блок сопоставления включает в себя следующие элементы: модуль сопоставления с помощью обобщенного аддитивного моделирования, сконфигурированный для сопоставления извлеченных особенностей по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования; модуль сдвига частоты, сконфигурированный для сдвига по частоте копии звукового сигнала нижней полосы в верхнюю полосу; модуль управления огибающей, сконфигурированный для управления огибающей сдвинутой по частоте копии с помощью упомянутого по меньшей мере одного параметра верхней полосы.

Согласно третьему аспекту настоящее изобретение содержит речевой декодер, включающий в себя устройство согласно второму аспекту.

Согласно четвертому аспекту настоящее изобретение содержит сетевой узел, включающий в себя речевой декодер согласно третьему аспекту.

Преимущество предложенной схемы BWE состоит в том, что она предлагает хороший баланс между сложными схемами сопоставления (хорошая средняя эффективность, но сильные выбросы) и более ограниченной схемой сопоставления (ниже средняя эффективность, но более устойчивая).

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Данное изобретение, вместе с дополнительными задачами и преимуществами, можно лучше всего понять, обращаясь к последующему описанию, рассмотренному вместе с сопроводительными чертежами, на которых:

Фиг.2A-C являются схемами, иллюстрирующими принципы обобщенных аддитивных моделей;

Фиг.3 - структурная схема, иллюстрирующая вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB;

Фиг.5 - схема, иллюстрирующая определение подходящих для извлечения особенностей в другом варианте осуществления настоящего изобретения;

Фиг.8 - структурная схема, иллюстрирующая другой вариант осуществления структуры кодирования/декодирование, которая включает в себя речевой декодер согласно другому варианту осуществления настоящего изобретения;

Фиг.9 - структурная схема, иллюстрирующая дополнительный вариант осуществления структуры кодирования/декодирования, которая включает в себя речевой декодер согласно дополнительному варианту осуществления настоящего изобретения;

Фиг.10 - структурная схема, иллюстрирующая другой вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB;

Фиг.11 - структурная схема, иллюстрирующая дополнительный вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB;

Фиг.12 - структурная схема, иллюстрирующая вариант осуществления сетевого узла, включающего в себя вариант осуществления речевого декодера согласно настоящему изобретению;

Фиг.13 - структурная схема, иллюстрирующая вариант осуществления речевого декодера согласно настоящему изобретению; и

Фиг.14 - последовательность операций, которая иллюстрирует вариант осуществления способа согласно настоящему изобретению.

ПОДРОБНОЕ ОПИСАНИЕ

Элементы, имеющие одинаковые или подобные функции, будут обеспечены теми же самыми условными обозначениями на чертежах.

Далее объясняют набор особенностей LB и их использование для оценки части HB сигнала посредством сопоставления. Дополнительно, также объясняют, как переданная информация HB может использоваться для управления сопоставлением.

Фиг.1 - структурная схема, иллюстрирующая вариант осуществления структуры кодирования/декодирования, которая включает в себя речевой декодер согласно одному из вариантов осуществления настоящего изобретения. Речевой кодер 1 принимает (обычно кадр) исходный звуковой сигнал s, который направляют к блоку 10 фильтров анализа, который разделяет звуковой сигнал на часть S_LB нижней полосы и часть S_HB верхней полосы. В данном варианте осуществления часть HB не используют (что подразумевает, что блок фильтров анализа может просто содержать низкочастотный фильтр). Часть LB S_LB звукового сигнала кодируют в кодере 12 LB (обычно в кодере линейного предсказания с кодовым возбуждением (CELP), например, в кодере с линейным предсказанием с алгебраическим кодовым возбуждением (ACELP)), и код посылают в речевой декодер 2. Пример кодирования/декодирования ACELP можно найти в [4]. Код, принимаемый речевым декодером 2, декодируют в декодере 14 LB (обычно в декодере CELP, например, в декодере ACELP), который выдает звуковой сигнал ŝ_LB нижней полосы, соответствующий S_LB. Этот звуковой сигнал ŝ_LB нижней полосы направляют к блоку 16 извлечения особенностей, который извлекает набор особенностей F_LB (описан ниже) сигнала ŝ_LB. Извлеченные особенности F_LB направляют к блоку 18 сопоставления, который сопоставляет их по меньшей мере с одним параметром верхней полосы (описан ниже) с помощью обобщенного аддитивного моделирования (описано ниже). Параметр(ы) HB используется(ются) для управления огибающей копии звукового сигнала LB ŝ_LB, которая была сдвинута по частоте в верхнюю полосу, который дает предсказание или оценку ŝ_HB части HB, которую не используют, S_HB. Сигналы S_LB и S_HB направляют к блоку 20 фильтров синтеза, который восстанавливает оценку ŝ оригинального исходного звукового сигнала. Блок 16 извлечения особенностей и блок 18 сопоставления вместе формируют устройство 30 (дополнительно описано ниже) для генерации расширения HB.

Представленные ниже в качестве примера особенности звукового сигнала LB, называемые локальными особенностями, используют для предсказания некоторых характеристик сигнала HB. Можно использовать все особенности или подмножество представленных в качестве примера особенностей. Все эти локальные особенности вычисляют на покадровой основе, и динамика локальных особенностей также включает в себя информацию из предыдущего кадра. В последующем n является индексом кадра, l является индексом выборки и s(n,l) является речевой выборкой.

Первые две примерные особенности относятся к наклону спектра и к динамике наклона. Они измеряют частотное распределение энергии:

Следующие две примерные особенности измеряют частоту основного тона (основную частоту речи) и динамику частоты основного тона. Поиск оптимальной задержки ограничен имеющим смысл диапазоном частоты основного тона, τ_MIN и τ_MAX, например, 50-400 Гц:

Пятая и шестая примерные особенности отражают баланс между тоновым и шумоподобным компонентами в сигнале. В данном случае σ² _ACB и σ² _FCB являются энергией адаптивной и фиксированной кодовой книги в кодеках CELP, например, в кодеках ACELP, и является энергией сигнала возбуждения:

Последняя локальная особенность в данном примерном наборе фиксирует динамику энергии на покадровой основе. В данном случае σ² _S является энергией речевого кадра:

Все эти локальные особенности, которые используются при сопоставлении, масштабируются перед сопоставлением следующим образом:

где Ψ_ΜΙΝ и Ψ_ΜАX являются предварительно определенными константами, которые соответствуют минимальному и максимальному значению для заданной особенности. Это дает набор извлеченных особенностей Ψ= ${{\tilde{Ψ}}_{1},..., {\tilde{Ψ}}_{7}}$ .

Согласно настоящему изобретению оценка расширения HB из локальных особенностей основана на обобщенном аддитивном моделировании. По этой причине данная концепция будет кратко описана в отношении фиг.2A-C. Дополнительные подробности относительно обобщенных аддитивных моделей могут быть найдены, например, в [5].

В статистике регрессионные модели часто используют для оценки поведения параметров. Простой моделью является линейная модель:

где Ŷ - оценка переменной Y, которая зависит от (случайных) переменных X₁,..., X_M. Это показано для М=2 на фиг.2A. В этом случае Ŷ будет плоской поверхностью.

Характерной особенностью линейной модели является то, что каждый элемент суммирования линейно зависит только от одной переменной. Обобщением этой особенности является изменение (по меньшей мере одной из) этих линейных функций на нелинейные функции (каждая из которых все еще зависит только от одной переменной). Это приводит к аддитивной модели:

Эта аддитивная модель проиллюстрирована на фиг.2B для М = 2. В этом случае поверхность, представляющая Ŷ, является изогнутой. Функции f_m(X_m) обычно являются сигмоидальными функциями (в общем случае функциями, имеющими форму «S»), как проиллюстрировано на фиг.2B. Примерами сигмоидальных функций являются логистическая функция, кривая Гомперца, S-образная кривая и функция гиперболического тангенса. Изменяя параметры, которые определяют сигмоидальную функцию, сигмоидальная форма может изменяться непрерывно от приблизительно линейной формы между минимумом и максимумом до приблизительно ступенчатой функции между теми же самыми минимумом и максимумом.

Дополнительное обобщение получают с помощью обобщенной аддитивной модели

где g(⋅) называют связывающей функцией. Это проиллюстрировано на фиг.2C, где поверхность Ŷ дополнительно изменяют (Ŷ получают, беря инверсию g^-1(⋅), обычно также сигмоидальную, обеих сторон в уравнении (11)). В особом случае, когда связывающая функция g(⋅) является функцией тождественности, уравнение (11) уменьшают до уравнения (10). Так как оба случая представляют интерес, в целях настоящего изобретения «обобщенная аддитивная модель» будет также включать в себя случай связывающей функции тождественности. Однако, как отмечено выше, по меньшей мере одна из функций f_m(X_m) нелинейна, что делает модель нелинейной (поверхность Ŷ изогнута).

В одном из вариантов осуществления настоящего изобретения 7 (нормализованных) особенностей Ψ= ${{\tilde{Ψ}}_{1},..., {\tilde{Ψ}}_{7}}$ , полученных согласно уравнениям (1)-(8), используют для оценки соотношения Y(n) между энергией HB и LB в сжатой (обусловленной восприятием) области. Это соотношение может соответствовать некоторым частям временной или спектральной огибающих или полному усилению, как будет дополнительно описано ниже. Например:

где β можно выбирать как, например, β = 0,2. Другой пример:

В уравнениях (12) и (13) параметр β и функцию log₁₀ используют для преобразования соотношения энергии в сжатую «обусловленную восприятием» область. Это преобразование выполняют для учета приблизительно логарифмических характеристик чувствительности человеческого уха.

Так как энергия E_HB(n) не доступна в декодере, соотношение Y(n) предсказывают или оценивают. Это делают с помощью моделирования оценки Ŷ(n) соотношения Y(n), основываясь на извлеченных особенностях LB и обобщенной аддитивной модели. Пример задан с помощью:

где М = 7 при заданных извлеченных локальных особенностях (меньшее количество особенностей также допустимо). Если сравнивать с уравнением (11), то очевидно, что ${\tilde{Ψ}}_{1},..., {\tilde{Ψ}}_{M}$ соответствуют переменным X₁,..., X_P и что функции f_k соответствуют элементам в сумме, которые являются сигмоидальными функциями, определенными с помощью параметров модели ω={ω_1m, ω_2m, ω_2m}^M _m=1 и связывающей функцией тождественности. Параметры ω₀ и ω обобщенной аддитивной модели хранятся в декодере, и они были получены с помощью обучения на базе данных речевых кадров. Обучающая процедура находит подходящие параметры ω₀ и ω с помощью минимизации ошибки между соотношением Ŷ(n), оцененным с помощью уравнения (14), и фактическим соотношением Y(n), заданным уравнением (12) (или (13)) по речевой базе данных. Подходящим способом (специально для сигмоидальных параметров) является способ Левенберга-Марквардта, описанный, например, в [6].

Фиг.3 - структурная схема, иллюстрирующая вариант осуществления устройства 30 согласно настоящему изобретению для генерации расширения HB. Устройство 30 включает в себя блок 16 извлечения особенностей, сконфигурированный для извлечения набора особенностей ${\tilde{Ψ}}_{1} - {\tilde{Ψ}}_{7}$ звукового сигнала нижней полосы. Блок 18 сопоставления, соединенный с блоком 16 извлечения особенностей, включает в себя модуль 32 сопоставления с помощью обобщенного аддитивного моделирования, сконфигурированный для сопоставления извлеченных особенностей с параметром верхней полосы Ŷ с помощью обобщенного аддитивного моделирования. В проиллюстрированном варианте осуществления блок 18 сопоставления включает в себя модуль 34 сдвига частоты, сконфигурированный для сдвига по частоте копии звукового сигнала нижней полосы ŝ_LB в верхнюю полосу. В проиллюстрированном варианте осуществления блок 18 сопоставления также включает в себя модуль 36 управления огибающей, сконфигурированный для управления огибающей сдвинутой по частоте копии с помощью параметра верхней полосы Ŷ.

Фиг.4 - схема, иллюстрирующая пример параметра верхней полосы, полученного с помощью обобщенного аддитивного моделирования согласно одному из вариантов осуществления настоящего изобретения. Она иллюстрирует, как предполагаемое соотношение (усиление) Ŷ используется для управления огибающей сдвинутой по частоте копии сигнала LB (в этом случае в частотной области). Пунктирная линия представляет постоянное усиление (1,0) сигнала LB. Таким образом, в данном варианте осуществления расширение HB получают с помощью применения одного предполагаемого усиления Ŷ к сдвинутой по частоте копии сигнала LB.

Фиг.5 - схема, иллюстрирующая определение подходящих для извлечения особенностей в другом варианте осуществления настоящего изобретения. В данном варианте осуществления извлекают только 2 особенности F₁, F₂ сигнала LB.

В показанном на фиг.5 варианте осуществления особенность F₁ определяют с помощью:

где

E_10,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 10,0-11,6 кГц,

E_8,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 8,0-11,6 кГц.

Кроме того, в проиллюстрированном на фиг.5 варианте осуществления особенность F₂ определяют с помощью:

где

E_8,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 8,0-11,6 кГц,

E_0,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 0,0-11,6 кГц.

Особенности F₁, F₂ представляют наклон спектра и аналогичны описанной выше особенности Ψ₁, но их определяют в частотной области вместо временной области. Кроме того, может применяться определение особенностей F₁, F₂ по другим частотным интервалам сигнала LB. Однако в данном варианте осуществления настоящего изобретения важно, что F₁, F₂ описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.

Используя извлеченные особенности F₁, F₂, теперь возможно, чтобы модуль 32 сопоставления сопоставлял их с параметрами HB ${\hat{E}}_{k}$ с помощью использования обобщенной аддитивной модели:

где

${\hat{E}}_{k}$ k=1..., K, являются параметрами верхней полосы, которые определяют усиление, управляющее огибающей K предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,

{w_0k, w_1mk, w_2mk, w_3mk} являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра ${\hat{E}}_{k}$ верхней полосы,

F_m, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.

Фиг.6 - структурная схема, иллюстрирующая вариант осуществления устройства согласно настоящему изобретению, подходящий для генерации расширения HB, основываясь на особенностях, проиллюстрированных на фиг.5. Данный вариант осуществления включает в себя аналогичные элементы, как вариант осуществления на фиг.3, но в этом случае они сконфигурированы для сопоставления особенностей F₁, F₂ с K усилениями ${\hat{E}}_{k}$ вместо одного усиления Ŷ.

Фиг.7 - схема, иллюстрирующая пример параметров верхней полосы, полученных с помощью обобщенного аддитивного моделирования согласно одному из вариантов осуществления настоящего изобретения, основываясь на особенностях, проиллюстрированных на фиг.5. В данном примере существует K=4 усилений ${\hat{E}}_{k}$ , которые управляют огибающей 4 предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы. Таким образом, в данном примере огибающей HB управляют с помощью 4 параметров ${\hat{E}}_{k}$ вместо одного параметра Ŷ в примере, относящемся к фиг.4. Меньшее и большее количество параметров также допустимо.

Фиг.8 - структурная схема, иллюстрирующая другой вариант осуществления структуры кодирования/декодирования, которая включает в себя декодер согласно другому варианту осуществления настоящего изобретения. Данный вариант осуществления отличается от варианта осуществления на фиг.1 тем, что в нем используют сигнал HB S_HB. Вместо этого сигнал HB направляют к блоку 22 информации HB, который классифицирует сигнал HB и посылает N-битовый индекс класса в речевой декодер 2. Если передача информации HB разрешена, как проиллюстрировано на фиг.8, то сопоставление выполняют по частям с совокупностями, которые обеспечивают с помощью данной передачи, причем количество классов зависит от количества доступных битов. Индекс класса используют с помощью блока 18 сопоставления, как будет описано ниже.

Фиг.9 - структурная схема, иллюстрирующая дополнительный вариант осуществления структуры кодирования/декодирования, которая включает в себя декодер согласно дополнительному варианту осуществления настоящего изобретения. Этот вариант осуществления аналогичен варианту осуществления на фиг.8, но формирует индекс класса, используя и сигнал HB s_HB, и сигнал LB s_LB. В данном примере N=1 бит, но также возможно иметь больше 2 классов, если индекс будет включать в себя большее количество битов.

Фиг.10 - структурная схема, иллюстрирующая другой вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB. Данный вариант осуществления отличается от варианта осуществления на фиг.3 тем, что он включает в себя модуль 38 выбора набора коэффициентов сопоставления, который сконфигурирован для выбора набора коэффициентов сопоставления ω^C= ${w_{0 k}^{C}, w_{_{1 m k}}^{C}, w_{_{2 m k}}^{C}, w_{_{3 m k}}^{C}}$ , зависящего от принятого индекса C класса сигнала. В данном варианте осуществления параметр верхней полосы Ŷ предсказывают из набора особенностей нижней полосы $\tilde{Ψ}$ и предварительно сохраненных коэффициентов сопоставления ω^C. Индекс C класса выбирает набор коэффициентов сопоставления, который определяют с помощью обучающей процедуры в автономном режиме, чтобы они соответствовали данным в этой совокупности. Это можно увидеть, как постепенный переход из состояния, когда HB просто предсказывают (нет классификации), в состояние, когда HB просто квантуют (с классификацией). Последнее является результатом того факта, что с увеличением количества совокупностей сопоставление будет иметь тенденцию предсказывать среднее значение совокупности.

Фиг.11 - структурная схема, иллюстрирующая дополнительный вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB. Данный вариант осуществления аналогичен варианту осуществления на фиг.10, но основан на особенностях F₁, F₂, описанных в отношении фиг.5. Кроме того, в данном варианте осуществления класс C сигнала задают с помощью (также относится к верхней части фиг.5):

где

E^S _8,0-11,6- оценка энергии исходного звукового сигнала в частотной полосе 8,0-11,6 кГц, и

E^S _11,6-16,0 - оценка энергии исходного звукового сигнала в частотной полосе 11,6-16,0 кГц.

В данном примере C классифицирует (грубо говоря, чтобы дать мысленное представление того, что означает данная примерная классификация) звуки на «вокализованные» (класс 1) и «невокализованные» (класс 2).

Основываясь на этой классификации, блок 18 сопоставления можно конфигурировать для выполнения сопоставления согласно (обобщенной аддитивной модели 32):

где

${\hat{E}}_{_{k}}^{C}$ , k = 1,…,K, являются параметрами верхней полосы, которые определяют усиление, связанное с классом C сигнала, который классифицирует исходный звуковой сигнал, представленный звуковым сигналом нижней полосы (ŝ_LB), и управляют огибающей K предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,

${w_{0 k}^{C}, w_{_{1 m k}}^{C}, w_{_{2 m k}}^{C}, w_{_{3 m k}}^{C}}$ являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра ${\hat{E}}_{k}$ верхней полосы в классе сигнала,

F_m, m = 1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.

В качестве примера K = 4, и F₁, F₂ можно определять с помощью (15) и (16).

Преимущество вариантов осуществления на фиг.8-11 состоит в том, что они обеспечивают «точную настройку» сопоставления извлеченных особенностей с типом кодируемого звука.

Фиг.12 - структурная схема, иллюстрирующая вариант осуществления сетевого узла, включающего в себя вариант осуществления речевого декодера 2 согласно настоящему изобретению. Этот вариант осуществления иллюстрирует радио-терминал, но другие сетевые узлы можно также применять. Например, если передача голоса по IP (Интернет протоколу) используется в сети, то узлы могут содержать компьютеры.

В сетевом узле на фиг.12 антенна принимает закодированный речевой сигнал. Демодулятор и канальный декодер 50 преобразовывает этот сигнал в речевые параметры нижней полосы (и дополнительно - в класс C сигнала, как обозначено «(класс C)» и штриховой линией сигнала) и направляет их к речевому декодеру 2 для генерации речевого сигнала s, как описано выше в отношении различных вариантов осуществления.

Описанные в данном документе этапы, функции, процедуры и/или блоки можно воплощать в аппаратном обеспечении, используя любую обычную технологию, такую как технология дискретных схем или интегральных схем, которые включают в себя и универсальную электронную схему, и специальную схему.

Альтернативно, по меньшей мере некоторые из описанных этапов, функций, процедур и/или блоков можно воплощать в программном обеспечении для выполнения с помощью подходящего устройства обработки, такого как микропроцессор, цифровой сигнальный процессор (DSP) и/или любое подходящее программируемое логическое устройство, например, устройство на основе программируемой пользователем вентильной матрицы (FPGA).

Нужно также подразумевать, что можно многократно использовать обычные возможности обработки сетевых узлов. Это можно сделать, например, с помощью перепрограммирования существующего программного обеспечения или добавления новых компонентов программного обеспечения.

В качестве примера реализации, фиг.13 является структурной схемой, иллюстрирующей вариант осуществления примера речевого декодера 2 согласно настоящему изобретению. Данный вариант осуществления основан на процессоре 100, например, микропроцессоре, который выполняет компонент 110 программного обеспечения для оценки речевого сигнала нижней полосы ŝ_LB, компонент 120 программного обеспечения для оценки речевого сигнала верхней полосы ŝ_HB, и компонент 130 программного обеспечения для генерации речевого сигнала ŝ из ŝ_LB и ŝ_HB. Данное программное обеспечение хранится в памяти 150. Процессор 100 осуществляет связь с памятью по системной шине. Параметры речи нижней полосы (и дополнительно класс C сигнала) принимаются с помощью контроллера 160 ввода/вывода (I/O), который управляет шиной I/O, с которой соединены процессор 100 и память 150. В данном варианте осуществления параметры, принимаемые контроллером 150 I/O, сохраняются в памяти 150, где они обрабатываются с помощью компонентов программного обеспечения. Компонент 110 программного обеспечения может воплощать функциональные возможности блока 14 в описанных выше вариантах осуществления. Компонент 120 программного обеспечения может воплощать функциональные возможности блока 30 в описанных выше вариантах осуществления. Компонент 130 программного обеспечения может воплощать функциональные возможности блока 20 в описанных выше вариантах осуществления. Речевой сигнал, полученный из компонента 130 программного обеспечения, выводится из памяти 150 с помощью контроллера 160 I/O по шине I/O.

В варианте осуществления на фиг.13 речевые параметры принимаются с помощью контроллера 160 I/O, а другие задачи, такие как демодуляция и канальное декодирование в радио-терминале, как предполагается, обрабатываются в другом месте в принимающем сетевом узле. Однако, в качестве альтернативы можно предоставлять возможность дополнительным компонентам программного обеспечения в памяти 150 также выполнять всю или часть цифровой обработки сигналов для извлечения речевых параметров из принимаемого сигнала. В таком варианте осуществления речевые параметры можно получать непосредственно из памяти 150.

В случае, если принимающий сетевой узел является компьютером, принимающим пакеты передачи голоса по IP-протоколу, то IP-пакеты обычно направляются к контроллеру 160 I/O, а речевые параметры извлекаются с помощью дополнительных компонентов программного обеспечения в памяти 150.

Некоторые или все описанные выше компоненты программного обеспечения можно переносить на компьютерно-читаемом носителе, например, на CD (компакт-диске), на DVD (цифровом универсальном диске) или на жестком диске, и загружать в память для выполнения с помощью процессора.

Фиг.14 - последовательность операций, которая иллюстрирует один из вариантов осуществления способа согласно настоящему изобретению. На этапе S1 извлекают набор особенностей $(F_{L B}, {\tilde{Ψ}}_{1} - {\tilde{Ψ}}_{7}, F_{1}, F_{2})$ звукового сигнала нижней полосы. На этапе S2 сопоставляют извлеченные особенности по меньшей мере с одним параметром верхней полосы $(\hat{Y}, {\hat{Y}}^{C}, {\hat{E}}_{k}, {\hat{E}}_{k}^{C})$ с помощью обобщенного аддитивного моделирования. На этапе S3 сдвигают по частоте копию звукового сигнала нижней полосы ŝ_LB в верхнюю полосу. На этапе S4 управляют огибающей сдвинутой по частоте копии звукового сигнала нижней полосы с помощью параметра(ов) верхней полосы.

Специалистам будет понятно, что различные модификации и изменения могут быть сделаны в настоящем изобретении без отступления от его объема, который определен с помощью прилагаемой формулы изобретения.

СОКРАЩЕНИЯ

ACELP - линейное предсказание с алгебраическим кодовым возбуждением

BWE - расширение полосы пропускания

CELP - линейное предсказание с кодовым возбуждением

DSP - цифровой сигнальный процессор

FPGA - программируемая пользователем вентильная матрица

GMM - модель гауссовых смесей

HB - верхняя полоса

HMM - скрытые марковские модели

IP - Интернет-протокол

LB - нижняя полоса

ССЫЛКИ

[1] M. Nilsson and W. B. Kleijn, «Avoiding over-estimation in bandwidth extension of telephony speech», Proc. IEEE Int. Conf. Acoust. Speech Sign. Process., 2001.

[2] P. Jax and P. Vary, «Wideband extension of telephone speech using a hidden Markov model», IEEE Workshop on Speech Coding, 2000.

[3] ITU-T Rec. G.729.1, «G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729», 2006.

[4] 3GPP TS 26. 190, «Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions», 2008.

[5] «New Approaches to Regression by Generalized Additive Models and Continuous Optimization for Modern Applications in Finance, Science and Technology», Pakize Taylan, Gerhard- Wilhelm Weber, Amir Beck, http://www3.iam.metu.edu.tr/iam/images/1/10/Preprint56.pdf

[6] Numerical Recipes in C++: The Art of Scientific Computing, 2nd edition, reprinted 2003, W. Press, S. Teukolsky, W. Vetterling, B. Flannery.

1. Способ расширения верхней полосы звукового сигнала по нижней полосе звукового сигнала, который включает в себя этап извлечения (S1) набора особенностей звукового сигнала нижней полосы, причем упомянутый способ отличается тем, что содержит этапы, на которых:
сопоставляют (S2) извлеченные особенности по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования;
сдвигают (S3) по частоте копию звукового сигнала нижней полосы в верхнюю полосу;
управляют (S4) огибающей сдвинутой по частоте копии звукового сигнала нижней полосы с помощью упомянутого по меньшей мере одного параметра верхней полосы.

2. Способ по п. 1, в котором сопоставление основано на сумме сигмоидальных функций извлеченных особенностей .

3. Способ по п. 2, в котором сопоставление задают с помощью:

где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, управляющее огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы,
F_m, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.

4. Способ по п. 2, в котором сопоставление задают с помощью:

где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, связанное с классом С сигнала, который классифицирует исходный звуковой сигнал, представленный звуковым сигналом нижней полосы , и управляют огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы в классе С сигнала,
F_m, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.

5. Способ по п. 3 или 4, в котором К=4.

6. Устройство (30) расширения верхней полосы звукового сигнала по нижней полосе звукового сигнала, которое включает в себя блок (16) извлечения особенностей, сконфигурированный для
извлечения набора особенностей звукового сигнала нижней полосы, причем упомянутое устройство отличается тем, что содержит блок (18) сопоставления, который включает в себя:
модуль (32) сопоставления с помощью обобщенного аддитивного моделирования, сконфигурированный для сопоставления извлеченных особенностей по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования;
модуль (34) сдвига частоты, сконфигурированный для сдвига по частоте копии звукового сигнала нижней полосы в верхнюю полосу;
модуль (36) управления огибающей, сконфигурированный для управления огибающей сдвинутой по частоте копии с помощью упомянутого по меньшей мере одного параметра верхней полосы.

7. Устройство по п. 6, в котором модуль (32) сопоставления с помощью обобщенного аддитивного моделирования сконфигурирован для сопоставления, основанного на сумме сигмоидальных функций извлеченных особенностей .

8. Устройство по п. 7, в котором модуль (32) сопоставления с помощью обобщенного аддитивного моделирования сконфигурирован для выполнения сопоставления согласно:

где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, управляющее огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы,
F_m, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.

9. Устройство по п. 7, в котором модуль (32) сопоставления с помощью обобщенного аддитивного моделирования сконфигурирован для выполнения сопоставления согласно:

где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, связанное с классом С сигнала, который классифицирует исходный звуковой сигнал, представленный звуковым сигналом нижней полосы , и управляют огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы в классе С сигнала,
F_m, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.

10. Устройство по п. 8 или 9, в котором модуль (32) сопоставления с помощью обобщенного аддитивного моделирования сконфигурирован для сопоставления извлеченных особенностей с К=4 параметрами верхней полосы .

11. Речевой декодер, включающий в себя устройство (30) по любому из предыдущих пп. 6-9.

12. Сетевой узел, включающий в себя речевой декодер по п. 11.

13. Сетевой узел по п. 12, в котором сетевой узел является радио-терминалом.

Изобретение относится к средствам для расширения полосы частот. Технический результат заключается в улучшении восприятия расширенного звукового сигнала.

Гармоническое преобразование на основе блока поддиапазонов, усиленное перекрестными произведениями // 2551817

Изобретение относится к системам кодирования источников звукового сигнала. Технический результат состоит в эффективной реализации высокочастотной реконструкции (HFR) путем усиления перекрестными произведениями, где новая составляющая с частотой QΩ+rΩ0 генерируется на основе существующих составляющих с частотами Ω и Ω+Ω0.

Устройство и способ для генерирования высокочастотного аудиосигнала с применением адаптивной избыточной дискретизации // 2547220

Изобретение относится к области кодирования акустических сигналов и может быть использовано при транспонировании в частотной области. Достигаемый технический результат - эффективная генерация качественного высокочастотного аудиосигнала путем раздельной обработки нестационарных и стационарных составляющих аудиосигнала.

Устройство, способ и компьютерная программа для того, чтобы управлять аудиосигналом, включающим переходный сигнал // 2543309

Изобретение относится к радиотехнике и предназначено для управления аудиосигналом, включающим переходное событие. Технический результат - повышение точности воспроизведения сигнала.

Устройство, способ и машиночитаемый носитель для получения параметра, описывающего изменение характеристики сигнала // 2543308

Группа изобретений относится к средствам для анализа временных вариаций аудио сигналов. Технический результат заключается в создании средств, обладающих повышенной надежностью, для получения параметра, описывающего временные изменения сигнальной характеристики.

Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания // 2541183

Изобретение относится к вычислительной технике. Технический результат заключается в улучшении слышимости речи в многоканальном звуковом сигнале.

Способ выделения речевого сигнала в условиях наличия помех и устройство для его осуществления // 2536343

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности выделения речевого сигнала в условиях наличия помех.

Обработка звуковых сигналов в ходе высокочастотной реконструкции // 2530254

Изобретение относится к HFR (высокочастотной реконструкции/регенерации) звуковых сигналов и предназначено для выполнения HFR звуковых сигналов, содержащих большие изменения в уровне энергии в пределах низкочастотного диапазона, который используется для реконструкции высоких частот звукового сигнала.

Устройство, способ и компьютерная программа для выработки широкополосного сигнала с использованием управляемого расширения ширины полосы и слепого расширения ширины полосы // 2527735

Изобретение относится к средствам для выработки широкополосного сигнала с использованием входного сигнала низкой полосы. Технический результат заключается в расширении полосы при низкой скорости передачи битов и сохранении высокого качества сигнала.

Низведение параметров последовательности битов sbr // 2526745

Изобретение относится к средствам декодирования и/или транскодирования звука. Технический результат заключается в уменьшении сложности процесса уменьшения числа каналов при сохранении релевантной высокочастотной информации о каналах.

Эхоподавление, содержащее моделирование компонентов поздней реверберации // 2569006

Изобретение относится к устройствам для вычисления коэффициентов (H[k,m]) фильтрации для адаптивного фильтра. Технический результат заключается в повышении качества звука системы эхоподавления или системы эхокомпенсации. Адаптивный фильтр используется для фильтрации сигнала микрофона, чтобы подавлять эхо-сигнал вследствие сигнала громкоговорителя. Устройство содержит: средство моделирования затухания эхо-сигнала для моделирования характера изменения затухания акустической среды и для предоставления соответствующего параметра (τ; αm) затухания эхо-сигнала; и средство вычисления для вычисления коэффициентов (H[k,m]) фильтрации адаптивного фильтра на основе параметра (τ; αm) затухания эхо-сигнала. Соответствующий способ содержит: предоставление параметров (τ; Ĝ[k,m]; αm) затухания эхо-сигнала, определенных посредством средства моделирования затухания эхо-сигнала; и вычисление коэффициентов (H[k,m]) фильтрации адаптивного фильтра на основе параметров (τ; αm) затухания эхо-сигнала. 9 н. и 12 з.п. ф-лы, 12 ил.

Устройство и способ модификации входного аудиосигнала // 2573246

Изобретение относится к средствам модификации входного аудиосигнала. Технический результат заключается в повышении эффективности модификации аудиосигнала при сохранении низкого уровня вычислительной сложности данной модификации. Устройство для модификации входного аудиосигнала содержит определитель возбуждения, запоминающее устройство и модификатор сигнала. Определитель возбуждения определяет значение параметра возбуждения субполосы из множества субполос входного аудиосигнала на основании энергосодержания субполосы. Кроме того, запоминающее устройство хранит таблицу поиска, которая содержит множество коэффициентов спектрального взвешивания. Коэффициент спектрального взвешивания из множества коэффициентов спектрального взвешивания связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Запоминающее устройство предоставляет коэффициент спектрального взвешивания, соответствующий определенному значению параметра возбуждения и соответствующий субполосе, для которой определено значение параметра возбуждения. 3 н. и 17 з.п. ф-лы, 7 ил.

Способ, устройство и система для обработки аудиоданных // 2579926

Изобретение относится к средствам для обработки аудиоданных и к области техники связи. Технический результат заключается в повышении эффективности кодирования. Способ включает в себя: получение шумового кадра аудиосигнала и разложение текущего шумового кадра на шумовой сигнал полосы низких частот и шумовой сигнал полосы высоких частот; и кодирование и передачу шумового сигнала полосы низких частот посредством использования первого механизма прерывистой передачи и кодирование и передачу шумового сигнала полосы высоких частот посредством использования второго механизма прерывистой передачи. Согласно настоящему изобретению различные способы обработки используются для сигнала полосы высоких частот и сигнала полосы низких частот, вычислительная нагрузка и кодированные биты могут экономиться при допущении непонижения субъективного качества кодека, и биты, которые экономятся, могут помогать достигать цели уменьшения полосы пропускания передачи или повышения общего качества кодирования. 4 н. и 40 з.п. ф-лы, 9 ил.

Помехоустойчивая классификация режимов кодирования речи // 2584461

Изобретение относится к средствам помехоустойчивой классификации режимов кодирования речи. Технический результат заключается в повышении эффективности классификации режимов речи для повышения эффективности многорежимного кодирования с переменной скоростью передачи данных. Параметры классификации вводятся в классификатор речи из внешних компонентов. Внутренние параметры классификации формируются в классификаторе речи из по меньшей мере одного из входных параметров. Устанавливается пороговое значение нормированной функции коэффициентов автокорреляции. Анализатор параметров выбирается согласно среде распространения сигнала. Классификация режима речи определяется на основании оценки шума многочисленных кадров входной речи. 4 н. и 39 з.п. ф-лы, 11 ил., 6 табл.

Устройство и способ обработки входного звукового сигнала с помощью каскадированного банка фильтров // 2586846

Изобретение относится к средствам для обработки входного звукового сигнала на основе каскадированного банка фильтров. Технический результат заключается в повышении качества обработанного звукового сигнала. Устройство содержит банк фильтров синтеза для синтеза промежуточного звукового сигнала из входного аудиосигнала, входного аудиосигнала, представленного множеством первых сигналов поддиапазонов, сгенерированных в банке фильтров анализа, причем число каналов в банке фильтров синтеза меньше, чем количество каналов в банке фильтров анализа. Кроме того, устройство содержит дополнительный банк фильтров анализа для генерации множества вторых сигналов поддиапазонов из промежуточного аудиосигнала, причем дополнительный банк фильтров анализа имеет число каналов, отличающееся от числа каналов в банке фильтров синтеза, так что частота дискретизации сигнала поддиапазона из множества вторых сигналов поддиапазонов отличается от частоты дискретизации первого сигнала поддиапазона из множества первых сигналов поддиапазонов. 6 н. и 17 з.п. ф-лы, 52 ил., 2 табл.

Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке // 2589298

Изобретение относится к средствам повышения разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке. Технический результат заключается в повышении разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке за счет снижения эффекта маскирования полезного звукового сигнала нестационарными акустическими шумами при помощи использования частотно-зависимого адаптивного усиления. Полезный сигнал, поступающий в блок обработки, и шумовой сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы. В блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию измененных амплитудных зависимостей полезного сигнала после обработки компрессором. При субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала и сигнала шума акустической обстановки. В качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона (АКДД), которым изменяют динамический диапазон полезного сигнала. Сигналы в субполосах полезного сигнала умножают на коэффициенты усиления. 2 з.п. ф-лы, 13 ил.

Система и способ для генерации аудиосигнала // 2595636

Изобретение относится к средствам генерации аудиосигнала. Технический результат заключается в уменьшении шумовых составляющих в речевом аудиосигнале. Получают первый аудиосигнал, представляющий речь пользователя, с использованием датчика, находящегося в контакте с пользователем. Получают второй аудиосигнал с использованием воздухопроводного датчика, причем второй аудиосигнал представляет речь пользователя и включает в себя шум из среды, окружающей пользователя. Выявляют периоды речи в первом аудиосигнале. Применяют алгоритм улучшения речи ко второму аудиосигналу для снижения шума во втором аудиосигнале, причем алгоритм улучшения речи использует выявленные периоды речи в первом аудиосигнале. Корректируют первый аудиосигнал с использованием очищенного от шума второго аудиосигнала для генерации выходного аудиосигнала, представляющего речь пользователя. 3 н. и 12 з.п. ф-лы, 14 ил.

Устройство кодирования речи, устройство декодирования речи, способ кодирования речи, способ декодирования речи, программа кодирования речи и программа декодирования речи // 2595914

Изобретение относится к средствам кодирования и декодирования речевого сигнала. Технический результат заключается в уменьшении возникающего опережающего эха и запаздывающего эха и в повышении качества декодированного сигнала без увеличения скорости передачи битов. Коэффициент линейного предсказания сигнала, представленного в частотной области, получают путем выполнения анализа по частоте с линейным предсказанием с использованием метода ковариации или метода автокорреляции. После того как скорректирована сила фильтра полученного коэффициента линейного предсказания, выполняют фильтрацию сигнала по частоте с использованием скорректированного коэффициента, посредством чего формируют временную огибающую сигнала. Это приводит к уменьшению возникающего опережающего эха и запаздывающего эха и улучшает субъективное качество декодированного сигнала без значительного увеличения скорости передачи битов в способе расширения полосы частот в частотной области, представленном способом репликации спектральных полос (SBR). 4 н.п. ф-лы, 50 ил.

Изобретение относится к средствам кодирования и декодирования речевого сигнала. Технический результат заключается в уменьшении возникающего опережающего эха и запаздывающего эха и в повышении качества декодированного сигнала без увеличения скорости передачи битов. Коэффициент линейного предсказания сигнала, представленного в частотной области, получают путем выполнения анализа по частоте с линейным предсказанием с использованием метода ковариации или метода автокорреляции. После того, как скорректирована сила фильтра полученного коэффициента линейного предсказания, выполняют фильтрацию сигнала по частоте с использованием скорректированного коэффициента, посредством чего формируют временную огибающую сигнала. Это приводит к уменьшению возникающего опережающего эха и запаздывающего эха и улучшает субъективное качество декодированного сигнала без значительного увеличения скорости передачи битов в способе расширения полосы частот в частотной области, представленном способом репликации спектральных полос (SBR). 4 н.п. ф-лы, 50 ил.