Способ и устройство для оценивания энергии полосы высоких частот в системе расширения полосы частот

Авторы патента:

РАМАБАДРАН Тенкаси В. (US)

ДЖЕЙСУК Марк А. (US)

G10L21/02 - усиление речи, например подавление шума, нейтрализация эхо-сигнала (подавление эхо-сигнала в громкоговорящих телефонных системах H04M 9/08, в аппаратах для людей с дефектами слуха H04R 15/00)

Владельцы патента RU 2471253:

МОТОРОЛА МОБИЛИТИ, ИНК. (US)

Изобретение относится к воспроизведению слышимого контента, в частности к методикам расширения полосы частот. Техническим результатом является повышение качества аудиосигнала с расширенной полосой частот. Указанный результат достигается тем, что в способе оценки энергии полосы высоких частот в системе расширения полосы частот принимают входной цифровой аудиосигнал, содержащий узкополосный сигнал, в первом диапазоне частот; определяют оцененный уровень энергии полосы высоких частот, соответствующий входному цифровому аудиосигналу, во втором диапазоне частот, на основе характеристик узкополосного сигнала, причем второй диапазон частот выше по частоте, чем первый диапазон частот; и модифицируют оцененный уровень энергии полосы высоких частот на основе характеристик узкополосного сигнала. Модификация оцененного уровня энергии полосы высоких частот содержит этап, на котором модифицируют оцененный уровень энергии полосы высоких частот на основе случая начала звука. 3 н.п. ф-лы, 6 ил.

РОДСТВЕННЫЕ ЗАЯВКИ

Данная заявка связана с находящейся в процессе одновременного рассмотрения и в совместном владении заявкой на патент США № 11/946978, поданной 29 ноября 2007 года, которая целиком заключена в данный документ посредством ссылки. Данная заявка дополнительно связана с находящейся в процессе одновременного рассмотрения и в совместном владении заявкой на патент США № 12/024620, поданной 1 февраля 2008 года, которая дополнительно заключена в данный документ посредством ссылки.

ОБЛАСТЬ ТЕХНИКИ

Данное изобретение относится, в общем, к воспроизведению слышимого контента и, более конкретно, к методикам расширения полосы частот.

УРОВЕНЬ ТЕХНИКИ

Слышимое воспроизведение аудиоконтента из цифрового представления содержит известную область усилий. В некоторых режимах приложений цифровое представление содержит полную соответствующую полосу частот, принадлежащую исходной аудиовыборке. В таком случае слышимое воспроизведение может содержать высокоточный и естественно звучащий выход. Такой подход, однако, требует значительных служебных ресурсов для приспособления соответствующего количества данных. Во многих режимах приложений, таких как, например, режимы беспроводной связи, такое количество информации не может всегда адекватно поддерживаться.

Для приспособления к такому ограничению так называемые методики узкополосной речи могут служить для ограничения количества информации посредством, в свою очередь, ограничения представления до менее чем полной соответствующей полосы частот, принадлежащей исходной аудиовыборке. В качестве лишь одного примера в этом отношении, хотя естественная речь включает в себя значительные компоненты вплоть до 8 кГц (или выше), узкополосное представление может предоставить только информацию, касающуюся, скажем, диапазона 300-3400 Гц. Результирующий контент, при слышимом воспроизведении, обычно является достаточно разборчивым для поддержки функциональных нужд основанной на речи связи. К сожалению, однако, обработка узкополосной речи также имеет тенденцию к выдаче речи, которая звучит приглушенной и может даже иметь сниженную разборчивость по сравнению с полночастотной речью.

Для удовлетворения этих нужд иногда употребляются методики расширения полосы частот. Искусственно генерируют недостающую информацию в полосах более высоких и/или более низких частот на основе доступной информации об узкой полосе частот, а также другой информации для выбора информации, которая может быть добавлена к контенту узкой полосы частот для того, чтобы тем самым синтезировать сигнал с псевдоширокой (или полной) полосой. С использованием таких методик, например, можно преобразовать узкополосную речь в диапазоне 300-3400 Гц в широкополосную речь, скажем, в диапазоне 100-8000 Гц. С этой целью критической частью информации, которая требуется, является спектральная огибающая полосы высоких частот (3400-8000 Гц). Если спектральная огибающая широкой полосы частот оценена, то спектральная огибающая полосы высоких частот обычно может быть легко извлечена из нее. Можно думать о спектральной огибающей полосы высоких частот как содержащей форму и усиление (или, эквивалентно, энергии).

Посредством одного подхода, например, форма спектральной огибающей полосы высоких частот оценивается посредством оценивания спектральной огибающей широкой полосы частот из спектральной огибающей узкой полосы частот через отображение кодовой книги. Энергия полосы высоких частот затем оценивается посредством регулировки энергии в пределах части узкой полосы частот спектральной огибающей широкой полосы частот, для совпадения с энергией спектральной огибающей узкой полосы частот. В этом подходе форма спектральной огибающей полосы высоких частот определяет энергию полосы высоких частот, и любые ошибки в оценке этой формы будут также соответственно влиять на оценки энергии полосы высоких частот.

В другом подходе форма спектральной огибающей полосы высоких частот и энергия полосы высоких частот оцениваются отдельно, и спектральная огибающая полосы высоких частот, которая окончательно используется, регулируется для совпадения с оцененной энергией полосы высоких частот. Посредством одного связанного подхода оцененная энергия полосы высоких частот используется, кроме других параметров, для определения формы спектральной огибающей полосы высоких частот. Однако результирующая спектральная огибающая полосы высоких частот необязательно гарантирована иметь соответствующую энергию полосы высоких частот. Следовательно, необходим дополнительный этап для регулировки энергии спектральной огибающей полосы высоких частот на оцененное значение. Если не предприняты специальные меры, то этот подход может привести к разрыву в спектральной огибающей широкой полосы частот на границе между узкой полосой частот и полосой высоких частот. Хотя существующие подходы к расширению полосы частот и, в частности, к оцениванию огибающей полосы высоких частот являются разумно успешными, они необязательно дают результирующую речь подходящего качества по меньшей мере в некоторых режимах приложений.

Для того чтобы генерировать речь допустимого качества с расширенной полосой частот, количество артефактов в такой речи должно быть минимизировано. Известно, что переоценка энергии полосы высоких частот приводит к раздражающим артефактам. Неправильная оценка формы спектральной огибающей полосы высоких частот может также привести к артефактам, но эти артефакты обычно являются более мягкими и легко маскируются посредством речи с узкой полосой частот.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Вышеприведенные нужды по меньшей мере частично удовлетворяются через предоставление способа и устройства для оценивания энергии полосы высоких частот в системе расширения полосы частот, описанной в следующем подробном описании. Сопутствующие чертежи, где подобные ссылочные позиции относятся к идентичным или функционально подобным элементам по всем отдельным видам и которые вместе с подробным описанием ниже включены в спецификацию и образуют ее часть, служат для дополнительной иллюстрации различных вариантов осуществления и для объяснения различных принципов и преимуществ, которые все находятся в соответствии с данным изобретением.

Фиг.1 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления изобретения;

Фиг.2 содержит график, сконфигурированный в соответствии с различными вариантами осуществления изобретения;

Фиг.3 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления изобретения;

Фиг.4 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления изобретения;

Фиг.5 содержит блок-схему, сконфигурированную в соответствии с различными вариантами осуществления изобретения; и

Фиг.6 содержит график, сконфигурированный в соответствии с различными вариантами осуществления изобретения.

Квалифицированные специалисты поймут, что элементы на чертежах показаны для простоты и ясности и необязательно приведены в масштабе. Например, размеры и/или относительное позиционирование некоторых элементов на чертежах могут быть преувеличены относительно других элементов для улучшения понимания различных вариантов осуществления данного изобретения. Также обычные, но хорошо понятные элементы, которые являются полезными или необходимыми в коммерчески возможном варианте осуществления, часто не изображены, что способствует менее затрудненному виду этих различных вариантов осуществления данного изобретения. Кроме того, будет ясно, что некоторые действия и/или этапы могут быть описаны или изображены в некотором конкретном порядке, хотя специалистам в данной области техники будет ясно, что такая конкретность относительно последовательности фактически не является необходимой. Будет также ясно, что термины и выражения, используемые здесь, имеют обычное техническое значение, которое соответствует таким терминам и выражениям, применяемым специалистами в данной области техники, изложенной выше, за исключением случаев, когда различные конкретные значения излагаются здесь иным образом.

ПОДРОБНОЕ ОПИСАНИЕ

Идея, обсуждаемая здесь, направлена на эффективный по стоимости способ и систему для искусственного расширения полосы частот. Согласно такой идее принимается узкополосный цифровой аудиосигнал. Этим узкополосным цифровым аудиосигналом может быть, например, сигнал, принятый мобильной станцией в сотовой сети, и этот узкополосный цифровой аудиосигнал может включать в себя речь в частотном диапазоне 300-3400 Гц. Методики искусственного расширения полосы частот реализуются для распространения спектра цифрового аудиосигнала на частоты полосы низких частот, такие как 100-300 Гц, и частоты полосы высоких частот, такие как 3400-8000 Гц. Посредством использования искусственного расширения полосы частот для распространения спектра на частоты полосы низких частот и полосы высоких частот создается более естественно звучащий цифровой аудиосигнал, который является более приятным для пользователя мобильной станции, реализующей эту методику.

В методиках искусственного расширения полосы частот недостающая информация в более высокой (3400-8000 Гц) и более низкой (100-300 Гц) полосах частот искусственно генерируется на основе доступной информации об узкой полосе частот, а также априорной информации, выведенной из базы данных речи и сохраненной в ней, и добавленной к узкополосному сигналу для синтезирования сигнала с псевдоширокой полосой частот. Такое решение довольно привлекательно, так как оно требует минимальных изменений в существующей системе передачи. Например, не нужна дополнительная скорость передачи битов. Искусственное расширение полосы частот может быть включено в постпроцессор в приемной части и, следовательно, не зависит от технологии кодирования речи, используемой в системе связи, или от самой природы системы связи, например аналоговой, цифровой, наземной линии связи или сотовой. Например, методики искусственного расширения полосы частот могут быть реализованы посредством мобильной станции, принимающей узкополосный цифровой аудиосигнал, и результирующий широкополосный сигнал применяется для генерации аудио, проигрываемого для пользователя мобильной станции.

При определении информации о полосе высоких частот сначала оценивается энергия в полосе высоких частот. Поднабор узкополосного сигнала применяется для оценивания энергии полосы высоких частот. Этот поднабор узкополосного сигнала, который является ближайшим к частотам полосы высоких частот, обычно имеет наивысшую корреляцию с сигналом с полосой высоких частот. Соответственно, только поднабор узкой полосы частот, в противоположность всей узкой полосе частот, применяется для оценивания энергии полосы высоких частот. Этот поднабор, который используется, называется «переходной полосой частот» и может включать в себя такие частоты, как 2500-3400 Гц. Более конкретно, переходная полоса частот определяется здесь как полоса частот, которая содержится в пределах узкой полосы частот и близка к полосе высоких частот, т.е. служит в качестве перехода к полосе высоких частот. Этот подход находится в контрасте с системами расширения полосы частот известного уровня техники, которые оценивают энергию полосы высоких частот в пределах энергии всей узкой полосы частот, обычно как соотношение.

Для того чтобы оценить энергию полосы высоких частот, энергия переходной полосы частот сначала оценивается с помощью методик, обсуждаемых ниже относительно фиг.4 и 5. Например, энергия переходной полосы частот может быть вычислена сначала посредством повышающей дискретизации входного узкополосного сигнала, вычисления частотного спектра, дискретизированного с повышением узкополосного сигнала, и затем суммирования энергий спектральных компонентов в пределах переходной полосы частот. Оцененная энергия переходной полосы частот впоследствии вставляется в алгебраическое уравнение как независимая переменная для оценивания энергии полосы высоких частот. Коэффициенты или веса различных степеней независимой переменной в алгебраическом уравнении, включающие в себя вес нулевой степени, который является постоянным членом, выбираются для минимизации средней квадратической ошибки между истинным и оцененным значениями энергии полосы высоких частот на большом количестве кадров из обучающей базы данных речи. Точность оценки может быть дополнительно повышена посредством согласования этой оценки с параметрами, выведенными из узкополосного сигнала, а также с параметрами, выведенными из сигнала с переходной полосой частот, как более подробно обсуждается ниже. После оценки энергии полосы высоких частот спектр полосы высоких частот оценивается на основе оценки энергии полосы высоких частот.

Посредством применения переходной полосы частот таким образом предоставлена надежная методика расширения полосы частот, которая создает соответствующий аудиосигнал более высокого качества, чем было бы возможно, если бы для оценивания энергии полосы высоких частот использовалась энергия во всей узкой полосе частот. Кроме того, эта методика может применяться без излишне неблагоприятного влияния на существующие системы связи, так как методики расширения полосы частот применяются к узкополосному сигналу, принятому с помощью системы связи, т.е. существующие системы связи могут применяться для посылки узкополосных сигналов.

Фиг.1 иллюстрирует процесс 100 для генерации цифрового аудиосигнала с расширенной полосой частот в соответствии с различными вариантами осуществления изобретения. Сначала, в операции 101, узкополосный цифровой аудиосигнал принимается. В типичном режиме приложения это будет содержать предоставление множества кадров такого контента. Эта идея легко приспособит обработку каждого такого кадра на описанных этапах. Посредством одного подхода, например, каждый такой кадр может соответствовать 10-40 миллисекундам первоначального аудиоконтента.

Это может содержать, например, предоставление цифрового аудиосигнала, который содержит синтезированный голосовой контент. Это имеет место, например, при употреблении этой идеи в сопряжении с принятым вокодированным речевым контентом в портативном устройстве беспроводной связи. Однако также существуют и другие возможности, как будет ясно специалистам в данной области техники. Например, цифровой аудиосигнал мог бы вместо этого содержать первоначальный речевой сигнал или повторно дискретизированную версию либо первоначального речевого сигнала, либо синтезированного речевого контента.

Ссылаясь через мгновение на фиг.2, будет ясно, что этот цифровой аудиосигнал имеет отношение к первоначальному аудиосигналу 201, который имеет первоначальную соответствующую полосу 202 частот сигнала. Эта первоначальная соответствующая полоса 202 частот сигнала будет обычно больше, чем вышеупомянутая полоса частот сигнала, соответствующая цифровому аудиосигналу. Это может произойти, например, когда цифровой аудиосигнал представляет только часть 203 первоначального аудиосигнала 201 с другими частями, оставленными вне полосы частот. В показанном иллюстративном примере это включает в себя часть 204 полосы низких частот и часть 205 полосы высоких частот. Специалистам в данной области техники будет ясно, что этот пример служит только иллюстративной цели, и что не представленная часть может содержать только часть полосы низких частот или часть полосы высоких частот. Эта идея была бы также применима для использования в режиме приложения, где не представленная часть распадается в полосе средних частот на две или более представленные части (не показано).

Следовательно, будет легко понятно, что не представленная часть (части) первоначального аудиосигнала 201 содержит контент, который данная идея может разумно пытаться заменить или иначе представить некоторым разумным и допустимым образом. Будет также понятно, что эта полоса частот сигнала занимает только часть полосы частот Найквиста, определенной соответствующей частотой выборки. Это, в свою очередь, будет ясно для дополнительного предоставления частотной области, в которой можно влиять на желаемое расширение полосы частот.

Ссылаясь обратно на фиг.1, входной цифровой аудиосигнал обрабатывается для генерации обработанного цифрового аудиосигнала в операции 102. Посредством одного подхода обработкой в операции 102 является операция повышающей дискретизации. Посредством другого подхода это может быть простая система единичного усиления, для которой выход равен входу. В операции 103 уровень энергии полосы высоких частот, соответствующий входному цифровому аудиосигналу, оценивается на основе переходной полосы частот обработанного цифрового аудиосигнала в пределах заданного верхнего частотного диапазона узкой полосы частот.

Посредством использования компонентов переходной полосы частот как базиса для оценки получается более точная оценка, чем была бы обычно возможна, если бы все компоненты узкой полосы частот коллективно использовались для оценки значения энергии компонентов полосы высоких частот. Посредством одного подхода значение энергии полосы высоких частот используется для доступа к таблице соответствия, которая вмещает в себя множество соответствующих форм-кандидатов спектральных огибающих полосы высоких частот для определения спектральной огибающей полосы высоких частот, т.е. подходящей формы спектральной огибающей полосы высоких частот при правильном уровне энергии.

На этапе 104 оцененный уровень энергии полосы высоких частот модифицируется на основе точности оценки и/или характеристик узкополосного сигнала для уменьшения артефактов и тем самым повышения качества аудиосигнала с расширенной полосой частот. Это будет подробно описано ниже. Наконец, в 105, цифровой аудиосигнал с полосой высоких частот, по желанию, генерируется на основе модифицированной оценки уровня энергии полосы высоких частот и оцененного спектра полосы высоких частот, соответствующего этой модифицированной оценке уровня энергии полосы высоких частот.

Этот процесс 100 будет затем по желанию приспосабливать комбинирование цифрового аудиосигнала с контентом полосы высоких частот, соответствующим оцененному значению энергии и спектру компонентов полосы высоких частот для предоставления расширенной версии полосы частот узкополосного цифрового аудиосигнала, подлежащего воспроизведению. Хотя процесс, показанный на фиг.1, иллюстрирует только добавление оцененных компонентов полосы высоких частот, следует понимать, что компоненты полосы низких частот могут быть также оценены и скомбинированы с узкополосным цифровым аудиосигналом для генерации широкополосного сигнала с расширенной полосой частот.

Результирующий аудиосигнал с расширенной полосой частот (полученный посредством комбинирования входного цифрового аудиосигнала с искусственно сгенерированным контентом внесигнальной полосы частот) имеет улучшенное качество аудио по сравнению с первоначальным узкополосным цифровым аудиосигналом при воспроизведении в слышимой форме. Посредством одного подхода это может содержать комбинирование двух элементов, которые являются взаимно исключающими относительно их спектрального контента. В таком случае такая комбинация может принять форму, например, простого связывания или соединения иным образом двух (или нескольких) сегментов вместе. Посредством другого подхода, если желательно, контент полосы высоких частот и/или полосы низких частот может иметь некоторую часть, которая находится в пределах соответствующей полосы частот цифрового аудиосигнала. Такое перекрытие может быть полезным по меньшей мере в некоторых режимах приложений для сглаживания и/или циклического изменения шага перехода от одной части к другой посредством комбинирования перекрывающейся части контента полосы высоких частот и/или полосы низких частот с соответствующей внутриполосной частью цифрового аудиосигнала.

Специалистам в данной области техники будет ясно, что вышеописанные процессы легко задействуются с использованием любой из широкого разнообразия доступных и/или легко конфигурируемых платформ, включающих в себя частично или полностью программируемые платформы, известные в данной области техники, или специализированные платформы, которые могут быть желательны для некоторых приложений. Теперь, ссылаясь на фиг.3, будет предоставлен иллюстративный подход к такой платформе.

В этом иллюстративном примере в устройстве 300 процессор 301 выбора функционально соединен со входом 302, который сконфигурирован и скомпонован с возможностью приема цифрового аудиосигнала, имеющего соответствующую полосу частот сигнала. Когда устройство 300 содержит беспроводное двустороннее устройство связи, такой цифровой аудиосигнал может быть предоставлен посредством соответствующего приемника 303, как хорошо известно в данной области техники. В таком случае, например, цифровой аудиосигнал может содержать синтезированный голосовой контент, сформированный как функция принятого вокодированного речевого контента.

Процессор 301, в свою очередь, может быть сконфигурирован и скомпонован (например, с помощью соответствующего программирования, когда процессор 301 содержит частично или полностью программируемую платформу, как известно в данной области техники) с возможностью осуществления одного или нескольких этапов или другой функциональности, изложенной здесь. Это может содержать, например, оценивание значения энергии полосы высоких частот из энергии переходной полосы частот и последующее использование значения энергии полосы высоких частот и множества форм показателей энергии для определения спектральной огибающей полосы высоких частот.

Как описано выше, посредством одного подхода, вышеупомянутое значение энергии полосы высоких частот может служить для облегчения доступа к таблице соответствия, которая вмещает в себя множество соответствующих форм-кандидатов спектральных огибающих. Для поддержки такого подхода это устройство может также содержать, если это желательно, одну или несколько таблиц 304 соответствия, которые функционально соединены с процессором 301. Сконфигурированный таким образом процессор 301 может легко осуществить доступ к таблице 304 соответствия, если это уместно.

Специалистам в данной области техники будет ясно, что такое устройство 300 может содержать множество физически отличающихся элементов, как предложено иллюстрацией, показанной на фиг.3. Также можно, однако, видеть эту иллюстрацию как содержащую некоторый логический вид, и в этом случае один или несколько этих элементов могут быть задействованы и реализованы с помощью совместно используемой платформы. Будет также понятно, что такая совместно используемая платформа может содержать полностью или частично программируемую платформу, как известно в данной области техники.

Следует понимать, что обработка, обсужденная выше, может быть выполнена мобильной станцией в беспроводной связи с базовой станцией. Например, базовая станция может передать узкополосный цифровой аудиосигнал с помощью стандартного средства на мобильную станцию. По принятии процессор (процессоры) в пределах мобильной станции выполняет необходимые операции для генерации расширенной версии полосы частот цифрового аудиосигнала, которая является более ясной и более приятной для слуха пользователя мобильной станции.

Теперь, ссылаясь на фиг.4, входная узкополосная речь s_nb, дискретизированная при 8 кГц, сначала дискретизируется с повышением в 2 раза с использованием соответствующего повышающего дискретизатора 401 для получения дискретизированной с повышением узкополосной речи s'_nb, дискретизированной при 16 кГц. Это может содержать выполнение интерполяции 1:2 (например, посредством вставки выборки с нулевым значением между каждой парой первоначальных речевых выборок), за которой следует фильтрация низких частот, использующая, например, фильтр низких частот (LPF), имеющий полосу пропускания между 0 и 3400 Гц.

Из s_nb узкополосные линейные предсказывающие (LP) параметры, A_nb={1, а₁, а₂, …, а_Р}, где Р - порядок модели, также вычисляются с использованием LP анализатора 402, который употребляет хорошо известные методики LP анализа. (Другие возможности существуют, конечно; например, LP параметры могут быть вычислены из прореженной 2:1 версии s'_nb.) Эти LP параметры моделируют спектральную огибающую входной узкополосной речи следующим образом:

В вышеприведенном уравнении угловая частота ω в радианах/выборка дается посредством ω=2πf/F_s, где f - частота сигнала, а F_s - частота выборки в Гц. Для частоты выборки F_s в 8 кГц соответствующий порядок Р модели, например, равен 10.

LP параметры A_nb затем интерполируются посредством 2 с использованием модуля 403 интерполяции для получения A'_nb={1, 0, а₁, 0, а₂, 0, …, 0, а_Р}. С использованием A'_nb дискретизированная с повышением узкополосная речь s'_nb подвергается обратной фильтрации с использованием фильтра 404 анализа для получения LP остаточного сигнала r'_nb (который также дискретизируется при 16 кГц). Посредством одного подхода эта операция обратной фильтрации может быть описана уравнением

где n - показатель выборки.

В типичном режиме приложения обратная фильтрация s'_nb для получения r'_nb может быть осуществлена на покадровой основе, где кадр определяется как последовательность N последовательных выборок на длительности Т секунд. Для многих приложений речевых сигналов хорошим выбором для Т является 20 мс с соответствующими значениями для N около 160 при частоте выборки 8 кГц и около 320 при частоте выборки 16 кГц. Последовательные кадры могут перекрываться друг с другом, например, вплоть до 50% или около того, и, в этом случае, вторая половина выборок в текущем кадре и первая половина выборок в следующем кадре являются одними и теми же, а новый кадр обрабатывается каждые Т/2 секунд. Для выбора Т равным 20 мс и 50% перекрытия, например, LP параметры A_nb вычисляются из 160 последовательных s_nb выборок каждые 10 мс и используются для обратной фильтрации средних 160 выборок соответствующего s'_nb кадра 320 выборок для выдачи 160 выборок r'_nb.

Можно также вычислить LP параметры порядка 2Р для операции обратной фильтрации непосредственно из дискретизированной с повышением узкополосной речи. Этот подход, однако, может увеличить сложность как вычисления LP параметров, так и операции обратной фильтрации, без необходимого увеличения производительности по меньшей мере при некоторых рабочих условиях.

LP остаточный сигнал r'_nb затем двухполупериодно выпрямляется с использованием двухполупериодного выпрямителя 405 и фильтра высоких частот, фильтрующего результат (с использованием, например, фильтра 406 высоких частот (HPF) с полосой пропускания между 3400 и 8000 Гц) для получения выпрямленного остаточного сигнала rr_hb с полосой высоких частот. Параллельно выход источника 407 псевдослучайного шума также подвергается фильтрации фильтром 408 высоких частот для получения сигнала n_hb шума с полосой высоких частот. Альтернативно, отфильтрованная последовательность шума полосы высоких частот может быть предварительно сохранена в буфере (таком, как, например, круговой буфер), и к ней может осуществляться доступ, если это необходимо, для генерации n_hb. Использование такого буфера устраняет вычисления, связанные с фильтрацией фильтром высоких частот выборок псевдослучайного шума в реальном времени. Эти два сигнала, а именно rr_hb и n_hb, затем смешиваются в смесителе 409 согласно уровню υ звучания, предоставленному посредством модуля 410 оценки и управления (ЕСМ) (который будет более подробно описан ниже). В этом иллюстративном примере этот уровень υ звучания ранжирован от 0 до 1, с 0, указывающим невокализированный уровень, и 1, указывающей полностью вокализированный уровень. Смеситель 409 по существу формирует взвешенную сумму двух входных сигналов на его выходе после обеспечения того, что эти два входных сигнала регулируются для того, чтобы иметь один и тот же уровень энергии. Выходной сигнал m_hb смесителя дается посредством

Специалистам в данной области техники будет ясно, что возможны также и другие правила смешивания. Также можно сначала смешать эти два сигнала, а именно двухполупериодно выпрямленный LP остаточный сигнал и сигнал псевдослучайного шума, а затем отфильтровать смешанный сигнал фильтром высоких частот. В этом случае два фильтра 406 и 408 высоких частот заменяются на единственный фильтр высоких частот, помещенный на выходе смесителя 409.

Результирующий сигнал m_nb затем подвергается предварительной обработке с использованием препроцессора 411 возбуждения полосы высоких частот (HB) для формирования сигнала ex_hb возбуждения с полосой высоких частот. Этапы предварительной обработки могут содержать: (i) масштабирование выходного сигнала m_hb смесителя для совпадения с уровнем E_hb энергии полосы высоких частот, и (ii) по желанию придание формы выходному сигналу m_hb смесителя для совпадения со спектральной огибающей SE_hb полосы высоких частот. Как E_hb, так и SE_hb предоставляются для HB препроцессора 411 возбуждения посредством ЕСМ 410. При употреблении этого подхода может быть полезно во многих режимах приложений обеспечить, чтобы такое придание формы не влияло на фазовый спектр выходного сигнала m_hb смесителя; а именно придание формы может быть предпочтительно выполнено посредством фильтра с нулевым фазовым откликом.

Дискретизированный с повышением узкополосный речевой сигнал s'_nb и сигнал ex_hb возбуждения с полосой высоких частот складываются вместе с использованием сумматора 412 для формирования сигнала s_mb со смешанной полосой частот. Этот результирующий сигнал s_mb со смешанной полосой частот вводится в фильтр 413 эквалайзера, который фильтрует этот вход с использованием информации SE_wb о спектральной огибающей широкой полосы частот, предоставленной посредством ЕСМ 410 для формирования оцененного широкополосного сигнала s_wb. Фильтр 413 эквалайзера по существу накладывает спектральную огибающую SE_wb широкой полосы частот на входной сигнал s_mb для формирования s_wb (дальнейшее обсуждение в этом отношении появляется ниже). Результирующий оцененный широкополосный сигнал s_wb фильтруется фильтром высоких частот, например, с использованием фильтра 414 высоких частот, имеющего полосу пропускания от 3400 до 8000 Гц, и фильтруется фильтром низких частот, например, с использованием фильтра 415 низких частот, имеющего полосу пропускания от 0 до 300 Гц, для получения, соответственно, сигнала s_nb с полосой высоких частот и сигнала s_lb с полосой низких частот. Эти сигналы s_nb, s_lb и дискретизированный с повышением узкополосный сигнал s_nb складываются вместе в другом сумматоре 416 для формирования сигнала s_bwe с расширенной полосой частот.

Специалистам в данной области техники будет ясно, что существуют различные другие конфигурации фильтров, возможные для получения сигнала s_bwe с расширенной полосой частот. Если фильтр 413 эквалайзера точно удерживает спектральный контент дискретизированного с повышением речевого узкополосного сигнала s_nb, который является частью его входного сигнала s_mb, то оцененный широкополосный сигнал s_wb может быть непосредственно выдан как сигнал s_bwe с расширенной полосой частот, тем самым устраняются фильтр 414 высоких частот, фильтр 415 низких частот и сумматор 416. Альтернативно, могут использоваться два фильтра эквалайзера, один - для восстановления части низких частот и другой - для восстановления части высоких частот, и выход первого может быть добавлен к отфильтрованному фильтром высоких частот выходу последнего для получения сигнала s_bwe с расширенной полосой частот.

Специалистам в данной области техники будет ясно, что с этим конкретным иллюстративным примером выпрямленное остаточное возбуждение полосы высоких частот и возбуждение шума полосы высоких частот смешиваются вместе согласно уровню звучания. Когда уровень звучания равен 0, что указывает на невокализированную речь, используется исключительно возбуждение шума. Подобным же образом, когда уровень звучания равен 1, что указывает на вокализированную речь, используется исключительно выпрямленное остаточное возбуждение полосы высоких частот. Когда уровень звучания находится между 0 и 1, что указывает на смешанно-вокализированную речь, эти два возбуждения смешиваются в подходящей пропорции, определенной уровнем звучания, и используются. Смешанное возбуждение полосы высоких частот, таким образом, подходит для вокализированного, невокализированного и смешанно-вокализированного звуков.

Будет, кроме того, ясно, что в этом иллюстративном примере фильтр эквалайзера используется для синтезирования s_wb. Фильтр эквалайзера рассматривает спектральную огибающую SE_wb широкой полосы частот, предоставленную посредством ЕСМ, как идеальную огибающую и корректирует (или выравнивает) спектральную огибающую его входного сигнала s_mb для совпадения с этим идеалом. Поскольку только амплитуды включены в выравнивание спектральной огибающей, фазовый отклик фильтра эквалайзера выбирается равным нулю. Амплитудный отклик фильтра эквалайзера определяется посредством SE_wb(ω)/SE_mb(ω). Конструкция и реализация такого фильтра эквалайзера для приложения кодирования речи содержит хорошо понятную область усилий. Кратко, однако, фильтр эквалайзера работает следующим образом с использованием анализа перекрытия-сложения (OLA).

Входной сигнал s_mb сначала делится на перекрывающиеся кадры, например, 20 мс (320 выборок при 16 кГц) кадры с 50% перекрытия. Каждый кадр выборок затем умножается (поточечно) посредством соответствующего окна, например окна повышенного косинуса с совершенным свойством восстановления. Взвешенный с использованием оконной функции речевой кадр затем анализируется для оценивания LP параметров, моделирующих его спектральную огибающую. Идеальная спектральная огибающая широкой полосы частот для этого кадра предоставляется посредством ЕСМ. Из этих двух спектральных огибающих эквалайзер вычисляет амплитудный отклик фильтра как SE_wb(ω)/SE_mb(ω) и устанавливает фазовый отклик на нуль. Входной кадр затем выравнивается для получения соответствующего выходного кадра. Выровненные выходные кадры окончательно перекрываются-складываются для синтезирования оцененной широкополосной речи s_wb.

Специалистам в данной области техники будет ясно, что, кроме LP анализа, существуют другие способы для получения спектральной огибающей данного речевого кадра, например кепстральный анализ (обратное преобразование Фурье логарифма частотного спектра), кусочно-линейная аппроксимация или аппроксимация кривой более высокого порядка пиков спектральной величины и т.д.

Специалистам в данной области техники будет ясно, что вместо непосредственного взвешивания с использованием оконной функции входного сигнала s_mb можно было бы начать со взвешенных с использованием оконной функции версий s_nb, rr_hb и n_hb для достижения того же самого результата. Может быть также удобным удерживать размер кадра и процентное перекрытие для фильтра эквалайзера тем же самым, что и размер кадра, и процентное перекрытие, используемые в блоке фильтра анализа, используемом для получения r_nb из s_nb.

Описанный подход фильтра эквалайзера для синтезирования s_wb предлагает некоторое количество преимуществ: i) Поскольку фазовый отклик фильтра эквалайзера равен нулю, различные частотные компоненты выхода эквалайзера являются выровненными по времени с соответствующими компонентами входа. Это может быть полезным для вокализированной речи, так как сегменты с высокой энергией (такие, как сегменты импульсов голосовой щели) выпрямленного остаточного возбуждения ex_hb полосы высоких частот являются выровненными по времени с соответствующими сегментами с высокой энергией дискретизированной с повышением узкополосной речи s_nb на входе эквалайзера, и сохранение этого временного выравнивания на входе эквалайзера будет часто действовать для обеспечения хорошего качества речи; ii) входу для фильтра 413 эквалайзера не нужно иметь пологий спектр, как в случае фильтра LP синтеза; iii) фильтр 413 эквалайзера определен в частотной области, и, следовательно, возможно лучшее и более тонкое управление различными частями спектра; и iv) итерации возможны для улучшения эффективности фильтрации при стоимости дополнительной сложности и задержки (например, выход эквалайзера может быть подан обратно на вход для выравнивания снова и снова для улучшения производительности).

Теперь будут представлены некоторые дополнительные подробности, касающиеся описанной конфигурации.

Предварительная обработка возбуждения полосы высоких частот: Амплитудный отклик фильтра 413 эквалайзера дается посредством SE_wb(ω)/SE_mb(ω), и его фазовый отклик может быть установлен на нуль. Чем ближе входная спектральная огибающая SE_mb(ω) к идеальной спектральной огибающей SE_wb(ω), тем легче для эквалайзера скорректировать входную спектральную огибающую для совпадения с идеалом. По меньшей мере одна функция препроцессора 411 возбуждения полосы высоких частот состоит в перемещении SE_mb(ω) ближе к SE_wb(ω), чтобы, таким образом, сделать работу фильтра 413 эквалайзера более легкой. Во-первых, это осуществляется посредством масштабирования выходного сигнала m_nb смесителя до правильного уровня E_hb энергии полосы высоких частот, предоставленного посредством ЕСМ 410. Во-вторых, выходному сигналу m_hb смесителя, по желанию, придается форма таким образом, что его спектральная огибающая совпадает со спектральной огибающей SE_hb полосы высоких частот, предоставленной посредством ЕСМ 410, без влияния на его фазовый спектр. Второй этап может содержать по существу этап предварительного выравнивания.

Возбуждение полосы низких частот: В отличие от потери информации в полосе высоких частот, вызванной ограничением ширины полосы частот, наложенным по меньшей мере частично, посредством частоты выборки, потери информации в полосе низких частот (0-300 Гц) узкополосного сигнала обусловлены по меньшей мере в большой мере эффектом ограничения полосы частот функции переноса канала, состоящей, например, из микрофона, усилителя, кодера речи, канала передачи и т.п. Следовательно, в чистом узкополосном сигнале, информация о полосе низких частот все же присутствует, хотя и при очень низком уровне. Эта информация низкого уровня может быть непосредственно усилена для восстановления первоначального сигнала. Но в этом процессе нужно соблюдать осторожность, так как сигналы низкого уровня легко разрушаются ошибками, шумом и искажениями. Альтернативой является синтезирование сигнала возбуждения с полосой низких частот, подобного сигналу возбуждения с полосой высоких частот, описанного ранее. А именно сигнал возбуждения с полосой низких частот может быть сформирован посредством смешивания выпрямленного остаточного сигнала rr_lb с полосой низких частот и сигнала n_lb шума с полосой низких частот путем, подобным формированию выходного сигнала m_hb смесителя с полосой высоких частот.

Теперь, ссылаясь на фиг.5, модуль 410 оценки и управления (ЕСМ) показан содержащим детектор 503 начала/взрывного звука, вычислитель 501 пересечений нуля, устройство 505 оценки наклона переходной полосы частот, устройство 504 оценки энергии переходной полосы частот, устройство 509 оценки спектра узкой полосы частот, устройство 511 оценки спектра полосы низких частот, устройство 512 оценки спектра широкой полосы частот, устройство 510 оценки спектра полосы высоких частот, детектор 513 SS/перехода, устройство 506 оценки энергии полосы высоких частот, устройство 502 оценки уровня звучания, адаптер 514 энергии, устройство 507 сглаживания траектории энергии и адаптер 508 энергии.

ЕСМ 410 принимает в качестве входа узкополосную речь s_nb, дискретизированную с повышением узкополосную речь s_nb и LP параметры A_nb узкой полосы частот и предоставляет в качестве выхода уровень υ звучания, энергию E_hb полосы высоких частот, спектральную огибающую SE_hb полосы высоких частот и спектральную огибающую SE_wb широкой полосы частот.

Оценивание уровня звучания: Для оценивания уровня звучания вычислитель 501 пересечений нуля вычисляет число пересечений нуля zc в каждом кадре узкополосной речи s_nb следующим образом:

где

n - показатель выборки, а N - размер кадра в выборках. Удобно удерживать размер кадра и процентное перекрытие, используемые в ЕСМ 410, теми же самыми, что размер кадра и процентное перекрытие, используемые в фильтре 413 эквалайзера и в блоках фильтра анализа, например, Т=20 мс, N=160 для выборки в 8 кГц, N=320 для выборки в 16 кГц, и 50% перекрытия со ссылкой на иллюстративные значения, представленные ранее. Значение параметра zc, вычисленное, как и выше, изменяется в диапазоне от 0 до 1. Из параметра zc устройство 502 оценки уровня звучания может оценить уровень звучания υ следующим образом.

где ZC_low и ZC_high представляют соответствующим образом выбранные нижний и верхний пороги, соответственно, например, ZC_low=0,40 и ZC_high=0,45. Выход d детектора 503 начала/взрывного звука может быть также подан в детектор 502 уровня звучания. Если некоторый кадр помечен как вмещающий в себя начало или взрывной звук с d=1, то уровень звучания этого кадра, а также следующего кадра может быть установлен на 1. Вспомним, что, посредством одного подхода, когда уровень звучания равен 1, используется исключительно выпрямленное остаточное возбуждение полосы высоких частот. Это является выгодным в начале/взрывном звуке, по сравнению с только шумом или смешанным возбуждением полосы высоких частот, так как выпрямленное остаточное возбуждение близко следует контуру энергии в зависимости от времени дискретизированной с повышением узкополосной речи, тем самым снижая возможность артефактов типа опережающего эха, обусловленных временной дисперсией в сигнале с расширенной полосой частот.

Для того чтобы оценить энергию полосы высоких частот, устройство 504 оценки энергии переходной полосы частот оценивает энергию переходной полосы частот из дискретизированного с повышением узкополосного речевого сигнала s_nb. Переходная полоса частот определяется здесь как полоса частот, которая вмещается в пределах узкой полосы частот и близка к полосе высоких частот, т.е. служит в качестве перехода к полосе высоких частот (которая, в этом иллюстративном примере, составляет около 2500-3400 Гц). Интуитивно ожидалось бы, что энергия полосы высоких частот хорошо коррелирует с энергией переходной полосы частот, которая устанавливается в экспериментах. Простым путем вычисления энергии E_tb переходной полосы частот является вычисление частотного спектра s_nb (например, через быстрое преобразование Фурье (FFT)) и суммирование энергий спектральных компонентов в пределах переходной полосы частот.

Из энергии E_tb переходной полосы частот в дБ (децибелах) энергия E_hb0 полосы высоких частот в дБ оценивается как

E_hb0=αE_tb+β

где коэффициенты α и β выбираются для минимизации средней квадратической ошибки между истинным и оцененным значениями энергии полосы высоких частот на большом числе кадров из обучающей базы данных речи.

Точность оценки может быть дополнительно повышена посредством эксплуатации контекстной информации из дополнительных речевых параметров, таких как параметр zc пересечений нуля и параметр sl спектрального наклона переходной полосы частот, которые могут быть предоставлены посредством устройства 505 оценки наклона переходной полосы частот. Параметр пересечений нуля, как обсуждалось ранее, указывает уровень звучания речи. Параметр наклона указывает скорость изменения спектральной энергии в пределах переходной полосы частот. Он может быть оценен из LP параметров A_nb узкой полосы частот посредством аппроксимации спектральной огибающей (в дБ) в пределах переходной полосы частот как прямой линии, например, через линейную регрессию, и вычисления ее наклона. Плоскость параметров zc-sl затем делится на некоторое количество областей, и коэффициенты α и β отдельно выбираются для каждой области. Например, если каждый из диапазонов параметров zc и sl разделен на 8 равных интервалов, то плоскость параметров zc-sl затем разбивается на 64 области, и выбираются 64 множества коэффициентов α и β, одно для каждой области.

Посредством другого подхода (не показано на фиг.5) дополнительное улучшение точности оценки достигается следующим образом. Отметим, что вместо параметра sl наклона (который является только представлением первого порядка спектральной огибающей в пределах переходной полосы частот) представление более высокого разрешения может употребляться для повышения производительности устройства оценки энергии полосы высоких частот. Например, может использоваться векторное квантованное представление форм спектральной огибающей переходной полосы частот (в дБ). В качестве одного иллюстративного примера, кодовая книга векторного квантователя (VQ) состоит из 64 форм, называемых параметрами tbs форм спектральной огибающей переходной полосы частот, которые вычисляются из большой обучающей базы данных. Можно было бы заменить параметр sl в плоскости параметров zc-sl параметром tbs для достижения улучшенной производительности. Посредством другого подхода, однако, вводится третий параметр, называемый мерой sfm спектральной пологости. Мера спектральной пологости определяется как отношение геометрического среднего к арифметическому среднему спектральной огибающей узкой полосы частот (в дБ) в пределах соответствующего частотного диапазона (такого, как, например, 300-3400 Гц). Параметр sfm указывает, насколько пологой является спектральная огибающая, и диапазон изменяется в этом примере от около 0 для огибающей с пиками до 1 для полностью пологой огибающей. Параметр sfm также связан с уровнем звучания речи, но другим образом, чем zc. Посредством одного подхода трехмерное пространство параметров zc-sfm-tbs делится на некоторое число областей следующим образом. Плоскость zc-sfm делится на 12 областей, что дает 12х64=768 возможных областей в трехмерном пространстве. Не все из этих областей, однако, имеют достаточно точек данных из обучающей базы данных. Итак, для многих режимов приложений, число полезных областей ограничено около 500, с отдельным множеством коэффициентов α и β, выбираемым для каждой из этих областей.

Устройство 506 оценки энергии полосы высоких частот может предоставить дополнительное улучшение точности оценки посредством использования более высоких степеней E_tb в оценивании E_hb0, например,

В этом случае пять различных коэффициентов, а именно α₄, α₃, α₂, α₁ и β, выбираются для каждого разбиения плоскости параметров zc-sl (или, альтернативно, для каждого разбиения плоскости параметров zc-sfm-tbs). Поскольку вышеприведенные уравнения (см. абзацы 70 и 75) для оценки E_hb0 являются нелинейными, особая осторожность должна быть предпринята для регулировки оцененной энергии полосы высоких частот, как уровня входного сигнала, т.е. при изменениях энергии. Одним путем достижения этого является оценка уровня входного сигнала в дБ, регулировка E_tb вверх или вниз для соответствия с номинальным уровнем сигнала, оценка E_hb0 и регулировка E_hb0 вверх или вниз для соответствия с действительным уровнем сигнала.

Оценивание энергии полосы высоких частот подвержено ошибкам. Поскольку переоценка приводит к артефактам, оцененная энергия полосы высоких частот смещается вниз на величину, пропорциональную стандартному отклонению оценки E_hb0. А именно энергия полосы высоких частот адаптируется в адаптере 1 (514) энергии как

где E_hb1 - адаптированная энергия полосы высоких частот в дБ, E_hb0 - оцененная энергия полосы высоких частот в дБ, λ≥0 - коэффициент пропорциональности, и σ - стандартное отклонение ошибки оценивания в дБ. Таким образом, после принятия входного цифрового аудиосигнала, содержащего узкополосный сигнал, и определения оцененного уровня энергии полосы высоких частот из соответствующего цифрового аудиосигнала, оцененный уровень энергии полосы высоких частот модифицируется на основе точности оценки оцененной энергии полосы высоких частот. Со ссылкой на фиг.5 устройство 506 оценки энергии полосы высоких частот дополнительно определяет меру недостоверности в оценивании уровня энергии полосы высоких частот, и адаптер 514 энергии смещает оцененный уровень энергии полосы высоких частот вниз на величину, пропорциональную этой мере недостоверности. В одном варианте осуществления данного изобретения мера недостоверности содержит стандартное отклонение ошибки в оцененном уровне энергии полосы высоких частот. Отметим, что другие меры недостоверности могут также употребляться, не выходя за рамки объема данного изобретения.

Посредством «понижающего смещения» оцененной энергии полосы высоких частот вероятность (или число случаев) переоценки энергии уменьшается, тем самым снижается число артефактов. Также величина, на которую уменьшается оцененная энергия полосы высоких частот, пропорциональна тому, насколько хорошей является оценка - более достоверная оценка (т.е. с низким значением σ) уменьшается на меньшую величину, чем менее достоверная оценка. При конструировании устройства оценки энергии полосы высоких частот значение σ, соответствующее каждому разбиению плоскости параметров zc-sl (или, альтернативно, каждому разбиению плоскости параметров zc-sfm-tbs), вычисляется из обучающей базы данных речи и сохраняется для дальнейшего использования в «понижающем смещении» оцененной энергии полосы высоких частот. Значение σ около 500 разбиений пространства параметров zc-sfm-tbs, например, изменяется в диапазоне от около 3 дБ до около 10 дБ со средним значением около 5,8 дБ. Подходящим значением λ для этого предиктора энергии полосы высоких частот, например, является 1,5.

В подходе известного уровня техники переоценка энергии полосы высоких частот управляется посредством использования асимметричной функции стоимости, которая штрафует переоцененные ошибки больше, чем недооцененные ошибки в конструкции устройства оценки энергии полосы высоких частот. По сравнению с этим подходом известного уровня техники подход «понижающего смещения», описанный в данном изобретении, имеет следующие преимущества: (А) Конструкция устройства оценки энергии полосы высоких частот является более простой, так как она основана на стандартной симметричной функции стоимости «квадратической ошибки»; (В) «Понижающее смещение» осуществляется явно во время рабочей фазы (а неявно - во время фазы конструирования) и, следовательно, величина «понижающего смещения» может легко управляться по желанию; и (С) Зависимость величины «понижающего смещения» на достоверность оценки является явной и прямой (вместо неявной зависимости от конкретной функции стоимости, используемой во время фазы конструирования).

Кроме уменьшения артефактов, обусловленных переоценкой, «понижающее смещение», описанное выше, имеет добавочную выгоду для вокализированных кадров, а именно выгоду маскирования любых ошибок в оценке формы спектральной огибающей полосы высоких частот и, тем самым, снижения результирующих «шумовых» артефактов. Однако для невокализированных кадров, если уменьшение оцененной энергии полосы высоких частот слишком велико, выходная речь с расширенной полосой частот больше не звучит как широкополосная речь. Для противодействия этому оцененная энергия полосы высоких частот дополнительно адаптируется в адаптере 1 (514) энергии в зависимости от ее уровня звучания как

где E_hb2 - адаптированный уровень звучания энергии полосы высоких частот в дБ, υ - уровень звучания, изменяющийся в диапазоне от 0 для невокализированной речи до 1 для вокализированной речи, и δ₁ и δ₂ (δ₁>δ₂) - константы в дБ. Выбор δ₁ и δ₂ зависит от значения λ, используемого для «понижающего смещения», и определяется эмпирически для выдачи наиболее хорошо звучащей выходной речи. Например, когда λ выбирается как 1,5, δ₁ и δ₂ могут быть выбраны как 7,6 и -0,3, соответственно. Отметим, что другие выборы для значения λ могут привести к другим выборам для δ₁ и δ₂ - значения δ₁ и δ₂ могут быть оба положительными, или отрицательными, или противоположных знаков. Увеличенный уровень энергии для невокализированной речи усиливает такую речь на выходе с расширенной полосой частот по сравнению со входом с узкой полосой частот, а также помогает выбрать более подходящую форму спектральной огибающей для таких невокализированных сегментов.

Ссылаясь на фиг.5, устройство оценки уровня звучания выдает уровень звучания для адаптера 1 энергии, который дополнительно модифицирует оцененный уровень энергии полосы высоких частот на основе характеристик узкополосного сигнала посредством дополнительной модификации оцененного уровня энергии полосы высоких частот на основе уровня звучания. Дополнительная модификация может содержать уменьшение уровня энергии полосы высоких частот для по существу вокализированной речи и/или увеличение уровня энергии полосы высоких частот для по существу невокализированной речи.

Хотя устройство 506 оценки энергии полосы высоких частот, за которым следует адаптер 1 (514) энергии, работает довольно хорошо для большинства кадров, случайно существуют кадры, для которых энергия полосы высоких частот сильно недооценена или переоценена. Такие ошибки оценивания могут быть по меньшей мере частично скорректированы посредством устройства 507 сглаживания траектории энергии, которое содержит сглаживающий фильтр. Таким образом, этап модификации оцененного уровня энергии полосы высоких частот на основе характеристик узкополосного сигнала может содержать сглаживание оцененного уровня энергии полосы высоких частот (который был ранее модифицирован, как описано выше, на основе стандартного отклонения оценки σ и уровня звучания υ), что существенно уменьшает разницу энергии между последовательными кадрами.

Например, адаптированный уровень E_hb2 звучания энергии полосы высоких частот может быть сглажен с использованием 3-точечного усредняющего фильтра следующим образом:

где E_hb3 - сглаженная оценка, и k - показатель кадра.

Сглаживание уменьшает разницу энергии между последовательными кадрами, особенно когда оценка является «отклонением», а именно оценка полосы высоких частот кадра является слишком высокой или слишком низкой по сравнению с оценками соседних кадров. Таким образом, сглаживание помогает уменьшить количество артефактов в выходной речи с расширенной полосой частот. Трехточечный усредняющий фильтр вводит задержку одного кадра. Другие типы фильтров с задержкой или без нее могут быть также сконструированы для сглаживания траектории энергии.

Сглаженное значение энергии E_hb3 может быть дополнительно адаптировано посредством адаптера 2 (508) энергии для получения окончательной адаптированной оценки E_hb энергии полосы высоких частот. Эта адаптация может включать в себя либо уменьшение, либо увеличение сглаженного значения энергии на основе параметра ss, выданного детектором 513 установившегося состояния/переходного процесса, и/или параметра d, выданного детектором 503 начала/взрывного звука. Таким образом, этап модификации оцененного уровня энергии полосы высоких частот на основе характеристик узкополосного сигнала может содержать этап модификации оцененного уровня энергии полосы высоких частот (или ранее модифицированного оцененного уровня энергии полосы высоких частот) на основе того, является ли или нет некоторый кадр установившимся состоянием или переходным процессом. Это может содержать уменьшение уровня энергии полосы высоких частот для кадров переходных процессов и/или увеличение уровня энергии полосы высоких частот для кадров установившихся состояний и может дополнительно содержать модификацию оцененного уровня энергии полосы высоких частот на основе случая начала/взрывного звука. Посредством одного подхода адаптация значения энергии полосы высоких частот изменяет не только уровень энергии, но также форму спектральной огибающей, так как выбор спектра полосы высоких частот может быть связан с оцененной энергией.

Некоторый кадр определяется как кадр установившегося состояния, если он имеет достаточную энергию (а именно, он является кадром речи, а не кадром молчания) и близок к каждому из его соседних кадров как в спектральном смысле, так и в пределах энергии. Два кадра могут считаться спектрально близкими, если расстояние Итакуры между этими двумя кадрами ниже определенного порога. Могут использоваться также и другие типы мер спектрального расстояния. Два кадра считаются близкими в пределах энергии, если разница в энергиях узкой полосы частот этих двух кадров находится ниже определенного порога. Любой кадр, который не является кадром установившегося состояния, считается кадром переходного процесса. Кадр установившегося состояния способен маскировать ошибки в оценивании энергии полосы высоких частот гораздо лучше, чем кадры переходного процесса. Соответственно, оцененная энергия полосы высоких частот некоторого кадра адаптируется на основе параметра ss, а именно в зависимости от того, является ли он кадром установившегося состояния (ss=1) или кадром переходного процесса (ss=0) следующим образом:

где µ₂>µ₁≥0 - эмпирически выбранные постоянные в дБ для достижения хорошего качества выходной речи. Значения µ₁ и µ₂ зависят от выбора постоянной λ пропорциональности, используемой для «понижающего смещения». Например, когда λ выбирается как 1,5, δ₁ как 7,6 и δ₂ как -0,3, µ₁ и µ₂ могут быть выбраны как 1,5 и 6,0, соответственно. Заметим, что в этом примере мы слегка увеличиваем оцененную энергию полосы высоких частот для кадров установившегося состояния и дополнительно значительно ее уменьшаем для кадров переходного процесса. Отметим, что другие выборы для значений λ, δ₁ и δ₂ могут привести к другим выборам для µ₁ и µ₂ - значения µ₁ и µ₂ могут быть как положительными, так и отрицательными, или противоположных знаков. Далее, отметим, что также могут использоваться и другие критерии для идентификации кадров установившегося состояния/переходного процесса.

На основе выхода d детектора начала/взрывного звука оцененный уровень энергии полосы высоких частот может быть настроен следующим образом: Когда d=1, это указывает, что соответствующий кадр вмещает в себя начало, например, переход от молчания к невокализированному, или к вокализированному звуку, или к взрывному звуку. Начало/взрывной звук детектируется в текущем кадре, если энергия узкой полосы частот предыдущего кадра находится ниже определенного порога, и разность энергий между текущим и предыдущим кадрами превышает другой порог. Могут также употребляться и другие способы для детектирования начала/взрывного звука. Начало/взрывной звук представляет особую проблему по следующим причинам: А) Оценивание энергии полосы высоких частот около начала/взрывного звука является сложным; В) Артефакты типа опережающего эха могут происходить в выходной речи из-за типичной употребляемой блочной обработки; и С) Взрывные звуки (например, [p], [t] и [k]), после их начального взрыва энергии, имеют характеристики, подобные некоторым шипящим (например, [s], [∫] и [3]) в узкой полосе частот, но совершенно другие - в полосе высоких частот, что приводит к переоценке энергии и последующим артефактам. Адаптация энергии полосы высоких частот для начала/взрывного звука (d=1) осуществляется следующим образом:

где k - показатель кадра. Для первых K_min кадров, начиная с кадра (k=1), в котором детектировано начало/взрывной звук, энергия полосы высоких частот устанавливается на самое низкое возможное значение E_min. Например, E_min может быть установлено на -∞ дБ или на энергию формы спектральной огибающей полосы высоких частот с самой низкой энергией. Для последующих кадров (т.е. для диапазона, заданного посредством k=K_min+1 до k=K_max) адаптация энергии осуществляется, только пока уровень υ(k) звучания кадра превышает порог V₁. Всякий раз, когда уровень звучания кадра в пределах этого диапазона становится ниже и равным V₁, адаптация энергии начала немедленно останавливается, а именно E_hb(k) устанавливается равным E_hb4(k), пока не детектировано следующее начало. Если уровень звучания υ(k) больше, чем V₁, то для k=K_min+1 до k=K_T энергия полосы высоких частот уменьшается на фиксированную величину Δ. Для k=K_T+1 до k=K_max энергия полосы высоких частот постепенно увеличивается от E_hb4(k)-Δ до E_hb4(k) посредством предварительно определенной последовательности Δ_Т(k-K_T) и при k=K_max+1 E_hb(k) устанавливается равным E_hb4(k), и это продолжается, пока не детектируется новое начало. Типичными значениями параметров, используемых для адаптации энергии, основанной на начале/взрывном звуке, например, являются K_min=2, K_T=5, K_max=7, V₁=0,4, Δ=-12 дБ, Δ_Т(1)=6 дБ и Δ_Т(2)=9,5 дБ. Для d=0 дальнейшая адаптация энергии не осуществляется, а именно E_hb устанавливается равным E_hb4. Таким образом, этап модификации оцененного уровня энергии полосы высоких частот на основе характеристик узкополосного сигнала может содержать этап модификации оцененного уровня энергии полосы высоких частот (или ранее модифицированного оцененного уровня энергии полосы высоких частот) на основе случая начала/взрывного звука.

Адаптация оцененной энергии полосы высоких частот, описанная в абзацах 77-95, помогает минимизировать количество артефактов в выходной речи с расширенной полосой частот и тем самым повысить ее качество. Хотя последовательность операций, используемых для адаптации оцененной энергии полосы высоких частот, была представлена некоторым конкретным образом, специалистам в данной области техники будет ясно, что такая конкретность относительно последовательности в действительности не требуется. Также операции, описанные для модификации уровня энергии полосы высоких частот, могут применяться избирательно.

Далее описывается оценивание спектральной огибающей SE_wb широкой полосы частот. Для оценивания SE_wb можно отдельно оценить спектральную огибающую SE_nb узкой полосы частот, спектральную огибающую SE_hb полосы высоких частот и спектральную огибающую SE_lb полосы низких частот и скомбинировать эти три огибающие вместе.

Устройство 509 оценки спектра узкой полосы частот может оценить спектральную огибающую SE_nb узкой полосы частот из дискретизированной с повышением узкополосной речи s_nb. Из s_nb LP параметры, B_nb={1, b₁, b₂, …, b_Q}, где Q - порядок модели, сначала вычисляются с использованием хорошо известных методик LP анализа. Для частоты повышающей выборки в 16 кГц соответствующий порядок Q модели, например, равен 20. LP параметры B_nb моделируют спектральную огибающую дискретизированной с повышением узкополосной речи следующим образом:

В вышеприведенном уравнении угловая частота ω в радианах/выборка дается посредством ω=2πf/2F_s, где f - частота сигнала в Гц, а F_s - частота выборки в Гц. Заметим, что спектральные огибающие SE_nbin и SE_usnb являются различными, так как первая выводится из входной узкополосной речи, а последняя - из дискретизированной с повышением узкополосной речи. Однако внутри полосы пропускания 300 до 3400 Гц, они приблизительно связаны посредством SE_usnb(ω)≈SE_nbin(2ω) в пределах некоторой константы. Хотя спектральная огибающая SE_usnb определена на диапазоне 0-8000 (F_s) Гц, полезная часть лежит в пределах полосы пропускания (в этом иллюстративном примере 300-3400 Гц).

В качестве одного иллюстративного примера в этом отношении вычисление SE_usnb осуществляется с использованием FFT следующим образом. Сначала импульсный отклик обратного фильтра B_nb(z) вычисляется до соответствующей длины, например, 1024, как {1, b₁, b₂, …, b_Q, 0, 0, …, 0}. Затем берется FFT импульсного отклика, и спектральная огибающая SE_usnb амплитуды получается посредством вычисления обратной амплитуды в каждом FFT показателе. Для FFT длины в 1024 частотное разрешение SE_usnb, вычисленное как выше, составляет 16000/1024=15,625 Гц. Из SE_usnb спектральная огибающая SE_nb узкой полосы частот оценивается посредством простого извлечения этих спектральных амплитуд из приблизительного диапазона 300-3400 Гц.

Специалистам в данной области техники будет ясно, что, кроме LP анализа, существуют другие способы для получения спектральной огибающей заданного речевого кадра, например кепстральный анализ, кусочно-линейная аппроксимация или аппроксимация кривой более высокого порядка пиков спектральной амплитуды и т.д.

Устройство 510 оценки спектра полосы высоких частот принимает оценку энергии полосы высоких частот в качестве входа и выбирает форму спектральной огибающей полосы высоких частот, которая совместима с оцененной энергией полосы высоких частот. Далее описывается методика достижения уровня с различными формами спектральных огибающих полосы высоких частот, соответствующими различным энергиям полосы высоких частот.

Начиная с большой обучающей базы данных широкополосной речи, дискретизированной при 16 кГц, огибающая спектральной амплитуды широкой полосы частот вычисляется для каждого речевого кадра с использованием стандартного LP анализа или других методик. Из спектральной огибающей широкой полосы частот каждого кадра часть полосы высоких частот, соответствующая 3400-8000 Гц, извлекается и нормируется посредством деления на спектральную амплитуду при 3400 Гц. Результирующая спектральная огибающая полосы высоких частот имеет, таким образом, амплитуду 0 дБ при 3400 Гц. Затем вычисляется энергия полосы высоких частот, соответствующая каждой нормированной огибающей полосы высоких частот. Эта коллекция спектральных огибающих полосы высоких частот затем делится на основе энергии полосы высоких частот, например, последовательность номинальных значений энергии, отличающихся на 1 дБ, выбирается для покрытия всего диапазона, и все огибающие с энергией в пределах 0,5 дБ некоторого номинального значения группируются вместе.

Для каждой группы, образованной таким образом, вычисляется средняя форма спектральной огибающей полосы высоких частот и впоследствии соответствующая энергия полосы высоких частот. На фиг.6 показано множество из 60 форм 600 спектральной огибающей полосы высоких частот (с величиной в дБ в зависимости от частоты в Гц) при различных уровнях энергии. С подсчетом от нижней части чертежа 1-я, 10-я, 20-я, 30-я, 40-я, 50-я и 60-я формы (называемые здесь предварительно вычисленными формами) получаются с использованием методики, подобной описанной выше. Оставшиеся 53 формы получаются посредством простой линейной интерполяции (в дБ области) между ближайшими предварительно вычисленными формами.

Энергии этих форм изменяются в диапазоне от около 4,5 дБ для 1-й формы до около 43,5 для 60-й формы. Если задана энергия полосы высоких частот для некоторого кадра, то является простым делом выбрать ближайшую совпадающую форму спектральной огибающей полосы высоких частот, как будет описано позже в этом документе. Выбранная форма представляет оцененную спектральную огибающую SE_hb в пределах некоторой постоянной. На фиг.6 среднее разрешение энергии составляет приблизительно 0,65 дБ. Ясно, что лучшее разрешение возможно посредством увеличения количества форм. Если заданы формы на фиг.6, то выбор некоторой формы для конкретной энергии является уникальным. Можно также думать о ситуации, когда имеется более одной формы для заданной энергии, например 4 формы на уровень энергии, и в этом случае дополнительная информация необходима для выбора одной из 4 форм для каждого заданного уровня энергии. Кроме того, можно иметь множественные наборы форм, причем каждый набор индексирован посредством энергии полосы высоких частот, например два набора форм, выбираемые посредством параметра звучания υ, один - для вокализированных кадров, и другой - для невокализированных кадров. Для смешанно-вокализированных кадров две формы, выбранные из этих двух наборов, могут быть соответствующим образом скомбинированы.

Способ оценивания спектра полосы высоких частот, описанный выше, предлагает некоторые ясные преимущества. Например, этот подход предлагает явное управление временной эволюцией оценок спектра полосы высоких частот. Гладкая эволюция оценок спектра полосы высоких частот в пределах отдельных речевых сегментов, например, вокализированной речи, невокализированной речи и т.д., часто является важной для свободной от артефактов речи с расширенной полосой частот. Для способа оценивания спектра полосы высоких частот, описанного выше, из фиг.6 очевидно, что малые изменения в энергии полосы высоких частот приводят к малым изменениям в формах спектральной огибающей полосы высоких частот. Таким образом, гладкая эволюция спектра полосы высоких частот может быть по существу гарантирована посредством обеспечения того, что временная эволюция энергии полосы высоких частот в пределах отдельных речевых сегментов является также гладкой. Это явно приспосабливается посредством сглаживания траектории энергии, описанного выше.

Отметим, что отдельные речевые сегменты, в пределах которых осуществляется сглаживание энергии, могут быть идентифицированы даже с более тонким разрешением, например, посредством отслеживания изменения в спектре узкополосной речи или в дискретизированном с повышением спектре узкополосной речи от кадра к кадру с использованием любой из хорошо известных мер спектрального расстояния, таких как логарифмическое спектральное искажение или основанное на LP искажение Итакуры. С использованием этого подхода отдельный речевой сегмент может быть определен как последовательность кадров, в пределах которой спектр развивается медленно, и который ограничен на каждой стороне кадром, в котором вычисленное спектральное изменение превышает фиксированный или адаптивный порог, тем самым указывая присутствие спектрального перехода на каждой стороне отдельного речевого сегмента. Сглаживание траектории энергии может быть затем осуществлено в пределах отдельного речевого сегмента, но не через границы сегмента.

Здесь гладкая эволюция траектории энергии полосы высоких частот переходит в гладкую эволюцию оцененной спектральной огибающей полосы высоких частот, что является желательной характеристикой в пределах отдельного речевого сегмента. Также отметим, что этот подход обеспечения гладкой эволюции спектральной огибающей полосы высоких частот в пределах отдельного речевого сегмента может быть также применен как этап последующей обработки для последовательности оцененных спектральных огибающих полосы высоких частот, полученной способами известного уровня техники. В этом случае, однако, спектральные огибающие полосы высоких частот могут нуждаться в явном сглаживании в пределах отдельного речевого сегмента, в отличие от непосредственного сглаживания траектории энергии текущей идеи, которое автоматически приводит к гладкой эволюции спектральной огибающей полосы высоких частот.

Потеря информации узкополосного речевого сигнала в полосе низких частот (которая, в этом иллюстративном примере, может быть от 0-300 Гц) не обусловлена ограничением полосы частот, наложенным посредством частоты выборки, как в случае полосы высоких частот, а обусловлена ограничивающим полосу частот эффектом функции переноса канала, состоящей, например, из микрофона, усилителя, кодера речи, канала передачи и т.д.

Непосредственный подход для восстановления сигнала с полосой низких частот состоит тогда в противодействии эффекту функции переноса канала в пределах диапазона от 0 до 300 Гц. Простым путем осуществления этого является использование устройства 511 оценки спектра полосы низких частот для оценивания функции переноса канала в частотном диапазоне от 0 до 300 Гц из доступных данных, получение его обращения и использование этого обращения для усиления спектральной огибающей, дискретизированной с повышением узкополосной речи. А именно спектральная огибающая SE_lb полосы низких частот оценивается как сумма SE_usnb и характеристики SE_boost усиления спектральной огибающей, сконструированной из обращения функции переноса канала (допуская, что амплитуды спектральной огибающей выражаются в логарифмической области, например, в дБ). Для многих режимов приложений в конструировании SE_boost должна соблюдаться осторожность. Поскольку восстановление сигнала с полосой низких частот по существу основано на усилении сигнала низкого уровня, это включает в себя опасность усиления ошибок, шума и искажений, обычно связанных с сигналами низкого уровня. В зависимости от качества сигнала низкого уровня максимальное значение усиления должно быть соответствующим образом ограничено. Также, в пределах частотного диапазона от 0 до около 60 Гц, желательно сконструировать SE_boost имеющим низкие (или даже отрицательные, т.е. ослабляющие) значения для избегания усиления электрического фона и фонового шума.

Устройство 512 оценки широкой полосы частот может затем оценить спектральную огибающую широкой полосы частот посредством комбинирования оцененных спектральных огибающих узкой полосы частот, полосы высоких частот и полосы низких частот. Один путь комбинирования этих трех огибающих для оценивания спектральной огибающей широкой полосы частот состоит в следующем.

Спектральная огибающая SE_nb узкой полосы частот оценивается из s_nb, как описано выше, и ее значения в пределах диапазона от 400 до 3200 Гц используются без какого-либо изменения в оценке SE_wb спектральной огибающей широкой полосы частот. Для выбора подходящей формы полосы высоких частот необходимы энергия полосы высоких частот и начальное значение амплитуды при 3400 Гц. Энергия E_hb полосы высоких частот в дБ оценивается, как описано ранее. Начальная амплитуда величины при 3400 Гц оценивается посредством моделирования спектра s_nb FFT амплитуды в дБ в пределах переходной полосы частот, а именно 2500-3400 Гц, посредством прямой линии через линейную регрессию и нахождения значения этой прямой линии при 3400 Гц. Пусть это значение амплитуды обозначено посредством М₃₄₀₀ в дБ. Форма спектральной огибающей полосы высоких частот затем выбирается как одна среди многих значений, например, как показано на фиг.6, которая имеет значение энергии, ближайшее к E_hb-М₃₄₀₀. Пусть эта форма обозначена посредством SE_closest. Тогда оценка SE_hb спектральной огибающей полосы высоких частот и, следовательно, спектральная огибающая SE_wb широкой полосы частот в пределах диапазона от 3400 до 8000 Гц оцениваются как SE_closest+М₃₄₀₀.

Между 3200 и 3400 Гц SE_wb оценивается как линейно интерполированное значение в дБ между SE_nb и прямой линией, соединяющей SE_nb при 3200 Гц и М₃₄₀₀ при 3400 Гц. Сам коэффициент интерполяции линейно изменяется таким образом, что оцененное SE_wb постепенно перемещается от SE_nb при 3200 Гц к М₃₄₀₀ при 3400 Гц. Между 0 до 400 Гц спектральная огибающая SE_lb полосы низких частот и спектральная огибающая SE_wb широкой полосы частот оцениваются как SE_nb+SE_boost, где SE_boost представляет соответствующим образом сконструированную характеристику усиления из обращения функции переноса канала, описанного ранее.

Как упоминалось ранее, кадры, вмещающие в себя начала и/или взрывные звуки, могут выиграть от специального манипулирования для избегания случайных артефактов в речи с расширенной полосой частот. Такие кадры могут быть идентифицированы посредством неожиданного увеличения в их энергии относительно предыдущих кадров. Выход d детектора 503 начала/взрывного звука для некоторого кадра устанавливается на 1 всякий раз, когда энергия предыдущего кадра является низкой, т.е. ниже определенного порога, например, -50 дБ, и увеличение в энергии текущего кадра относительно предыдущего кадра превышает другой порог, например, 15 дБ. В ином случае выход d детектора устанавливается на 0. Сама энергия кадра вычисляется из энергии спектра FFT величины дискретизированной с повышением узкополосной речи s_nb в пределах узкой полосы частот, т.е. 300-3400 Гц. Как отмечалось выше, выход детектора 503 начала/взрывного звука подается в устройство 502 оценки уровня звучания и адаптер 508 энергии. Как описано ранее, всякий раз, когда некоторый кадр помечен как вмещающий в себя начало или взрывной звук с d=1, уровень звучания υ этого кадра, а также следующего кадра, устанавливается на 1. Также значение энергии полосы высоких частот этого кадра, а также следующих кадров, модифицируется, как описано ранее.

Специалистам в данной области техники будет ясно, что описанные методики оценивания энергии полосы высоких частот могут использоваться в сопряжении с другими системами расширения полосы частот известного уровня техники для масштабирования искусственно генерируемого контента сигнала с полосой высоких частот для таких систем до подходящего уровня энергии. Кроме того, отметим, что хотя методика оценивания энергии была описана со ссылкой на полосу высоких частот (например, 3400-8000 Гц), она может быть также применена для оценивания энергии в любой другой полосе частот посредством соответствующего переопределения переходной полосы частот. Например, для оценивания энергии в контексте полосы низких частот, такой как 0-300 Гц, переходная полоса частот может быть переопределена как полоса частот 300-600 Гц. Специалистам в данной области техники будет также ясно, что методики оценивания энергии полосы высоких частот, описанные здесь, могут употребляться для целей кодирования речи/аудио. Подобным же образом, методики, описанные здесь для оценивания спектральной огибающей полосы высоких частот и возбуждения полосы высоких частот, могут также использоваться в контексте кодирования речи/аудио.

Отметим, что методики, отличные от описанных в данном изобретении, могут использоваться для оценивания уровня энергии полосы высоких частот. Также возможно для системы расширения полосы частот принимать оценку уровня энергии полосы высоких частот, переданную из любого места. Уровень энергии полосы высоких частот может быть также неявно оценен, например, можно было бы вместо этого оценить уровень энергии широкополосного сигнала, и из этой оценки другой известной информации может быть извлечен уровень энергии полосы высоких частот.

Отметим, что хотя оценивание параметров, таких как спектральная огибающая, пересечения нуля, LP коэффициенты, энергии полос частот и т.д., было описано в конкретных примерах, ранее данных как осуществляемых из узкополосной речи в некоторых случаях и дискретизированной с повышением узкополосной речи в других случаях, специалистам в данной области техники будет ясно, что оценивание соответствующих параметров и их последующее использование и применение может быть модифицировано для осуществления из любого из этих двух сигналов (узкополосной речи или дискретизированной с повышением узкополосной речи), не выходя за рамки сущности и объема описанной идеи.

Специалистам в данной области техники будет ясно, что широкое разнообразие модификаций, изменений и комбинаций может быть осуществлено по отношению к вышеописанным вариантам осуществления, не выходя за рамки сущности и объема изобретения, и что такие модификации, изменения и комбинации должны рассматриваться как находящиеся в пределах идеи изобретения.

1. Способ оценки энергии полосы высоких частот в системе расширения полосы частот, содержащий этапы, на которых: принимают входной цифровой аудиосигнал, содержащий узкополосный сигнал, в первом диапазоне частот; определяют оцененный уровень энергии полосы высоких частот, соответствующий входному цифровому аудиосигналу, во втором диапазоне частот, на основе характеристик узкополосного сигнала, причем второй диапазон частот выше по частоте, чем первый диапазон частот; и модифицируют оцененный уровень энергии полосы высоких частот на основе характеристик узкополосного сигнала, причем этап модификации оцененного уровня энергии полосы высоких частот содержит этап, на котором модифицируют оцененный уровень энергии полосы высоких частот на основе случая начала звука.

2. Устройство для оценки энергии полосы высоких частот в системе расширения полосы частот, содержащее: модуль оценки и управления (ЕСМ), принимающий входной цифровой аудиосигнал, содержащий узкополосный сигнал, в первом диапазоне частот; генерирующий оцененный уровень энергии полосы высоких частот, соответствующий входному цифровому аудиосигналу, во втором диапазоне частот, причем второй диапазон частот выше по частоте, чем первый диапазон частот; и модифицирующий оцененный уровень энергии полосы высоких частот на основе характеристик узкополосного сигнала, причем модификация оцененного уровня энергии полосы высоких частот основана на случае начала звука.

3. Способ оценки энергии полосы высоких частот в системе расширения полосы частот, содержащий этапы, на которых: принимают входной цифровой аудиосигнал, содержащий узкополосный сигнал, в первом диапазоне частот; принимают оцененный уровень энергии полосы высоких частот, соответствующий входному цифровому аудиосигналу, во втором диапазоне частот, причем второй диапазон частот выше по частоте, чем первый диапазон частот; и модифицируют оцененный уровень энергии полосы высоких частот на основе характеристик узкополосного сигнала, причем этап модификации оцененного уровня энергии полосы высоких частот содержит этап, на котором модифицируют оцененный уровень энергии полосы высоких частот на основе случая начала звука.

Изобретение относится к системе и способу улучшения декодированного тонального звукового сигнала, в частности музыкального сигнала, закодированного с использованием речевого кодека, посредством подавления уровня шума квантования в областях спектра, в которых наблюдается малая энергия.

Повышение разборчивости речи с помощью четкости голоса // 2469423

Изобретение относится к обработке аудиосигнала, в частности к процессору или способу обработки для повышения разборчивости речи и очистки зашумленного речевого аудиосигнала.

Способ и устройство для управления сглаживанием стационарного фонового шума // 2469419

Изобретение относится к кодированию речевого сигнала в телекоммуникационных системах, в частности, к способам и устройствам для управления сглаживанием стационарного фонового шума в таких системах.

Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания // 2467406

Изобретение относится к обработке звуковых сигналов, в частности, к улучшению четкости диалога и устной речи, например, в объемном развлекательном звуковом сопровождении.

Способ и устройство для оценки энергии полосы высоких частот в системе расширения полосы частот // 2464652

Изобретение относится к воспроизведению аудио контента, в частности к способам расширения полосы частот. .

Устройство и способ для генерации многоканального сигнала, использующие обработку голосового сигнала // 2461144

Изобретение относится к обработке звукового сигнала, в частности к производству нескольких выходных каналов из меньшего количества входных каналов, например, из одного (моно) канала или двух (стерео) входных каналов.

Интеллектуальная градиентная система шумоподавления // 2461081

Изобретение относится к подавлению шума и более конкретно к интеллектуальной системе (100) шумоподавления. .

Устройство и способ расширения полосы пропускания аудио сигнала // 2455710

Изобретение относится к обработке аудиосигнала, в частности к обработке аудиосигнала в случаях, когда доступная скорость данных довольно мала. .

Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот // 2452044

Изобретение относится к способам генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала. .

Средство обнаружения голосовой активности с использованием нескольких микрофонов // 2450368

Изобретение относится к области обработки звука, в частности к обнаружению голосовой активности с использованием нескольких микрофонов. .

Устройство и способ кодирования и воспроизведения звука // 2477532

Изобретение относится к устройству и способу кодирования и воспроизведения звука, в частности, не ограничиваясь указанным, к устройству для кодированных речевых сигналов и аудио-сигналов

Устройство обработки звукового сигнала и способ обработки звукового сигнала // 2479117

Изобретение относится к устройству обработки звукового сигнала (аудиосигнала) и способу обработки звукового сигнала

Способ и устройство для обеспечения звукового, визуального или тактильного уведомления обратной связи в форме местного эффекта пользователю устройства связи с множеством микрофонов // 2482617

Изобретение относится к области предоставления обратной связи, а именно обратной связи в форме местного эффекта пользователю устройства связи с множеством микрофонов

Кодер // 2483368

Изобретение относится к устройствам кодирования

Устройство и способ расчета коэффициентов фильтра эхоподавления // 2485607

Изобретение относится к устройствам и способам расчета коэффициентов пропускания адаптивного фильтра, предназначенного для подавления эха микрофонного сигнала, возбуждаемого сигналом громкоговорителя

Способ и устройство для способствования определению ограничивающих частот сигнала // 2485608

Устройство и способ для вычисления числа огибающих спектра // 2487428

Изобретение относится к области вычисления числа огибающих спектра, а именно к кодированию звуковых сигналов

Эффективное комбинированное гармоническое преобразование // 2490728

Изобретение относится к системам кодирования звукового сигнала, которые используют способ гармонического преобразования для высокочастотной реконструкции (HFR)

Синтезатор аудиосигнала и кодирующее устройство аудиосигнала // 2491658

Изобретение относится к области синтезаторов звукового (аудио) сигнала, кодирующих устройств звукового сигнала и потоков данных, содержащих закодированный звуковой сигнал

Устройство и способ генерирования выходных данных расширения полосы пропускания // 2494477

Изобретение относится к устройству и способу генерирования выходных данных расширения полосы пропускания (BWE), к звуковому кодирующему устройству и звуковому декодеру. Техническим результатом является обеспечение эффективного кодирования без заметных артефактов, особенно для речевых сигналов. Устройство (100) для генерирования выходных данных расширения полосы пропускания (102) для звукового сигнала (105) включает измеритель минимального уровня шума (ПО), энергетическую характеристику сигнала (120) и процессор (130). Звуковой сигнал (105) включает компоненты в первом частотном диапазоне (105а) и компоненты во втором частотном диапазоне (105b); выходные данные расширения полосы пропускания (102) приспособлены, чтобы управлять синтезом компонентов во втором частотном диапазоне (105b). Измеритель минимального уровня шума (ПО) измеряет данные минимального уровня шума (115) второго частотного диапазона (105b) для временной части (T) звукового сигнала (105). Энергетическая характеристика сигнала (120) получает данные распределения энергии (125); данные распределения энергии (125) характеризуют распределение энергии в спектре временной части (Т) звукового сигнала (105). Процессор (130) объединяет данные минимального уровня шума (115) и данные распределения энергии (125), чтобы получить выходные данные расширения полосы пропускания (102). 8 н. и 8 з.п. ф-лы, 9 ил.