Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных



Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных
Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных
Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных
Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных
Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных
Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных
Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных

 


Владельцы патента RU 2633107:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к средствам для моделирования фонового шума при низких скоростях передачи данных. Технический результат заключается в повышении естественности звучания кодированного аудиосигнала. Декодер выполнен с возможностью обработки закодированного звукового битового потока. Декодер содержит: декодер битового потока, выполненный с возможностью извлечения декодированного звукового сигнала из битового потока, причем декодированный звуковой сигнал содержит по меньшей мере один декодированный кадр; устройство оценки шума, выполненное с возможностью формирования сигнала оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале; устройство генерирования комфортного шума, выполненное с возможностью извлечения сигнала комфортного шума из сигнала оценки шума; и объединитель, выполненный с возможностью объединения декодированного кадра декодированного звукового сигнала и сигнала комфортного шума, чтобы получить звуковой выходной сигнал. 7 н. и 19 з.п. ф-лы, 6 ил.

 

Изобретение относится к обработке звуковых сигналов и, в частности, к кодированию шумной речи и добавлению комфортного шума к звуковым сигналам.

Генераторы комфортного шума обычно используются в прерывистой передаче (DTX) звуковых сигналов, в частности, звуковых сигналов, содержащих речь. В таком режиме звуковой сигнал сначала классифицируется на активные и неактивные кадры посредством детектора речевой активности (VAD). Пример VAD может быть найден в [1]. На основе результата VAD только активные речевые кадры кодируются и передаются на номинальной скорости передачи данных. Во время длительных пауз, когда присутствует только фоновый шум, скорость передачи данных снижается или обнуляется, и фоновый шум кодируется эпизодически и параметрически. Средняя скорость передачи данных, следовательно, значительно уменьшается. Шум генерируется во время неактивных кадров на стороне декодера посредством генератора комфортного шума (CNG). Например, речевые кодеры AMR-WB [2] и ITU G.718 [1] имеют возможность быть запущенными оба в режиме DTX.

Кодирование речи и особенно шумной речи на низких скоростях передачи данных подвержено артефактам. Речевые кодеры обычно основаны на модели производства речи, которая больше не держит в присутствии фонового шума. В этом случае кодирование эффективно падает, и качество декодированного звукового сигнала уменьшается. Кроме того, определенные характеристики речевого кодирования могут быть особенно возмущающими при обработке шумной речи. Действительно, при низких скоростях грубое квантование параметров кодирования производит некоторые колебания с течением времени, при этом колебания с точки зрения чувственного восприятия являются раздражающим при кодировании речи по стационарному фоновому шуму.

Шумоподавление представляет собой хорошо известный метод для повышения разборчивости речи и улучшения связи при наличии фонового шума. Оно также было принято в кодировании речи. Например, кодер G.718 использует шумоподавление для выведения некоторых параметров кодирования, таких как высота тона речи. Он также имеет возможность кодировать расширенный сигнал вместо исходного сигнала. Речь в таком случае является более преобладающей по сравнению с уровнем шума в декодированном сигнале. Однако она обычно звучит ухудшенной или менее естественной, поскольку шумоподавление может исказить компоненты речи и вызвать слышимые музыкальные шумовые артефакты в дополнение к артефактам кодирования.

Цель настоящего изобретения состоит в том, чтобы предоставить улучшенные принципы для обработки звуковых сигналов. Цель настоящего изобретения достигается посредством декодера по п. 1 формулы изобретения, посредством кодера по п. 18 формулы изобретения, посредством системы по п. 19 формулы изобретения, посредством способа по п. 20 или 21 формулы изобретения, посредством битового потока по п. 22 формулы изобретения и посредством компьютерной программы по п. 15 формулы изобретения.

В одном из аспектов изобретение предоставляет декодер, выполненный с возможностью обработки закодированного звукового битового потока, где декодер содержит:

декодер битового потока, выполненный с возможностью извлечения декодированного звукового сигнала из битового потока, где декодированный звуковой сигнал содержит по меньшей мере один декодированный кадр;

устройство оценки шума, выполненное с возможностью формирования сигнала оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале;

устройство генерирования комфортного шума, выполненное с возможностью извлечения сигнала комфортного шума из сигнала оценки шума; и

объединитель, выполненный с возможностью объединения декодированного кадра декодированного звукового сигнала и сигнала комфортного шума, чтобы получить выходной звуковой сигнал.

Декодер битового потока может быть устройством или компьютерной программой, способной декодировать звуковой битовый поток, который представляет собой поток цифровых данных, содержащих звуковую информацию. Процесс декодирования имеет результатом цифровой декодированный звуковой сигнал, который может быть подан в A/D (аналого-цифровой) преобразователь для формирования аналогового звукового сигнала, который затем может быть подан в громкоговоритель, чтобы сформировать слышимый сигнал.

Декодированный звуковой сигнал разделен на так называемые кадры, где каждый из этих кадров содержит звуковую информацию, относящуюся к определенному временному интервалу. Такие кадры могут быть классифицированы на активные и неактивные кадры, где активный кадр представляет собой кадр, который содержит требуемые компоненты звуковой информации, такие как речь или музыка, тогда как неактивный кадр представляет собой кадр, который не содержит каких-либо требуемых компонентов звуковой информации. Неактивные кадры обычно возникают во время пауз, когда не присутствуют требуемые компоненты, такие как музыка или речь. Следовательно, неактивные кадры обычно содержат исключительно фоновый шум.

В прерывистой передаче (DTX) звукового сигнала только активные кадры декодированного звукового сигнала получаются посредством декодирования битового потока, поскольку во время неактивных кадров кодер не передает звуковой сигнал в битовом потоке.

В не-прерывистой передаче (не-DTX) звукового сигнала активные кадры, так же как и неактивные кадры, получаются посредством декодирования битового потока.

Кадры, которые получены путем декодирования битового потока посредством декодера битового потока, называются декодированными кадрами.

Устройство оценки шума выполнено с возможностью формирования сигнала оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале. Кроме того, устройство генерирования комфортного шума выполнено с возможностью извлечения сигнала комфортного шума из сигнала оценки шума. Сигнал оценки шума может быть сигналом, который содержит информацию, касающуюся характеристик шума, содержащегося в декодированном звуковом сигнале в параметрической форме. Сигнал комфортного шума представляет собой искусственный звуковой сигнал, который соответствует шуму, содержащемуся в декодированном звуковом сигнале. Эти отличительные признаки позволяют комфортному шуму звучать подобно фактическому фоновому шуму, не требуя какой-либо дополнительной информации, касающейся фонового шума в битовом потоке.

Объединитель выполнен с возможностью объединения декодированного кадра декодированного звукового сигнала и сигнала комфортного шума, чтобы получить выходной звуковой сигнал. В результате звуковой выходной сигнал содержит декодированные кадры, которые содержат искусственный шум. Искусственный шум в декодированных кадрах позволяет маскировать артефакты в звуковом выходном сигнале, особенно когда битовый поток передается на малых скоростях передачи данных. Он сглаживает обычно наблюдаемые колебания и тем временем маскирует преобладающие артефакты кодирования.

В отличие от предшествующего уровня техники, настоящее изобретение применяет принцип добавления искусственного комфортного шума к декодированным кадрам. Изобретательский замысел может быть применен как к режимам DTX, так и не-DTX.

Изобретение предоставляет способ для повышения качества шумной речи, закодированной и переданной на низких скоростях передачи данных. На низких скоростях передачи данных кодирование шумной речи, т.е., речи, записанной с фоновым шумом, обычно не является таким эффективным, как кодирование чистой речи. Декодированный синтез обычно подвержен артефактам. Два различных вида источников, шум и речь, не могут быть эффективно закодированы посредством схемы кодирования, опирающейся на модель с одним источником. Настоящее изобретение предоставляет принцип для моделирования и синтеза фонового шума на стороне декодера и требует очень мало или вовсе не требует дополнительной информации. Это достигается путем оценки уровня и спектральной формы фонового шума на стороне декодера и путем искусственного генерирования комфортного шума. Сгенерированный шум объединяется с декодированным звуковым сигналом и позволяет маскировать артефакты кодирования.

Кроме того, принцип может быть объединен со схемой шумоподавления, примененной на стороне кодера. Шумоподавление повышает уровень отношения сигнал-шум (SNR) и повышает производительностью последующего звукового кодирования. Недостающее количество шума в декодированном звуковом сигнале затем компенсируется комфортным шумом на стороне декодера. Однако, он обычно звучит ухудшенным или менее естественным, поскольку шумоподавление может исказить звуковые компоненты и вызвать слышимые музыкальные шумовые артефакты в дополнение к артефактам кодирования. Один из аспектов настоящего изобретения состоит в том, чтобы замаскировать такие неприятные искажения путем добавления комфортного шума на стороне декодера. При использовании схемы шумоподавления добавление комфортного шума не ухудшает SNR. Кроме того, комфортный шум скрывает большую часть раздражающего музыкального шума, типичного для методов шумоподавления.

В предпочтительном варианте осуществления изобретения декодированный кадр представляет собой активный кадр. Этот отличительный признак распространяет принцип добавления комфортного шума на декодированные активные кадры.

В предпочтительном варианте осуществления изобретения декодированный кадр представляет собой активный кадр. Этот отличительный признак распространяет принцип добавления комфортного шума на декодированные неактивные кадры.

В предпочтительном варианте осуществления изобретения устройство оценки шума содержит устройство спектрального анализа, выполненное с возможностью создания сигнала анализа, содержащего уровень и спектральную форму шума в декодированном звуковом сигнале, и устройство формирования оценки шума, выполненное с возможностью формирования сигнала оценки шума на основе сигнала анализа.

В предпочтительном варианте осуществления изобретения устройство генерирования комфортного шума содержит генератор шума, выполненный с возможностью создания сигнала комфортного шума частотной области на основе сигнала оценки шума, и спектральный синтезатор, выполненный с возможностью создания сигнала комфортного шума на основе сигнала комфортного шума частотной области.

В предпочтительном варианте осуществления изобретения декодер содержит переключающее устройство, выполненное с возможностью переключения декодера альтернативно в первый режим работы или второй режим работы, где в первом режиме работы сигнал комфортного шума подается в объединитель, тогда как сигнал комфортного шума не подается в объединитель во втором режиме работы. Эти отличительные признаки позволяют прекратить использование искусственного комфортного шума в ситуациях, когда он не нужен.

В предпочтительном варианте осуществления изобретения декодер содержит управляющее устройство, выполненное с возможностью управления переключающим устройством автоматически, где управляющее устройство содержит детектор шума, выполненный с возможностью управления переключающим устройством в зависимости от соотношения сигнал-шум декодированного звукового сигнала, где в условиях низкого соотношения сигнал-шум декодер переключается в первый режим работы, а в условиях высокого соотношения сигнал-шум - во второй режим работы. Посредством этих отличительных признаков комфортный шум может быть вызван только в сценариях шумной речи, т.е. не в ситуациях чистой речи или чистой музыки. В целях различения между условиями низкого соотношения сигнал-шум и условиями высокого соотношения сигнал-шум порог для соотношения сигнал-шум может быть определен и использован.

В предпочтительном варианте осуществления управляющее устройство содержит приемник дополнительной информации, выполненный с возможностью приема дополнительной информации, содержащейся в битовом потоке, которая соответствует соотношению сигнал-шум декодированного звукового сигнала, и выполненный с возможностью создания сигнала обнаружения шума, где детектор шума управляет переключающим устройством в зависимости от сигнала обнаружения шума. Эти отличительные признаки позволяют управлять переключающим устройством на основе анализа сигнала, выполненного внешним устройством, формирующим и/или обрабатывающим принятый битовый поток. Внешнее устройство в особенности может быть кодером, формирующим битовый поток.

В предпочтительном варианте осуществления изобретения дополнительная информация, соответствующая соотношению сигнал-шум декодированного звукового сигнала, состоит из по меньшей мере одного выделенного бита в битовом потоке. Выделенный бит в целом представляет собой бит, который содержит, один или вместе с другими выделенными битами, определенную информацию. Здесь выделенный бит может указывать, находится ли соотношение сигнал-шум выше или ниже предопределенного порога.

В предпочтительном варианте осуществления изобретения управляющее устройство содержит устройство оценки энергии требуемого сигнала, выполненное с возможностью определения энергии требуемого сигнала декодированного звукового сигнала, устройство оценки энергии шума, выполненное с возможностью определения энергии шума декодированного звукового сигнала, и устройство оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум декодированного звукового сигнала на основе энергии требуемого сигнала и на основе энергии шума, где переключающее устройство переключается в зависимости от соотношения сигнал-шум, определенного управляющим устройством. В этом случае нет необходимости в дополнительной информации в битовом потоке. Поскольку энергия требуемого сигнала обычно превышает энергию шума декодированного сигнала, общая энергия декодированного звукового сигнала, включая энергию требуемого сигнала, а также энергию шума, дает грубую оценку энергии требуемого сигнала декодированного звукового сигнала. По этой причине соотношение сигнал-шум может быть вычислено в приближении путем деления общей энергии декодированного звукового сигнала на энергию шума декодированного сигнала.

В предпочтительном варианте осуществления изобретения битовый поток содержит активные кадры и неактивные кадры, где управляющее устройство выполнено с возможностью определения энергии требуемого сигнала декодированного звукового сигнала во время активных кадров и определения энергии шума декодированного звукового сигнала во время неактивных кадров. Посредством этого высокая точность в оценке соотношения сигнал-шум может быть достигнута простым способом.

В предпочтительном варианте осуществления изобретения битовый поток содержит активные кадры и неактивные кадры, где декодер содержит приемник дополнительной информации, выполненный с возможностью различения между активными кадрами и неактивными кадрами на основе дополнительной информации в битовом потоке, указывающей, является ли текущий кадр активным или неактивным. Посредством этого отличительного признака активные кадры или неактивные кадры соответственно могут быть идентифицированы без усилий расчета.

В предпочтительном варианте осуществления изобретения дополнительная информация, указывающая, является ли текущий кадр активным или неактивным, состоит из по меньшей мере одного выделенного бита в битовом потоке.

В предпочтительном варианте осуществления изобретения управляющее устройство выполнено с возможностью определения энергии требуемого сигнала декодированного звукового сигнала на основе сигнала анализа. В этом случае сигнал анализа, который обычно должен быть вычислен в целях оценки шума, может быть использован повторно, так что сложность может быть уменьшена.

В предпочтительном варианте осуществления изобретения управляющее устройство выполнено с возможностью определения энергии шума декодированного звукового сигнала на основе сигнала оценки шума. В таком варианте осуществления сигнал оценки шума, который обычно должен быть вычислен в целях генерирования комфортного шума, может быть использован повторно, так что сложность может быть дополнительно уменьшена.

В предпочтительном варианте осуществления изобретения устройство генерирования комфортного шума выполнено с возможностью создания сигнала комфортного шума на основе сигнала целевого уровня комфортного шума. Уровень добавленного комфортного шума должен быть ограничен, чтобы сохранить разборчивость и качество. Это может быть достигнуто путем масштабирования комфортного шума с использованием целевого сигнала шума, который указывает предопределенный целевой уровень шума.

В предпочтительном варианте осуществления изобретения сигнал целевого уровня комфортного шума регулируется в зависимости от скорости передачи данных битового потока. Обычно декодированный звуковой сигнал показывает более высокое соотношение сигнал-шум, чем исходный входной сигнал, особенно на низких скоростях передачи данных, где артефакты кодирования являются наиболее серьезными. Это ослабление уровня шума в кодировании речи исходит из парадигмы модели источника, которая ожидает речь в качестве входа. В противном случае кодирование исходной модели не является полностью подходящим и не будет способно воспроизвести всю энергию не-речевых компонентов. Следовательно, сигнал целевого уровня комфортного шума может быть отрегулирован в зависимости от скорости передачи данных, чтобы примерно компенсировать ослабление шума, по своей сути, введенное процессом кодирования.

В предпочтительном варианте осуществления изобретения сигнал целевого уровня комфортного шума регулируется в зависимости от уровня ослабления шума, вызванного способом шумоподавления, примененным к битовому потоку. Посредством этих отличительных признаков ослабление шума, вызванное модулем шумоподавления в кодере, может быть компенсировано.

В предпочтительном варианте осуществления энергия сигнала комфортного шума частотной области случайного шума w(k) регулируется в зависимости от сигнала целевого уровня комфортного шума, который указывает целевой уровень gtar комфортного шума для каждой частоты k как , где относится к оценке энергии шума декодированного звукового сигнала на частоте k, как доставлено устройством формирования оценки шума. Посредством этих отличительных признаков разборчивость и качество выходного сигнала могут быть повышены.

В предпочтительном варианте осуществления изобретения декодер содержит дополнительный декодер битового потока, где декодер битового потока и дополнительный декодер битового потока являются декодерами различных типов, при этом декодер содержит переключатель, выполненный с возможностью подачи либо декодированного сигнала из декодера битового потока, либо декодированного сигнала из дополнительного декодера битового потока в устройство оценки шума и в объединитель. Поскольку добавление комфортного шума выполняется при использовании декодера битового потока, а также при использовании дополнительного декодера битового потока, переходные артефакты при переключении между декодером битового потока и дополнительным декодером битового потока могут быть минимизированы. Например, декодер битового потока может быть декодером битового потока линейного предсказания с возбуждением алгебраическим кодом (ACELP), тогда как дополнительный декодер битового потока может быть декодером битового потока основанного на преобразовании ядра (TCX).

Изобретение дополнительно предоставляет обрабатывающий звуковой сигнал кодер, выполненный с возможностью формирования звукового битового потока, где кодер содержит:

кодер битового потока, выполненный с возможностью формирования закодированного звукового сигнала, соответствующего звуковому входному сигналу, и извлечения битового потока из закодированного звукового сигнала;

анализатор сигнала, имеющий устройство оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум звукового входного сигнала на основе энергии требуемого сигнала звукового сигнала, определенной устройством оценки энергии требуемого сигнала, и на основе энергии шума звукового входного сигнала, определенной устройством оценки энергии шума;

устройство шумоподавления, выполненное с возможностью формирования звукового сигнала с уменьшенным шумом; и

переключающее устройство, выполненное с возможностью подачи, в зависимости от определенного соотношения сигнал-шум звукового входного сигнала, либо звукового входного сигнала, либо звукового сигнала с уменьшенным шумом в кодер битового потока с целью кодирования соответствующего сигнала, где кодер битового потока выполнен с возможностью передачи дополнительной информации, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным шумом, в битовом потоке.

Кодер битового потока может быть устройством или компьютерной программой, способной кодировать звуковой сигнал, который представляет собой сигнал цифровых данных, содержащих звуковую информацию. Процесс кодирования имеет результатом цифровой битовый поток, который может быть передан по цифровой линии передачи данных в удаленное местоположение.

Звуковой входной сигнал непосредственно кодируется кодером битового потока. Кодер битового потока может быть речевым кодером или схемой с малой задержкой, переключающейся между речевым кодером ACELP и основанным на преобразовании звуковым кодером TCX. Кодер битового потока является ответственным за кодирование звукового входного сигнала и генерирование битового потока, необходимого для декодирования звукового сигнала. Параллельно входной сигнал анализируется любым модулем, называемым анализатором сигнала. В предпочтительном варианте осуществления анализ сигнала является тем же, что и используемый в G.718. Он состоит из устройства спектрального анализа, за которым следует устройство формирования оценки шума. Спектры как исходного сигнала, так и оцененного шума представляют собой входные сигналы в модуль шумоподавления. Шумоподавление ослабляет уровень фонового шума в частотной области. Степень снижения задается целевым уровнем ослабления. Сигнал расширенной временной области (звуковой сигнал с уменьшенным шумом) генерируется после спектрального синтеза. Сигнал используется для выведения некоторых отличительных признаков, таких как стабильность основного тона, который затем используется VAD для различения между активными и неактивными кадрами. Результат классификации может быть дополнительно использован модулем кодера. В предпочтительном варианте осуществления определенный режим кодирования используется для обработки неактивных кадров. Таким образом декодер может вывести флаг VAD из битового потока без требования выделенного бита.

Чтобы избежать ненужных искажений в бесшумных ситуациях (чистая речь или чистая музыка), шумоподавление применяется только в случае шумной речи и игнорируется в противном случае. Различение между шумными и бесшумными сигналами достигается путем оценки долгосрочной энергии как шумного, так и желаемого сигнала (речи или музыки). Долгосрочная энергия вычисляется путем авто-регрессионной фильтрации первого порядка либо энергии входного кадра (во время активных кадров), либо с использованием выходного сигнала модуля оценки шума (во время неактивных кадров), таким образом может быть вычислена оценка соотношения сигнал-шум, которая определена как соотношение долгосрочной энергии речи или музыки по долгосрочной энергии шума. Если соотношение сигнал-шум ниже предопределенного порога, кадр считается шумной речью, в противном случае он классифицируется как чистая речь. Поскольку кодер битового потока выполнен с возможностью передачи в битовом потоке дополнительной информации, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным шумом, декодер может регулировать сигнал целевого уровня комфортного шума автоматически к режиму работы кодера.

В предпочтительном варианте осуществления изобретения во время активных кадров обновляется только долгосрочная оценка энергии речь/музыка. Во время неактивных кадров обновляется только оценка энергии шума.

Изобретение дополнительно предоставляет систему, содержащую звуковой сигнал, обрабатывающий декодер и обрабатывающий звуковой сигнал кодер, где декодер спроектирован в соответствии с заявленным изобретением и/или кодер спроектирован в соответствии с заявленным изобретением.

В другом аспекте изобретение предоставляет способ декодирования звукового битового потока, где способ состоит в том, что:

извлекают декодированный звуковой сигнал из битового потока, где декодированный звуковой сигнал содержит по меньшей мере один декодированный кадр;

формируют сигнал оценки шума, содержащий оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале;

извлекают сигнал комфортного шума из сигнала оценки шума; и

объединяют декодированный кадр декодированного звукового сигнала и сигнал комфортного шума, чтобы получить выходной звуковой сигнал.

Изобретение дополнительно предоставляет способ кодирования звукового сигнала для формирования звукового битового потока, где способ состоит в том, что:

определяют соотношение сигнал-шум звукового входного сигнала на основе определенной энергии требуемого сигнала звукового входного сигнала и определенной энергии шума звукового входного сигнала;

формируют звуковой сигнал с уменьшенным шумом;

формируют закодированный звуковой сигнал, соответствующий звуковому входному сигналу, где в зависимости от определенного соотношения сигнал-шум звукового входного сигнала кодируется либо звуковой входной сигнал, либо звуковой сигнал с уменьшенным шумом;

извлекают битовый поток из закодированного звукового сигнала; и

передают дополнительную информацию, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным шумом, в битовом потоке.

Изобретение дополнительно предоставляет битовый поток, сформированный в соответствии со способом выше. Заявленный битовый поток содержит дополнительную информацию, которая указывает, закодирован ли звуковой входной сигнал или звуковой сигнал с уменьшенным уровнем шума.

Дополнительный аспект изобретения предоставляет компьютерную программу для выполнения, при исполнении на компьютере или процессоре, изобретательных способов.

Предпочтительные варианты осуществления изобретения впоследствии обсуждаются со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 иллюстрирует первый вариант осуществления декодера в соответствии с изобретением;

Фиг. 2 иллюстрирует второй вариант осуществления декодера в соответствии с изобретением;

Фиг. 3 иллюстрирует кодер в соответствии с предшествующим уровнем техники;

Фиг. 4 иллюстрирует первый вариант осуществления кодера в соответствии с изобретением;

Фиг. 5 иллюстрирует второй вариант осуществления кодера в соответствии с изобретением; и

Фиг. 6 иллюстрирует вариант осуществления формата кадра битового потока в соответствии с изобретением.

Фиг. 1 иллюстрирует первый вариант осуществления декодера 1 в соответствии с изобретением. Декодер 1 выполнен с возможностью обработки закодированного звукового битового потока BS, где декодер 1 содержит:

декодер 2 битового потока, выполненный с возможностью извлечения декодированного звукового сигнала DS из битового потока BS, где декодированный звуковой сигнал DS содержит по меньшей мере один декодированный кадр;

устройство 3 оценки шума, выполненное с возможностью формирования сигнала NE оценки шума, содержащего оценку уровня и/или спектральной формы шума N в декодированном звуковом сигнале DS;

устройство 4 генерирования комфортного шума, выполненное с возможностью извлечения звукового сигнала комфортного шума CN из сигнала NE оценки шума; и

объединитель 5, выполненный с возможностью объединения декодированного кадра декодированного звукового сигнала DS и сигнала CN комфортного шума, чтобы получить звуковой выходной сигнал OS.

Декодер 2 битового потока может быть устройством или компьютерной программой, способной декодировать звуковой битовый поток BS, который представляет собой поток цифровых данных, содержащих звуковую информацию. Процесс декодирования имеет результатом цифровой декодированный звуковой сигнал DS, который может быть подан в A/D (аналого-цифровой) преобразователь для формирования аналогового звукового сигнала, который затем может быть подан в громкоговоритель, чтобы сформировать слышимый сигнал.

Декодированный звуковой сигнал DS содержит так называемые кадры, где каждый из этих кадров содержит звуковую информацию, относящуюся к определенному времени. Такие кадры могут быть классифицированы на активные и неактивные кадры, где активный кадр представляет собой кадр, который содержит требуемые компоненты WS звуковой информации, также называемые требуемым сигналом WS, такие как речь или музыка, тогда как неактивный кадр представляет собой кадр, который не содержит каких-либо требуемых компонентов звуковой информации. Неактивные кадры обычно возникают во время пауз, когда не присутствуют требуемые компоненты, такие как музыка или речь. Следовательно, неактивные кадры обычно содержат исключительно фоновый шум N.

Устройство 3 оценки шума выполнено с возможностью формирования сигнала NE оценки шума, содержащего оценку уровня и/или спектральной формы шума в декодированном звуковом сигнале DS. Кроме того, устройство 4 генерирования комфортного шума выполнено с возможностью извлечения звукового сигнала CN комфортного шума из сигнала NE оценки шума. Сигнал NE оценки шума может быть сигналом, который содержит информацию, касающуюся характеристик шума N, содержащегося в декодированном звуковом сигнале DS в параметрической форме. Сигнал CN комфортного шума представляет собой искусственный звуковой сигнал, который соответствует шуму N, содержащемуся в декодированном звуковом сигнале DS. Эти отличительные признаки позволяют комфортному шуму CN звучать как фактический фоновый шум N, не требуя какой-либо дополнительной информации в битовом потоке BS, касающейся фонового шума N.

Объединитель 5 выполнен с возможностью объединения декодированного кадра декодированного звукового сигнала DS и сигнала CN комфортного шума, чтобы получить звуковой выходной сигнал OS. В результате звуковой выходной сигнал OS содержит декодированные кадры, которые содержат искусственный шум CN. Искусственный шум CN в декодированных кадрах позволяет маскировать артефакты в звуковом выходном сигнале OS, особенно когда битовый поток BS передается на малых скоростях передачи данных.

В отличие от предшествующего уровня техники, настоящее изобретение применяет принцип добавления искусственного комфортного шума CN к декодированным активным или неактивным кадрам. Изобретательский замысел может быть применен как к режимам DTX, так и не-DTX.

Изобретение предоставляет способ для повышения качества шумной речи, закодированной и переданной на низких скоростях передачи данных. На низких скоростях передачи данных кодирование шумной речи, т.е., речи, записанной с фоновым шумом N, обычно не является таким эффективным, как кодирование чистой речи WS. Декодированный синтез обычно подвержен артефактам. Два различных вида источников, шум N и речь WS, не могут быть эффективно закодированы посредством схемы кодирования, опирающейся на модель с одним источником. Настоящее изобретение предоставляет принцип для моделирования и синтеза фонового шума N на стороне декодера и требует очень мало или вовсе не требует дополнительной информации. Это достигается путем оценки уровня и спектральной формы фонового шума N на стороне декодера и путем искусственного генерирования комфортного шума CN. Сгенерированный шум CN объединяется с декодированным звуковым сигналом DS и позволяет маскировать артефакты во время декодированных кадров.

Кроме того, принцип может быть объединен со схемой шумоподавления, примененной на стороне кодера. Шумоподавление повышает уровень отношения сигнал-шум (SNR) и повышает производительностью последующего звукового кодирования. Недостающее количество шума N в декодированном звуковом сигнале DS затем компенсируется комфортным шумом CN на стороне декодера. Однако, он обычно звучит ухудшенным или менее естественным, поскольку шумоподавление может исказить звуковые компоненты и вызвать слышимые музыкальные шумовые артефакты в дополнение к артефактам кодирования. Один из аспектов настоящего изобретения состоит в том, чтобы замаскировать такие неприятные искажения путем добавления комфортного шума CN на стороне декодера. При использовании схемы шумоподавления добавление комфортного шума не ухудшает SNR. Кроме того, комфортный шум скрывает большую часть раздражающего музыкального шума, типичного для методов шумоподавления.

В предпочтительном варианте осуществления изобретения декодированный кадр представляет собой активный кадр. Этот отличительный признак распространяет принцип добавления комфортного шума на декодированные активные кадры.

В предпочтительном варианте осуществления изобретения декодированный кадр представляет собой активный кадр. Этот отличительный признак распространяет принцип добавления комфортного шума на декодированные неактивные кадры.

В предпочтительном варианте осуществления изобретения устройство 3 оценки шума содержит устройство 6 спектрального анализа, выполненное с возможностью создания сигнала AS анализа, содержащего уровень и спектральную форму шума в декодированном звуковом сигнале DS, и устройство 7 формирования оценки шума, выполненное с возможностью формирования сигнала NE оценки шума на основе сигнала AS анализа.

В предпочтительном варианте осуществления изобретения устройство 4 генерирования комфортного шума содержит генератор 8 шума, выполненный с возможностью создания сигнала FD комфортного шума частотной области на основе сигнала NE оценки шума, и спектральный синтезатор 9, выполненный с возможностью создания сигнала CN комфортного шума на основе сигнала FD комфортного шума частотной области.

В предпочтительном варианте осуществления изобретения декодер 1 содержит переключающее устройство 10, выполненное с возможностью переключения декодера 1 альтернативно в первый режим работы или второй режим работы, где в первом режиме работы сигнал CN комфортного шума подается в объединитель, тогда как сигнал CN комфортного шума не подается в объединитель 5 во втором режиме работы. Эти отличительные признаки позволяют прекратить использование искусственного комфортного шума CN в ситуациях, когда он не нужен.

В предпочтительном варианте осуществления изобретения декодер 1 содержит управляющее устройство 11, выполненное с возможностью управления переключающим устройством 10 автоматически, где управляющее устройство 10 содержит детектор 12 шума, выполненный с возможностью управления переключающим устройством 10 в зависимости от соотношения сигнал-шум декодированного звукового сигнала DS, где в условиях низкого соотношения сигнал-шум декодер переключается в первый режим работы, а в условиях высокого соотношения сигнал-шум - во второй режим работы. Посредством этих отличительных признаков использование комфортного шума CN может быть вызвано только в сценариях шумной речи, т.е. не в ситуациях чистой речи или чистой музыки. В целях различения между условиями низкого соотношения сигнал-шум и условиями высокого соотношения сигнал-шум порог для соотношения сигнал-шум может быть определен и использован.

В предпочтительном варианте осуществления управляющее устройство 11 содержит приемник 13 дополнительной информации, выполненный с возможностью приема дополнительной информации, содержащейся в битовом потоке BS, которая соответствует соотношению сигнал-шум декодированного звукового сигнала DS, и выполненный с возможностью создания сигнала ND обнаружения шума, где детектор 12 шума переключает переключающее устройство 11 в зависимости от сигнала ND обнаружения шума. Эти отличительные признаки позволяют управлять переключающим устройством 10 на основе анализа сигнала, выполненного внешним устройством, формирующим и/или обрабатывающим принятый битовый поток BS. Внешнее устройство в особенности может быть кодером, формирующим битовый поток BS.

В предпочтительном варианте осуществления изобретения дополнительная информация, соответствующая соотношению сигнал-шум декодированного звукового сигнала DS, состоит из по меньшей мере одного выделенного бита в битовом потоке BS. Выделенный бит в целом представляет собой бит, который содержит, один или вместе с другими выделенными битами, определенную информацию. Здесь выделенный бит может указывать, находится ли соотношение сигнал-шум выше или ниже предопределенного порога.

В предпочтительном варианте осуществления изобретения устройство 4 генерирования комфортного шума выполнено с возможностью создания сигнала CN комфортного шума на основе сигнала TNL целевого уровня комфортного шума. Уровень добавленного комфортного шума CN должен быть ограничен, чтобы сохранить разборчивость и качество. Это может быть достигнуто путем масштабирования комфортного шума CN с использованием целевого сигнала TNL шума, который указывает предопределенный целевой уровень шума.

В предпочтительном варианте осуществления изобретения сигнал TNL целевого уровня комфортного шума регулируется в зависимости от скорости передачи данных битового потока BS. Обычно декодированный звуковой сигнал DS показывает более высокое соотношение сигнал-шум, чем исходный входной сигнал, особенно на низких скоростях передачи данных, где артефакты кодирования являются наиболее серьезными. Это ослабление уровня шума в кодировании речи исходит из парадигмы модели источника, которая ожидает речь в качестве входа. В противном случае кодирование исходной модели не является полностью подходящим и не будет способно воспроизвести всю энергию не-речевых компонентов. Следовательно, сигнал TNL целевого уровня комфортного шума может быть отрегулирован в зависимости от скорости передачи данных, чтобы примерно компенсировать ослабление шума, по своей сути, введенное процессом кодирования.

В предпочтительном варианте осуществления изобретения сигнал TNL целевого уровня комфортного шума регулируется в зависимости от уровня ослабления шума, вызванного способом шумоподавления, примененным к битовому потоку BS. Посредством этих отличительных признаков ослабление шума, вызванное модулем шумоподавления в кодере, может быть компенсировано.

В предпочтительном варианте осуществления энергия сигнала FD комфортного шума частотной области случайного шума w(k) регулируется в зависимости от сигнала TNL целевого уровня комфортного шума, который указывает целевой уровень gtar комфортного шума для каждой частоты k как , где относится к оценке энергии шума N декодированного звукового сигнала DS на частоте k, как доставлено устройством 7 формирования оценки шума. Посредством этих отличительных признаков разборчивость и качество выходного сигнала OS могут быть повышены.

Фиг. 2 иллюстрирует второй вариант осуществления декодера 1 в соответствии с изобретением. Второй вариант осуществления декодера 1 основан на декодере 1 первого варианта осуществления. Далее обсуждены и объяснены только различия с первым вариантом осуществления.

В предпочтительном варианте осуществления изобретения управляющее устройство содержит устройство 14 оценки энергии требуемого сигнала, выполненное с возможностью определения энергии требуемого сигнала WS декодированного звукового сигнала DS, устройство 15 оценки энергии шума, выполненное с возможностью определения энергии шума N декодированного звукового сигнала DS, и устройство 16 оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум декодированного звукового сигнала DS на основе энергии требуемого сигнала WS и на основе энергии шума N, где переключающее устройство 10 переключается в зависимости от соотношения сигнал-шум, определенного управляющим устройством 11. В этом случае нет необходимости в дополнительной информации в битовом потоке, касающейся соотношения сигнал-шум. Следовательно, приемник 13 дополнительной информации первого варианта осуществления также не является необходимым.

В предпочтительном варианте осуществления изобретения битовый поток BS содержит активные кадры и неактивные кадры, где управляющее устройство 11 выполнено с возможностью определения энергии требуемого сигнала WS декодированного звукового сигнала DS во время активных кадров и определения энергии шума N декодированного звукового сигнала DS во время неактивных кадров. Посредством этого высокая точность в оценке соотношения сигнал-шум может быть достигнута простым способом.

В предпочтительном варианте осуществления изобретения битовый поток BS содержит активные кадры и неактивные кадры, где декодер 1 содержит приемник 17 дополнительной информации, выполненный с возможностью различения между активными кадрами и неактивными кадрами на основе дополнительной информации в битовом потоке, указывающей, является ли текущий кадр активным или неактивным. Посредством этого отличительного признака активные кадры или неактивные кадры соответственно могут быть идентифицированы без усилий расчета.

В предпочтительном варианте осуществления изобретения приемник 17 дополнительной информации может быть выполнен с возможностью управления переключателем 17a, который альтернативно подает выходной сигнал OW устройства 14 оценки энергии требуемого сигнала или выходной сигнал ON устройства 15 оценки энергии шума в устройство 16 оценки соотношения сигнал-шум, где выходной сигнал OW устройства 14 оценки энергии требуемого сигнала подается в устройство 16 оценки соотношения сигнал-шум во время активных кадров и где выходной сигнал ON устройства 15 оценки энергии шума подается в устройство 16 оценки соотношения сигнал-шум во время неактивных кадров. Посредством этих отличительных признаком соотношение сигнал-шум может быть вычислено простым и точным способом.

В предпочтительном варианте осуществления изобретения управляющее устройство 11 выполнено с возможностью определения энергии требуемого сигнала декодированного звукового сигнала на основе сигнала AS анализа. В этом случае сигнал AS анализа, который обычно должен быть вычислен в целях оценки шума, может быть использован повторно, так что сложность может быть уменьшена.

В предпочтительном варианте осуществления изобретения управляющее устройство 11 выполнено с возможностью определения энергии шума N декодированного звукового сигнала DS на основе сигнала NE оценки шума. В таком варианте осуществления сигнал NE оценки шума, который обычно должен быть вычислен в целях генерирования комфортного шума, может быть использован повторно, так что сложность может быть дополнительно уменьшена.

В предпочтительном варианте осуществления изобретения декодер 1 содержит дополнительный декодер битового потока (не показан на фигурах), где декодер 2 битового потока и дополнительный декодер битового потока являются декодерами различных типов, при этом декодер 1 содержит переключатель (не показан на фигурах), выполненный с возможностью подачи либо декодированного сигнала DS из декодера 2 битового потока, либо декодированного сигнала из дополнительного декодера битового потока в устройство 3 оценки шума и в объединитель 5. Поскольку добавление комфортного шума выполняется при использовании декодера 2 битового потока, а также при использовании дополнительного декодера битового потока, переходные артефакты при переключении между декодером 2 битового потока и дополнительным декодером битового потока могут быть минимизированы. Например, декодер 2 битового потока может быть декодером битового потока линейного предсказания с возбуждением алгебраическим кодом (ACELP), тогда как дополнительный декодер битового потока может быть декодером битового потока основанного на преобразовании ядра (TCX).

Декодер 1 изобретения описан на фиг. 1 и 2, где добавление комфортного шума делается вслепую в частотной области. Чтобы иметь комфортный шум CN, который выглядит как фактический фоновый шум N, устройство 3 оценки шума используется в декодере 1, чтобы определить уровень и спектральную форму фонового шума N, не требуя какой-либо дополнительной информации.

Устройство 4 генерирования комфортного шума срабатывает только в сценариях шумной речи, т.е. не в ситуациях чистой речи или чистой музыки. Различение может быть основано на обнаружении, выполненном в кодере. В этом случае решение должно быть передано с использованием выделенного бита. В предпочтительном варианте осуществления, напротив, применяется устройство 7 формирования оценки шума, которое подобно устройству оценки шума, используемому в кодере. Оно состоит в оценке долгосрочного соотношения сигнал-шум путем отдельной адаптации долгосрочных оценок либо энергии шума N, либо энергии требуемого сигнала WS, например, речи и/или музыки, в зависимости от решения VAD. Последнее может быть выведено непосредственно из индекса режимов ACELP и TCX. Действительно, TCX и ACELP могут выполняться в определенном режиме, называемом TCX-NA и ACELP-NA, соответственно, когда сигнал представляет собой неактивные речевые/музыкальные кадры, т.е. кадры только с фоновым шумом. Все другие режимы ACELP и TCX относятся к активным кадрам. Следовательно, присутствие выделенного бита VAD в битовом потоке можно избежать.

Уровень добавленного комфортного шума должен быть ограничен, чтобы сохранить разборчивость и качество. Комфортный шум, следовательно, масштабируется, чтобы достичь предопределенного целевого уровня шума. Если gtar обозначает целевой уровень усиления шума после добавления комфортного шума, энергия Ew случайного шума w(k) регулируется для каждой частоты k как

,

где относится к оценке энергии шума, присутствующего в декодированном звуковом выходном сигнале на частоте k, как доставляется модулем оценки шума.

Обычно декодированный звуковой сигнал DS показывает более высокое соотношение сигнал-шум, чем исходный входной сигнал, особенно на низких скоростях передачи данных, где артефакты кодирования являются наиболее серьезными. Это ослабление уровня шума в кодировании речи исходит из парадигмы модели источника, которая ожидает речь в качестве входа. В противном случае кодирование исходной модели не является полностью подходящим и не будет способно воспроизвести всю энергию не-речевых компонентов. Следовательно, для первого аспекта изобретения, использующего кодер, изображенный на фиг. 3, целевой уровень gtar комфортного шума регулируется в зависимости от скорости передачи данных, чтобы примерно компенсировать ослабление шума, по своей сути, введенное процессом кодирования.

Для второго аспекта изобретения, использующего кодер, изображенный на фигурах 4 и 5, целевой уровень gtar комфортного шума должен, в дополнение, учитывать ослабление шума, вызванное модулем шумоподавления в кодере.

Кроме того, добавление комфортного шума, как описано в материалах настоящей заявки, позволяет сгладить переходные артефакты между одним типом кодирования (например) к другому (например, TCX) путем равномерного добавления комфортного шума по всем кадрам.

Фиг. 3 иллюстрирует кодер в соответствии с предшествующим уровнем техники, который может быть использован в комбинации с декодерами, изображенными на фиг. 1 и 2.

Входной сигнал IS непосредственно кодируется кодером 20 битового потока. Кодер 20 битового потока может быть речевым кодером или схемой с малой задержкой, переключающейся между речевым кодером ACELP и основанным на преобразовании звуковым кодером TCX. Кодер 20 битового потока содержит кодер 21 сигнала для кодирования сигнала IS и формирователь 22 битового потока для генерирования битового потока BS для формирования декодированного сигнала DS в декодере 1. Параллельно входной сигнал IS анализируется модулем, называемым анализатором 23 сигнала, который содержит устройство 24 оценки шума. В предпочтительном варианте осуществления устройство 24 оценки шума является тем же, что и используемое в G.718. Оно состоит из устройства 25 спектрального анализа, за которым следует устройство 26 формирования оценки шума. Спектр SI исходного сигнала IS и спектр NI оцененного шума представляют собой входные сигналы в модуль 27 шумоподавления. Модуль 27 шумоподавления ослабляет уровень фонового шума в сигнале FS расширенной частотной области. Степень снижения задается сигналом TAS целевого уровня ослабления. Сигнал TS расширенной временной области (звуковой сигнал с уменьшенным шумом) генерируется после спектрального синтеза, выполненного устройством 28 спектрального синтеза. Сигнал TS используется для выведения некоторых отличительных признаков, таких как стабильность основного тона, который затем используется детектором 29 активности сигнала для различения между активными и неактивными кадрами. Результат классификации может быть дополнительно использован модулем 18 кодера. В предпочтительном варианте осуществления определенный режим кодирования используется для обработки неактивных кадров. Таким образом декодер 1 может вывести флаг активности сигнала (флаг VAD) из битового потока без требования выделенного бита.

Фиг. 4 иллюстрирует первый вариант осуществления кодера 18 в соответствии с изобретением. Кодер 18, изображенный на фиг. 4, основан на кодере 18, показанном на фиг. 3.

Кодер 18, показанный на фиг. 4, выполнен с возможностью формирования звукового битового потока BS, где кодер 18 содержит:

кодер 20 битового потока, выполненный с возможностью формирования закодированного звукового сигнала ES, соответствующего звуковому входному сигналу IS, и извлечения битового потока BS из закодированного звукового сигнала ES;

анализатор 19 сигнала, имеющий устройство 33 оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум звукового входного сигнала IS на основе энергии требуемого сигнала WS звукового входного сигнала IS, определенной устройством 31 оценки энергии требуемого сигнала, и на основе энергии шума N звукового входного сигнала IS, определенной устройством 32 оценки энергии шума;

устройство 27, 28 шумоподавления, выполненное с возможностью формирования звукового сигнала TS с уменьшенным шумом; и

переключающее устройство 35, выполненное с возможностью подачи, в зависимости от определенного соотношения сигнал-шум звукового входного сигнала IS, либо звукового входного сигнала IS, либо звукового сигнала TS с уменьшенным шумом в кодер 20 битового потока с целью кодирования соответствующего сигнала IS, TS, где кодер 20 битового потока выполнен с возможностью передачи дополнительной информации в битовом потоке, которая указывает, закодирован ли звуковой входной сигнал IS или звуковой сигнал TS с уменьшенным шумом.

Кодер 20 битового потока может быть устройством или компьютерной программой, способной кодировать звуковой сигнал, который представляет собой сигнал цифровых данных, содержащих звуковую информацию. Процесс кодирования имеет результатом цифровой битовый поток, который может быть передан по цифровой линии передачи данных в удаленное местоположение.

Часть кодера одного из вариантов осуществления изобретения приведена на фиг. 4. Основное различие по сравнению с фиг. 3 исходит из того факта, что в это время он кодирует выходной сигнал шумоподавления, т.е. расширенный сигнал TS. Чтобы избежать ненужных искажений в бесшумных ситуациях (чистая речь или чистая музыка), шумоподавление применяется только в случае шумной речи и игнорируется в противном случае. Различие между шумным и бесшумными сигналами достигается путем оценки долгосрочной оценки требуемого сигнала WS (речи или музыки) устройством 31 оценки энергии требуемого сигнала и путем оценки долгосрочной энергии шума N устройством 32 оценки энергии шума. С этой целью устройство 31 оценки энергии шума принимает сигнал SI спектра для входного сигнала IS, как предоставлено устройством 25 спектрального анализа. Кроме того, устройство оценки энергии шума принимает сигнал NI оценки шума для входного сигнала IS, как предоставлено устройством 26 формирования оценки шума. Во время активных кадров обновляется только оценка WE долгосрочной энергии речи/музыки. Во время неактивных кадров обновляется только оценка NE энергии шума. Долгосрочная энергия вычисляется посредством авто-регрессионной фильтрации первого порядка либо энергии входного кадра (во время активных кадров), либо с использованием выходного сигнала модуля оценки шума (во время неактивных кадров). Таким образом сигнал RS соотношения сигнал-шум может быть вычислен устройством 33 оценки соотношения сигнал-шум, которое содержит соотношение долгосрочной энергии речи или музыки WS по долгосрочной энергии шума N. Сигнал RS соотношения сигнал-шум подается в детектор 34 шума, который определяет, содержит ли текущий кадр шумный звуковой сигнал или чистый звуковой сигнал. Если сигнал RS соотношения сигнал-шум ниже предопределенного порога, кадр считается шумной речью, в противном случае он классифицируется как чистая речь.

Результат классификации выводится как сигнал NF флага шума, который используется для управления переключателем 35. Кроме того, сигнал NF флага шума подается в кодер 20 битового потока. Кодер 20 битового потока выполнен с возможностью формирования и передачи дополнительной информации, основанной на сигнале NF флага шума, в битовом потоке, которая указывает закодирован ли звуковой входной сигнал IS или звуковой сигнал TS с уменьшенным шумом. Путем декодирования этого флага декодер может отрегулировать целевой уровень шума автоматически без необходимости классификации декодированного сигнала DS как шумного или чистого.

Фиг. 5 иллюстрирует второй вариант осуществления кодера 18 в соответствии с изобретением. Кодер 18, изображенный на фиг. 5, основан на кодере, показанном на фиг. 4. Далее будут объяснены дополнительные отличительные признаки. На фиг. 4 анализатор 30 сигнала содержит детектор 36 активности сигнала, который принимает сигнал SI спектра для входного сигнала IS и сигнала NI оценки шума. Детектор 36 активности сигнала выполнен с возможностью различения между активными кадрами и неактивными кадрами на основе этих двух сигналов. Детектор активности сигнала формирует сигнал SA активности сигнала, который с одной стороны передается в кодер 20 битового потока в целях адаптации битового потока BS к активности сигнала, а с другой стороны используется для переключения переключателя 37, который выполнен с возможностью альтернативно подавать сигнал WE энергии требуемого сигнала или сигнал EN энергии шума в устройство 33 оценки соотношения сигнал-шум.

Фиг. 6 иллюстрирует вариант осуществления формата FF кадра битового потока BS в соответствии с изобретением. Кадр в соответствии с форматом FF кадра содержит вектор SV сигнала, имеющий множество битов, которые расположены в положениях от 0 до n. В положении n+1 расположен бит, представляющий собой флаг AF активности, указывающий, находится ли кадр в активном кадре и неактивном кадре. Кроме того, в положении n+2 ожидается бит, представляющий собой флаг NF шума, указывающий, содержит ли кадр шумные сигналы или командный сигнал. В положении n+3 расположен бит, представляющий собой бит PB заполнения.

В предпочтительном варианте осуществления изобретения дополнительная информация, указывающая, является ли текущий кадр активным или неактивным, состоит из по меньшей мере одного выделенного бита в битовом потоке.

Резюмируя, можно сказать, что в одном из аспектов изобретения исходный сигнал закодирован, и в декодере 1 он декодируется до того, как добавляется к искусственно сгенерированному комфортному шуму CN. Устройство 4 генерирования комфортного шума не требует или требует очень маленького количества дополнительной информации. В первом варианте осуществления устройство 4 генерирования комфортного шума не требует дополнительной информации, и вся обработка делается вслепую. В предпочтительном варианте осуществления устройству 4 генерирования комфортного шума необходимо восстановить информацию VAD (результат классификации активного и неактивного кадра) из битового потока BS, которая может уже присутствовать в битовом потоке и использоваться в других целях. В третьем варианте осуществления устройство 4 генерирования комфортного шума требует от кодера 18 флаг шумной речи, различающий между чистой и шумной речью. Можно также представить любые виды информации, параметрически закодированной, которая может помочь в управлении устройством 4 генерирования комфортного шума.

В другом аспекте изобретения шумоподавление сначала применяется к исходному сигналу IS, и расширенный сигнал TS переправляется в кодер 20 битового потока и передается. В конце декодирования искусственно сгенерированный комфортный шум CN затем добавляется к декодированному (расширенному) сигналу DS. Целевой уровень ослабления, используемый для шумоподавления в кодере, представляет собой статическое значение, используемое совместно с модулем CNG в декодере. Следовательно, целевой уровень ослабления не нуждается в том, чтобы быть явно переданным.

Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует шагу способа или отличительному признаку шага способа. Аналогично, аспекты, описанные в контексте шага способа, также представляют описание соответствующего блока или элемента или отличительного признака соответствующего устройства. Некоторые или все из шагов способа могут быть выполнены посредством (или с использованием) аппаратного устройства, как например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления некоторый один или более из наиболее важных шагов способа могут быть выполнены таким устройством.

В зависимости от определенных требований реализации, варианты осуществления изобретения могут быть реализованы аппаратно или программно. Реализация может быть выполнена с использованием не-временного носителя данных, такого как носитель цифровых данных, например, дискета, DVD, Blu-Ray, PROM (ППЗУ, программируемое постоянное запоминающее устройство), EPROM (СППЗУ, стираемое программируемое постоянное запоминающее устройство), EEPROM (ЭСППЗУ, электрически стираемое программируемое постоянное запоминающее устройство) или ФЛЭШ память, имеющего электронно считываемые управляющие сигналы, хранящиеся на нем, который взаимодействует (или способен взаимодействовать) с программируемой компьютерной системой, так что соответствующий способ выполняется. Следовательно, носитель цифровых данных может быть машинночитаемым.

Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий электронносчитываемые управляющие сигналы, которые способы взаимодействовать с программируемой компьютерной системой, так что один из способов, описанных в материалах настоящей заявки, выполняется.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код способен выполнять один из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машинночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки, хранимую на машинночитаемом носителе.

Другими словами, вариант осуществления изобретательного способа, следовательно, представляет собой компьютерную программу, имеющую программный код для выполнения одного из способов, описанных в материалах настоящей заявки, когда компьютерная программа выполняется на компьютере.

Дополнительный вариант осуществления изобретательного способа, следовательно, представляет собой носитель данных (или носитель цифровых данных, или машинночитаемый носитель), содержащий записанную на него компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки. Носитель данных, носитель цифровых данных или записанная среда, как правило, являются материальными и/или не-временными.

Дополнительный вариант осуществления способа изобретения, следовательно, представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки. Поток данных или последовательность сигналов может, например, быть выполнена с возможностью быть переданной через соединение передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит вычислительный средства, например, компьютер, или программируемое логическое устройство, выполненное с возможностью или адаптированное к выполнению одного из способов, описанных в материалах настоящей заявки.

Дополнительный вариант осуществления содержит компьютер с установленной на него компьютерной программой для выполнения одного из способов, описанных в материалах настоящей заявки.

Дополнительный вариант осуществления, в соответствии с изобретением, содержит устройство или систему, выполненную с возможностью передачи (например, электронно или оптически) компьютерной программы для выполнения одного из способов, описанных в материалах настоящей заявки, в приемник. Приемник может быть, например, компьютером, мобильным устройством, устройством памяти или тому подобным. Устройство или система могут, например, содержать файловый сервер для передачи компьютерной программы в приемник.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая вентильная матрица) может быть использовано для выполнения некоторых или всех из функциональных возможностей способов, описанных в материалах настоящей заявки. В некоторых вариантах осуществления программируемая вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в материалах настоящей заявки. Как правило, эти способы предпочтительно выполняются любым аппаратным устройством.

Описанные выше варианты осуществления являются лишь иллюстративными для принципов настоящего изобретения. Понятно, что модификации и изменения схем и подробностей, описанных в материалах настоящей заявки, будут очевидны специалистам в данной области техники. Следовательно, это является целью быть ограниченным только объемом предстоящей формулы изобретения, а не определенными подробностями, представленными посредством описания и объяснения вариантов осуществления в материалах настоящей заявки.

Условные обозначения:

1 декодер

2 декодер битового потока

3 устройство оценки шума

4 устройство генерирования комфортного шума

5 объединитель

6 устройство спектрального анализа

7 устройство формирования оценки шума

8 генератор шума

9 спектральный синтезатор

10 переключающее устройство

11 управляющее устройство

12 детектор шума

13 приемник дополнительной информации

14 устройство оценки энергии требуемого сигнала

15 устройство оценки энергии шума

16 устройство оценки соотношения сигнал-шум

17 приемник дополнительной информации

17a переключатель

18 кодер

19 анализатор сигнала

20 кодер битового потока

21 кодер сигнала

22 формирователь битового потока

23 анализатор сигнала

24 устройство оценки шума

25 устройство спектрального анализа

26 устройство формирования оценки шума

27 модуль шумоподавления

28 устройство спектрального синтеза

29 детектор активности сигнала

30 анализатор сигнала

31 устройство оценки энергии требуемого сигнала

32 устройство оценки энергии шума

33 устройство оценки соотношения сигнал-шум

34 детектор шума

35 переключатель

36 детектор активности сигнала

37 переключатель

BS закодированный звуковой битовый поток

DS декодированный звуковой сигнал

NE сигнал оценки шума

N шум

CN сигнал комфортного шума

OS звуковой выходной сигнал

AS сигнал анализа

FD сигнал комфортного шума частотной области

ND сигнал обнаружения шума

TNL целевой уровень комфортного шума

IS входной сигнал

ES закодированный сигнал

OW выходной сигнал устройства оценки энергии требуемого сигнала

ON выходной сигнал устройства оценки энергии шума

SI сигнал спектра для входного сигнала

NI сигнал оценки шума для входного сигнала

TAS сигнал целевого ослабления

FS сигнал расширенной частотной области

TS звуковой сигнал с уменьшенным шумом

AD сигнал обнаружения активности

WE сигнал энергии требуемого сигнала

EN сигнал энергии шума

RS сигнал соотношения сигнал-шум

NF флаг шума

SA сигнал активности сигнала

FF формат кадра

SV вектор сигнала

AF флаг активности

NF сигнал флага шума

PB бит заполнения

Литература

1. Рекомендации ITU-T G.718: "Устойчивое к ошибкам кадра узкополосное и широкополосное встроенное кодирование речи и звука с переменной скоростью передачи данных от 8-32 кбит/с".

2. 3GPP TS 26.190 "Адаптивное Многоскоростное широкополосное речевое транскодирование", 3GPP Техническая Спецификация.

1. Декодер, выполненный с возможностью обработки закодированного звукового битового потока (BS), при этом декодер (1) содержит:

декодер (2) битового потока, выполненный с возможностью извлечения декодированного звукового сигнала (DS) из битового потока (BS), причем декодированный звуковой сигнал (DS) содержит по меньшей мере один декодированный кадр;

устройство (3) оценки шума, выполненное с возможностью формирования сигнала (NE) оценки шума, содержащего оценку уровня и/или спектральной формы шума (N) в декодированном звуковом сигнале (DS);

устройство (4) генерирования комфортного шума, выполненное с возможностью извлечения сигнала (CN) комфортного шума из сигнала (NE) оценки шума; и

объединитель (5), выполненный с возможностью объединения декодированного кадра декодированного звукового сигнала (DS) и сигнала (CN) комфортного шума, чтобы получить звуковой выходной сигнал (OS) таким образом, что декодированный кадр в звуковом выходном сигнале (OS) содержит искусственный шум.

2. Декодер по п. 1, в котором декодированный кадр представляет собой активный кадр.

3. Декодер по п. 1, в котором декодированный кадр представляет собой неактивный кадр.

4. Декодер по п. 1, в котором устройство (3) оценки шума содержит устройство (6) спектрального анализа, выполненное с возможностью создания сигнала (AS) анализа, содержащего уровень и спектральную форму шума (N) в декодированном звуковом сигнале (DS), и устройство (7) формирования оценки шума, выполненное с возможностью формирования сигнала (NE) оценки шума на основе сигнала (AS) анализа.

5. Декодер по п. 1, в котором устройство (4) генерирования комфортного шума содержит генератор (8) шума, выполненный с возможностью создания сигнала (FD) комфортного шума частотной области на основе сигнала (NE) оценки шума, и спектральный синтезатор (9), выполненный с возможностью создания сигнала (CN) комфортного шума на основе сигнала (FD) комфортного шума частотной области.

6. Декодер по п. 1, при этом декодер (1) содержит переключающее устройство (10), выполненное с возможностью переключения декодера альтернативно в первый режим работы или второй режим работы, причем в первом режиме работы сигнал (CN) комфортного шума подается в объединитель (5), тогда как сигнал (CN) комфортного шума не подается в объединитель (5) во втором режиме работы.

7. Декодер по п. 6, при этом декодер (1) содержит управляющее устройство (11), выполненное с возможностью управления переключающим устройством (10) автоматически, причем управляющее устройство (11) содержит детектор (12) шума и выполнено с возможностью управления переключающим устройством (11) в зависимости от соотношения сигнал-шум декодированного звукового сигнала (DS), при этом в условиях низкого соотношения сигнал-шум декодер (1) переключается в первый режим работы, а в условиях высокого соотношения сигнал-шум - во второй режим работы.

8. Декодер по п. 7, в котором управляющее устройство (11) содержит приемник (13) дополнительной информации, выполненный с возможностью приема дополнительной информации, содержащейся в битовом потоке (BS), которая соответствует соотношению сигнал-шум декодированного звукового сигнала (DS), и выполненный с возможностью создания сигнала (ND) обнаружения шума, причем детектор (12) шума переключает переключающее устройство (11) в зависимости от сигнала (ND) обнаружения шума.

9. Декодер по п. 8, в котором дополнительная информация, соответствующая соотношению сигнал-шум декодированного звукового сигнала (DS), состоит из по меньшей мере одного выделенного бита в битовом потоке (BS).

10. Декодер по п. 7, в котором управляющее устройство (11) содержит устройство (14) оценки энергии требуемого сигнала, выполненное с возможностью определения энергии требуемого сигнала (WS) декодированного звукового сигнала (DS), устройство (15) оценки энергии шума, выполненное с возможностью определения энергии шума (N) декодированного звукового сигнала (DS), и устройство (16) оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум декодированного звукового сигнала (DS) на основе энергии требуемого сигнала (WS) и на основе энергии шума (N), причем переключающее устройство (10) переключается в зависимости от соотношения сигнал-шум, определенного управляющим устройством (11).

11. Декодер по п. 7, в котором битовый поток содержит активные кадры и неактивные кадры, причем управляющее устройство (11) выполнено с возможностью определения энергии требуемого сигнала (WS) декодированного звукового сигнала (DS) во время активных кадров и определения энергии шума (N) декодированного звукового сигнала (DS) во время неактивных кадров.

12. Декодер по п. 1, в котором битовый поток содержит активные кадры и неактивные кадры, при этом декодер (1) содержит приемник (17) дополнительной информации, выполненный с возможностью различать активные кадры и неактивные кадры на основе дополнительной информации в битовом потоке (BS), указывающей, является ли текущий кадр активным или неактивным.

13. Декодер по п. 12, в котором дополнительная информация, указывающая, является ли текущий кадр активным или неактивным, состоит из по меньшей мере одного выделенного бита в битовом потоке (BS).

14. Декодер по п. 4, в котором управляющее устройство (11) выполнено с возможностью определения энергии требуемого сигнала (WS) декодированного звукового сигнала (DS) на основе сигнала (AS) анализа.

15. Декодер по п. 7, в котором управляющее устройство (11) выполнено с возможностью определения энергии шума (N) декодированного звукового сигнала (DS) на основе сигнала (NE) оценки шума.

16. Декодер по п. 1, в котором устройство (4) генерирования комфортного шума выполнено с возможностью создания сигнала (CN) комфортного шума на основе сигнала (TNL) целевого уровня комфортного шума.

17. Декодер по п. 16, в котором сигнал (TNL) целевого уровня комфортного шума регулируется в зависимости от скорости передачи данных битового потока (BS).

18. Декодер по п. 15, в котором сигнал (TNL) целевого уровня комфортного шума регулируется в зависимости от уровня ослабления шума, вызванного способом шумоподавления, примененным к битовому потоку (BS).

19. Декодер по п. 16, в котором энергия Ew(k) полосы k частот сигнала (FD) комфортного шума частотной области регулируется в зависимости от сигнала (TNL) целевого уровня комфортного шума, который указывает целевой уровень gtar комфортного шума для каждой полосы k частот как , где относится к оценке энергии шума (N) декодированного звукового сигнала (DS) в полосе k частот, как доставлено устройством (7) формирования оценки шума.

20. Декодер по п. 1, при этом декодер (1) содержит дополнительный декодер битового потока, причем декодер (2) битового потока и дополнительный декодер битового потока являются декодерами различных типов, при этом декодер (1) содержит переключатель, выполненный с возможностью подачи либо декодированного сигнала (DS) из декодера (2) битового потока, либо декодированного сигнала из дополнительного декодера битового потока в устройство (3) оценки шума и в объединитель (5).

21. Кодер, выполненный с возможностью формирования звукового битового потока (BS), при этом кодер (18) содержит:

кодер (20) битового потока, выполненный с возможностью формирования закодированного звукового сигнала (ES), соответствующего звуковому входному сигналу (IS), и извлечения битового потока (BS) из закодированного звукового сигнала (ES);

анализатор (30) сигнала, имеющий устройство (33) оценки соотношения сигнал-шум, выполненное с возможностью определения соотношения сигнал-шум звукового входного сигнала (IS) на основе энергии требуемого компонента (WS) звукового входного сигнала (IS), определенной устройством (31) оценки энергии требуемого сигнала, и на основе энергии шума (N) звукового входного сигнала (IS), определенной устройством (32) оценки энергии шума;

устройство (27, 28) шумоподавления, выполненное с возможностью формирования звукового сигнала (TS) с уменьшенным шумом; и

переключающее устройство (35), выполненное с возможностью подачи, в зависимости от определенного соотношения сигнал-шум звукового входного сигнала (IS), либо звукового входного сигнала (IS), либо звукового сигнала (TS) с уменьшенным шумом в кодер (20) битового потока для кодирования соответствующего сигнала (IS, TS), причем кодер (20) битового потока выполнен с возможностью передачи дополнительной информации (NF), которая указывает, закодирован ли звуковой входной сигнал (IS) или звуковой сигнал (TS) с уменьшенным шумом, в битовом потоке (BS).

22. Система, содержащая декодер (1) и кодер (18), причем декодер (1) сконфигурирован согласно одному из пп. 1-19 и/или кодер (18) сконфигурирован согласно п. 21.

23. Способ декодирования звукового битового потока (BS), при этом способ содержит этапы, на которых:

извлекают декодированный звуковой сигнал (DS) из битового потока (BS), причем декодированный звуковой сигнал (DS) содержит по меньшей мере один декодированный кадр;

формируют сигнал (NE) оценки шума, содержащий оценку уровня и/или спектральной формы шума (N) в декодированном звуковом сигнале (DS);

извлекают сигнал (CN) комфортного шума из сигнала (NE) оценки шума; и

объединяют декодированный кадр декодированного звукового сигнала (DS) и сигнал (CN) комфортного шума, чтобы получить звуковой выходной сигнал (OS) таким образом, что декодированный кадр в звуковом выходном сигнале (OS) содержит искусственный шум.

24. Способ кодирования звукового сигнала для формирования звукового битового потока (BS), при этом способ содержит этапы, на которых:

определяют соотношение сигнал-шум звукового входного сигнала (IS) на основе определенной энергии требуемого компонента (WS) звукового входного сигнала (IS) и определенной энергии шума (N) звукового входного сигнала (IS);

формируют звуковой сигнал (TS) с уменьшенным шумом;

формируют закодированный звуковой сигнал (ES), соответствующий звуковому входному сигналу (IS), причем в зависимости от определенного соотношения сигнал-шум звукового входного сигнала (IS) кодируется либо звуковой входной сигнал (IS), либо звуковой сигнал (TS) с уменьшенным шумом;

извлекают битовый поток (BS) из закодированного звукового сигнала (ES); и

передают дополнительную информацию (NF), которая указывает, закодирован ли звуковой входной сигнал (IS) или звуковой сигнал (TS) с уменьшенным шумом, в битовом потоке (BS).

25. Машиночитаемое запоминающее устройство, содержащее компьютерную программу для выполнения, при работе на компьютере или процессоре, способа по п. 23.

26. Машиночитаемое запоминающее устройство, содержащее компьютерную программу для выполнения, при работе на компьютере или процессоре, способа по п. 24.



 

Похожие патенты:

Изобретение относится к средствам возбуждения смешанной кодовой книги для кодирования речи. Технический результат заключается в повышении воспринимаемого качества речевого сигнала по сравнению с системами кодирования, использующими только импульсное возбуждение или только шумовое возбуждение.

Изобретение относится к средствам для кодирования и декодирования аудиосигнала. Технический результат заключается в повышении качества декодированного сигнала.

Изобретение относится к акустике, в частности, к способам обработки аудиоинформации. Способ получения спектральных коэффициентов для заменяющего кадра аудиосигнала осуществляется следующим образом: детектируют тональные компоненты спектра аудиосигнала на основании пика, который присутствует в спектрах кадров, предшествующих заменяющему кадру, для тонального компонента спектра осуществляют предсказание спектральных коэффициентов для пика и его окружения в спектре заменяющего кадра и для нетонального компонента спектра используют непредсказываемый спектральный коэффициент для заменяющего кадра или соответствующего спектрального коэффициента кадра, предшествующего заменяющему кадру.

Изобретение относится к средствам для выбора алгоритма кодирования. Технический результат заключается в уменьшении сложности выбора между первым алгоритмом кодирования и вторым алгоритмом кодирования.

Изобретение относится к средствам для заполнения шумом при аудиокодировании. Технический результат заключается в повышении качества аудио после заполнения спектра шумом.

Изобретение относится к средствам для аудиокодирования и аудиодекодирования. Технический результат заключается в снижении искажения компонента частотного диапазона, кодированного с малым числом битов во временной области.

Изобретение относится к средствам для определения режима кодирования и для кодирования/декодирования аудиосигналов. Технический результат заключается в сокращении задержек, вызванных частым изменением режима кодирования.

Изобретение относится к средствам звукового кодирования и декодирования. Технический результат заключается в повышении качества кодирования за счет обеспечения плавного перехода между кодированием во временной области и кодированием в частотной области.

Изобретение относится к средствам для кодирования и декодирования звука. Технический результат заключается в повышении качества восстановления звуковых объектов.

Изобретение относится к средствам для маскирования ошибок при кодировании речи с низкой задержкой. Технический результат заключается в обеспечении возможности маскирования ошибок для кадров аудиосигнала без возникновения искусственных артефактов.

Изобретение относится к последовательности цифровых переключающих сигналов для целей переключения. Технический результат – повышение точности обнаружения последовательности цифровых переключающих сигналов. Последовательность цифровых переключающих сигналов реализуется как предварительно оцифрованный, отфильтрованный фильтром верхних частот сигнал белого шума предварительно определенной длительности T, с верхней частотой среза, лежащей выше частоты, на которой характеристика порогового значения громкости в тишине для человеческого слуха имеет наибольшую возможную чувствительность. Последовательность переключающих сигналов используется для целей переключения, например переключения между двумя информационными сигналами. 2 н. и 9 з.п. ф-лы, 10 ил.

Изобретение относится к средствам для кодирования, декодирования и обработки звукового сигнала. Технический результат заключается в повышении эффективности кодирования звука с низкой задержкой и низкой скоростью передачи данных. Устройство для генерации выходного звукового сигнала содержит блок обработки для обработки спектра кодированного звукового сигнала для получения спектра декодированного звукового сигнала, содержащего множество спектральных коэффициентов, причем каждый из спектральных коэффициентов имеет спектральное расположение в спектре кодированного звукового сигнала и спектральное значение, причем спектральные коэффициенты последовательно упорядочиваются согласно их спектральному расположению в спектре кодированного звукового сигнала так, чтобы спектральные коэффициенты сформировали последовательность спектральных коэффициентов. Кроме того, устройство содержит блок замены для замены по меньшей мере одного или большего количества псевдокоэффициентов определенным спектральным шаблоном для получения измененного спектра звукового сигнала, причем определенный спектральный шаблон содержит по меньшей мере два коэффициента шаблона, причем каждый по меньшей мере из двух коэффициентов шаблона имеет спектральное значение. 6 н. и 17 з.п. ф-лы, 17 ил., 4 табл.

Изобретение относится к средствам для кодирования и декодирования звука. Технический результат заключается в повышении эффективности кодирования и декодирования звуковых объектов. Способов кодирования включает, среди прочего, вычисление М сигналов понижающего микширования путем формирования комбинаций N звуковых объектов, где M≤N, и вычисление параметров, позволяющих восстанавливать набор звуковых объектов, сформированный на основе N звуковых объектов, исходя из М сигналов понижающего микширования. Вычисление М сигналов понижающего микширования осуществляют в соответствии с критерием, не зависящим от какой-либо конфигурации громкоговорителей. 7 н. и 29 з.п. ф-лы, 11 ил.
Наверх