Способ оценки шума в аудиосигнале, средство оценки шума, аудиокодер, аудиодекодер и система для передачи аудиосигналов

Авторы патента:

ДИТЦ Мартин (DE)

ШУБЕРТ Беньямин (DE)

МУЛЬТРУС Маркус (DE)

ЛОМБАРД Антони (DE)

ЯНДЕР Мануэль (DE)

G10L25/03 - Анализирование или синтезирование речи; распознавание речи (ввод/вывод звука для компьютеров G06F 3/16; способы или устройства для обработки цифровых данных, специально предназначенных для манипулирования данными на естественном языке G06F 17/20; обучение или общение со слепыми, глухими или немыми G09B 21/00; телефонная связь H04M)

G10L21/02 - усиление речи, например подавление шума, нейтрализация эхо-сигнала (подавление эхо-сигнала в громкоговорящих телефонных системах H04M 9/08, в аппаратах для людей с дефектами слуха H04R 15/00)

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

G10L19/00 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2666474:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к области обработки аудиосигналов. Технический результат – обеспечение эффективной оценки шума в аудиосигнале. Данный способ оценки шума в аудиосигнале заключается в том, что оценивают (S100) значение энергии для аудиосигнала и преобразуют (S102) его в логарифмическую область. Уровень шума для аудиосигнала оценивают (S104) на основании преобразованного значения энергии. 6 н. и 5 з.п. ф-лы, 3 ил., 1 табл.

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Изобретение относится к области обработки аудиосигналов, в частности, относится к подходу к оценке шума в аудиосигнале, например, в аудиосигнале, подлежащем кодированию, или в аудиосигнале, который был декодирован. В вариантах осуществления изобретения описаны способ оценки шума в аудиосигнале, средство оценки шума, аудиокодер, аудиодекодер и система для передачи аудиосигналов.

УРОВЕНЬ ТЕХНИКИ

В области обработки аудиосигналов, например, для кодирования аудиосигналов или для обработки декодированных аудиосигналов возникают ситуации, когда требуется оценить шум. Например, в PCT/EP2012/077525 и PCT/EP2012/077527, включенных в настоящий документ путем ссылки, описано использование средства оценки шума, например, средства оценки шума на основе статистики минимумов для оценки спектра фонового шума в частотной области. Сигнал, который подают в алгоритм, уже преобразован на поблочной основе в частотную область, например, с использованием быстрого преобразования Фурье (FFT) или любого другого подходящего банка фильтров. Кадрирование обычно идентично кадрированию кодека, то есть, можно повторно использовать преобразования, уже существующие в кодеке, например, в кодере EVS (усовершенствованные услуги телефонии), в котором преобразование FFT используют для предварительной обработки. В целях оценки шума вычисляют спектр мощности для FFT. Этот спектр группируют в полосы на основании психоакустических характеристик, и в полосе накапливают элементы дискретизации спектра мощности для формирования значения энергии для каждой полосы. В конце концов, с помощью этого подхода получают набор значений энергии, который также часто используют для психоакустической обработки аудиосигнала. Для каждой полосы имеется свой собственный алгоритм оценки шума, то есть, в каждом кадре значение энергии данного кадра обрабатывают с использованием алгоритма оценки шума, который анализирует изменение сигнала во времени и выдает оценку уровня шума для каждой полосы в любом данном кадре.

Выборочное разрешение, используемое для высококачественных речевых и аудиосигналов, может составлять 16 бит, то есть, такой сигнал имеет отношение сигнал-шум (SNR), равное 96 дБ. Вычисление спектра мощности представляет собой преобразование сигнала в частотную область и вычисление квадрата каждого элемента дискретизации по частоте. Из-за использования квадратичной функции требуется иметь динамический диапазон, равный 32 бита. Суммирование нескольких элементов дискретизации спектра мощности по частоте в полосы потребует дополнительный запас по динамическому диапазону, поскольку распределение энергии в полосе в действительности неизвестно. В результате, для функционирования средства оценки шума в процессоре потребуется динамический диапазон, превышающий 32 бита, как правило, около 40 бит.

В устройствах, обрабатывающих аудиосигналы, которые функционируют, потребляя энергию, полученную от блока накопления энергии типа батареи, например, в портативных устройствах типа мобильных телефонов, с точки зрения срока службы батареи очень важно обеспечить энергосберегающую обработку аудиосигналов. Согласно известным подходам такая обработка аудиосигналов выполняется процессорами с фиксированной точкой, которые, как правило, поддерживают обработку данных в формате 16 или 32 бита с фиксированной точкой. Минимальная сложность обработки достигается при использовании обработки 16-битных данных, в то время как для обработки 32-битных данных уже потребуются некоторые дополнительные ресурсы. Для обработки данных с динамическим диапазоном 40 бит потребуется расщепление данных на две части, а именно, мантиссу и порядок, с каждой из которых необходимо иметь дело при модификации данных, что, в свою очередь, приводит как к увеличению сложности вычислений, так и повышению расхода памяти.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Исходя из уровня техники, описанного выше, задача настоящего изобретения состоит в создании подхода к эффективной оценке шума в аудиосигнале с использованием процессора с фиксированной точкой во избежание ненужного использования дополнительных вычислительных ресурсов.

Данная задача решается объектом изобретения, определенным в независимых пунктах формулы изобретения.

Настоящее изобретение обеспечивает способ оценки шума в аудиосигнале, причем способ содержит этапы, на которых определяют значения энергии для аудиосигнала, преобразуют значение энергии в логарифмическую область и оценивают уровень шума для аудиосигнала на основании преобразованного значения энергии.

Настоящее изобретение обеспечивает средство оценки шума, содержащее детектор, выполненный с возможностью определения значения энергии для аудиосигнала, преобразователь, выполненный с возможностью преобразования значения энергии в логарифмическую область, и средство оценки, выполненное с возможностью оценки уровня шума для аудиосигнала на основании преобразованного значения энергии.

Настоящее изобретение обеспечивает средство оценки шума, выполненное с возможностью функционирования согласно предложенному в изобретении способу.

Согласно вариантам осуществления изобретения, логарифмическая область содержит логарифмическую область по основанию 2.

Согласно вариантам осуществления, оценка уровня шума содержит выполнение заданного алгоритма оценки шума на основании преобразованного значения энергии непосредственно в логарифмической области. Оценку шума можно выполнить, используя алгоритм на основе статистики минимумов, описанный в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001. В других вариантах осуществления могут быть использованы альтернативные алгоритмы оценки шума типа средства оценки шума на основе MMSE, описанного в работе T. Gerkmann и R. C. Hendriks, ʺUnbiased MMSE-based noise power estimation with low complexity and low tracking delayʺ, 2012, или алгоритм, описанный в работе L. Lin, W. Holmes, и E. Ambikairajah, ʺAdaptive noise estimation algorithm for speech enhancementʺ, 2003.

Согласно вариантам осуществления определение значения энергии содержит получение спектра мощности аудиосигнала посредством преобразования аудиосигнала в частотную область, группирование спектра мощности в полосы на основании психоакустических характеристик и накопление элементов дискретизации спектра мощности в полосе для формирования значения энергии для каждой полосы, причем значение энергии для каждой полосы преобразуют в логарифмическую область, и при этом уровень шума оценивают для каждой полосы на основании соответствующего преобразованного значения энергии.

Согласно вариантам осуществления аудиосигнал содержит множество кадров, причем значение энергии для каждого кадра определяют и преобразуют в логарифмическую область, и для каждой полосы оценивают уровень шума на основании преобразованного значения энергии.

Согласно вариантам осуществления, значение энергии преобразуют в логарифмическую область следующим образом:

где - минимальное (x),

- значение энергии полосы n в логарифмической области по основанию 2,

- значение энергии полосы n в линейной области,

- разрешение/точность.

Согласно вариантам осуществления оценка уровня шума на основании преобразованного значения энергии обеспечивает логарифмические данные, причем способ дополнительно содержит использование этих логарифмических данных непосредственно для дополнительной обработки или преобразование этих логарифмических данных обратно в линейную область для дополнительной обработки.

Согласно вариантам осуществления логарифмические данные преобразуют непосредственно в данные передачи в случае выполнения передачи в логарифмической области, и при преобразовании логарифмических данных непосредственно в данные передачи используют функцию сдвига вместе со справочной таблицей или аппроксимацию, например, .

Настоящее изобретение обеспечивает постоянный компьютерный программный продукт, содержащий машиночитаемый носитель, на котором хранятся команды, которые при их выполнении компьютером осуществляют способ согласно изобретению.

Настоящее изобретение также обеспечивает аудиокодер, содержащий средство оценки шума согласно изобретению.

Настоящее изобретение также обеспечивает аудиодекодер, содержащий средство оценки шума согласно изобретению.

Настоящее изобретение обеспечивает систему для передачи аудиосигналов, причем эта система содержит аудиокодер, выполненный с возможностью создания кодированного аудиосигнала на основании полученного аудиосигнала, и аудиодекодер, выполненный с возможностью приема кодированного аудиосигнала, для декодирования кодированного аудиосигнала и вывода, декодированного аудиосигнала, причем по меньшей мере одно из аудиокодера или аудиодекодера содержит средство оценки шума согласно изобретению.

Настоящее изобретение основано на выводах авторов изобретения о том, что в отличие от стандартных подходов, в которых алгоритм оценки шума выполняется на линейных данных энергии, в целях оценки уровней шумов в аудио/речевом материале можно выполнять алгоритм также и на основании логарифмических входных данных. Для оценки шума требование к точности данных не очень высоко, например, при использовании оценки значений для формирования комфортного шума (как описано в PCT/EP2012/077525 или PCT/EP2012/077527, которые включены в настоящий документ путем ссылки) было обнаружено, что достаточно получить грубую оценку уровня шума для каждой полосы, то есть независимо от того, превышает ли оценка уровня шума, например, 0,1 дБ, он не будет значительно ощущаться в конечном сигнале. Таким образом, хотя возможно потребуется 40 бит для покрытия динамического диапазона данных, точность данных для сигналов со средним/высоким уровнем в стандартных подходах гораздо выше, чем это реально необходимо. На основании этих новых результатов согласно вариантам осуществления ключевым элементом изобретения является преобразование значения энергии для каждой полосы в логарифмическую область (предпочтительно в логарифмическую область по основанию 2) и выполнение оценки шума, например, на основе алгоритма статистики минимумов или любого другого подходящего алгоритма непосредственно в логарифмической области, что позволяет представлять значения энергии в 16-битном формате, а это, в свою очередь, позволяет обеспечить более эффективную обработку, например, используя процессор с фиксированной точкой.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Ниже описаны варианты осуществления настоящего изобретения с обращением к сопровождающим чертежам, на которых:

Фиг. 1 - упрощенная блок-схема системы для передачи аудиосигналов, в которой реализуется подход согласно изобретению к оценке шума в аудиосигнале, подлежащем кодированию, или в декодированном аудиосигнале;

Фиг. 2 - упрощенная блок-схема средства оценки шума согласно варианту осуществления, который можно использовать в кодере аудиосигнала и/или декодере аудиосигнала; и

Фиг. 3 - блок-схема, иллюстрирующая подход к оценке шума в аудиосигнале согласно изобретению в соответствии с вариантом осуществления изобретения.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Ниже подробно описаны варианты осуществления подхода согласно изобретению, причем следует заметить, что элементы на сопровождающих чертежах, имеющие одинаковые или близкие функциональные возможности, обозначены одинаковыми ссылочными позициями.

На фиг. 1 представлена упрощенная блок-схема системы для передачи аудиосигналов, которая реализует подход согласно изобретению на стороне кодера и/или на стороне декодера. Система по фиг. 1 содержит кодер 100, принимающий на входе 102 аудиосигнал 104. Кодер включает в себя кодирующий процессор 106, получающий аудиосигнал 104 и создающий кодированный аудиосигнал, который обеспечивается на выходе 108 кодера. Кодирующий процессор может быть запрограммирован или построен для обработки последовательных аудиокадров аудиосигнала и для реализации подхода к оценке шума в аудиосигнале 104, подлежащем кодированию, согласно изобретению. В других вариантах осуществления кодер не обязательно является частью системы передачи; то есть он может представлять собой автономное устройство, формирующее кодированные аудиосигналы, или он может быть частью передатчика аудиосигнала. Согласно одному варианту осуществления кодер 100 может содержать антенну 110, позволяющую осуществлять беспроводную передачу аудиосигнала, как показано ссылочной позицией 112. В других вариантах осуществления кодер 100 может выводить кодированный аудиосигнал, обеспечиваемый на выходе 108, используя проводную соединительную линию, как показано, например, под ссылочной позицией 114.

Система по фиг. 1, кроме того, содержит декодер 15, имеющий вход 152, принимающий кодированный аудиосигнал, подлежащий обработке декодером 150, например, через проводную линию 114 или через антенну 154. Декодер 150 содержит декодирующий процессор 156, работающий с кодированным сигналом и обеспечивающий декодированный аудиосигнал 158 на выходе 160. Декодирующий процессор может быть запрограммирован или построен для обработки, предназначенной для реализации подхода согласно изобретению к оценке шума в декодированном аудиосигнале 104. В других вариантах осуществления декодер не обязательно должен быть частью системы передачи, а может представлять собой автономное устройство для декодирования кодированных аудиосигналов или может быть частью приемника аудиосигнала.

На фиг. 2 показана упрощенная блок-схема средства 170 оценки шума согласно одному варианту осуществления. Средство 170 оценки шума может быть использовано в кодере аудиосигнала и/или декодере аудиосигнала, показанных на фиг. 1. Средство 170 оценки шума включает в себя детектор 172 для определения значения 174 энергии для аудиосигнала 102, преобразователь 176 для преобразования значения 174 энергии в логарифмическую область (см. преобразованное значение 178 энергии) и средство 180 оценки для оценки уровня 182 шума для аудиосигнала 102 на основании преобразованного значения 178 энергии. Средство 170 оценки может быть реализовано процессором общего назначения или множеством процессоров, запрограммированных или построенных для реализации функциональных возможностей детектора 172, преобразователя 176 и средства 180 оценки.

Ниже подробно описаны варианты осуществления подхода согласно изобретению, который может быть реализован по меньшей мере в одном процессоре (кодирующем процессоре 106 и/или декодирующем процессоре 156 по фиг. 1) или средством 170 оценки по фиг. 2.

На фиг. 3 показана блок-схема подхода согласно изобретению к оценке шума в аудиосигнале. После приема аудиосигнала на первом шаге S100 определяют значение 174 энергии для аудиосигнала, которое затем на шаге S102 преобразуют в логарифмическую область. На шаге S104 на основании преобразованного значения 178 энергии выполняют оценку шума. Согласно вариантам осуществления на шаге S106 определяют, требуется ли дополнительная обработка данных оценки шума, которые представлены логарифмическими данными 182, в логарифмической области. В случае, когда необходима дополнительная обработка в логарифмической области (да, на шаге S106), на шаге S108 выполняют обработку логарифмических данных, представляющих оценку шума; например, выполняют преобразование логарифмических данных в параметры передачи в том случае, когда передача происходит также в логарифмической области. В противном случае (нет, на шаге S106) логарифмические данные 182 преобразуют обратно в линейные данные на шаге S110, которые обрабатывают на шаге S112.

Согласно вариантам осуществления определение на шаге S100 значения энергии для аудиосигнала может быть выполнено согласно стандартным подходам. Сначала вычисляют спектр мощности преобразования FFT, примененного к данному аудиосигналу, а затем группируют полосы на основании психоакустических характеристик. Далее аккумулируют элементы дискретизации спектра мощности в полосе для формирования значения энергии для каждой полосы, чтобы получить набор значений энергии. В других вариантах осуществления возможно вычисление спектра мощности на основе любого подходящего спектрального преобразования типа MDCT (модифицированное дискретное косинусное преобразование), CLDFB (комплексный банк фильтров с низкой задержкой) или комбинации из нескольких преобразований, охватывающих разные части спектра. На шаге S100 определяют значение 174 энергии для каждой полосы, а затем значение 174 энергии для каждой полосы преобразуют на шаге S102 в логарифмическую область, согласно вариантам осуществления в логарифмическую область по основанию 2. Энергию полос можно преобразовать в логарифмическую область по основанию 2 следующим образом:

где - минимальное (x),

- значение энергии полосы n в логарифмической области по основанию 2,

- значение энергии полосы n в линейной области,

- разрешение/точность.

Согласно вариантам осуществления выполняют преобразование в логарифмическую область по основанию 2, которое обеспечивает преимущество, заключающееся в том, что целочисленную логарифмическую функцию по основанию 2 обычно можно вычислить очень быстро, например за один цикл, на процессорах с фиксированной точкой, используя функцию «норма», которая определяет количество начальных нулей в числе с фиксированной точкой. Иногда необходима более высокая точность, чем (целочисленный) log2, которая выражается в приведенной выше формуле константой N. Эта чуть более высокая точность может быть обеспечена посредством использования простой справочной таблицы, содержащей старшие значащие биты, после команды «норма» и аппроксимации, что относится к общим подходам, обеспечивающим несложные логарифмические вычисления, когда допустима более низкая точность. В приведенной выше формуле добавлена константа «1» в логарифмической функции по основанию 2 для того, чтобы преобразованные значения энергии гарантированно оставались положительными. Согласно вариантам осуществления это может оказаться важным в том случае, когда средство оценки шума основано на статистической модели энергии шума, так как выполнение оценки шума на отрицательных значениях нарушает принцип построения модели и приводит к непредвиденным результатам функционирования средства оценки.

Согласно варианту осуществления в вышеприведенной формуле N установлено равным 6, что эквивалентно 2⁶=64 битам динамического диапазона. Это превышает вышеописанный динамический диапазон, равный 40 бит, и, следовательно, является достаточным. При обработке данных целью является использование 16-битных данных, что позволяет использовать 9 бит для мантиссы и один бит для знака. Этот формат обычно обозначается как формат «6Q9». В альтернативном варианте, поскольку можно рассматривать только положительные значения, бит знака можно опустить и использовать для мантиссы, оставляя для нее всего 10 бит (такой формат называется форматом «6Q10»).

Подробное описание алгоритма на основе статистики минимумов можно найти в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001. По существу, он заключается в отслеживании минимумов сглаженного спектра мощности в скользящем временном окне заданной длины для каждой спектральной полосы, как правило, в течение пары секунд. Этот алгоритм также включает в себя компенсацию смещения для повышения точности оценки шума. Кроме того, для улучшения отслеживания изменяющегося во времени шума можно использовать локальные минимумы, вычисленные на гораздо более коротком временном окне, вместо использования исходных минимумов, при условии, что это вызывает умеренное увеличение оценок энергии шума. Допустимая величина увеличения определена в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001, в виде параметра noise_slope_max. Согласно одному варианту осуществления используют алгоритм оценки шума на основе статистики минимумов, который обычно выполняется на линейных данных энергии. Однако, согласно полученным авторами изобретения новым результатам, в целях оценки уровней шума в аудиоматериале или речевом материале данный алгоритм может работать вместо этого с логарифмическими входными данными. Хотя сама обработка сигнала остается неизменной, потребуется минимальное количество возвратов, что выражается в уменьшении параметра noise_slope_max для обеспечения возможности работы с уменьшенным динамическим диапазоном логарифмических данных по сравнению с линейными данными. До сих пор полагалось, что алгоритм на основе статистики минимумов или другие подходящие способы оценки шума должны выполняться на линейных данных, то есть, полагалось, что логарифмическое представление в действительности здесь не подходит. В отличие от этого традиционного предположения, авторы изобретения установили, что оценку шума действительно можно выполнять на основании логарифмических данных, что позволяет использовать входные данные, которые представлены только в 16-битном формате, что, как следствие, значительно упрощает реализации с фиксированной точкой, так как большинство операций может выполняться в 16-битном формате, и лишь для некоторых частей алгоритма все же требуется 32-битный формат. Например, в алгоритме на основе статистики минимумов компенсация смещения основана на дисперсии входной мощности, хотя для статистики четвертого порядка, как правило, все же требуется 32-битное представление.

Как было описано выше в связи с фиг. 3, результат процесса оценки шума можно дополнительно обработать различными путями. Согласно вариантам осуществления, первый путь состоит в непосредственном использовании логарифмических данных 182, как показано на шаге S108, например, путем непосредственного преобразования логарифмических данных 182 в параметры передачи, если эти параметры также передаются в логарифмической области, что часто встречается. Второй путь заключается в обработке логарифмических данных 182, в ходе которой их преобразуют обратно в линейную область для дальнейшей обработки, например, используя функцию сдвига, что обычно выполняется очень быстро и, как правило, занимает только один цикл работы процессора вместе со справочной таблицей, или посредством использования аппроксимации, например:

Далее со ссылками на кодер описан подробный пример реализации подхода согласно изобретению к оценке шума на основании логарифмических данных; однако, как подчеркивалось выше, подход согласно изобретению также можно применить к сигналам, которые были декодированы в декодере, как это описано, например, PCT/EP2012/077525 или PCT/EP2012/077527, содержание которых включено в настоящий документ путем ссылки. В нижеследующем варианте осуществления описана реализация подхода согласно изобретению к оценке шума в аудиосигнале в аудиокодере типа кодера 100 по фиг. 1. В частности, далее описан алгоритм обработки сигнала, используемый в кодере EVS (усовершенствованные услуги телефонии) для реализации подхода согласно изобретению к оценке шума в аудиосигнале, полученном EVS кодером.

Положим, что входные блоки отсчетов аудио длительностью 20 мс представлены в 16-битном едином формате PCM (импульсно-кодовой модуляции). Положим, что имеется четыре частоты дискретизации, например, 8000, 16000, 32000 и 48000 отсчетов/с, а скорости передачи в битах для кодированного битового потока могут составлять 5,9, 7,2, 8,0, 9,6, 13,2, 16,4, 24,4, 32,0, 48,0 64,0, или 128,0 кбит/с. Также может быть обеспечен межоперационный режим AMR-WB (Адаптивный многоскоростной широкополосный кодек) со скоростями передачи в битах для кодированного битового потока 6,6, 8,85, 12,65, 14,85, 15,85, 18,25, 19,85, 23,05, или 23,85 кбит/с.

В последующем описании для математических выражений приняты следующие обозначения:

- указывает наибольшее целое число, меньшее или равное x: , и ;

- указывает суммирование;

если не задано иное, то log(x) обозначает логарифм по основанию 10 для всего последующего описания.

Кодер получает полнодиапазонный (FB), сверхширокополосный (SWB), широкополосный (WB) или узкополосный (NB) сигналы, дискретизированные с частотой 48, 32, 16 или 8 кГц. Аналогичным образом, на выходе декодера может быть сигнал с частотой 48, 32, 16 или 8 кГц, типа FB, SWB, WB или NB. Для указания частоты входной дискретизации в кодере или частоты выходной дискретизации в декодере используют параметр R (8, 16, 32 или 48).

Входной сигнал обрабатывают, используя кадры длительностью 20 мс. Задержка кодека зависит от частоты дискретизации на входе и выходе. При WB входе и WB выходе общая логарифмическая задержка составляет 43,75 мс. Она состоит из одного 20-миллисекундного кадра, 1,85-миллисекундной задержки входных и выходных фильтров передискретизации, 10 мс на опережение кодера, 1-миллисекундной задержки постфильтрации и 10 мс на декодере, что позволяет выполнить дополнительную операцию перекрытия для кодирования преобразования на более высоком уровне. Для NB входа и NB выхода более высокие уровни не используют, но используют 10-миллисекундную задержку декодера для улучшения рабочих характеристик кодека при наличии стираний кадров и для сигналов музыки. Общая алгоритмическая задержка для NB входа и NB выхода составляет 43,85 мс (один 20-миллисекндый кадр, 2 мс на входном фильтре передискретизации, 10 мс на опережение кодера, 1,85 мс на выходном фильтре передискретизации и 10-милискундная задержка в декодере). Если выход ограничен уровнем 2, то задержка кодека может быть сокращена на 10 мс.

В общие функциональные возможности кодера входят следующие разделы: общая обработка, режим кодирования с линейным предсказанием и кодовым возбуждением (CELP), режим кодирования с модифицированным дискретным косинусным преобразованием (MDCT), коммутация режимов кодирования, вспомогательная информация о маскировании стирания кадров, операция DTX/CNG (прерывистая передача/формирование комфортного шума), межоперационная опция AMR-WB и кодирование, ориентированное на канал.

Согласно настоящему варианту осуществления подход согласно изобретению реализован в разделе операции DTX/CNG. Кодек снабжен алгоритмом обнаружения активности сигнала (SAD) для классификации каждого входного кадра как активного или неактивного. Это поддерживает операцию прерывистой передачи (DTX), в которой для аппроксимации и обновления статистики фонового шума с переменной скоростью передачи в битах используют модуль формирования комфортного шума в частотной области (FD-CNG). Таким образом, скорость передачи в течение периодов неактивного сигнала является переменной и зависит от оцененного уровня фонового шума. Однако частота обновления CNG также может быть фиксированной путем применения командного линейного параметра.

Чтобы иметь возможность создания искусственного шума, похожего на реальный входной фоновый шум в плане спектрально-временных характеристик, для формирования FD-CNG используют алгоритм оценки шума для отслеживания значений энергии фонового шума на входе кодера. Затем оценки этого шума передают в качестве параметров в виде кадров SID (дескриптор ввода паузы) для обновления амплитуды случайных последовательностей, формируемых в каждой частотной полосе на стороне декодера во время неактивных фаз.

Работа средства оценки шума FD-CNG основана на подходе, содержащем гибридный спектральный анализ. Низкие частоты, соответствующие базовой полосе частот, подвергаются анализу на основе FFT с высоким разрешением, в то время как остальные более высокие частоты анализируют с помощью методики CLDFB, который характеризуется значительно меньшим спектральным разрешением, составляющим 400 Гц. Заметим, что CLDFB также используют в качестве средства передискретизации для понижения частоты дискретизации входного сигала до базовой частоты дискретизации.

Однако на практике размер кадра SID ограничен. Для сокращения количества параметров, описывающих фоновый шум, значения энергий на входе усредняют по группам спектральных полос, называемых ниже участками.

1. Энергии спектральных участков

Энергии участков вычисляют отдельно для полос FFT и CLDFB. Энергии , соответствующие участкам FFT, и энергии , соответствующие участкам CLDFB, сводят затем в единый массив размером , который служит входом в средство оценки шума, описанное ниже (см. раздел «2. Оценка шума FD-CNG»).

1.1 Вычисление энергий участков FFT

Энергии участков для частот, покрывающих базовую полосу, получают в виде

где и - средние значения энергии в критической полосе i для первого и второго окон анализа соответственно. Количество участков для FFT, захватывающих базовую полосу, находится в диапазоне от 17 до 21 в соответствии с использованной конфигурацией (см. «1.3. Конфигурации кодера FD-CNG»). Для компенсации фильтра верхних частот используют уменьшенные спектральные веса , которые определены в виде

1.2. Вычисление энергий участков CLDFB

Энергии участков для частот, превышающих базовую полосу, вычисляют как

где и индексы первой и последней полосы CLDFB в i-м участке соответственно; - общая энергия j-й полосы CLDFB, и - коэффициент масштабирования. Константа 16 относится к количеству временных слотов в CLDFB. Количество участков зависит от использованной конфигурации, как это описано ниже.

1.3. Конфигурации кодера FD-CNG

В приведенной ниже таблице перечислены количество участков и их верхние границы для разных конфигураций FD-CNG в кодере.

	Скорости передачи в битах[ кбит/с]			[Гц]	[Гц]
NB		17	0	100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3975
WB		20	0	100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375
WB		20	1	100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375	8000
	21	0	100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375, 7975
SWB/FB		20	4	100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375	8000, 10000, 12000, 14000
	21	3	100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375, 7975	10000, 12000, 16000

Таблица 1. Конфигурации оценки шума FD-CNG в кодере

Для каждого участка , соответствует частоте последней полосы в i-м участке. Индексы и первой и второй полосы в каждом спектральном участке можно получить как функцию конфигурации базового участка следующим образом:

где - частота первой полосы в первом спектральном участке. Таким образом, FD-CNG формирует некоторый комфортный шум только выше 50 Гц.

2. Оценка шума FD-CNG

FD-CNG основан на средстве оценки шума для отслеживания энергии фонового шума, присутствующего во входном спектре. По большей части это основано на алгоритме статистики минимумов, описанном в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001. Однако для уменьшения динамического диапазона входных энергий и упрощения реализации алгоритма оценки шума с фиксированной точкой, перед средством оценки шума используют нелинейное преобразование (см. «2.1. Сжатие динамического диапазона для входных энергий»). Затем выполняют обратное преобразование результирующих оценок шума для восстановления исходного динамического диапазона (см. «2.3. Расширение динамического диапазона для оцененных энергий шума»).

2.1. Сжатие динамического диапазона для входных энергий

Входные энергии обрабатывают, используя нелинейную функцию, и квантуют с разрешением 8 бит следующим образом:

2.2. Отслеживание шума

Основные выходы блока отслеживания шума представляют собой оценки , . Для получения сглаженных переходов в комфортном шуме можно использовать рекурсивный фильтр первого порядка, то есть .

Кроме того, выполняют усреднение входной энергии на последних 5 кадрах. Это используют для применения верхнего предела для в каждом спектральном участке.

2.3. Расширение динамического диапазона для оцененных значений энергии шума

Оцененные значения энергии шума обрабатывают, используя нелинейную функцию для компенсации вышеописанного сжатия динамического диапазона:

Согласно настоящему изобретению описан усовершенствованный подход к оценке шума в аудиосигнале, который позволяет упростить средство оценки шума, особенно для аудио/речевых сигналов, которые обрабатывают на процессорах, в которых используется арифметика с фиксированной точкой. Этот подход согласно изобретению позволяет уменьшить динамический диапазон, используемый для средства оценки шума, при обработке аудио/речевого сигнала, например, в среде, описанной в PCT/EP2012/077527, которая относится к формированию комфортного шума с высоким спектрально-временным разрешением, или в PCT/EP2012/077527, которая относится к добавлению комфортного шума для моделирования фонового шума при низкой скорости передачи бит. В описанных сценариях используется средство оценки шума, функционирующее на основе алгоритма на основе статистики минимумов для повышения качества фонового шума или для формирования комфортного шума для зашумленных речевых сигналов; например, речь при наличии фонового шума, что является очень распространенной ситуацией при разговоре по телефону, и представляет собой одну из тестовых категорий EVS кодека. EVS кодек согласно стандарту будет использовать процессор с фиксированной арифметикой, причем данный подход согласно изобретению позволяет упростить обработку благодаря уменьшению динамического диапазона сигнала, который используют для средства оценки шума на основании статистики минимумов, путем обработки значения энергии для аудиосигнала в логарифмической области, а не в линейной области.

Хотя некоторые аспекты предложенной концепции были описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует шагу способа, или признаку шага способа. Аналогичным образом, аспекты, описанные в контексте шагов способа, также представляют описание соответствующего блока, изделия или признака соответствующего устройства.

В зависимости от требований конкретной реализации варианты осуществления изобретения можно реализовать аппаратными или программными средствами. Такую реализацию можно осуществить с использованием носителя цифровых данных, например, гибкого диска, DVD, диска Blue-Ray, компакт-диска CD, памяти ROM, PROM, EPROM, EEPROM или флеш-памяти, содержащего запомненные электрически считываемые управляющие сигналы, которые совместно действуют (или способны совместно действовать) с программируемой компьютерной системой таким образом, чтобы выполнялся соответствующий способ. Следовательно, носитель цифровых данных может представлять собой машиночитаемый носитель.

Некоторые варианты осуществления согласно изобретению содержат несущий сигнал, содержащий считываемые электронным путем управляющие сигналы, которые способны совместно действовать с программируемой компьютерной системой, с тем чтобы выполнялся один из описанных здесь способов.

В общем, варианты осуществления настоящего изобретения можно реализовать в виде компьютерного программного продукта с программным кодом, причем программный код реализует выполнение способов, когда компьютерный программный продукт выполняется компьютером. Программный код может запоминаться, например, в машиночитаемом несущем сигнале.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных здесь способов в машиночитаемом несущем сигнале.

Другими словами, один из вариантов осуществления данного способа согласно изобретению, таким образом, представляет собой компьютерную программу, содержащую программный код для выполнения одного из описанных здесь способов, когда компьютерная программа выполняется компьютером.

Следующий вариант осуществления предложенных в изобретении способов таким образом представляет собой сигнал, несущий данные (или носитель цифровых данных, или машиночитаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из описанных здесь способов.

Еще один вариант осуществления данного способа согласно изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из описанных здесь способов. Этот поток данных или последовательность сигналов может быть выполнен, например, с возможностью его передачи через соединение для обмена данными, например, через Интернет.

Следующий вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное (или адаптированное) с возможностью выполнения одного из описанных здесь способов.

Другой вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из описанных здесь способов.

В некоторых вариантах осуществления программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) можно использовать для выполнения некоторых или всех функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления вентильная матрица, программируемая пользователем, может действовать совместно с микропроцессором для выполнения одного из описанных здесь способов. В общем случае способы предпочтительно выполняются каким-либо аппаратным устройством.

Вышеописанные варианты осуществления являются лишь иллюстрацией принципов настоящего изобретения. Очевидно, что специалисты в данной области техники без труда предложат различные модификации и варианты компоновок и отдельных описанных здесь деталей. Таким образом, здесь предполагается, что изобретение ограничено только объемом независимых пунктов формулы изобретения, но не конкретными деталями, представленными в целях описания и объяснения раскрытых здесь вариантов осуществления.

1. Способ оценки шума в аудиосигнале (102), причем способ содержит этапы, на которых:

определяют (S100) значение (174) энергии для аудиосигнала (102);

преобразуют (S102) значение (174) энергии в логарифмическую область по основанию 2; и

оценивают (S104) уровень (182) шума для аудиосигнала (102) на основании преобразованного значения (178) энергии непосредственно в логарифмической области по основанию 2,

причем значение (174) энергии преобразуют (S102) в логарифмическую область по основанию 2 следующим образом:

где - минимальное (x),

- значение энергии полосы n в логарифмической области по основанию 2,

- значение энергии полосы n в линейной области,

- разрешение квантования.

2. Способ по п. 1, в котором оценка (S104) уровня шума содержит этап, на котором выполняют заданный алгоритм оценки шума, такой как алгоритм на основе статистики минимумов.

3. Способ по п. 1, в котором определение (S100) значения (174) энергии содержит этапы, на которых получают спектр мощности аудиосигнала (102) посредством преобразования аудиосигнала (102) в частотную область, группируют спектр мощности в полосы на основании психоакустических характеристик и накапливают элементы дискретизации спектра мощности в полосе для формирования значения (174) энергии для каждой полосы, причем значение (174) энергии для каждой полосы преобразуют в логарифмическую область по основанию 2, при этом уровень шума оценивают для каждой полосы на основании соответствующего преобразованного значения (174) энергии.

4. Способ по п. 3, в котором аудиосигнал (102) содержит множество кадров, причем значение (174) энергии для каждого кадра определяют и преобразуют в логарифмическую область по основанию 2, и для каждой полосы кадра оценивают уровень шума на основании преобразованного значения (174) энергии.

5. Способ по п. 1 в котором оценка (S104) уровня шума на основании преобразованного значения (178) энергии обеспечивает логарифмические данные, причем способ дополнительно содержит этапы, на которых:

используют (S108) логарифмические данные непосредственно для дополнительной обработки; или

преобразуют (S110, S112) логарифмические данные обратно в линейную область для дополнительной обработки.

6. Способ по п. 5, в котором

логарифмические данные преобразуют (S108) непосредственно в данные передачи в случае выполнения передачи в логарифмической области, и

при преобразовании (S110) логарифмических данных непосредственно в данные передачи используют функцию сдвига вместе со справочной таблицей или аппроксимацию, например, .

7. Машиночитаемый носитель, содержащий сохраненные на нем команды, которые при их выполнении компьютером осуществляют способ по одному из пп. 1-6.

8. Устройство (170) оценки шума, содержащее:

детектор (172), выполненный с возможностью определения значения (174) энергии для аудиосигнала (102);

преобразователь (176), выполненный с возможностью преобразования значения (174) энергии в логарифмическую область по основанию 2; и

средство (180) оценки шума аудиосигнала, выполненное с возможностью оценки уровня (182) шума для аудиосигнала (102) на основании преобразованного значения (178) энергии непосредственно в логарифмической области по основанию 2, причем значение (174) энергии преобразуют (S102) в логарифмическую область по основанию 2 следующим образом:

где - минимальное (x),

- значение энергии полосы n в логарифмической области по основанию 2,

- значение энергии полосы n в линейной области,

- разрешение квантования.

9. Аудиокодер (100), содержащий устройство (170) оценки шума по п.8.

10. Аудиодекодер (150), содержащий устройство (170) оценки шума по п.8.

11. Система для передачи аудиосигналов (102), причем система содержит:

аудиокодер (100), выполненный с возможностью формирования кодированного аудиосигнала (102) на основании принятого аудиосигнала (102); и

аудиодекодер (150), выполненный с возможностью приема кодированного аудиосигнала (102), декодирования кодированного аудиосигнала (102) и вывода декодированного аудиосигнала (102),

причем по меньшей мере одно из аудиокодера и аудиодекодера содержит устройство (170) оценки шума по п. 8.

Изобретение относится к средствам для обработки потери кадра. Технический результат заключается в повышении качества восстановленного после потери кадра аудиосигнала.

Способ обнаружения звукового сигнала и устройство // 2666337

Изобретение относится к области техники обработки сигналов и предназначено для обнаружения звукового сигнала. Технический результат – обеспечение возможности точного различия активной речи и неактивной речи.

Устройство и способ для улучшенного плавного изменения сигнала для переключаемых систем кодирования звука во время маскирования ошибок // 2666250

Изобретение относится к декодированию звукового сигнала. Технический результат – обеспечение улучшенных концепций для систем кодирования звука.

Оценивание фонового шума в аудиосигналах // 2665916

Изобретение относится к средствам для оценивания фонового шума в аудиосигнале. Технический результат заключается в повышении точности оценивания, содержит ли аудиосигнал активную речь или музыку или нет.

Устройство и способ формирования расширенного сигнала с использованием заполнения независимым шумом // 2665913

Изобретение относится к средствам для формирования расширенного сигнала с использованием заполнения независимым шумом. Технический результат заключается в повышении качества кодированного аудиосигнала.

Устройство и способ для улучшенного маскирования адаптивной таблицы кодирования при acelp-образном маскировании с использованием улучшенной оценки запаздывания основного тона // 2665253

Изобретение относится к области обработки аудиосигналов. Технический результат заключается в повышении эффективности обработки аудиосигналов.

Стереофонический кодер и декодер аудиосигналов // 2665214

Изобретение относится к средствам стереофонического кодирования и декодирования аудиосигналов. Технический результат заключается в повышении эффективности использования полосы частот.

Поддержание аудиосвязи в перегруженном канале связи // 2658602

Изобретение относится к системе связи. Технический результат изобретения заключается в возможности сохранения вызова в условиях плохого качества обслуживания.

Генерация комфортного шума // 2658544

Изобретение относится к средствам для генерации комфортного шума. Технический результат заключается в повышении воспринимаемого качества звука.

Усовершенствованная коррекция потери кадров во время декодирования сигналов // 2652464

Изобретение относится к области обработки цифровых сигналов. Технический результат – обеспечение коррекции потери кадров посредством использования спектральных компонент на последних достоверных кадрах.

Усовершенствованное гармоническое преобразование на основе блока поддиапазонов // 2665298

Изобретение относится к системам кодирования исходного звукового сигнала, которые используют способ гармонического преобразования для высокочастотной реконструкции (HFR).

Кодер и декодер звукового сигнала, способ генерирования управляющих данных из звукового сигнала и способ декодирования битового потока // 2659487

Изобретение относится к средствам для кодирования и декодирования звукового сигнала и генерирования управляющих данных из звукового сигнала. Технический результат заключается в повышении качества звука.

Способ обработки речевого/звукового сигнала и устройство // 2651184

Изобретение относится к технике связи. Технический результат – улучшение акустического качества сигнала, полученного после восстановления шумовой составляющей.

Устройство и способ для многоканального прямого-окружающего разложения для обработки звукового сигнала // 2650026

Изобретение относится к средствам для обработки звукового сигнала. Технический результат заключается в повышении эффективности многоканального прямого-окружающего разложения звукового сигнала.

Способ и аппаратура для генерации сигнала речи // 2648604

Изобретение относится к средствам для генерации сигнала речи. Технический результат заключается в повышении качества речи за счет уменьшения реверберации.

Гармоническое преобразование, усовершенствованное перекрестным произведением // 2646314

Данное изобретение относится к системам звукового кодирования, которые используют способ гармонического преобразования для высокочастотной реконструкции. Технический результат заключается в повышении качества декодируемого звукового сигнала.

Усовершенствованное гармоническое преобразование на основе блока поддиапазонов // 2644527

Системы и способы выполнения фильтрации для определения усиления // 2643628

Изобретение относится к области обработки сигналов. Технический результат заключается в повышении точности обнаружения и фильтрации шумов аудиосигнала.

Системы и способы выполнения регулировки усиления // 2643454

Изобретение относится к средствам для регулировки усиления. Технический результат заключается в повышении точности восстановления сигнала в приемном устройстве и уменьшении слышимых артефактов.

Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи // 2642353

Изобретение относится к средствам для оценки вероятности присутствия многоканальной речи. Технический результат заключается в повышении точности обнаружения полезных и паразитных звуков.

Расширение полосы пропускания аудио посредством вставки шума с предварительно приданной формой по времени в частотной области // 2666468

Изобретение относится к средствам для расширения полосы пропускания аудио посредством вставки шума. Технический результат заключается в повышении эффективности расширения полосы пропускания.