Устройство и способ для подавления многоканальных взаимных помех

Авторы патента:

РУТА, Марцель (DE)

ВИЛЬД, Мориц (DE)

ЛУИС ВАЛЕРО, Мария (DE)

ЛОМБАРД, Антони (DE)

ХАБЕТС, Эмануэль (DE)

АННИБАЛЕ, Паоло (DE)

H04R3/02 - предотвращающие акустическую обратную связь

G10L21/0208 - Обработка сигналов речи для получения иного слышимого или неслышимого сигнала, например визуального, осязаемого, для того, чтобы модифицировать их качество или их разборчивость (G10L 19/00 имеет преимущество)

Владельцы патента RU 2735131:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к акустике, в частности к устройствам для подавления многоканальных взаимных помех. Устройство содержит первый адаптивный фильтр, выполненный с возможностью формировать первую оценку первого сигнала взаимных помех в зависимости от опорного сигнала. Устройство содержит первое средство подавления взаимных помех, выполненное с возможностью формировать первый модифицированный аудиоканал из двух или более модифицированных аудиоканалов на основе первого принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от первой оценки первого сигнала взаимных помех. Кроме того, устройство содержит второй адаптивный фильтр, выполненный с возможностью формировать вторую оценку второго сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех. Кроме того, устройство содержит второе средство подавления взаимных помех, выполненное с возможностью формировать второй модифицированный аудиоканал из двух или более модифицированных аудиоканалов на основе второго принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от второй оценки второго сигнала взаимных помех. Технический результат – уменьшение взаимных помех. 3 н. и 12 з.п. ф-лы, 8 ил.

Настоящее изобретение относится к обработке аудиосигналов и, в частности, к устройству и способу для сокращения сложности подавления многоканальных взаимных помех и для низкой сложности подавления многоканальных взаимных помех.

Современные устройства связи, применяемые со свободными руками, используют несколько сигналов микрофонов, например, для улучшения речи, выявления геометрии помещения или автоматического распознавания речи. Эти устройства находятся в диапазоне от активируемых голосом помощников, интеллектуальных бытовых устройств и интеллектуальных динамиков до смартфонов, планшетов или персональных компьютеров. Многие интеллектуальные устройства, такие как активируемые голосом помощники, смартфоны, планшеты или персональные компьютеры, оборудованы громкоговорителями. В таких устройствах, например, в устройстве, в котором интегрирован по меньшей мере один громкоговоритель, к выходу каждого микрофона применяется блок подавления акустических помех, чтобы сократить электроакустическую связь.

Подавление акустического эха (AEC) (см., например, [1]) является наиболее широко используемой методикой для сокращения электроакустической связи между громкоговорителем (громкоговорителями) и микрофоном (микрофонами) в оборудовании связи, применяемом со свободными руками. В таком оборудовании микрофоны в дополнение к целевой речи на ближнем конце захватывают акустическое эхо и фоновый шум. Технология AEC использует адаптивные методики фильтрации (см., например, [2]) для оценки акустических импульсных характеристик (acoustic impulse response; AIR) между громкоговорителем (громкоговорителями) и микрофоном (микрофонами). Затем вычисляются оценки акустического эха посредством фильтрации доступного сигнала громкоговорителей с помощью оценочных характеристик AIR. Наконец, оценочное акустическое эхо вычитается из сигналов микрофонов, в результате чего реализуется подавление акустического эха.

В частном случае подавления акустического эха (AEC) электроакустическая связь вызвана сигналом диктора на дальнем конце, который воспроизводится громкоговорителем. Также в упомянутых выше устройствах связи, применяемых со свободными руками, она может быть вызвана посредством собственной обратной связи устройства, музыки или голосового помощника. Наиболее непосредственное решение для сокращения электроакустической связи между громкоговорителем и микрофонами состоит в том, чтобы разместить блок подавления акустических взаимных помех на выходе каждого микрофона (см., например, [3]).

Относительные передаточные функции (relative transfer function; RTF) моделируют отношение между характеристиками AIR в частотной области, обычно обозначаемыми как акустические передаточные функции (acoustic transfer function; ATF). Функции RTF обычно используются в контексте улучшения речи с несколькими микрофонами (см., например, [5], [8], [12]). Что касается более соответствующих применений, оценка относительных передаточных функций разностного эха использовалась в [13], [14], чтобы оценить спектральную плотность мощности разностного эха, например, акустические компоненты эха, которые остаются после подавления первичного канала. Чтобы улучшить процесс оценки, используется второй сигнал микрофона. Предложенный в [13], [14] способ оценивает отношение между первичным сигналом после подавления и вторичным сигналом микрофона, обеспечивая отношение между ошибкой в оценке первичной характеристики AIR и вторичной характеристики AIR. Наконец, относительная передаточная функция разностного эха используется для вычисления спектральной плотности мощности первичного разностного акустического эха.

Что касается конкретного применения обработки массива микрофонов, были представлены несколько методик, которые нацелены на сокращение сложности всех речевых алгоритмов улучшения, например, пространственной фильтрации, объединенной с AEC. Например, использование единственного AEC, помещенного на выход пространственного фильтра, было сначала изучено в [3], [15]. Некоторые альтернативные методы, которые нацелены на объединение подавления акустического эха и обработку массива микрофонов, были предложены в [8], [16], [18].

Поскольку сложность блока подавления акустических взаимных помех с несколькими микрофонами пропорциональна количеству микрофонов, для многих современных устройств такое увеличение сложности является не достижимым.

Таким образом, будет высоко оценено обеспечение концепций с низкой сложностью для подавления многоканальных взаимных помех.

Задача настоящего изобретения состоит в том, чтобы обеспечить концепции с низкой сложностью для подавления многоканальных взаимных помех. Задача настоящего изобретения решается с помощью устройства по п. 1, способа по п. 14 и компьютерной программы по п. 15 формулы изобретения.

Обеспечено устройство для подавления многоканальных взаимных помех в принятом аудиосигнале, содержащем два или более принятых аудиоканалов, для получения модифицированного аудиосигнала, содержащего два или более модифицированных аудиоканалов, в соответствии с вариантом осуществления.

Устройство содержит первый блок фильтра, выполненный с возможностью формировать первую оценку первого сигнала взаимных помех в зависимости от опорного сигнала.

Кроме того, устройство содержит первый блок подавления взаимных помех, выполненный с возможностью формировать первый модифицированный аудиоканал из двух или более модифицированных аудиоканалов на основе первого принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от первой оценки первого сигнала взаимных помех.

Кроме того, устройство содержит второй блок фильтра, выполненный с возможностью формировать вторую оценку второго сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех.

Кроме того, устройство содержит второй блок подавления взаимных помех, выполненный с возможностью формировать второй модифицированный аудиоканал из двух или более модифицированных аудиоканалов на основе второго принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от второй оценки второго сигнала взаимных помех.

Варианты осуществления обеспечивают концепции, например, устройство и способ для подавления многоканальных взаимных помех с использованием относительных передаточных функций.

Например, для технологии AEC концепции в соответствии с вариантами осуществления используют оценку первичного сигнала акустического эха, чтобы вычислить оценки оставшихся, или вторичных, сигналов акустического эха. Чтобы сделать это, идентифицируется отношение между первичными акустическими импульсными характеристиками (AIR), например, характеристиками AIR между громкоговорителем и первичными микрофонами, и вторичными характеристиками AIR, например, характеристиками AIR между громкоговорителем и вторичными микрофонами. Затем вычисляются вторичные сигналы акустического эха посредством фильтрации первичного сигнала акустического эха с помощью оценочного отношения между характеристиками AIR. Наконец, подавление применяется к каждому сигналу микрофона. Если расстояние между микрофонами мало, эти отношения могут быть смоделированы с использованием относительно коротких фильтров. Таким образом, вычислительная сложность может быть сокращена.

Кроме того, обеспечен способ для подавления многоканальных взаимных помех в принятом аудиосигнале, содержащем два или более принятых аудиоканалов, для получения модифицированного аудиосигнала, содержащего два или более модифицированных аудиоканалов, в соответствии с вариантом осуществления.

Способ содержит:

- Формирование первой оценки первого сигнала взаимных помех в зависимости от опорного сигнала.

- Формирование первого модифицированного аудиоканала из двух или более модифицированных аудиоканалов на основе первого принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от первой оценки первого сигнала взаимных помех.

- Формирование второй оценки второго сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех.

- Формирование второго модифицированного аудиоканала из двух или более модифицированных аудиоканалов на основе второго принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от второй оценки второго сигнала взаимных помех.

Кроме того, обеспечена компьютерная программа, причем компьютерная программа выполнена с возможностью реализовывать описанный выше способ при ее исполнении на компьютерном процессоре или процессоре сигналов.

Далее варианты осуществления настоящего изобретения описаны более подробно со ссылкой на фигуры.

Фиг. 1a иллюстрирует устройство для подавления многоканальных взаимных помех в соответствии с вариантом осуществления,

Фиг. 1b иллюстрирует устройство для подавления многоканальных взаимных помех в соответствии с другим вариантом осуществления,

Фиг. 1c иллюстрирует устройство для подавления многоканальных взаимных помех в соответствии с дополнительным вариантом осуществления,

Фиг. 2 иллюстрирует методику AEC с несколькими микрофонами,

Фиг. 3 иллюстрирует методику AEC с несколькими микрофонами в соответствии с вариантом осуществления,

Фиг. 4 иллюстрирует методику AEC с несколькими микрофонами в области STFT,

Фиг. 5 иллюстрирует методику AEC с несколькими микрофонами в области STFT в соответствии с вариантом осуществления,

Фиг. 6 изображает результаты, соответствующие моделированиям с усеченными характеристиками AIR,

Фиг. 7 изображает сравнение методики AEC на основе функции AETF и функции RETF с с и L=256 отводов, и

Фиг. 8 иллюстрирует сравнение между подходами AEC на основе функции AETF и функции RETF с с и L=1024 отвода.

Фиг. 1a иллюстрирует устройство для подавления многоканальных взаимных помех в соответствии с вариантом осуществления.

Устройство содержит первый блок 112 фильтра, выполненный с возможностью формировать первую оценку первого сигнала взаимных помех в зависимости от опорного сигнала .

Кроме того, устройство содержит первый блок 114 подавления взаимных помех, выполненный с возможностью формировать первый модифицированный аудиоканал из двух или более модифицированных аудиоканалов на основе первого принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от первой оценки первого сигнала взаимных помех.

Кроме того, устройство содержит второй блок 122 фильтра, выполненный с возможностью формировать вторую оценку второго сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех.

Кроме того, устройство содержит второй блок 124 подавления взаимных помех, выполненный с возможностью формировать второй модифицированный аудиоканал из двух или более модифицированных аудиоканалов на основе второго принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от второй оценки второго сигнала взаимных помех.

Варианты осуществления основаны на обнаружении того факта, что первая оценка первого сигнала взаимных помех может использоваться для формирования второй оценки второго сигнала взаимных помех. Повторное использование первой оценки первого сигнала взаимных помех для определения второй оценки второго сигнала взаимных помех сокращает вычислительную сложность по сравнению с решениями, которые формируют вторую оценку второго сигнала взаимных помех посредством использования опорного сигнала вместо того, чтобы использовать первую оценку первого сигнала взаимных помех.

Некоторые варианты осуществления относятся к подавлению акустического эха (AEC).

В варианте осуществления первая оценка первого сигнала взаимных помех, например, может представлять собой первую оценку первого сигнала акустического эха, вторая оценка второго сигнала взаимных помех представляет собой вторую оценку второго сигнала акустического эха.

Первый блок 114 подавления взаимных помех, например, может быть выполнен с возможностью проводить подавление акустического эха на первом принятом аудиоканале (например, посредством вычитания первой оценки первого сигнала акустического эха из первого принятого аудиоканала) для получения первого модифицированного аудиоканала.

Второй блок 124 подавления взаимных помех, например, может быть выполнен с возможностью проводить подавление акустического эха на втором принятом аудиоканале (например, посредством вычитания второй оценки второго сигнала акустического эха из второго принятого аудиоканала) для получения второго модифицированного аудиоканала.

Фиг. 1b иллюстрирует устройство для подавления многоканальных взаимных помех в соответствии с другим вариантом осуществления.

По сравнению с устройством на фиг. 1a устройство на фиг. 1b дополнительно содержит третий блок 132 фильтра и третий блок 134 подавления взаимных помех.

В варианте осуществления на фиг. 1b принятый аудиосигнал содержит три или более принятых аудиоканалов, и модифицированный аудиосигнал содержит три или более модифицированных аудиоканалов.

Третий блок 132 фильтра выполнен с возможностью формировать третью оценку третьего сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех.

Третий блок 134 подавления взаимных помех выполнен с возможностью формировать третий модифицированный аудиоканал из трех или более модифицированных аудиоканалов на основе третьего принятого аудиоканала из трех или более принятых аудиоканалов в зависимости от третьей оценки третьего сигнала взаимных помех.

Фиг. 1c иллюстрирует устройство для подавления многоканальных взаимных помех в соответствии с дополнительным вариантом осуществления.

По сравнению с устройством на фиг. 1a устройство на фиг. 1c дополнительно содержит третий блок 132 фильтра и третий блок 134 подавления взаимных помех.

В варианте осуществления на фиг. 1c принятый аудиосигнал содержит три или более принятых аудиоканалов, и модифицированный аудиосигнал содержит три или более модифицированных аудиоканалов.

Третий блок 132 фильтра выполнен с возможностью формировать третью оценку третьего сигнала взаимных помех в зависимости от второй оценки второго сигнала взаимных помех. Таким образом, вариант осуществления на фиг. 1c отличается от варианта осуществления на фиг. 1b тем, что формирование третьей оценки третьего сигнала взаимных помех проводится в зависимости от второй оценки второго сигнала взаимных помех, а не в зависимости от первой оценки первого сигнала взаимных помех.

Третий блок 134 подавления взаимных помех выполнен с возможностью формировать третий модифицированный аудиоканал из двух или более модифицированных аудиоканалов на основе третьего принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от третьей оценки третьего сигнала взаимных помех.

В других вариантах осуществления (которые реализуют факультативную штриховую линию 199 на фиг. 1c) третий блок 132 фильтра выполнен с возможностью формировать третью оценку третьего сигнала взаимных помех в зависимости от второй оценки второго сигнала взаимных помех и в зависимости от первой оценки первого сигнала взаимных помех.

Фиг. 2 иллюстрирует методику AEC с несколькими микрофонами в соответствии с предшествующим уровнем техники. В этом подходе предшествующего уровня техники первый блок 282 фильтра используется для формирования первой оценки первого сигнала взаимных помех на основе опорного сигнала .

Первый блок 284 подавления взаимных помех затем формирует первый модифицированный аудиоканал на основе первого принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от первой оценки первого сигнала взаимных помех.

В подходе предшествующего уровня техники на фиг. 2 второй блок 292 фильтра формирует вторую оценку второго сигнала взаимных помех на основе опорного сигнала , который также использовался первым блоком 282 фильтра.

Второй блок 294 подавления взаимных помех затем формирует второй модифицированный аудиоканал на основе второго принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от второй оценки второго сигнала взаимных помех.

Некоторые варианты осуществления сокращают сложность подавления акустического эха (AEC) с несколькими микрофонами, которое изображено на фиг. 2, посредством использования подхода на основе относительной передаточной функции (RTF), как изображено на фиг. 3. Относительные передаточные функции описаны в [4], [7].

Фиг. 3 иллюстрирует подавление акустического эха (AEC) с несколькими микрофонами в соответствии с вариантами осуществления. На фиг. 3 первый блок 312 фильтра используется для формирования первой оценки первого сигнала взаимных помех на основе опорного сигнала .

Первый блок 314 подавления взаимных помех затем формирует первый модифицированный аудиоканал на основе первого принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от первой оценки первого сигнала взаимных помех.

Устройство на фиг. 3 теперь отличается от фиг. 2 тем, что второй блок 322 фильтра формирует вторую оценку второго сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех, который был формирован первым блоком 312 фильтра.

Второй блок 324 подавления взаимных помех затем формирует второй модифицированный аудиоканал на основе второго принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от второй оценки второго сигнала взаимных помех.

Варианты осуществления используют оценку первичного сигнала взаимных помех для вычисления оценок оставшихся, или вторичных, сигналов взаимных помех. Чтобы оценить первичный сигнал взаимных помех, идентифицируется первичный фильтр, который описывает отношение между опорным сигналом и первичным принятым сигналом. Оценка первичного сигнала взаимных помех затем получается посредством фильтрации опорного сигнала с помощью оценки первичного фильтра. Затем идентифицируются вторичные фильтры, например, фильтры, которые описывают отношения между оценочным первичным сигналом взаимных помех и вторичными принятыми сигналами. Затем оценки вторичных сигналов взаимных помех вычисляются посредством фильтрации оценки первичного сигнала взаимных помех с помощью оценочных вторичных фильтров. Наконец, применяется подавление, чтобы сократить электроакустическую связь. Если расстояние между микрофонами мало, вторичные фильтры короче, чем первичные фильтры (см., например, [10], [19]), что приводит к сокращению вычислительной сложности.

Некоторые варианты осуществления используются для подавления акустического эха. С этой целью фиг. 3 изображает сценарий связи, применяемый со свободными руками, с одним громкоговорителем (одним передатчиком) и микрофонами (приемниками). В данном случае опорный сигнал представляет собой сигнал громкоговорителя , первичный сигнал микрофона представляет собой , без потери общности, и обозначает индекс дискретного времени. Кроме того, оценка первичного фильтра обозначена как и является оценкой первичного сигнала акустического эха (взаимных помех) и сигнала после подавления . Как можно заметить, вторичный сигнал акустического эха вычисляется посредством фильтрации оценки первичного сигнала акустического эха с помощью оценки вторичного фильтра . Следует отметить, что во вторичный сигнал микрофона вносится задержка из отсчетов. Это делается, чтобы гарантировать, что оцениваются необусловленных коэффициентов вторичных фильтров. В случае, если микрофоны должны быть синхронизированы, первичный сигнал после подавления также должен быть задержан на отсчетов. Напротив, классические схемы подавления взаимных помех (как изображено на фиг. 2) вычисляют оценки принятых сигналов посредством фильтрации опорного сигнала с помощью оцененных первичных фильтров.

Далее представлен поэтапный подход в соответствии с некоторыми вариантами осуществления.

1) Первичный сигнал взаимных помех оценивается с использованием опорного сигнала. В конкретном приложении подавления акустического эха первым из них является сигнал акустического эха, и вторым - сигнал громкоговорителей. Для этого:

1.1) первичный фильтр, который описывает отношение между опорным сигналом и первичным сигналом приемника, являющимся

(a) либо единственным сигналом приемника,

(b) либо линейной комбинацией сигналов приемника,

идентифицируется с использованием, например, методики адаптивной фильтрации;

1.2.) опорный сигнал фильтруется с помощью оценки первичного фильтра для вычисления оценки первичного сигнала взаимных помех;

1.3.) подавление взаимных помех применяется посредством вычитания оценки первичного сигнала взаимных помех из первичного принятого сигнала, являющимся

(a) либо единственным сигналом приемника,

(b) либо линейной комбинацией сигналов приемника.

2) Вторичный сигнал взаимных помех оценивается на основе оценки первичного сигнала взаимных помех. Для этого:

2.1) вторичный фильтр, который описывает отношение между оценкой первичного сигнала взаимных помех и вторичным принятым сигналом, идентифицируется, например, посредством

i) оптимизации функции стоимости или критерия ошибки (например, среднеквадратической ошибки, (нагруженной) ошибки наименьших квадратов и т.д.);

ii) методики адаптивной фильтрации во временной области, в частотной области или в области подполос;

с использованием вторичного сигнала приемника или вторичного сигнала после подавления и оценки первичного сигнала взаимных помех (вторичный фильтр, например, может рассматриваться как конфигурация фильтра);

2.2) оценка первичного сигнала взаимных помех фильтруется с помощью оценки вторичного фильтра для вычисления оценки вторичного сигнала взаимных помех;

2.3) подавление взаимных помех применяется посредством вычитания оценки вторичного сигнала взаимных помех из вторичного сигнала приемника.

3) Повторить пункт 2 для каждого вторичного сигнала взаимных помех.

4) Повторитесь пункты 1, 2 и 3. для каждого опорного сигнала.

5) Причем передатчиком является громкоговоритель, и приемником является микрофон.

6) Причем оценка вторичного сигнала взаимных помех может использоваться в качестве оценки первичного сигнала взаимных помех, что приводит к каскадной конфигурации.

7) Причем для более чем двух приемников могут быть определены подмножества приемников, каждое из которых имеет первичный приемник.

Дополнительные варианты осуществления применяют только некоторые из упомянутых выше этапов и/или применяют этапы в другом порядке.

Далее описываются варианты осуществления, которые используют адаптивные фильтры в области оконного преобразования Фурье (short-time Fourier transform; STFT).

В оборудовании связи, применяемом со свободными руками, с одним громкоговорителем и микрофонами -й сигнал микрофона может быть выражен в области STFT как

(1)

где и являются, соответственно, временным кадром и индексами частоты. Кроме того, является сигналом на ближнем конце, который содержит речь на ближнем конце и фоновый шум, и является -м акустическим эхом. Последнее является результатом распространения сигнала громкоговорителя через помещение и захвата -м микрофоном. Его точным выражением в виде формулы в области STFT (см., например, [20]) является

(2)

где , верхние индексы и обозначают транспонирование и сопряженное транспонирование, соответственно, и является длиной преобразования. Кроме того, -й раздел -й передаточной функции акустического эха (acoustic echo transfer function; AETF) представляет собой , который является вектором, содержащим все частотные зависимости , где .

Следует отметить, что функции AETF в области STFT, которые экстенсивно проанализированы в [20], являются необусловленными. Кроме того, количество разделов или входных кадров, которые необходимы для оценки коэффициентов характеристики AIR, составляет , где обозначает сдвиг кадра между последующими входными кадрами. Вследствие не обусловленности функций AETF необходимы упреждающих кадров , чтобы вычислить сигналы эха.

Предположим, что частотная селективность окон анализа и синтеза преобразования STFT является достаточной, в результате чего частотными зависимостями можно пренебречь. Кроме того, для краткости записи в соответствии с вариантами осуществления предполагается, что задержка на кадров внесена в путь воспроизведения, как изображено на фиг. 4. На практике вместо этого обычно задерживается путь захвата, см., например, [7], [20].

Сигналы на фиг. 4 являются сигналами в области преобразования. В частности, сигналы на фиг. 4 являются сигналами в области оконного преобразования Фурье (в области STFT). На фиг. 4 первый блок 312 фильтра используется для формирования первой оценки первого сигнала взаимных помех на основе опорного сигнала .

Первый блок 484 подавления взаимных помех затем формирует первый модифицированный аудиоканал на основе первого принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от первой оценки первого сигнала взаимных помех.

В подходе на фиг. 4 второй блок 492 фильтра формирует вторую оценку второго сигнала взаимных помех на основе опорного сигнала , который также использовался первым блоком 482 фильтра.

Второй блок 494 подавления взаимных помех затем формирует второй модифицированный аудиоканал на основе второго принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от второй оценки второго сигнала взаимных помех.

Фиг. 4 иллюстрирует методику AEC с несколькими микрофонами в области STFT. На практике вместо этого обычно задерживается путь захвата, см., например, [7], [20]. Теперь с использованием приближения сверточной передаточной функции (convolutive transfer function; CTF) (см., например, [7]) возможно написать

(3)

где обозначает комплексное спряжение, и для краткости . Адаптивными алгоритмами в методике AEC управляет сигнал ошибки после подавления, например,

(4)

где используется для обозначения оценки, и . Верхний индекс указывает Эрмитову матрицу. Большинство адаптивных фильтров, используемых в методике AEC, имеют тип градиентного спуска (см., например, [2]), таким образом, обобщенное уравнение обновления задано как

(5)

где - матрица с размером шага адаптивного фильтра, выражение которой в виде формулы зависит от конкретного используемого адаптивного алгоритма.

Далее описывается использование относительных передаточных функций эха в соответствии с вариантами осуществления.

Вследствие ограничений вычислительной сложности реализация методики AEC с несколькими микрофонами, изображенная на фиг. 4, не всегда выполнима.

В соответствии с вариантами осуществления предложено сократить сложность посредством использования подхода на основе относительной передаточной функции эха (relative echo transfer function; RETF), изображенного на фиг. 5. Фиг. 5 иллюстрирует методику AEC с несколькими микрофонами в области STFT в соответствии с вариантом осуществления.

Снова сигналы на фиг. 5 являются сигналами в области преобразования. В частности, сигналы на фиг. 5 являются сигналами в области оконного преобразования Фурье (в области STFT).

На фиг. 5 первый блок 312 фильтра используется для формирования первой оценки первого сигнала взаимных помех на основе опорного сигнала .

Первый блок 514 подавления взаимных помех затем формирует первый модифицированный аудиоканал на основе первого принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от первой оценки первого сигнала взаимных помех.

Устройство на фиг. 5 теперь отличается от фиг. 4 тем, что второй блок 522 фильтра формирует вторую оценку второго сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех, который был формирован первым блоком 512 фильтра.

Второй блок 524 подавления взаимных помех затем формирует второй модифицированный аудиоканал на основе второго принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от второй оценки второго сигнала взаимных помех.

В вариантах осуществления второй блок 122 фильтра, например, может быть выполнен с возможностью определять конфигурацию фильтра в зависимости от первой оценки первого сигнала взаимных помех и в зависимости от второго принятого аудиоканала, и второй блок 122 фильтра, например, может быть выполнен с возможностью определять вторую оценку второго сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех и в зависимости от конфигурации фильтра.

Например, второй блок 122 фильтра выполнен с возможностью определять конфигурацию фильтра посредством минимизации функцию стоимости или минимизации критерия ошибки, например, минимизации среднеквадратической ошибки.

Далее такими конфигурациями фильтров, которые должны быть определены, например, могут являться , и/или , и/или . Формулировка задачи выведена в предположении, что фильтры независимы от времени, в то время как оценки изменяются во времени.

Конкретный пример для такого варианта осуществления приведен далее.

Без потери общности первичный сигнал эха обозначен как - определен, как в уравнении (3). Со сделанными ранее предположениями о частотных зависимостях возможно написать

(6)

где - -й раздел -й относительной передаточной функции эха (RETF). При условии, что расстояние между первичными и вторичными микрофонами относительно мало, возможно предположить, что необусловленными разделами можно пренебречь. Следует отметить, что несколько необусловленных коэффициентов во временной области тем не менее смоделированы посредством . С таким предположением упреждение не является необходимым, и, следовательно, дополнительная задержка не вносится.

Наконец, использование приближения функции CTF приводит к

(7)

где - количество разделов функции RETF.

Поскольку не является наблюдаемым, в соответствии с вариантами осуществления предлагается заменить на в формуле (7), которая может быть получена с использованием существующий уровень техники методики AEC. Чтобы оценить , в соответствии с вариантами осуществления сигнал ошибки минимизируется:

(8)

где - -й составной вектор разделов функции RETF, и . Оптимальный фильтр в смысле среднеквадратической ошибки, который получен посредством минимизации квадрата функции стоимости , равен

(9)

где - ковариационная матрица для , и - вектор взаимной корреляции между и , например,

где обозначает математическое ожидание. Следует отметить, что в предположении, что . Это означает, что моделирует отношение между оценочной первичной функцией AETF и -й вторичной. Например, в тривиальном случае , когда , аппроксимация мультипликативной передаточной функции (см., например, [21]), при условии, что -я оценочная функция RETF равна

(10)

когда блок подавления первичного акустического эха сошелся, равна , как определено в уравнении (7).

По сравнению с задачей оценки функций RTF на основе наблюдений шума (см., например, [4], [7], [22]) в нашей формулировке нет дополнительного смещения вследствие шумовых компонентов, которые коррелированы по каналам.

Кроме того, поскольку сигнал громкоговорителей известен, реализация детекторов голосовой активности (voice activity detector; VAD) для управления процессом оценки значительно упрощена. Напротив, детектор одновременного разговора необходим вследствие того, что на практике аппроксимируется посредством , и, следовательно, ранее сделанное предположение о статистическом отношении между и не всегда является верным.

Далее представлены варианты осуществления, которые используют адаптивную оценку функции RETF.

В таких вариантах осуществления второй блок 522 фильтра на фиг. 5, например, может быть выполнен с возможностью определять конфигурацию фильтра для второго индекса времени с использованием матрицы с размером шага. Например, второй блок 522 фильтра на фиг. 5 может быть выполнен с возможностью определять конфигурацию фильтра в зависимости от конфигурации фильтра для первого индекса времени, который предшествует второму индексу времени, в зависимости от первой оценки первого сигнала взаимных помех для первого индекса времени и в зависимости от отсчета второго модифицированного аудиоканала для первого индекса времени.

В конкретных вариантах осуществления второй блок 522 фильтра, например, может быть выполнен с возможностью определять конфигурацию фильтра для второго индекса времени в соответствии с

где указывает второй индекс времени, указывает первый индекс времени, указывает индекс частоты, - конфигурация фильтра для второго индекса времени, - конфигурация фильтра для первого индекса времени, - первая оценка первого сигнала взаимных помех для первого индекса, - второй модифицированный аудиоканал для первого индекса времени, - матрица с размером шага (например, инверсия ковариационной матрицы ).

В более подробном описании адаптивные фильтры могут использоваться, чтобы отслеживать медленно изменяющиеся во времени функции RETF. Вследствие того, что является оценкой сигнала эха, захваченного первичным микрофоном, нельзя предположить, что он не коррелирован по времени. Более точно, находящимися вне диагоналей элементами из нельзя пренебрегать, если окна преобразования STFT являются короткими, или если наложение между ними является большим. Принимая это во внимание, способ Ньютона (см., например, [2]),

(11)

гарантирует быструю и стабильную конвергенцию к оптимальному фильтру. В уравнении (11) является фиксированным размером шага, который используется для управления процессом адаптации. На практике ковариационная матрица аппроксимируется посредством усреднения по времени, например, с использованием рекурсивного фильтра первого порядка:

где средние значения по времени обозначены , и - коэффициент забывания.

Далее описана оценка рабочих характеристик.

Чтобы оценить предложенный подход, проводились три набора экспериментов, для которых модельное оборудование было разработано следующим образом. Сигналы эха генерировались посредством свертки чистого речевого сигнала со смоделированными характеристиками AIR. Последние были сгенерированы с использованием способа образа (см., например, [23]) для помещения размером м³ и временем реверберации с и с. Длина моделируемых характеристик AIR составляла L=4096 отводов с частотой дискретизации кГц. Характеристики AIR были сгенерированы для оборудования с двумя микрофонами и одним громкоговорителем. В базовом оборудовании использовалось расстояние между громкоговорителем и первичным микрофоном см, и между микрофонами см. Расстояние между громкоговорителем и вторичным микрофоном составляло см. Также было проанализировано воздействие этих параметров на рабочие характеристики. С этой целью также были оценены расстояния см и см.

Сигналы были преобразованы в области STFT с использованием анализа Хэмминга и окна синтеза длиной K=512 с 75%-м наложением, таким образом =128 отсчетов. Адаптивным алгоритмом, использованным для оценки обеих функций AETF (5) и RETF (11), являлся способ Ньютона. Таким образом, матрица с размером шага в уравнении (5) . Поскольку реалистично предположить, что сигнал громкоговорителей не коррелирован по времени, его ковариационная матрица была упрощена:

где סּ обозначает поэлементное умножение, и - единичная матрица . Следует отметить, что несмотря на это упрощение, коэффициенты нормализации по-прежнему зависят от раздела.

Коэффициентами с размером шага были и , и коэффициентом забывания был . Кроме того, адаптивные фильтры и ковариационные матрицы не обновлялись во время речевых пауз, и использовалась регуляризация, чтобы гарантировать не вырожденность ковариационных матриц. Наконец, белый Гауссовский шум был добавлен к сигналам микрофона, чтобы смоделировать фиксированное сегментное отношение эха к шуму (SegENR). Чтобы сделать различие рабочих характеристик заметным, использовался SegENR=60 дБ. Были проведены три набора экспериментов:

1. Характеристики AIR, сформированные для моделирования с, были усечены до длины 256 отводов и использованы для генерации сигналов эха. Длина оценочной первичной характеристики AIR составляла L=256.

2. Моделируемая среда с с, с длиной оценочной первичной характеристики AIR L=256 отводов.

3. Моделируемая среда с с, с длиной оценочной первичной характеристики AIR L=1024 отвода.

Следует напомнить, что количество разделов функции AETF, которые необходимы, чтобы полностью оценить L коэффициентов характеристики AIR, составляет , таким образом, также частично оцениваются по меньшей мере последующих коэффициентов фильтра.

Во всех моделированиях были оценены разделов первичной функции AETF, в то время как вторичные функции AETF и RETF были оценены с использованием разного количества разделов и , соответственно. Вторичные сигналы эха были затем получены посредством свертки в области STFT вторичных функций AETF с сигналом громкоговорителей, и функций RETF с оценочным первичным сигналом эха. Улучшение потерь на отражение эха (ERLE) использовалось для измерения сокращения эха вторичного канала, где

(12)

где является -нормой, и - -й кадр вторичного акустического эха во временной области. Результат этих моделирований изображен на фиг. 5-7, где меры ERLE были усреднены более чем по 60 кадрам для ясности. На них предложенная методика AEC на основе функции RETF сравнивается с методикой AEC существующего уровня техники с использование и разделов для оценки функции AETF. Последнее условие включено, чтобы показать сравнение с методикой AEC на основе функции AETF с использованием меньшего количества обусловленных разделов функции CTF, что также сократило бы полную вычислительную сложность.

Фиг. 6 изображает результаты, соответствующие моделированиям с усеченными характеристиками AIR. В частности, фиг. 6 изображает сравнение между методиками AEC на основе функции AETF и функции RETF с усеченными характеристиками AIR и L=256 отводов. Сокращение эха, полученное с =1 и 2, на левой и правой частях фигуры показано для всех испытательных условий. Можно заметить, что для =1 подход на основе функции RETF сходится к более высокому значению ERLE, чем подход на основе функции AETF с разделами, например, только с обусловленными разделами.

Кроме того, эти рабочие характеристики лишь умеренно хуже, чем рабочие характеристики подхода на основе функции AETF с разделами. Для все испытательные условия выполняются аналогичным образом.

Сравнение производительности для с показано на фиг. 7. В частности, фиг. 7 изображает сравнение между методиками AEC на основе функции AETF и функции RETF с с и L=256 отводов. Результаты, изображенные на верхней левой и верхней правой частях фигуры, соответствуют =1 и 2 для базового оборудования. Можно заметить, что для =1 подход на основе функции RETF выигрывает у подхода на основе функции AETF с тем же самым количеством обусловленных разделов. Для =2 рабочие характеристики подхода на основе функции AETF явно улучшается, и преимущество, полученное с использованием подхода на основе функции RETF, уменьшается.

Тем не менее, подход на основе функции RETF по-прежнему вдет себя лучше и почти так же, как подход на основе функции AETF с =9 разделами. Внизу представлено сравнение для разного модельного оборудования для =1. Слева показаны результаты с разными расстояниями между микрофонами. В то время как справа оценены разные расстояния между громкоговорителем и первичным микрофоном. Можно заметить, что для всех испытательных условий увеличение любого из этих параметров отрицательно влияет на рабочие характеристики блока подавления. Следует отметить, что увеличение расстояния между микрофонами оказывает более сильное влияние на предложенный подход, и что в целом имеет более сильное влияние на рабочие характеристики блока подавления. Однако для параметров, используемых в этих моделях, предложенный подход может выигрывать у подхода AEC на основе функции AETF с равным количеством обусловленных разделов.

Наконец, результаты, показанные на фиг. 8, соответствуют модельному оборудованию с с. В частности, фиг. 8 иллюстрирует сравнение между подходами AEC на основе функции AETF и функции RETF с с и L=1024 отвода. Результаты, полученные с =1 и 4 разделами, изображены на левой и правой частях фигуры.

Можно заметить, что предложенный способ выигрывает в обоих тестовых сценариях в подходе на основе функции AETF с одинаковым количеством обусловленных разделов. Кроме того, для =4 он выполняется лишь умеренно хуже, чем подход AEC на основе функции AETF с =15.

Таким образом, было показано, что предложенный подход может выигрывать у подхода AEC на основе функции AETF существующего уровня техники с равным количеством обусловленных разделов. Кроме того, было продемонстрировано, что посредством использования подхода AEC на основе функции RETF количество оценочных разделов может быть сокращено за счет умеренного снижения рабочих характеристик.

Далее описано использование адаптивных фильтров в частотной области в соответствии с вариантами осуществления.

В частности, описание обеспечено с использованием адаптивных фильтров в частотной области с разделением на блоки (partitioned-block frequency-domain adaptive filter: PB-FDAF) (см., например, [24]). В частности, эффективное внедрение адаптивных фильтров в частотной области (frequency-domain adaptive filter; FDAF) (см., например, [24], [26]), которые являются частотным аналогом для блочных адаптивных фильтров во временной области (см., например, [27], [28]), сильно отличается от использования фильтров в области STFT. Для получения дополнительной информации об этом см., например, [20] и ссылки.

В соответствии с некоторыми вариантами осуществления два или более принятых аудиоканалов и два или более модифицированных аудиоканалов, например, могут являться каналами в частотной области с разделением на блоки, причем каждый из двух или более принятых аудиоканалов и двух или более модифицированных аудиоканалов содержит множество разделов. Опорный сигнал и первый и второй сигналы взаимных помех, например, могут являться сигналами в частотной области с разделением на блоки, причем каждый из опорного сигнала и первого и второго сигналов взаимных помех содержит множество разделов.

В некоторых вариантах осуществления второй блок 122; 322; 522 фильтра, например, может быть выполнен с возможностью определять конфигурацию фильтра в зависимости от первой оценки первого сигнала взаимных помех и в зависимости от второго принятого аудиоканала. Кроме того, второй блок 122; 322; 522 фильтра, например, может быть выполнен с возможностью определять вторую оценку второго сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех и в зависимости от конфигурации фильтра. Кроме того, второй блок 122; 322; 522 фильтра, например, может быть выполнен с возможностью определять конфигурацию фильтра для второго индекса времени в зависимости от конфигурации фильтра для первого индекса времени, который предшествует второму индексу времени, в зависимости от первой оценки первого сигнала взаимных помех для первого индекса времени и в зависимости от отсчета второго модифицированного аудиоканала для первого индекса времени.

Далее изложено описание вариантов осуществления, использующих фильтры PB-FDAF, с использованием методики наложения с сохранением (см., например, [25], [29]). Представление в виде формулы частотной области с разделением на блоки для сигнала микрофона:

(13)

где сигнал эха в частотной области получен после линеаризации результата круговой свертки длины :

(14)

где - матрица дискретного преобразования Фурье (DFT) размера , и представлением в частотной области -го раздела характеристики AIR задано как:

где - длина раздела, и - длина заполнения нулями. Кроме того, входной сигнал громкоговорителей представлен как диагональная матрица формы (см., например, [25]),

Следует отметить, что общее количество линейных компонентов, получающихся в результате круговой свертки в уравнении (14), равно , но чтобы упростить последующие выводы, в соответствии с вариантами осуществления, выбрано линейных компонентов в уравнении (14). Теперь возможно вывести, что - длина кадра выходного сигнала, и что - длина охватывающей ошибки, в результате чего общее представление в частотной области выходных сигналов :

где отсчеты сигнала во временной области обозначены , где обозначает индекс дискретного времени. Для краткости записи в соответствии с вариантами осуществления определено:

которые являются, соответственно, составной матрицей входных матриц в частотной области и составным вектором разделов характеристики AIR в частотной области. После этого возможно кратко представить уравнение (14) как , где - матрица ограничения круговой свертки в частотной области.

Применение последнего эквивалентно применению обратного DFT, отклонению круговых компонентов во временной области посредством умножения результата круговой свертки на окно ограничения круговой свертки и преобразованию результата линеаризации обратно в частотную область. Важно подчеркнуть, что представление в частотной области является обусловленным, поскольку нет необходимости учитывать упреждение для оценки функций AETF. В частотной области сигнал ошибки после подавления представляет собой:

(15)

и обобщенное уравнение обновления фильтра PB-FDAF:

(16)

где

обозначает матрицу ограничения круговой корреляции, где - окно ограничения круговой корреляции во временной области, и оператор формирует диагональную матрицу с элементами на ее главной диагонали.

Аналогичным образом для представления с использованием функций RETF можно определить сигналы вторичного эха как

(17)

где без потери общности - первичный, или опорный, сигнал эха, и и определены по аналогии с и .

Следует помнить, что в отличие от представления в области STFT функции AETF и RETF в частотной области являются обусловленными, например, и не моделируют необусловленные коэффициенты. Однако в зависимости от относительной позиции первичного микрофона относительно вторичных микрофонов функции RETF могут быть обусловленными или необусловленными. Следовательно, упреждение разделов первичного сигнала эха необходимо для учета возможной не обусловленности функций RETF в частотной области .

На практике это может быть преодолено с помощью задержки вторичных сигналов микрофона, как изображено на фиг. 3, во временной или частотной области. Для синхронизации первичный сигнал ошибки после подавления также должен быть задержан. Для краткости написания в соответствии с вариантами осуществления теперь предполагается, что .

Как в уравнении (8), в соответствии с вариантами осуществления аппроксимируется посредством , чтобы вычислить оценки вторичных сигналов эха:

(18)

Сигнал ошибки после подавления тогда равен

(19)

и минимизация функции стоимости приводит к следующему выражению для оптимальных функций RETF в частотной области:

(20)

Следовательно, способ Ньютона принимает следующую форму

(21)

если формулируется адаптивный алгоритм в частотной области с разделением на блоки, где

(22)

В более общем варианте осуществления второй блок 122; 322; 522 фильтра выполнен с возможностью определять конфигурацию фильтра в частотной области с разделением на блоки в соответствии с

где указывает второй индекс времени, указывает первый индекс времени, и указывает индекс частоты, где - конфигурация фильтра для второго индекса времени, и - конфигурация фильтра для первого индекса времени, где - первая оценка первого сигнала взаимных помех для первого индекса времени, где - матрица с размером шага, - второй модифицированный аудиоканал для первого индекса времени, и - матрица ограничения круговой свертки.

Далее рассматриваются реализация и аспекты синхронизации вариантов осуществления.

В частности, обеспечено подробное описание необусловленных ( ) реализаций в соответствии с вариантами осуществления.

Вследствие возможной не обусловленности фильтров RETF необходимо выполнить задержку вторичных сигналов микрофона, как изображено на фиг. 3, чтобы гарантировать, что необусловленные коэффициенты также моделируются оценочными функциями RETF в частотной области (с разделением на блоки). Для этого существует две стратегии:

- Буферизация входных сигналов вторичных микрофонов на основе отсчетов, например, во временной области. Это позволяет пользователю поддерживать наименьшую возможную задержку. Однако для синхронизации первичный сигнал после подавления должен быть соответствующим образом задержан, и это подразумевает необходимость преобразовать обратно во временную область.

- Буферизация входных сигналов вторичных микрофонов в частотной области. Следовательно, они должны быть задержаны на основе кадров, что приводит к большей задержке по сравнению с задержкой, внесенной во временной области. Преимущество этого варианта состоит в том, что нет необходимости преобразовывать первичный сигнал во временную область после подавления. Следовательно, блок подавления многоканальных взаимных помех может быть присоединен непосредственно к постпроцессору в частотной области.

Далее подробно описываются две возможные реализации.

Сначала рассматриваются варианты осуществления с задержанными вторичными сигналами микрофона.

Из уравнения (17) очевидно, что задержка из разделов, добавленных ко всем вторичным сигналам микрофона, позволяет оценить потенциальные не обусловленности функций RETF . Соответствующая реализация сходна с изображенной на фиг. 3 с , являющейся целым кратным размера раздела . Таким образом, первые разделов адаптивного фильтра используются для моделирования необусловленных коэффициентов RETF. С помощью этого простого подхода требуются по меньшей мере 2 раздела, чтобы оценить и обусловленные, и необусловленные коэффициенты RETF, в этом простом случае первый раздел фильтра моделирует необусловленные коэффициенты .

Теперь рассматриваются варианты осуществления с ограничением симметричного градиента.

Улучшение описанного выше способ учитывает модификацию ограничения градиента , чтобы сохранить максимум обусловленных коэффициентов, а также необусловленных коэффициентов круговой корреляции во временной области. С этой целью в соответствии с вариантами осуществления ограничение из уравнения (16) аппроксимируется следующим образом

(23)

Чтобы гарантировать выходные данные без смешанных эффектов после фильтрации, также должно быть соответствующим образом модифицировано ограничение свертки в уравнении (14):

(24)

Следует отметить, что приведенное выше ограничение отбрасывает прошедших отсчетов, а также самые последние выходных отсчетов круговой свертки, чтобы обеспечить выходные данные линейной свертки, это вызывает задержку из отсчетов в оценках вторичных сигналов эха.

Эти симметричные ограничения представляют собой лишь первоначальные ограничения и во временной области, циклически сдвинутые на отсчетов. Таким образом, соответствующее представление в частотной области представляет собой и , соответственно, где постоянная матрица

(25)

является эквивалентом в частотной области для циклического сдвига. Для практической реализации приведенная выше матрица не представляет интереса, поскольку ограничения обычно накладываются во временной области.

Тем не менее, аналогичная матрица может быть определена для манипуляции сигналами в частотной области до и после обычных ограничений с получением того же самого выбора линейных коэффициентов, обеспеченных уравнениями (23) и (24). Например, требуемое обновление весового коэффициента с использованием способа Ньютона, может быть получено как

(26)

Посредством использования приведенной выше формулы в соответствии с вариантами осуществления достигается гибкость, поскольку выбор линейных коэффициентов задается определением . Фактически может быть приспособлен к очень конкретным случаям, например, он может реализовать сдвиг короче, чем , посредством сокращения количества необусловленных коэффициентов и, следовательно, системной задержки.

Теперь подводятся итоги для подходов реализации, использующих фильтр PB-FDAF.

Выбор реализации для использования зависит от сценария применения. Очевидно, что без предположений об относительных позициях микрофона-источника необходимо внесение некоторой задержки для достижения высококачественных выходных данных фильтра. Следующая таблица обобщенно представляет методы реализации.

Подход	Добавленная задержка	Минимальное количество разделов	Примечание реализации
Задержка вторичных сигналов микрофонов	≥ Q	2	Первоначальный PB-FDAF
Симметричное ограничение фильтра	≤ Q/2	1	Сокращенная задержка

Далее описывается анализ сложности для конкретного случая, в котором имеется 1 первичный канал и вторичных каналов.

Сначала рассматривается временная область.

Далее обеспечивается иллюстративный анализ сложности с точки зрения сложений и умножений. С этой целью обозначим длину оценочного первичного фильтра как и длину оценочных вторичных фильтров как и предположим, что первичный и вторичные фильтры оцениваются с использованием методики адаптивной фильтрации. Сложность на каждый отсчет входного сигнала адаптивного фильтра во временной области:

где , и сложность уравнения обновления зависит от используемого адаптивного алгоритма и во многих случаях также от длины фильтра. Следовательно, если адаптивных фильтров используются параллельно (один на каждый микрофон), алгоритмическая сложность методики AEC с несколькими микрофонами составляет .

Предложенный способ может сократить алгоритмическую сложность посредством сокращения длины адаптивных фильтров. Тогда сокращение алгоритмической сложности задано отношением

(27)

В целом, если один и тот же адаптивный алгоритм используется для оценки и первичного, и вторичных фильтров, то отношение задано как

(28)

Наиболее простой пример: если алгоритм наименьших средних квадратов (LMS) (см., например, [2]) используется для первичного и вторичных блоков подавления эха, не зависит от длины фильтра, и отношение задано как

(29)

Если разные адаптивные фильтры используются для оценки первичного и вторичных фильтров, следует тщательно рассматривать вычислительную сложность индивидуальных алгоритмов.

Теперь рассмотрим область STFT

Далее анализируется сложность с точки зрения сложений и умножений. С этой целью сначала изучим сложность на каждый раздел адаптивного фильтра в области STFT:

где , - сложность быстрого преобразования Фурье (FFT), - сложность комплексного умножения с длиной (см., например, [30]), и сложность уравнения обновления зависит от используемого адаптивного алгоритма. Следовательно, если адаптивных фильтров используются параллельно (один на каждый микрофон), алгоритмическая сложность методики AEC с несколькими микрофонами на каждый раздел составляет .

Предложенный способ может сократить алгоритмическую сложность, если . Тогда сокращение алгоритмической сложности задано отношением

Следовательно, если один и тот же адаптивный фильтр используется для первичного и вторичных блоков подавления эха, отношение задано как

Если разные адаптивные фильтры используются для оценки функций AETF и RETF, следует тщательно рассматривать вычислительную сложность индивидуальных алгоритмов.

Конкретные применения вариантов осуществления, например, могут реализовать решения с малой сложностью методики MC-AEC для следующих применений:

- Смартфоны, планшеты и персональные компьютеры.

- Активируемые голосом помощники, интеллектуальные динамики и интеллектуальные бытовые устройства.

- Интеллектуальные телевизоры.

Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где модуль или устройство соответствуют этапу способа или признаку этапа способа. Аналогичным образом аспекты, описанные в контексте этапа способа, также представляют описание соответствующего модуля, или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть исполнены посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления один или более из самых важных этапов способа могут быть исполнены таким устройством.

В зависимости от некоторых требований реализации варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении, или по меньшей мере частично в аппаратных средствах, или по меньшей мере частично в программном обеспечении. Реализация может быть выполнена с использованием цифрового запоминающего носителя, например гибкого диска, DVD, Blu-ray, CD, ПЗУ (ROM), ППЗУ (PROM), СППЗУ (EPROM), ЭСППЗУ (EEPROM) или флэш-памяти, имеющих сохраненные на них читаемые в электронном виде управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, в результате чего выполняется соответствующий способ. Таким образом, цифровой запоминающий носитель может являться машиночитаемым.

Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий читаемые в электронном виде управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой, в результате чего выполняется один из способов, описанных в настоящем документе.

Обычно варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, программный код выполнен с возможностью выполнения одного из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в настоящем документе, сохраненных на машиночитаемом носителе.

Другими словами, вариант осуществления способа изобретения, таким образом, представляет собой компьютерную программу, имеющую программный код для выполнения одного из способов, описанных в настоящем документе, когда компьютерная программа исполняется на компьютере.

Дополнительный вариант осуществления способов изобретения, таким образом, представляет собой носитель данных (или цифровой запоминающий носитель, или машиночитаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Носитель данных, цифровой запоминающий носитель или носитель с записанными данными обычно является материальными и/или долгого хранения.

Дополнительный вариант осуществления способа изобретения, таким образом, поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов могут, например, быть выполнен с возможностью быть перенесенными сквозное отверстие соединение обмена данными, например, сквозное отверстие Интернет.

Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, выполненное с возможностью или адаптированное для выполнения одного из способов, описанных в настоящем документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.

Дополнительный вариант осуществления в соответствии с изобретением содержит устройство или систему, выполненную с возможностью переносить (например, в электронном или оптическом виде) компьютерную программу для выполнения одного из способов, описанных в настоящем документе, к приемнику. Приемник, например, может являться компьютером, мобильным устройством, запоминающим устройством и т.п. Устройство или система, например, могут содержать файловый сервер для переноса компьютерной программы к приемнику.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторой или всей функциональности способов, описанных в настоящем документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в настоящем документе. Обычно способы предпочтительно выполняются любым аппаратным устройством.

Устройство, описанное в настоящем документе, может быть реализовано с использованием аппаратного устройства, или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.

Способы, описанные в настоящем документе, могут быть выполнены с использованием аппаратного устройства, или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.

Описанные выше варианты осуществления являются лишь иллюстрацией принципов настоящего изобретения. Подразумевается, что модификации и вариации размещений и подробностей, описанных в настоящем документе, будут очевидны для других специалистов в области техники. Таким образом, подразумевается, что изобретение ограничено только объемом последующей патентной формулы изобретения, а не конкретными подробностями, представленными посредством описания и разъяснения представленных в настоящем документе вариантов осуществления.

СПИСОК ЛИТЕРАТУРЫ

[1] E. Hänsler and G. Schmidt, ʺAcoustic Echo and Noise Control: A practical Approachʺ New Jersey, USA: Wiley, 2004.

[2] S. Haykin, ʺAdaptive Filter Theoryʺ, 4th ed. New Jersey, USA: Prentice-Hall, 2001.

[3] W. Kellermann, ʺStrategies for combining acoustic echo cancellation and adaptive beamforming microphone arrays", in Proc. IEEE ICASSP, Munich, Germany, Apr. 1997, pp. 219-222.

[4] O. Shalvi and E. Weinstein, ʺSystem identification using nonstationary signals", IEEE Trans. Signal Process., vol. 44, no. 8, pp. 2055-2063, 1996.

[5] S. Gannot, D. Burshtein, and E. Weinstein, ʺSignal enhancement using beamforming and nonstationarity with applications to speech," IEEE Trans. Signal Process., vol. 49, no. 8, pp. 1614-1626, Aug. 2001.

[6] I. Cohen, ʺRelative transfer function identification using speech signals," IEEE Trans. Speech Audio Process., vol. 12, no. 5, pp. 451-459, Sep. 2004.

[7] R. Talmon, I. Cohen, and S. Gannot, ʺRelative transfer function identification using convolutive transfer function approximation," IEEE Trans. Audio, Speech, Lang. Process., vol. 17, no. 4, pp. 546-555, May 2009.

[8] G. Reuven, S. Gannot, and I. Cohen, ʺJoint noise reduction and acoustic echo cancellation using the transfer-function generalized sidelobe canceller," Speech Communication, vol. 49, no. 7-8, pp. 623-635, Aug. 2007.

[9] R. Talmon, I. Cohen, and S. Gannot, ʺConvolutive transfer function generalized sidelobe canceler," IEEE Trans. Audio, Speech, Lang. Process., vol. 17, no. 7, pp. 1420-1434, Sep. 2009.

[10] T. Dvorkind and S. Gannot, ʺSpeaker localization in a reverberant environment," in Proc. the 22nd convention of Electrical and Electronics Engineers in Israel (IEEEI), Tel-Aviv, Israel, Dec. 2002, pp. 7-7.

[11] T. G. Dvorkind and S. Gannot, ʺTime difference of arrival estimation of speech source in a noisy and reverberant environment," Signal Processing, vol. 85, no. 1, pp. 177-204, Jan. 2005.

[12] X. Li, L. Girin, R. Horaud, and S. Gannot, ʺEstimation of the direct-path relative transfer function for supervised sound-source localization," IEEE Trans. Audio, Speech, Lang. Process., vol. 4, no. 11, pp. 2171-2186, Nov. 2016.

[13] C. Yemdji, M. Mossi Idrissa, N. Evans, C. Beaugeant, and P. Vary, ʺDual channel echo postfiltering for hands-free mobile terminals," in Proc. IWAENC, Aachen, Germany, Sep. 2012, pp. 1-4.

[14] C. Yemdji, L. Lepauloux, N. Evans, and C. Beaugeant, ʺMethod for processing an audio signal and audio receiving circuit," U.S. Patent 2014/0 334 620, 2014.

[15] W. Kellermann, ʺJoint design of acoustic echo cancellation and adaptive beamforming for microphone arrays," in Proc. Intl. Workshop Acoust. Echo Noise Control (IWAENC), London, UK, 1997, pp. 81-84.

[16] W. Herbordt and W. Kellermann, ʺGSAEC - acoustic echo cancellation embedded into the generalized sidelobe canceller," in Proc. European Signal Processing Conf. (EUSIPCO), vol. 3, Tampere, Finland, Sep. 2000, pp. 1843-1846.

[17] W. Herbordt, W. Kellermann, and S. Nakamura, ʺJoint optimization of LCMV beamforming and acoustic echo cancellation," in Proc. European Signal Processing Conf. (EUSIPCO), Vienna, Austria, Sep. 2004, pp. 2003-2006.

[18] K.-D. Kammeyer, M. Kallinger, and A. Mertins, ʺNew aspects of combining echo cancellers with beamformers," in Proc. IEEE ICASSP, vol. 3, Philadelphia, USA, Mar. 2005, pp. 137-140.

[19] Y. Avargel and I. Cohen, ʺAdaptive system identification in the short-time fourier transform domain using cross-multiplicative transfer function approximation," IEEE Trans. Audio, Speech, Lang. Process., vol. 6, no. 1, pp. 162-173, Jan. 2008.

[20] ʺSystem identification in the short-time Fourier transform domain with crossband filtering," IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 4, pp. 1305-1319, May 2007.

[21] ʺOn multiplicative transfer function approximation in the short-time fourier transform domain," IEEE Signal Process. Lett., vol. 14, no. 5, pp. 337-340, May 2007.

[22] I. Cohen, ʺSpeech enhancement using a noncausal a priori SNR estimator," IEEE Signal Process. Lett., vol. 11, no. 9, pp. 725-728, Sep. 2004.

[23] J. B. Allen and D. A. Berkley, ʺImage method for efficiently simulating small-room acoustics," J. Acoust. Soc. Am., vol. 65, no. 4, pp. 943-950, Apr. 1979.

[24] P. C. W. Sommen, ʺPartitioned frequency-domain adaptive filters," in Proc. Asilomar Conf. on Signals, Systems and Computers, 1989, pp. 677-681.

[25] J. J. Shynk, ʺFrequency-domain and multirate adaptive filtering," IEEE Signal Process. Mag., vol. 9, no. 1, pp. 14-37, Jan. 1992.

[26] S. Haykin, ʺAdaptive Filter Theoryʺ, 4th ed. Prentice-Hall, 2002.

[27] M. Dentino, J. McCool, and B. Widrow, ʺAdaptive filtering in the frequency domain," Proc. of the IEEE, vol. 66, no. 12, pp. 1658-1659, Dec. 1978.

[28] G. A. Clark, S. R. Parker, and S. K. Mitra, ʺA unified approach to time- and frequency-domain realization of FIR adaptive digital filters", IEEE Trans. Acoust., Speech, Signal Process., vol. 31, no. 5, pp. 1073-1083, Oct. 1983.

[29] A. Oppenheim and R. W. Schafer, ʺDigital Signal Processingʺ, 2nd ed. Prentice-Hall Inc., Englewood Cliff, NJ, 1993.

[30] R. M. M. Derkx, G. P. M. Engelmeers, and P. C. W. Sommen, ʺNew constraining method for partitioned block frequency-domain adaptive filters", IEEE Trans. Signal Process., vol. 50, no. 3, pp. 2177-2186, 2002.

1. Устройство для подавления многоканальных взаимных помех в принятом аудиосигнале, содержащем два или более принятых аудиоканалов, для получения модифицированного аудиосигнала, содержащего два или более модифицированных аудиоканалов, причем устройство содержит:

первый блок (112; 312; 512) фильтра, выполненный с возможностью формировать первую оценку первого сигнала взаимных помех в зависимости от опорного сигнала,

первый блок (114; 314; 514) подавления взаимных помех, выполненный с возможностью формировать первый модифицированный аудиоканал из двух или более модифицированных аудиоканалов на основе первого принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от первой оценки первого сигнала взаимных помех,

второй блок (122; 322; 522) фильтра, выполненный с возможностью формировать вторую оценку второго сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех, и

второй блок (124; 324; 524) подавления взаимных помех, выполненный с возможностью формировать второй модифицированный аудиоканал из двух или более модифицированных аудиоканалов на основе второго принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от второй оценки второго сигнала взаимных помех.

2. Устройство по п. 1,

в котором первая оценка первого сигнала взаимных помех представляет собой первую оценку первого сигнала акустического эха,

в котором вторая оценка второго сигнала взаимных помех представляет собой вторую оценку второго сигнала акустического эха,

в котором первый блок (114; 314; 514) подавления взаимных помех выполнен с возможностью проводить подавление акустического эха на первом принятом аудиоканале для получения первого модифицированного аудиоканала, и

в котором второй блок (124; 324; 524) подавления взаимных помех выполнен с возможностью проводить подавление акустического эха на втором принятом аудиоканале для получения второго модифицированного аудиоканала.

3. Устройство по п. 1, в котором два или более принятых аудиоканалов и два или более модифицированных аудиоканалов являются каналами области преобразования и в котором опорный сигнал и первый и второй сигналы взаимных помех являются сигналами области преобразования.

4. Устройство по п. 1, в котором два или более принятых аудиоканалов и два или более модифицированных аудиоканалов являются каналами области оконного преобразования Фурье и в котором опорный сигнал и первый и второй сигналы взаимных помех являются сигналами области оконного преобразования Фурье.

5. Устройство по п. 1,

в котором второй блок (122; 322; 522) фильтра выполнен с возможностью определять конфигурацию фильтра в зависимости от первой оценки первого сигнала взаимных помех и в зависимости от второго принятого аудиоканала и

в котором второй блок (122; 322; 522) фильтра выполнен с возможностью определять вторую оценку второго сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех и в зависимости от конфигурации фильтра.

6. Устройство по п. 5,

в котором второй блок (122; 322; 522) фильтра выполнен с возможностью определять конфигурацию фильтра посредством минимизации функцию стоимости или минимизации критерия ошибки.

7. Устройство по п. 5,

в котором второй блок (122; 322; 522) фильтра выполнен с возможностью определять конфигурацию фильтра в соответствии с

где в - ковариационная матрица для ,

где - вектор взаимной корреляции между и ,

где указывает первую оценку первого сигнала взаимных помех,

где указывает второй принятый аудиоканал,

где обозначает индекс времени, и указывает индекс частоты.

8. Устройство по п. 1,

в котором второй блок (122; 322; 522) фильтра выполнен с возможностью определять конфигурацию фильтра для второго индекса времени в зависимости от конфигурации фильтра для первого индекса времени, который предшествует второму индексу времени, в зависимости от первой оценки первого сигнала взаимных помех для первого индекса времени и в зависимости от отсчета второго модифицированного аудиоканала для первого индекса времени.

9. Устройство по п. 8,

в котором второй блок (122; 322; 522) фильтра выполнен с возможностью определять конфигурацию фильтра для второго индекса времени в соответствии с

где указывает второй индекс времени, указывает первый индекс времени, и указывает индекс частоты,

где - конфигурация фильтра для второго индекса времени, и - конфигурация фильтра для первого индекса времени,

где - первая оценка первого сигнала взаимных помех для первого индекса времени,

где - второй модифицированный аудиоканалом для первого индекса времени,

где - матрица с размером шага.

10. Устройство по п. 1,

в котором два или более принятых аудиоканалов и два или более модифицированных аудиоканалов являются каналами частотной области с разделением на блоки, причем каждый из двух или более принятых аудиоканалов и двух или более модифицированных аудиоканалов содержит множество разделов, и

в котором опорный сигнал и первый и второй сигналы взаимных помех являются сигналами частотной области с разделением на блоки, причем каждый из опорного сигнала и первого и второго сигналов взаимных помех содержит множество разделов.

11. Устройство по п. 10,

12. Устройство по п. 11,

в котором второй блок (122; 322; 522) фильтра выполнен с возможностью определять конфигурацию фильтра в частотной области с разделением на блоки в соответствии с

где указывает второй индекс времени, указывает первый индекс времени, и указывает индекс частоты,

где - конфигурация фильтра для второго индекса времени, и - конфигурация фильтра для первого индекса времени,

где - первая оценка первого сигнала взаимных помех для первого индекса времени,

где - матрица с размером шага,

где - второй модифицированный аудиоканал для первого индекса времени, и

где - матрица ограничения круговой свертки.

13. Устройство по п. 1,

в котором принятый аудиосигнал содержит три или более принятых аудиоканалов и в котором модифицированный аудиосигнал содержит три или более модифицированных аудиоканалов,

причем устройство дополнительно содержит третий блок (132) фильтра и третий блок (134) подавления взаимных помех,

в котором третий блок (132) фильтра выполнен с возможностью формировать третью оценку третьего сигнала взаимных помех в зависимости по меньшей мере от одной из первой оценки первого сигнала взаимных помех и второй оценки второго сигнала взаимных помех,

в котором третий блок (134) подавления взаимных помех выполнен с возможностью формировать третий модифицированный аудиоканал из трех или более модифицированных аудиоканалов на основе третьего принятого аудиоканала из трех или более принятых аудиоканалов в зависимости от третьей оценки третьего сигнала взаимных помех.

14. Способ для подавления многоканальных взаимных помех в принятом аудиосигнале, содержащем два или более принятых аудиоканалов, для получения модифицированного аудиосигнала, содержащего два или более модифицированных аудиоканалов, способ содержит этапы, на которых:

формируют первую оценку первого сигнала взаимных помех в зависимости от опорного сигнала,

формируют первый модифицированный аудиоканал из двух или более модифицированных аудиоканалов на основе первого принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от первой оценки первого сигнала взаимных помех,

формируют вторую оценку второго сигнала взаимных помех в зависимости от первой оценки первого сигнала взаимных помех, и

формируют второй модифицированный аудиоканал из двух или более модифицированных аудиоканалов на основе второго принятого аудиоканала из двух или более принятых аудиоканалов в зависимости от второй оценки второго сигнала взаимных помех.

15. Машиночитаемый носитель, содержащий компьютерную программу для реализации способа по п. 14 при ее исполнении на компьютерном процессоре или процессоре сигналов.

Настоящее изобретение относится к устройству эхоподавления, способу эхоподавления и программе эхоподавления. Когда звук выводится из динамика и на микрофон подается только выходной звук, для каждого диапазона частот проводится сравнение для каждого из различных диапазонов частот между частотной маской, сгенерированной на основании спектра мощности или амплитудного спектра для обучающего сигнала, передаваемого через тракт передаваемого сигнала, и значением спектра мощности или амплитудного спектра для входного сигнала от микрофона для обнаружения наличия состояния одновременного разговора.

Прибор громкоговорящей оперативной связи // 2714667

Изобретение относится к технике связи, в частности к громкоговорящим телефонным системам связи. Техническим результатом является снижение уровня помех полезному сигналу громкоговорящей связи.

Способ и компоновка для управления выходной громкостью по меньшей мере одного акустического устройства // 2705716

Изобретение относится к акустике. Способ управления громкостью акустической системы, установленной в поезде, содержит следующие действия.

Способ и устройство оценки аудиопомехи // 2651616

Изобретение относится к акустике, в частности к устройствам измерения уровня шума. Устройство оценки аудиопомех содержит микрофон, причем сигнал микрофона содержит составляющую тестового сигнала, соответствующую тестовому аудиосигналу, делитель для разделения сигнала микрофона на множество интервальных составляющих тестового сигнала.

Устройство переговорное для внутренней связи членов экипажа, работающих в условиях повышенных акустических шумов // 2643527

Изобретение относится к технике телефонной связи и может быть использовано в качестве устройства для ведения телефонных переговоров членов экипажа между собой внутри подвижного объекта в условиях воздействия повышенных акустических шумов.

Многоканальное акустическое эхоподавление // 2546717

Изобретение относится к области акустики, в частности, к системам эхоподавления. Устройство многоканального акустического эхокомпенсатора содержит микрофон, принимающий сигнал, содержащий составляющие по меньшей мере от двух источников звука, которые нужно подавить.

Способ передачи акустического сигнала // 1760645

Изобретение относится к электроакустике и звукоусилительной технике и может быть использовано для усиления звуковых сигналов. .

Адаптивное устройство подавления акустического самовозбуждения // 1654983

Изобретение относится к технике электрической связи и звукоусиления. .

Устройство для усиления звука // 1453623

Изобретение относится к области приборостроения, а именно к устройствам для усиления звука. .

Устройство для усиления звука // 1453622

Устройство для постобработки звукового сигнала с использованием выявления места всплеска // 2734781

Изобретение относится к средствам для постобработки звукового сигнала. Технический результат заключается в повышении эффективности обработки.