Устройство и способ оценивания межканальной разницы во времени

Авторы патента:

ДЕЛА Штефан (DE)

ШНЕЛЛЬ Маркус (DE)

ЕГЕРС Вольфганг (DE)

ФУКС Гийом (DE)

ФОТОПОУЛОУ Элени (DE)

РАВЕЛЛИ Эммануэль (DE)

МУЛЬТРУС Маркус (DE)

БАЙЕР Штефан (DE)

МАРКОВИЧ Горан (DE)

ДИТЦ Мартин (DE)

G10L25/18 - Анализирование или синтезирование речи; распознавание речи (ввод/вывод звука для компьютеров G06F 3/16; способы или устройства для обработки цифровых данных, специально предназначенных для манипулирования данными на естественном языке G06F 17/20; обучение или общение со слепыми, глухими или немыми G09B 21/00; телефонная связь H04M)

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

G10L19/008 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2711513:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к средствам для оценивания межканальной разницы во времени. Технический результат заключается в повышении точности определения межканальной разницы во времени. Вычисляют спектр взаимной корреляции для временного блока из сигнала первого канала во временном блоке и сигнала второго канала во временном блоке. Оценивают характеристику спектра сигнала первого канала или сигнала второго канала для временного блока. Сглаживают спектр взаимной корреляции по времени с использованием спектральной характеристики для получения сглаженного спектра взаимной корреляции. Обрабатывают сглаженный спектр взаимной корреляции для получения межканальной разницы во времени. 3 н. и 12 з.п. ф-лы, 25 ил.

Настоящая заявка относится к обработке стереосигнала или, в общем случае, обработке многоканального сигнала, где многоканальный сигнал имеет два канала, например, левый канал и правый канал в случае стереосигнала, или более двух каналов, например, три, четыре, пять или любое другое количество каналов.

Речевой стереосигнал и, в частности, разговорный речевой стереосигнал привлекал гораздо меньшее научное внимание, чем хранение и вещание стереофонической музыки. Действительно, в настоящее время в речевой связи все же, по большей части, используется монофоническая передача. Однако с увеличением сетевой полосы и пропускной способности, предполагается, что связь на основе стереофонических технологий будет более популярной и создавать лучшее ощущение прослушивания.

Эффективное кодирование стереофонического аудиоматериала долгое время исследовалось в перцептивном аудиокодировании музыки для эффективного хранения или вещания. При высоких битовых скоростях, где важно сохранять форму волны, долгое время применялся суммарно-разностный стереосигнал, известный как средний/боковой (M/S) стереосигнал. Для низких битовых скоростей было введено кодирование стереосигнала по интенсивности, и более недавно, параметрическое кодирование стереосигнала. Последний метод принят в разных стандартах, например, HeAACv2 и Mpeg USAC. Он генерирует понижающее микширование двухканального сигнала и связывает компактную пространственную вспомогательную информацию.

Совместное кодирование стереосигнала обычно строится на основе временно-частотного преобразования сигнала высокого частотного разрешения, т.е. низкого временного разрешения, и поэтому не совместимо с низкой задержкой и обработкой во временной области, осуществляемой в большинстве речевых кодеров. Кроме того, порождаемая битовая скорость обычно высока.

С другой стороны, в параметрической стереофонии используется дополнительный банк фильтров, расположенный на входном каскаде кодера в качестве препроцессора и на выходном каскаде декодера в качестве постпроцессора. Таким образом, параметрическая стереофония может использоваться с традиционными речевыми кодерами, например ACELP, как это осуществляется в MPEG USAC. Кроме того, параметризация звуковой сцены может достигаться с минимальным объемом вспомогательной информации, пригодной для низких битовых скоростей. Однако параметрическая стереофония, например, в MPEG USAC, в частности, не предназначенном для низкой задержки и не доставляет согласованного качества для разных разговорных сценариев. В традиционном параметрическом представлении пространственной сцены, ширина стереоскопического изображения искусственно воспроизводится декоррелятором, применяемым на двух синтезированных каналах, и управляется параметрами межканальной когерентности (IC), вычисленными и переданными кодером. Для большинства речевых стереосигналов, этот способ расширения стереоскопического изображения не пригоден для воссоздания естественного окружения речи, которая является довольно прямым звуком, поскольку она создается единственным источником, расположенным в конкретной позиции в пространстве (иногда с некоторой реверберацией от комнаты). Напротив, музыкальные инструменты имеют гораздо большую естественную ширину, чем речь, которую можно лучше имитировать путем декорреляции каналов.

Проблемы также возникают при записи речи с помощью несовмещенных микрофонов, например, в конфигурации A-B, где микрофоны отдалены друг от друга или для бинауральной записи или рендеризации. Эти сценарии могут предполагаться для захвата речи в телеконференциях или для создания виртуальной звуковой сцены с отдаленными говорящими в многоточечном блоке управления (MCU). В этом случае время прихода сигнала отличается от канала к каналу в отличие от записей, производимых на совмещенных микрофонах наподобие X-Y (записи интенсивности) или M-S (записи среднего-бокового). В этом случае вычисление когерентности таких невыровненных по времени двух каналов может неверно оцениваться, что не позволяет осуществлять синтез искусственного окружения.

Ссылки на уровень техники, относящиеся к обработке стереосигнала, представляют собой патент США 5,434,948 или патент США 8,811,621.

В документе WO 2006/089570 A1 раскрыта почти прозрачная или прозрачная схема многоканального кодера/декодера. Схема многоканального кодера/декодера дополнительно генерирует остаточный сигнал типа формы волны. Этот остаточный сигнал передается совместно с одним или более многоканальными параметрами на декодер. В отличие от чисто параметрического многоканального декодера, улучшенный декодер генерирует многоканальный выходной сигнал, имеющий улучшенное выходное качество ввиду дополнительного остаточного сигнала. На стороне кодера, левый канал и правый канал фильтруются банком фильтров анализа. Затем, для сигнал каждой подполосы, значение выравнивания и значение коэффициента усиления вычисляются для подполосы. Затем такое выравнивание осуществляется до дополнительной обработки. На стороне декодера осуществляется обработка снятия выравнивания и коэффициента усиления, и затем соответствующие сигналы синтезируются банком фильтров синтеза для генерирования декодированного левого сигнала и декодированного правого сигнала.

В таких применениях обработки стереосигнала, вычисление межканальной разницей во времени между сигналом первого канала и сигналом второго канала обычно полезно для осуществления процедуры широкополосного выравнивания по времени. Однако существуют другие применения для использования межканальной разницы во времени между первым каналом и вторым каналом, где эти применения заключаются в хранении или передаче параметрических данных, стереофонической/многоканальной обработке, содержащей выравнивание по времени двух каналов, оценивании разницы во времени прихода для определения позиции говорящего в комнате, пространственную фильтрацию для формирования диаграммы направленности, разложение на передний план/задний план или определение местоположения источника звука, например, методом акустической триангуляции.

Для всех таких применений необходимо эффективное, точное и надежное определения межканальной разницы во времени между сигналами первого и второго канала.

Уже существуют такие определения, известные под названием ʺGCC-PHATʺ, или, иными словами, обобщенное фазовое преобразование с взаимной корреляцией. Обычно спектр взаимной корреляции вычисляется между сигналами двух каналов и затем взвешивающая функция применяется к спектру взаимной корреляции для получения так называемого обобщенного спектра взаимной корреляции до осуществления обратного спектрального преобразования, например, обратного DFT в обобщенный спектр взаимной корреляции для нахождения представления во временной области. Это представление во временной области представляет значения для некоторых отставаний по времени, и наивысший пик представления во временной области обычно соответствует задержке по времени или разнице во времени, т.е. межканальной задержке по времени разности между сигналами двух каналов.

Однако было показано, что, в частности, в сигналах, которые отличаются, например, от чистой речи без какой-либо реверберации или фонового шума, надежность этого общего метода не является оптимальной.

Таким образом, задачей настоящего изобретения является обеспечение улучшенного принципа для оценивания межканальной разницы во времени между сигналами двух каналов.

Эта задача решается посредством устройства для оценивания межканальной разницы во времени по п. 1, или способа оценивания межканальной разницы во времени по п. 15 или компьютерной программы по п. 16.

Настоящее изобретение базируется на обнаружении того, что сглаживание спектра взаимной корреляции по времени, которое регулируется спектральной характеристикой спектра сигнала первого канала или сигнала второго канала, значительно повышает надежность и точность определения межканальной разницы во времени.

В предпочтительных вариантах осуществления определяется характеристика тональности/шумности спектра и, в случае тоноподобного сигнала, сглаживание является более сильным, тогда как, в случае сигнала шумности, сглаживание производится менее сильно.

Предпочтительно, используется мера спектральной плоскостности и, в случае тоноподобных сигналов, мера спектральной плоскостности будет низкой, и сглаживание будет усиливаться, и в случае шумоподобных сигналов, мера спектральной плоскостности будет высокой, например, около 1 или близкой к 1, и сглаживание будет слабым.

Таким образом, в соответствии с настоящим изобретением, устройство для оценивания межканальной разницы во времени между сигналом первого канала и сигналом второго канала содержит вычислитель для вычисления спектра взаимной корреляции для временного блока для сигнала первого канала во временном блоке и сигнала второго канала во временном блоке. Устройство дополнительно содержит оцениватель спектральной характеристики для оценивания характеристики спектра сигнала первого канала и сигнала второго канала для временного блока и, дополнительно, сглаживающий фильтр для сглаживания спектра взаимной корреляции по времени с использованием спектральной характеристики для получения сглаженного спектра взаимной корреляции. Затем сглаженный спектр взаимной корреляции дополнительно обрабатывается процессором для получения параметра межканальной разницы во времени.

Для предпочтительных вариантов осуществления, относящихся к дополнительной обработке сглаженного спектра взаимной корреляции, осуществляется адаптивная операция порогового ограничения, в которой представление во временной области сглаженного обобщенного спектра взаимной корреляции анализируется для определения переменного порога, который зависит от представления во временной области и пика представления во временной области, сравнивается с переменным порогом, причем межканальная разница во времени определяется как отставание по времени, связанное с пиком, находящимся в заранее определенном отношении с порогом, например, превышающем порог.

В одном варианте осуществления, переменный порог определяется как значение, равное целому кратному значения среди наибольших, например, десяти процентов значений представления во временной области или, альтернативно, в дополнительном варианте осуществления для определения переменной, переменный порог вычисляется путем умножения переменного порога и значения, где значение зависит от характеристики отношения сигнал/шум сигналов первого и второго каналов, где значение становится более высоким для более высокого отношения сигнал/шум и становится более низким для более низкого отношения сигнал/шум.

Как указано выше, вычисление межканальной разницы во времени может использоваться во многих разных применениях, например, хранении или передаче параметрических данных, стереофонического/многоканального сигнала по п. 1, способе обработки/кодирования, выравнивания по времени двух каналов, оценивания разницы во времени прихода для определения позиции говорящего в комнате с двумя микрофонами и известной микрофонной установкой, с целью формирования диаграммы направленности, пространственной фильтрации, разложения на передний план/задний план или определения местоположения источника звука, например, путем акустической триангуляции на основании разниц во времени двух или трех сигналов.

В дальнейшем, однако, предпочтительная реализация и использование вычисления межканальной разницы во времени описано с целью широкополосного выравнивания по времени двух стереосигналов в процессе кодирования многоканального сигнала, имеющего, по меньшей мере, два канала.

Устройство для кодирования многоканального сигнала, имеющего, по меньшей мере, два канала содержит блок определения параметра для определения параметра широкополосного выравнивания с одной стороны и множества параметров узкополосного выравнивания с другой стороны. Эти параметры используются блоком выравнивания сигнала для выравнивания, по меньшей мере, двух каналов с использованием этих параметров для получения выровненных каналов. Затем процессор сигнала вычисляет средний сигнал и боковой сигнал с использованием выровненных каналов, и затем средний сигнал и боковой сигнал кодируются и добавляются в кодированный выходной сигнал, который дополнительно имеет, в качестве параметрической вспомогательной информации, параметр широкополосного выравнивания и множество параметров узкополосного выравнивания.

На стороне декодера декодер сигнала декодирует кодированный средний сигнал и кодированный боковой сигнал для получения декодированных среднего и боковых сигналов. Затем эти сигналы обрабатываются процессором сигнала для вычисления декодированного первого канала и декодированного второго канала. Затем эти декодированные каналы подвергаются снятию выравнивания с использованием информации о параметре широкополосного выравнивания и информации о множестве узкополосных параметров, включенных в кодированный многоканальный сигнал, для получения декодированного многоканального сигнала.

В конкретной реализации, параметр широкополосного выравнивания представляет собой параметр межканальной разницы во времени, и множество параметров узкополосного выравнивания состоит из межканальных разностей фаз.

Настоящее изобретение базируется на том факте, что, в частности, для речевых сигналов, где присутствует более одного говорящего, но также для других аудиосигналов, где присутствует несколько аудиоисточников, разные места аудиоисточников, которые оба отображаются в два канала многоканального сигнала, могут учитываться для использования параметра широкополосного выравнивания, например, параметра межканальной разницы во времени, который применяется ко всему спектру одного или обоих каналов. Помимо этого параметра широкополосного выравнивания, было установлено, что несколько параметров узкополосного выравнивания, которые отличаются от подполосы к подполосе, дополнительно приводят к лучшему выравниванию сигнала на обоих каналах.

Таким образом, широкополосное выравнивание, соответствующее одной и той же задержке по времени в каждой подполосе совместно с выравниванием по фазе, соответствующим разным фазовым сдвигам для разных подполос приводит к оптимальному выравниванию обоих каналов до того, как эти два канала преобразуются в среднее/боковое представление, которое затем дополнительно кодируется. Ввиду того, что получено оптимальное выравнивание, с одной стороны, энергия в среднем сигнале имеет максимально возможное значение, и, с другой стороны, энергия в боковом сигнале имеет минимально возможное значение, что позволяет получить оптимальный результат кодирования с минимально возможной битовой скоростью или максимально возможным качеством аудиосигнала для определенной битовой скорости.

В частности для разговорного речевого материала, обычно возникает ощущение, что в двух разных местах присутствуют активные говорящие. Дополнительно, ситуация такова, что, обычно, только один говорящий говорит из первого места, и затем второй говорящий говорит из второго места или положения. Влияние разных положений на два канала, например, первый или левый канал или второй или правый канал, отражается в различии времен прихода и, таким образом, некоторой задержке по времени между двумя каналами вследствие разных положений, и эта задержка по времени время от времени изменяется. В общем случае, это влияние отражается в двух канальных сигналах как широкополосное снятие выравнивания, которое может определяться параметром широкополосного выравнивания.

С другой стороны, другие эффекты, в частности, обусловленные реверберацией или дополнительными источниками шума могут учитываться отдельными параметрами выравнивания по фазе для отдельных полос, которые накладываются на широкополосные разные времена прихода или широкополосное снятие выравнивания обоих каналов.

В связи с этим, использование как параметра широкополосного выравнивания, так и множества параметров узкополосного выравнивания помимо параметра широкополосного выравнивания приводит к оптимальному выравниванию каналов на стороне кодера для получения хорошего и очень компактного среднего/бокового представления, тогда как, с другой стороны, соответствующее снятие выравнивания после декодирования на стороне декодера приводит к хорошему качеству аудиосигнала для определенной битовой скорости или к малой битовой скорости для определенного необходимого качества аудиосигнала.

Преимущество настоящего изобретения состоит в том, что оно обеспечивает новую схему кодирования стереосигнала, гораздо более пригодную для преобразования речевого стереосигнала, чем существующие схемы кодирования стереосигнала. В соответствии с изобретением, технологии параметрической стереофонии и технологии совместного кодирования стереосигнала объединяются, в частности, путем использования межканальной разницы во времени, возникающей на каналах многоканального сигнала, в частности, в случае речевых источников, а также в случае других аудиоисточников.

Некоторые варианты осуществления обеспечивают полезные преимущества, рассмотренные ниже.

Новый способ предусматривает гибридный подход смешивания элементов из традиционной M/S стереофонии и параметрической стереофонии. В традиционной M/S, каналы пассивно смешиваются с понижением для генерирования среднего и бокового сигналов. Процесс можно дополнительно расширить за счет вращения канала с использованием преобразования Карунена-Лева (KLT), также известного как анализ основных компонент (PCA), до суммирования и дифференцирования каналов. Средний сигнал кодируется путем кодирования первичным кодом, а боковой сигнал переносится на вторичный кодер. Усовершенствованная M/S стереофония может дополнительно использовать предсказание бокового сигнала по среднему каналу, кодированному в текущем или предыдущем кадре. Главной целью вращения и предсказание является максимизация энергии среднего сигнала при минимизации энергии бокового сигнала. M/S стереофония сохраняет форму волны и в этом отношении очень устойчива к любым стереофоническим сценариям, но может быть очень дорогостоящей в отношении расходования битов.

Для наивысшей эффективности при низких битовых скоростях, параметрическая стереофония вычисляет и кодирует параметры, например, межканальные разности уровней (ILD), межканальные разности фаз (IPD), межканальные разности по времени (ITD) и межканальную когерентность (IC). Они компактно представляют стереоскопическое изображение и являются сигналами звуковой сцены (местоположением источника, панорамированием, стереобазой …). Затем задача состоит в том, чтобы параметризовать стереофоническую сцену и кодировать только сигнал понижающего микширования, который может быть на декодере, и с помощью передаваемых стереосигналов вновь преобразовывать в пространственную область.

В нашем подходе смешаны два принципа. Первый, ITD и IPD стереосигналов вычисляются и применяются на двух каналах. Целью является представление разницы во времени в широкой полосе и по фазе в разных полосах частот. Затем два канала выравниваются по времени и фазе, и затем осуществляется кодирование M/S. Установлено, что ITD и IPD полезны для моделирования речевого стереосигнала и являются хорошей заменой вращения на основе KLT в M/S. В отличие от чисто параметрического кодирования, окружение не является более моделируемым посредством IC, но непосредственно боковым сигналом, который кодируется и/или предсказывается. Было установлено, что этот подход более надежен, особенно при обработке речевых сигналов.

Вычисление и обработка ITD является важной частью изобретения. ITD уже применялись в традиционном кодировании бинаурального сигнала (BCC), но таким образом, что это было неэффективно, поскольку ITD изменялись с течением времени. Чтобы избавиться от этого недостатка, было разработано конкретное вырезание для сглаживания переходов между двумя разными ITD, позволяющее плавно переключаться между говорящими, расположенными в разных местах.

Дополнительные варианты осуществления относятся к процедуре, в которой, на стороне кодера, определение параметров для определения множества параметров узкополосного выравнивания осуществляется с использованием каналов, которые уже выровнены с ранее определенным параметром широкополосного выравнивания.

Соответственно, узкополосное снятие выравнивания на стороне декодера осуществляется до широкополосного снятия выравнивания осуществляется с использованием обычно единственного параметра широкополосного выравнивания.

В дополнительных вариантах осуществления, предпочтительно, чтобы, либо на стороне кодера, но еще важнее, на стороне декодера, некоторого рода вырезание и операция сложения с перекрытием, либо любого рода плавный переход от блока к блоку осуществляется после всех выравниваний и, в частности, после выравнивания по времени с использованием параметра широкополосного выравнивания. Это избавляет от любых слышимых артефактов, например, щелчков, когда время или параметр широкополосного выравнивания изменяется от блока к блоку.

В других вариантах осуществления применяются разные спектральные разрешения. В частности, канальные сигналы подвергаются временно-спектральному преобразованию, имеющему высокое частотное разрешение, например, спектр DFT, тогда как параметры, например, параметры узкополосного выравнивания, определяются для параметрических полос, имеющих более низкое спектральное разрешение. Обычно параметрическая полоса имеет более одной спектральной линии, чем спектр сигнала и обычно имеет набор спектральных линий из спектра DFT. Кроме того, параметрические полосы увеличиваются от низких частот к высоким частотам для учета психоакустических вопросов.

Дополнительные варианты осуществления относятся к дополнительному использованию параметра уровня, например, разности уровней, или другим процедурам для обработки бокового сигнала, например, параметров стереозаполнения и т.д. Кодированный боковой сигнал может представляться самим фактическим боковым сигналом, или остаточным сигналом предсказания, осуществляемым с использованием среднего сигнала текущего кадра или любого другого кадра, или боковым сигналом или боковым остаточным сигналом предсказания только в поднаборе полос и параметрами предсказания только для оставшихся полос, или даже параметрами предсказания для всех полос без какой-либо информации бокового сигнала высокого частотного разрешения. Следовательно, в последней вышеописанной альтернативе, кодированный боковой сигнал представляется только параметром предсказания для каждой параметрической полосы или только поднабора параметрических полос таким образом, что для оставшихся параметрических полос не существует никакой информации о первоначальном боковом сигнале.

Кроме того, предпочтительно иметь множество параметров узкополосного выравнивания не для всех параметрических полос, отражающих всю полосу широкополосного сигнала, но только для набора более низких полос, например, более низких 50 процентов параметрических полос. С другой стороны, параметры стереозаполнения не используются для пары более низких полос, поскольку, для этих полос, сам боковой сигнал или остаточный сигнал предсказания передается для уверенности в том, что, по меньшей мере, для более низких полос, доступно представление, правильное с точки зрения формы волны. С другой стороны, боковой сигнал не передается в представлении, точном с точки зрения формы волны для более высоких полос для дополнительного снижения битовой скорости, но боковой сигнал обычно представлен параметрами стереозаполнения.

Кроме того, предпочтительно осуществлять всего анализа параметров и выравнивания в одной и той же частотной области на основании одного и того же спектра DFT. Для этого дополнительно предпочтительно использовать технологию обобщенной взаимной корреляции с фазовым преобразованием (GCC-PHAT) с целью определения межканальной разницы во времени. В предпочтительном варианте осуществления этой процедуры, сглаживание корреляционного спектра на основании информации о спектральной формы, причем информация, предпочтительно, является мерой спектральной плоскостности, осуществляется таким образом, что сглаживание будет слабым в случае шумоподобных сигналов, и сглаживание будет усиливаться в случае тоноподобных сигналов.

Кроме того, предпочтительно осуществлять особое фазовращение, где учитываются амплитуды каналов. В частности, фазовращение распределяется между двумя каналами с целью выравнивания на стороне кодера и, конечно, с целью снятия выравнивания на стороне декодера, где канал, имеющий более высокую амплитуду рассматривается как ведущий канал и будет менее подвержен фазовращению, т.е. будет меньше поворачиваться, чем канал с более низкой амплитудой.

Кроме того, вычисление суммы-разности осуществляется с использованием масштабирования энергии с масштабным коэффициентом, который выводится из энергии обоих каналов и, дополнительно, ограничивается определенным диапазоном для уверенности в том, что вычисление среднего/бокового сигнала не слишком сильно влияет на энергию. С другой стороны, однако, следует отметить, что, с целью настоящего изобретения, такого рода сохранение энергии не является столь критичным, как в традиционных процедурах, поскольку время и фаза были заранее выровнены. Таким образом, флуктуации энергия вследствие вычисления среднего сигнала и бокового сигнала из левого и правого (на стороне кодера) или вследствие вычисления левого и правого сигнала из среднего и бокового (на стороне декодера) не столь значительны, как в уровне техники.

Далее будут рассмотрены предпочтительные варианты осуществления настоящего изобретения в отношении прилагаемых чертежей, в которых:

фиг. 1 - блок-схема предпочтительной реализации устройства для кодирования многоканального сигнала;

фиг. 2 - предпочтительный вариант осуществления устройства для декодирования кодированного многоканального сигнала;

фиг. 3 - иллюстрация разных частотных разрешений и других частотных аспектов для некоторых вариантов осуществления;

фиг. 4a демонстрирует блок-схему операций процедур, осуществляемых в устройстве для кодирования с целью выравнивания каналов;

фиг. 4b демонстрирует предпочтительный вариант осуществления процедур, осуществляемых в частотной области;

фиг. 4c демонстрирует предпочтительный вариант осуществления процедур, осуществляемых в устройстве для кодирования с использованием окна анализа с участками заполнения нулями и диапазонами перекрытия;

фиг. 4d демонстрирует блок-схему операций для дополнительных процедур, осуществляемых в устройстве для кодирования;

фиг. 4e демонстрирует блок-схему операций, показывающую предпочтительную реализацию оценивания межканальной разницы во времени;

фиг. 5 демонстрирует блок-схему операций, демонстрирующую дополнительный вариант осуществления процедур, осуществляемых в устройстве для кодирования;

фиг. 6a демонстрирует блок-схему варианта осуществления кодера;

фиг. 6b демонстрирует блок-схему операций соответствующего варианта осуществления декодера;

фиг. 7 демонстрирует предпочтительный сценарий вырезания с мало перекрывающимися синусоидальными окнами с заполнением нулями для временно-частотный анализа и синтеза стереосигнала;

фиг. 8 демонстрирует таблицу, демонстрирующую расходование битов разных значений параметра;

фиг. 9a демонстрирует процедуры, осуществляемые устройством для декодирования кодированного многоканального сигнала в предпочтительном варианте осуществления;

фиг. 9b демонстрирует предпочтительную реализацию устройства для декодирования кодированного многоканального сигнала;

фиг. 9c демонстрирует процедуру, осуществляемую в контексте широкополосного снятия выравнивания в контексте декодирования кодированного многоканального сигнала;

фиг. 10a демонстрирует вариант осуществления устройства для оценивания межканальной разницы во времени;

фиг. 10b демонстрирует схематическое представление дополнительной обработки сигнала, где применяется межканальная разница во времени;

фиг. 11a демонстрирует процедуры, осуществляемые процессором на фиг. 10a;

фиг. 11b демонстрирует дополнительные процедуры, осуществляемые процессором на фиг. 10a;

фиг. 11c демонстрирует дополнительную реализацию вычисления переменного порога и использования переменного порога в анализе представления во временной области;

фиг. 11d демонстрирует первый вариант осуществления для определения переменного порога;

фиг. 11e демонстрирует дополнительную реализацию определения порога;

фиг. 12 демонстрирует представление во временной области для сглаженного спектра взаимной корреляции для сигнала чистой речи;

фиг. 13 демонстрирует представление во временной области сглаженного спектра взаимной корреляции для речевого сигнала, имеющего шум и окружение.

Фиг. 10a демонстрирует вариант осуществления устройства для оценивания межканальной разницы во времени между сигналом первого канала, например, левого канала, и сигналом второго канала, например, правого канала. Эти каналы поступают на временно-спектральный преобразователь 150, который дополнительно проиллюстрирован, со ссылкой на фиг. 4e как элемент 451.

Кроме того, представления во временной области сигналов левого и правого канала поступают на вычислитель 1020 для вычисления спектра взаимной корреляции для временного блока из сигнала первого канала во временном блоке и сигнала второго канала во временном блоке. Кроме того, устройство содержит оцениватель 1010 спектральной характеристики для оценивания характеристики спектра сигнала первого канала или сигнала второго канала для временного блока. Устройство дополнительно содержит сглаживающий фильтр 1030 для сглаживания спектра взаимной корреляции по времени с использованием спектральной характеристики для получения сглаженного спектра взаимной корреляции. Устройство дополнительно содержит процессор 1040 для обработки сглаженного корреляционного спектра для получения межканальной разницы во времени.

В частности, функциональные возможности оценивателя спектральной характеристики также отражены на фиг. 4e, элементы 453, 454 в предпочтительном варианте осуществления.

Кроме того, функциональные возможности вычислителя 1020 спектра взаимной корреляции также отражены элементом 452 на фиг. 4e, описанным далее в предпочтительном варианте осуществления.

Соответственно, функциональные возможности сглаживающего фильтра 1030 также отражены элементом 453 в контексте фиг. 4e, описанного далее. Дополнительно, функциональные возможности процессора 1040 также описаны в контексте фиг. 4e в предпочтительном варианте осуществления как элементы 456-459.

Предпочтительно, оцениватель спектральной характеристики вычисляет шумность или тональность спектра, где предпочтительная реализация является вычислением меры спектральной плоскостности, близкой к 0 в случае тональных или нешумовых сигналов и близкой к 1 в случае шумовых или шумоподобных сигналов.

В частности, сглаживающий фильтр выполнен с возможностью применения более сильного сглаживания с первой степенью сглаживания по времени в случае первой менее шумовой характеристики или первой более тональной характеристики, или для применения более слабого сглаживания со второй степенью сглаживания по времени в случае второй более шумовой или второй менее тональной характеристики.

В частности, первая степень сглаживания больше, чем вторая степень сглаживания, где первая шумовая характеристика является менее шумовой, чем второй шумовая характеристика, или первая тональная характеристика является более тональной, чем вторая тональная характеристика. Предпочтительная реализация является мерой спектральной плоскостности.

Кроме того, как показано на фиг. 11a, процессор, предпочтительно, реализуется для нормализации сглаженного спектра взаимной корреляции, как показано на 456 на фиг. 4e и 11a до осуществления вычисления представления во временной области на этапе 1031, соответствующем этапам 457 и 458 согласно варианту осуществления на фиг. 4e. Однако, как изложено также на фиг. 11a, процессор также может действовать без нормализации на этапе 456 на фиг. 4e. Затем процессор выполнен с возможностью анализа представления во временной области, как показано в блоке 1032 на фиг. 11a для нахождения межканальной разницы во времени. Этот анализ может осуществляться любым известным способом и уже будет приводить к повышенной надежности, поскольку анализ осуществляется на основании спектра взаимной корреляции, сглаженного в соответствии со спектральной характеристикой.

Как показано на фиг. 11b, предпочтительная реализация анализа 1032 во временной области является низкочастотной фильтрацией представления во временной области, как показано на 458 на фиг. 11b, соответствующем элементу 458 на фиг. 4e, и последующей дополнительной обработкой 1033 с использованием операции поиска пика/отбора пика в представлении во временной области, подвергнутом низкочастотной фильтрации.

Как показано на фиг. 11c, предпочтительная реализация операции отбора пика или поиска пика служит для осуществления этой операции с использованием переменного порога. В частности, процессор выполнен с возможностью осуществления операции поиска пика/отбора пика в представлении во временной области, выведенном из сглаженного спектра взаимной корреляции путем определения 1034 переменного порога из представления во временной области и путем сравнения пика или нескольких пиков представления во временной области (полученных с нормализацией спектра или без него) с переменным порогом, причем межканальная разница во времени определяется как отставание по времени, связанное с пиком, находящимся в заранее определенном отношении с порогом, например, превышающим переменный порог.

Как показано на фиг. 11d, один предпочтительный вариант осуществления, проиллюстрированный в виде псевдокода, относящегося к фиг. 4e-b, описанный далее, состоит в сортировке 1034a значений в соответствии с их величиной. Затем, как показано в элементе 1034b на фиг. 11d, определяются например, 10 или 5% наивысших значений.

Затем, как показано на этапе 1034c, число, например, число 3, умножается на наименьшее значение наивысших 10 или 5% для получения переменного порога.

Как указано, предпочтительно, определяются наивысшие 10 или 5%, но также может быть полезно определять наименьшее число из наивысших 50% значений и использовать более высокий коэффициент, например 10. Естественно, определяются еще меньшее количество, например, 3% наивысших значений, и затем наименьшее значение среди этих 3% наивысших значений умножается на число, например, равное 2,5 или 2, т.е. меньшее 3. Таким образом, различные комбинации чисел и процентов могут использоваться согласно варианту осуществления, проиллюстрированному на фиг. 11d. Помимо процентов, числа также может изменяться, и предпочтительны числа, большие, чем 1,5.

В дополнительном варианте осуществления, проиллюстрированном на фиг. 11e, представление во временной области делится на подблоки, как показано блоком 1101, и эти подблоки указаны на фиг. 13 на 1300. Здесь, около, 16 подблоков используется для пригодного диапазона таким образом, что каждый подблок имеет охват отставания по времени 20. Однако, количество подблоков может быть больше этого значения или ниже и, предпочтительно, больше 3 и меньше 50.

На этапе 1102 на фиг. 11e, определяется пик в каждом подблоке, и на этапе 1103 определяется средний пик во всех подблоках. Затем, на этапе 1104, определяется значение a умножения, которое зависит от отношения сигнал/шум с одной стороны и, в дополнительном варианте осуществления, зависит от разности между порогом и максимальным пиком, как указано слева от блока 1104. В зависимости от этих входных значений, определяется одно из, предпочтительно, трех разных значений умножения, где значение умножения может быть равно a_low, a_high и a_lowest.

Затем, на этапе 1105, значение a умножения, определенное в блоке 1104, умножается на средний порог для получения переменного порога, который затем используется в операция сравнения в блоке 1106. Для операции сравнения может использоваться опять же, представление во временной области, вводимое в блок 1101, или может использоваться уже определенные пики в каждом подблоке, как изложено в блоке 1102.

Далее изложены дополнительные варианты осуществления, касающиеся оценивания и обнаружения пика взаимно-корреляционной функции во временной области.

Оценивание и обнаружение пика взаимно-корреляционной функции во временной области, полученного способом обобщенной взаимной корреляции (GCC-PHAT) для оценивания межканальной разницы во времени (ITD), не всегда является прямым вследствие разных входных сценариев. Ввод чистый речи может приводить к взаимно-корреляционной функции с низким отклонением с сильным пиком, хотя речь в шумовом реверберирующем окружении может создавать вектор с высоким отклонением и пики с более низкой, но все же заметной величиной, указывающей существование ITD. Опишем алгоритм обнаружения пика, который является адаптивным и гибким в соответствии с разными входными сценариями.

Вследствие ограничений по задержке, общая система может обрабатывать выравнивание канала по времени до некоторого предела, а именно ITD_MAX. Предложенный алгоритм предназначен для обнаружения, существует ли пригодная ITD в следующих случаях:

- Присутствует пригодная ITD вследствие заметного пика. Заметный пик в границах [-ITD_MAX, ITD_MAX] взаимно-корреляционной функции.

- Корреляция отсутствует. В отсутствие корреляции между двумя каналами, не существует заметных пиков. Нужно задавать порог, выше которого пик достаточно силен, чтобы его можно было рассматривать как пригодное значение ITD. В противном случае, обработка ITD не должна сигнализироваться, в том смысле, что ITD устанавливается на нуль, и выравнивание по времени не осуществляется.

- Выход за границы ITD. Сильные пики взаимно-корреляционной функции вне области [-ITD_MAX, ITD_MAX] следует оценивать для определения, существуют ли ITD, которые лежат за пределами пропускной способности обработки системы. В этом случае обработка ITD не должна сигнализироваться, и, таким образом, выравнивание по времени не осуществляется.

Для определения, достаточно ли высока величина пика, чтобы рассматривать ее как значение разницы во времени, нужно задавать подходящий порог. Для разных входных сценариев, выход взаимно-корреляционной функции изменяется в зависимости от разных параметров, например, окружения (шума, реверберации и т.д.), микрофонной установки (AB, M/S и т.д.). Таким образом, существенно адаптивно задавать порог.

В предложенном алгоритме, порог задается путем, сначала, вычисления среднего грубого вычисления огибающей величины взаимно-корреляционной функции в области [-ITD_MAX, ITD_MAX] (фиг. 13), и затем соответственного взвешивания среднего в зависимости от оценки SNR.

Ниже приведено поэтажного описания алгоритма.

Выход обратного DFT GCC-PHAT, который представляет взаимную корреляцию во временной области, переходит от отрицательных к положительным отставаниям по времени (фиг. 12).

Вектор взаимной корреляции делится на три главные области: область, представляющую интерес, а именно [-ITD_MAX, ITD_MAX] и область вне границ ITD_MAX, а именно, отставания по времени, меньшие, чем -ITD_MAX (max_low) и более высокие, чем ITD_MAX (max_high). Максимальные пики областей ʺза пределамиʺ обнаруживаются и сохраняются для сравнения с максимальным пиком, обнаруженным в области, представляющей интерес.

Для определения, присутствует ли пригодная ITD, рассматривается область подвекторов [-ITD_MAX, ITD_MAX] взаимно-корреляционной функции. Подвектор делится на N подблоков (фиг. 13).

Для каждого подблока находится и сохраняется максимальная пиковая величина peak_sub и эквивалентная позиция отставания по времени index_sub.

Максимальный из локальных максимумов peak_max определяется и сравнивается с порогом для определения существования пригодного значения ITD.

Максимальное значение peak_max сравнивается с max_low и max_high. Если peak_max ниже, чем любое из них, то обработка ITD не сигнализируется, и выравнивание по времени не осуществляется. Ввиду предела обработки ITD системы, величины пиков за пределами не нужно оценивать.

Вычисляется среднее величин пиков:

Затем порог вычисляется путем взвешивания весовым коэффициентом , зависящим от SNR:

В случаях, когда и , пиковая величина также сравнивается с немного более ослабленным порогом (), во избежание отбрасывания заметного пика с высокими соседними пиками. Весовые коэффициенты могут быть, например, a_high=3, a_low=2,5 и a_lowest=2, тогда как SNR_thresholdможет составлять, например, 20 дБ и граница ε=0,05.

Предпочтительные диапазоны составляют от 2,5 до 5 для a_high; от 1,5 до 4 для a_low; от 1,0 до 3 для a_lowest; от 10 до 30 дБ для SNR_threshold; и 0,01 до 0,5 для ε, где a_high больше, чем a_low, который больше, чем a_lowest.

Если peak_max > thres, эквивалентное отставание по времени возвращается как оцененная ITD, в противном случае обработка ITD не сигнализируется (ITD=0).

Дополнительные варианты осуществления описаны далее со ссылкой на фиг. 4e.

Далее, предпочтительная реализация настоящего изобретения в блоке 1050 на фиг. 10b с целью дополнительной обработки сигнала рассматривается со ссылкой на фиг. 1-9e, т.е. в контексте обработки/кодирования стереофонического/многоканального сигнала и выравнивания по времени двух каналов.

Однако, как указано и как показано на фиг. 10b, существуют многие другие области, где также может осуществляться дополнительная обработка сигнала с использованием определенной межканальной разницы во времени.

Если не получено ни одного пика выше порога, то ITD устанавливается на нуль, и для этого соответствующего блока выравнивание по времени не осуществляется.

Фиг. 1 демонстрирует устройство для кодирования многоканального сигнала, имеющего, по меньшей мере, два канала. Многоканальный сигнал 10 поступает на блок 100 определения параметра с одной стороны и блок 200 выравнивания сигнала с другой стороны. Блок 100 определения параметра определяет, с одной стороны, параметр широкополосного выравнивания и, с другой стороны, множество параметров узкополосного выравнивания из многоканального сигнала. Эти параметры выводятся через параметрическую линию 12. Кроме того, эти параметры также выводятся через дополнительную параметрическую линию 14 на выходной интерфейс 500, как показано. На параметрической линии 14, дополнительные параметры, например, параметры уровня пересылаются от блока 100 определения параметра на выходной интерфейс 500. Блок 200 выравнивания сигнала выполнен с возможностью выравнивания, по меньшей мере, двух каналов многоканального сигнала 10 с использованием параметра широкополосного выравнивания и множества параметров узкополосного выравнивания, принятых через параметрическую линию 10 для получения выровненных каналов 20 на выходе блока 200 выравнивания сигнала. Эти выровненные каналы 20 пересылаются на процессор 300 сигнала, который выполнен с возможностью вычисления среднего сигнала 31 и бокового сигнала 32 из выровненных каналов, принятых по линии 20. Устройство для кодирования дополнительно содержит кодер 400 сигнала для кодирования среднего сигнала из линии 31 и бокового сигнала из линии 32 для получения кодированного среднего сигнала на линии 41 и кодированного бокового сигнала на линии 42. Оба эти сигнала пересылаются на выходной интерфейс 500 для генерирования кодированного многоканального сигнала на выходной линии 50. Кодированный сигнал на выходной линии 50 содержит кодированный средний сигнал из линии 41, кодированный боковой сигнал из линии 42, параметры узкополосного выравнивания и параметры широкополосного выравнивания из линии 14 и, в необязательном порядке, параметр уровня из линии 14 и, дополнительно в необязательном порядке, параметр стереозаполнения, генерируемый кодером 400 сигнала и пересылаемый на выходной интерфейс 500 через параметрическую линию 43.

Предпочтительно, блок выравнивания сигнала выполнен с возможностью выравнивания каналов из многоканального сигнала с использованием параметра широкополосного выравнивания, до того, как блок 100 определения параметра фактически вычислит узкополосные параметры. Таким образом, в этом варианте осуществления, блок 200 выравнивания сигнала отправляет широкополосные выровненные каналы обратно на блок 100 определения параметра через соединительную линию 15. Затем блок 100 определения параметра определяет множество параметров узкополосного выравнивания от уже в отношении широкополосной характеристики выровненный многоканальный сигнал. Однако в других вариантах осуществления параметры определяются без этой конкретной последовательности процедур.

Фиг. 4a демонстрирует предпочтительную реализацию, где осуществляется конкретная последовательность этапов, которая предусматривает соединительную линию 15. На этапе 16 определяется параметр широкополосного выравнивания с использованием двух каналов, и получается параметр широкополосного выравнивания, например, межканальная разница во времени или параметр ITD. Затем, на этапе 21, два канала выравниваются блоком 200 выравнивания сигнала, показанным на фиг. 1, с использованием параметра широкополосного выравнивания. Затем, на этапе 17, узкополосные параметры определяются с использованием выровненных каналов в блоке 100 определения параметра для определения множества параметров узкополосного выравнивания, например, множества параметров межканальной разности фаз для разных полос многоканального сигнала. Затем, на этапе 22, спектральные значения в каждой параметрической полосе выравниваются с использованием соответствующего параметра узкополосного выравнивания для этой конкретной полосы. Когда эта процедура на этапе 22 осуществляется для каждой полосы, для которой доступен параметр узкополосного выравнивания, выровненные первый и второй или левый/правый каналы доступны для дополнительной обработки сигнала процессором 300 сигнала, показанным на фиг. 1.

Фиг. 4b демонстрирует дополнительную реализацию многоканального кодера, показанного на фиг. 1, где несколько процедур осуществляется в частотной области.

В частности, многоканальный кодер дополнительно содержит временно-спектральный преобразователь 150 для преобразования многоканального сигнала во временной области в спектральном представлении, по меньшей мере, двух каналов в частотной области.

Кроме того, как показано на 152, блок определения параметра, блок выравнивания сигнала и процессор сигнала, проиллюстрированные на 100, 200 и 300 на фиг. 1, действуют в частотной области.

Кроме того, многоканальный кодер и, в частности, процессор сигнала дополнительно содержит спектально-временной преобразователь 154 для генерирования представления во временной области, по меньшей мере, среднего сигнала.

Предпочтительно, спектрально-временной преобразователь дополнительно преобразует спектральное представление бокового сигнала, также определенное процедурами, представленными блоком 152, в представление во временной области, и кодер 400 сигнала на фиг. 1 затем выполнен с возможностью дополнительно кодировать средний сигнал и/или боковой сигнал как сигналы во временной области в зависимости от конкретной реализации кодера 400 сигнала на фиг. 1.

Предпочтительно, временно-спектральный преобразователь 150 на фиг. 4b выполнен с возможностью реализации этапов 155, 156 и 157 на фиг. 4c. В частности, этап 155 содержит обеспечение окна анализа с, по меньшей мере, одним участком заполнения нулями на одном его конце и, в частности, участком заполнения нулями на начальном участке окна и участке заполнения нулями на конечном участке окна, как показано, например, на фиг. 7 ниже. Кроме того, окно анализа дополнительно имеет диапазоны перекрытия или участки перекрытия в первой половине окна и во второй половине окна и, дополнительно, предпочтительно среднюю часть, которая является диапазоном без перекрытия, в зависимости от обстоятельств.

На этапе 156, каждый канал вырезается с использованием окна анализа с диапазонами перекрытия. В частности, каждый канал вырезается с использованием окна анализа таким образом, что получается первый блок канала. Затем получается второй блок того же канала, который имеет определенный диапазон перекрытия с первым блоком и т.д., таким образом, что после, например, пяти операций вырезания, доступно пять блоков вырезанных выборок каждого канала, которые затем по отдельности преобразуются в спектральном представлении, как показано на 157 на фиг. 4c. Та же процедура осуществляется для другого канала, также таким образом, что, в конце этапа 157, доступна последовательность блоков спектральных значений и, в частности, комплексных спектральных значений, например, спектральных значений DFT или комплексных выборок подполосы.

На этапе 158, который осуществляется блоком 100 определения параметра на фиг. 1, определяется параметр широкополосного выравнивания и на этапе 159, который осуществляется путем выравнивания 200 сигнала на фиг. 1, круговой сдвиг осуществляется с использованием параметра широкополосного выравнивания. На этапе 160, опять же осуществляемом блоком 100 определения параметра на фиг. 1, параметры узкополосного выравнивания определяются для отдельных полос/подполос и на этапе 161, выровненные спектральные значения вращаются для каждой полосы с использованием соответствующих параметров узкополосного выравнивания определенный для конкретных полос.

Фиг. 4d демонстрирует дополнительные процедуры, осуществляемые процессором 300 сигнала. В частности, процессор 300 сигнала выполнен с возможностью вычисления среднего сигнала и бокового сигнала, как показано на этапе 301. На этапе 302 может осуществляться некоторого рода дополнительная обработка бокового сигнала и затем, на этапе 303, каждый блок среднего сигнала и бокового сигнала преобразуется обратно во временную область и, на этапе 304, окно синтеза применяется к каждому блоку, полученному на этапе 303 и, на этапе 305, операция перекрытия/сложения для среднего сигнала с одной стороны и операция перекрытия/сложения для бокового сигнала с другой стороны осуществляется для окончательного получения средних/боковых сигналов во временной области.

В частности, операции этапов 304 и 305 приводят к тому, что разновидность плавного перехода от одного блока среднего сигнала или бокового сигнала к следующему блоку среднего сигнала и бокового сигнала осуществляется таким образом, что, даже когда происходят любые изменения параметра, например, параметра межканальной разницы во времени или параметра межканальной разности фаз, это, тем не менее, не будет слышно в средних/боковых сигналах во временной области, полученных на этапе 305 на фиг. 4d.

Новое кодирование стереосигнала с низкой задержкой является совместным кодированием среднего/бокового (M/S) стереосигнала с использованием некоторых пространственных сигналов, где средний канал кодируется первичным монофоническим базовым кодер, и боковой канал кодируется вторичный базовым кодером. Принципы кодера и декодера изображены на фиг. 6a, 6b.

Обработка стереосигнала осуществляется, в основном, в частотной области (FD). В необязательном порядке, некоторая обработка стереосигнала может осуществляться во временной области (TD) до частотного анализа. Это возможно для вычисления ITD, которая может вычисляться и применяться до частотного анализа для выравнивания каналов по времени до осуществления анализ и обработка стереосигнала. Альтернативно, обработка ITD может осуществляться непосредственно в частотной области. Поскольку обычные речевые кодеры, например ACELP, не содержат никакого внутреннего временно-частотного разложения, кодирование стереосигнала добавляет дополнительный комплексный модулированный банк фильтров посредством анализа и банк фильтров синтеза до базового кодера и другой каскад банка фильтров анализа-синтеза после базового декодера. В предпочтительном варианте осуществления используется передискретизированное DFT с областью низкого перекрывания. Однако в других вариантах осуществления может использоваться любое комплекснозначное временно-частотное разложение с аналогичным временным разрешением.

Обработка стереосигнала состоит из вычисления пространственных сигналов: межканальной разницы во времени (ITD), межканальных разностей фаз (IPD) и межканальных разностей уровней (ILD). ITD и IPD используются на входном стереосигнале для выравнивания двух каналов L и R по времени и по фазе. ITD вычисляется в широкой полосе или во временной области, тогда как IPD и ILD вычисляются для каждой или части параметрических полос, соответствующих неоднородному разложению частотному пространству. После выравнивания двух каналов применяется совместная M/S стереофония, где боковой сигнал затем дополнительно предсказывается из среднего сигнала. Коэффициент усиления предсказания выводится из ILD.

Средний сигнал дополнительно кодируется первичным базовым кодером. В предпочтительном варианте осуществления, первичный базовый кодер отвечает стандарту 3GPP EVS, или осуществляет кодирование, выведенное из него, которое может переключаться между режимом кодирования речи, ACELP, и музыкальным режимом на основании преобразования MDCT. Предпочтительно, кодер на основе ACELP и MDCT поддерживаются модулями расширения полосы во временной области (TD-BWE) и/или интеллектуального заполнения промежутка (IGF), соответственно.

Сначала боковой сигнал предсказывается по среднему каналу с использованием коэффициентов усиления предсказания, выведенных из ILD. Остаток может дополнительно предсказываться по задержанной версии среднего сигнала или непосредственно кодироваться вторичным базовым кодером, осуществляемым в предпочтительном варианте осуществления в области MDCT. Обработка стереосигнала на кодере может быть представлена на фиг. 5, как будет объяснено далее.

Фиг. 2 демонстрирует блок-схему варианта осуществления устройства для декодирования кодированного многоканального сигнала, принятого на входной линии 50.

В частности, сигнал принимается входным интерфейсом 600. Ко входному интерфейсу 600 подключены декодер 700 сигнала и блок 900 снятия выравнивания сигнала. Кроме того, процессор 800 сигнала подключен к декодеру 700 сигнала с одной стороны и подключен к блоку снятия выравнивания сигнала с другой стороны.

В частности, кодированный многоканальный сигнал содержит кодированный средний сигнал, кодированный боковой сигнал, информацию о параметре широкополосного выравнивания и информацию о множестве узкополосных параметров. Таким образом, кодированный многоканальный сигнал на линии 50 может быть в точности тем сигналом, который выводится выходным интерфейсом 500 на фиг. 1.

Однако здесь важно отметить, что, в отличие от того, что проиллюстрировано на фиг. 1, параметр широкополосного выравнивания и множество параметров узкополосного выравнивания, включенные в кодированный сигнал в определенной форме, могут быть в точности параметрами выравнивания, используемыми блоком 200 выравнивания сигнала на фиг. 1, но, альтернативно, также могут быть их обратными значениями, т.е. параметрами, которые могут использоваться в точности теми же операциями, осуществляемыми блоком 200 выравнивания сигнала, но с обратными значениями, благодаря чему, получается снятие выравнивания.

Таким образом, информация о параметрах выравнивания может представлять собой параметры выравнивания, используемые блоком 200 выравнивания сигнала на фиг. 1, или может представлять собой обратные значения, т.е. фактические ʺпараметры снятия выравниванияʺ. Дополнительно, эти параметры обычно будут квантоваться в определенной форме, что будет рассмотрено далее со ссылкой на фиг. 8.

Входной интерфейс 600, показанный на фиг. 2, отделяет информацию о параметре широкополосного выравнивания и множество параметров узкополосного выравнивания от кодированных средних/боковых сигналов и пересылает эту информацию через параметрическую линию 610 на блок 900 снятия выравнивания сигнала. С другой стороны, кодированный средний сигнал пересылается на декодер 700 сигнала по линии 601, и кодированный боковой сигнал пересылается на декодер 700 сигнала через сигнальную линию 602.

Декодер сигнала выполнен с возможностью декодирования кодированного среднего сигнала и декодирования кодированного бокового сигнала для получения декодированного среднего сигнала на линии 701 и декодированного бокового сигнала на линии 702. Эти сигналы используются процессором 800 сигнала для вычисления декодированного сигнала первого канала или декодированного левого сигнала и для вычисления сигнала декодированного второго канала или декодированного правого канала из декодированного среднего сигнала и декодированного бокового сигнала, и декодированный первый канал и декодированный второй канал выводятся на линиях 801, 802, соответственно. Блок 900 снятия выравнивания сигнала выполнен с возможностью снятия выравнивания декодированного первого канала на линии 801 и декодированного правого канала 802 с использованием информации о параметре широкополосного выравнивания и дополнительно с использованием информации о множестве параметров узкополосного выравнивания для получения декодированного многоканального сигнала, т.е. декодированного сигнала, имеющего, по меньшей мере, два декодированных и со снятым выравниванием каналов на линиях 901 и 902.

Фиг. 9a демонстрирует предпочтительную последовательность этапов, осуществляемых блоком 900 снятия выравнивания сигнала из фиг. 2. В частности, этап 910 принимает выровненные левый и правый каналы, имеющиеся на линиях 801, 802 из фиг. 2. На этапе 910 блок 900 снятия выравнивания сигнала снимает выравнивание отдельных подполос с использованием информации о параметрах узкополосного выравнивания для получения декодированных первого и второго или левого и правого каналов со снятым выравниванием по фазе на 911a и 911b. На этапе 912 выравнивание каналов снимается с использованием параметра широкополосного выравнивания таким образом, что, на 913a и 913b, получаются каналы со снятым выравниванием по фазе и времени.

На этапе 914 осуществляется любая дополнительная обработка, которая содержит использование вырезания или любую операцию сложения с перекрытием или, в общем случае, любую операцию плавного перехода для получения, на 915a или 915b, декодированного сигнала с ослабленными артефактами или с отсутствующими артефактами, т.е. декодированных каналов, которые не имеют никаких артефактов, хотя обычно существуют изменяющиеся со временем параметры снятия выравнивания для широкой полосы с одной стороны и для множества узких полос с другой стороны.

Фиг. 9b демонстрирует предпочтительную реализацию многоканального декодера, проиллюстрированного на фиг. 2.

В частности, процессор 800 сигнала из фиг. 2 содержит временно-спектральный преобразователь 810.

Процессор сигнала дополнительно содержит преобразователь 820 среднего/бокового в левый/правый для вычисления из среднего сигнала M и бокового сигнала S в левый сигнал L и правый сигнал R.

Однако, важно, что для вычисления L и R путем преобразования средний/боковой-левый/правый в блоке 820, не обязательно использовать боковой сигнал S. Напротив, как рассмотрено далее, левый/правый сигналы первоначально вычисляются только с использованием параметра коэффициента усиления, выведенного из параметра межканальной разности уровней ILD. В общем случае, коэффициент усиления предсказания также может рассматриваться как форма ILD. Коэффициент усиления может выводиться из ILD, но также может непосредственно вычисляться. Предпочтительно больше не вычислять ILD, но непосредственно вычислять коэффициент усиления предсказания и передавать и использовать на декодере коэффициент усиления предсказания вместо параметра ILD.

Таким образом, в этой реализации, боковой сигнал S используется только в блоке 830 обновления канала, который действует для обеспечения лучшего левого/правого сигнала с использованием передаваемого бокового сигнала S, как показано обходной линией 821.

Таким образом, преобразователь 820 действует с использованием параметра уровня, полученного через вход 822 параметра уровня и без фактического использования бокового сигнала S, но затем блок 830 обновления канала действует с использованием бокового сигнала 821 и, в зависимости от конкретной реализации, с использованием параметра стереозаполнения, принятого по линии 831. В этом случае блок 900 выравнивания сигнала содержит блок снятия выравнивания по фазе и блок 910 масштабирования энергии. Масштабирование энергии регулируется масштабным коэффициентом, выведенным вычислителем 940 масштабного коэффициента. На вычислитель 940 масштабного коэффициента поступает выходной сигнал блока 830 обновления канала. На основании параметров узкополосного выравнивания, принятых через вход 911, осуществляется снятие выравнивания по фазе и, в блоке 920, на основании параметра широкополосного выравнивания, принятого по линии 921, осуществляется снятие выравнивания по времени. Окончательно, спектрально-временное преобразование 930 осуществляется для окончательного получения декодированного сигнала.

Фиг. 9c демонстрирует последовательность этапов, дополнительную к обычно осуществляемую в блоках 920 и 930, показанных на фиг. 9b, в предпочтительном варианте осуществления.

В частности, узкополосные каналы со снятым выравниванием поступают на функциональные возможности широкополосного снятия выравнивания, соответствующие блоку 920 на фиг. 9b. В блоке 931 осуществляется DFT или любое другое преобразование. После фактического вычисления выборок во временной области осуществляется необязательное синтетическое вырезание с использованием окна синтеза. Окно синтеза, предпочтительно, в точности такое же, как окно анализа, или выводится из окна анализа, например, путем интерполяции или прореживания, но зависит определенным образом от окна анализа. Эта зависимость, предпочтительно, такова, что коэффициенты умножения, определяемые двумя перекрывающимися окнами, суммируются до единицы для каждой точки в диапазоне перекрытия. Таким образом, после окна синтеза в блоке 932, операция перекрытия и осуществляется следующая операция сложения. Альтернативно, вместо синтетического вырезания и операции перекрытия/сложения, осуществляется любой плавный переход между следующими блоками для каждого канала для получения, как уже рассмотрено в контексте фиг. 9a, декодированного сигнала с ослабленными артефактами.

При рассмотрении фиг. 6b, становится очевидно, что фактические операции декодирования для среднего сигнала, т.е. ʺдекодер EVSʺ с одной стороны и, для бокового сигнала, обратное векторное квантование VQ^-1 и операция обратного MDCT (IMDCT) соответствуют декодеру 700 сигнала на фиг. 2.

Кроме того, операции DFT в блоках 810 соответствуют элементу 810 на фиг. 9b, и функциональные возможности обратной обработки стереосигнала и обратного сдвига по времени соответствуют блокам 800, 900 на фиг. 2 и операции обратного DFT 930 на фиг. 6b соответствуют соответствующей операции в блоке 930 на фиг. 9b.

Теперь более подробно рассмотрим фиг. 3. В частности, фиг. 3 демонстрирует спектр DFT, имеющий отдельные спектральные линии. Предпочтительно, спектр DFT или любой другой спектр, проиллюстрированный на фиг. 3, является комплексным спектром и каждая линия является комплексной спектральной линией, имеющей величину и фазу, или имеющей действительную часть и мнимую часть.

Дополнительно, спектр также делится на разные параметрические полосы. Каждая параметрическая полоса имеет, по меньшей мере, одну и, предпочтительно, более одной спектральных линий. Дополнительно, параметрические полосы увеличиваются от более низких к более высоким частотам. Обычно параметр широкополосного выравнивания является единственным параметром широкополосного выравнивания для всего спектра, т.е. для спектра, содержащего все полосы с 1 по 6 в иллюстративном варианте осуществления на фиг. 3.

Кроме того, множество параметров узкополосного выравнивания обеспечивается таким образом, что для каждой параметрической полосы существует единственный параметр выравнивания. Это означает, что параметр выравнивания для полосы всегда применяется ко всем спектральным значениям в соответствующей полосе.

Кроме того, помимо параметров узкополосного выравнивания, параметры уровня также обеспечиваются для каждой параметрической полосы.

В отличие от параметров уровня, которые обеспечиваются для каждой параметрической полосы от полосы 1 до полосы 6, предпочтительно обеспечивать множество параметров узкополосного выравнивания только для ограниченного количества более низких полос, например, полос 1, 2, 3 и 4.

Дополнительно, параметры стереозаполнения обеспечиваются для некоторого количества полос за исключением более низких полос, например, в иллюстративном варианте осуществления, для полос 4, 5 и 6, тогда как существуют спектральные значения бокового сигнала для более низких параметрических полос 1, 2 и 3 и, следовательно, параметров стереозаполнения не существует для этих более низких полос, где совпадение формы волны получается с использованием либо самого бокового сигнала, либо остаточного сигнала предсказания, представляющего боковой сигнал.

Как указано ранее, существует больше спектральных линий в более высоких полосах, например, согласно варианту осуществления на фиг. 3, семь спектральных линий в параметрической полосе 6 и только три спектральных линии в параметрической полосе 2. Естественно, однако, количество параметрических полос, количество спектральных линий и количество спектральных линий в параметрической полосе и также разные пределы для определенных параметров будут разными.

Тем не менее, фиг. 8 демонстрирует распределение параметров и количество полос, для которого обеспечиваются параметры в определенном варианте осуществления, где присутствует, в отличие от фиг. 3, фактически 12 полос.

Как показано, параметр уровня ILD обеспечивается для каждой из 12 полос и квантуется до точности квантования, представленной пятью битами на полосу.

Кроме того, параметры узкополосного выравнивания IPD обеспечиваются только для более низких полос до граничной частоты 2,5 кГц. Дополнительно, межканальная разница во времени или параметр широкополосного выравнивания обеспечивается только как единственный параметр для всего спектра, но с очень высокой точностью квантования, представленной восемью битами для всей полосы.

Кроме того, обеспечиваются весьма грубо квантованные параметры стереозаполнения, представленные тремя битами на полосу и не для более низких полос ниже 1 кГц, поскольку, для более низких полос, включены фактически кодированный боковой сигнал или остаточные спектральные значения бокового сигнала.

Затем, предпочтительная обработка на стороне кодера описана в общих чертах со ссылкой на фиг. 5. На первом этапе осуществляется DFT-анализ левого и правого канала. Эта процедура соответствует этапам 155-157 на фиг. 4c. На этапе 158, вычисляется параметр широкополосного выравнивания и, в частности, предпочтительный параметр широкополосного выравнивания межканальная разница во времени (ITD). Как показано на 170, сдвиг по времени L и R в частотной области осуществляется. Альтернативно, этот сдвиг по времени также может осуществляться во временной области. Затем осуществляется обратное DFT, осуществляется сдвиг по времени во временной области и осуществляется дополнительное прямое DFT, чтобы, опять же, иметь спектральные представления после выравнивания с использованием параметра широкополосного выравнивания.

Параметры ILD, т.е. параметры уровня и параметры фазы (параметры IPD), вычисляются для каждой параметрической полосы на сдвинутых представлениях L и R, как показано на этапе 171. Этот этап соответствует, например, этапу 160 на фиг. 4c. Сдвинутые по времени представления L и R вращаются как функция параметров межканальной разности фаз, как показано на этапе 161 на фиг. 4c или фиг. 5. Затем вычисляются средний и боковой сигналы, как показано на этапе 301, и, предпочтительно, дополнительно с энергосберегающей операцией, как рассмотрено далее. На следующем этапе 174 осуществляется предсказание S с помощью M как функция ILD и, в необязательном порядке, с помощью прошлого сигнала M, т.е. среднего сигнала более раннего кадра. Затем осуществляется обратное DFT среднего сигнала и бокового сигнала, которое соответствует этапам 303, 304, 305 на фиг. 4d в предпочтительном варианте осуществления.

На окончательном этапе 175, средний сигнал M во временной области и, в необязательном порядке, остаточный сигнал кодируются, как показано на этапе 175. Эта процедура соответствует осуществляемой кодером 400 сигнала на фиг. 1.

На декодере при обратной обработке стереосигнала, сигнал Side генерируется в области DFT и сначала предсказывается из сигнала Mid в виде:

где g - коэффициент усиления, вычисленный для каждой параметрической полосы и является функцией передаваемой межканальной разности уровней (ILD).

Затем остаток предсказания можно уточнять двумя разными путями:

- путем вторичного кодирования остаточного сигнала:

где - глобальный коэффициент усиления, передаваемый для всего спектра;

- путем остаточного предсказания, известного как стереозаполнение, предсказывающего спектр остаточного бокового сигнала с помощью спектра предыдущий декодированный сигнала Mid из предыдущего кадра DFT:

где - предсказательный коэффициент усиления, передаваемый для каждой параметрической полосы.

Два типа уточнения кодирования могут смешиваться в одном и том же спектре DFT. В предпочтительном варианте осуществления, остаточное кодирование применяется на более низких параметрических полосах, тогда как на оставшихся полосах применяется остаточное предсказание. Остаточное кодирование в предпочтительном варианте осуществления осуществляется, как описано на фиг. 1, в области MDCT после синтеза остаточного бокового сигнала во временной области и его преобразования посредством MDCT. В отличие от DFT, MDCT критично дискретизируется и более пригодно для кодирования аудиосигнала. Коэффициенты MDCT подвергаются непосредственно векторному квантованию посредством решеточного векторного квантования, но могут альтернативно кодироваться скалярным квантователем с последующей передачей на энтропийный кодер. Альтернативно, остаточный боковой сигнал также может кодироваться во временной области методом кодирования речи или непосредственно в области DFT.

1. Временно-частотный анализ: DFT

Важно, чтобы дополнительное временно-частотное разложение из обработки стереосигнала, осуществляемой посредством DFT, допускало хороший анализ звуковой сцены без значительного увеличения общей задержки системы кодирования. По умолчанию, используется временное разрешение 10 мс (вдвое большее кадрирования 20 мс базового кодера). Окна анализа и синтеза одинаковы и симметричны. Окно представлено на частоте дискретизации 16 кГц на фиг. 7. Можно видеть, что перекрывающая область ограничена для уменьшения порождаемой задержки, и что заполнение нулями также добавляется для уравновешивания кругового сдвига при применении ITD в частотной области, как будет объяснено ниже.

2. Стереофонические параметры

Стереофонические параметры могут передаваться, как максимум, с временным разрешением стереофонического DFT. Как максимум, оно может снижаться до разрешения кадрирования базового кодера, т.е. 20 мс. По умолчанию, когда переходов не обнаружено, параметры вычисляются каждые 20 мс в 2 окнах DFT. Параметрические полосы образуют неоднородное и неперекрывающееся разложение спектра с последующими примерно 2-кратным или 4-кратным эквивалентным прямоугольным полосам (ERB). По умолчанию, масштаб 4-кратного ERB используется для всего 12 полос для полосы частот 16 кГц (частота дискретизации 32 кбит/с, сверхширокополосный стереосигнал). На фиг. 8 приведен пример конфигурации, в которой вспомогательная информация стереосигнала передается со скоростью около 5 кбит/с.

3. Вычисление ITD и выравнивание каналов по времени

ITD вычисляются путем оценивания задержки по времени прихода (TDOA) с использованием обобщенной взаимной корреляции с фазовым преобразованием (GCC-PHAT):

где L и R - частотные спектры левого и правого каналов соответственно. Частотный анализ может осуществляться независимо от DFT, используемого для последующей обработки стереосигнала или может совместно использоваться. Для вычисления ITD используется следующий псевдокод:

Фиг. 4e демонстрирует блок-схему операций для осуществления ранее проиллюстрированного псевдокода для получения надежного и эффективного вычисления межканальной разницы во времени в качестве примера параметра широкополосного выравнивания.

В блоке 451 осуществляется DFT-анализ сигналов во временной области для первого канала (l) и второго канала (r). Этот DFT-анализ обычно идентичен DFT-анализу, рассмотренному в контексте этапов 155-157, например, на фиг. 5 или фиг. 4c.

Затем взаимная корреляция осуществляется для каждого частотного бина, как показано в блоке 452.

Таким образом, спектр взаимной корреляции получается для всего спектрального диапазона левого и правого каналов.

Затем на этапе 453 мера спектральной плоскостности вычисляется из спектров величины L и R и, на этапе 454, выбирается большая мера спектральной плоскостности. Однако выбор на этапе 454 не обязан быть выбором большей, но это определение единственной SFM из обоих каналов также может быть выбором и вычислением только левого канала или только правого канала или может быть вычислением взвешенного среднего обоих значений SFM.

Затем, на этапе 455, спектр взаимной корреляции сглаживается по времени в зависимости от меры спектральной плоскостности.

Предпочтительно, мера спектральной плоскостности вычисляется делением среднего геометрического спектра величины на среднее арифметическое спектра величины. Таким образом, значения SFM заключены между нулем и единицей.

На этапе 456, затем сглаженный спектр взаимной корреляции нормализуется по своей величине и на этапе 457 вычисляется обратное DFT нормализованного и сглаженного спектра взаимной корреляции. На этапе 458 предпочтительно осуществляется определенная фильтрация во временной области, но эта фильтрация во временной области также может оставаться в стороне в зависимости от реализации, но предпочтительно, как будет изложено далее.

На этапе 459 оценивание ITD осуществляется путем отбора пика обобщенной по фильтру взаимно-корреляционной функции и путем осуществления определенной операции порогового ограничения.

Если пика, превышающего порог, не получено, то ITD устанавливается на нуль и для этого соответствующего блока не осуществляется выравнивания по времени.

Ниже также кратко писано вычисление ITD. Взаимная корреляция вычисляется в частотной области до сглаживания в зависимости от измерения спектральной плоскостности. SFM заключено между 0 и 1. В случае шумоподобных сигналов SFM будет высоким (т.е. около 1), и сглаживание будет слабым. В случае тоноподобного сигнала, SFM будет низким, и сглаживание будет усиливаться. Затем сглаженная взаимная корреляция нормализуется по своей амплитуде до преобразования обратно во временную область. Нормализация соответствует фазовому преобразованию взаимной корреляции, и, как известно, демонстрирует более высокую производительность, чем нормальная взаимная корреляция в окружениях с низким шумом и относительно высокой реверберацией. Сначала полученная таким образом функция временной области фильтруется для достижения более надежного отбора пика. Индекс соответствующий максимальной амплитуде, соответствует оценке разницы во времени между левым и правым каналами (ITD). Если амплитуда максимума ниже, чем данный порог, то оценка ITD не считается надежной и устанавливается на нуль.

Если выравнивание по времени применяется во временной области, ITD вычисляется в отдельном DFT-анализе. Сдвиг осуществляется следующим образом:

Он требует дополнительной задержки на кодере, которая равна, как максимум, максимальной абсолютной ITD, которая может обрабатываться. Изменение ITD по времени сглаживается путем аналитического вырезания DFT.

Альтернативно, выравнивание по времени может осуществляться в частотной области. В этом случае, вычисление ITD и кругового сдвига находится в одной и той же области DFT, области, совместно используемой с этой другой обработкой стереосигнала. Круговой сдвиг задается согласно:

Заполнение нулями окон DFT необходимо для моделирования сдвига по времени круговым сдвигом. Размер заполнения нулями соответствует максимальной абсолютной ITD, которая может обрабатываться. В предпочтительном варианте осуществления, заполнение нулями делится однородно по обе стороны окон анализа, путем добавления 3,125 мс нулей на обоих концах. В этом случае максимально возможная абсолютная ITD равна 6,25 мс. В установке микрофонов A-B, она, в худшем случае, соответствует максимальному расстоянию около 2,15 метров между двумя микрофонами. Изменение ITD по времени сглаживается путем синтетического вырезания и сложения с перекрытием DFT.

Важно, чтобы после сдвига по времени следовало вырезание сдвинутого сигнала. В этом состоит главное отличие от традиционного кодирования бинаурального сигнала (BCC), где сдвиг по времени применяется на вырезанном сигнале, но дополнительно не вырезается на стадии синтеза. В результате, любое изменение ITD по времени создает искусственный переходный/щелчок в декодированном сигнале.

4. Вычисление IPD и вращение канала

IPDs вычисляются после выравнивания по времени двух каналов, и это для каждой параметрической полосы или, по меньшей мере, до данной , в зависимости от стереофонической конфигурации.

Затем IPD применяется к двум каналам для выравнивания их фаз:

где , и b - индекс параметрической полосы, которому принадлежит частотный индекс k. Параметр определяет распределение величины фазовращения между двумя каналами при их выравнивании по фазе. зависит от IPD, но также уровня относительной амплитуды каналов, ILD. Если канал имеет более высокую амплитуду, он будет считаться ведущим каналом и будет менее подвержен фазовращению, чем канал с более низкой амплитудой.

5. Кодирование суммарно-разностного и бокового сигнала

Преобразование суммы-разности осуществляется на выровненных по времени и фазе спектрах двух каналов таким образом, что энергия запасается в среднем сигнале.

где заключено между 1/1,2 и 1,2, т.е. от -1,58 и +1,58 дБ. Ограничение позволят устранять артефакты при регулировке энергии M и S. Напомним, что это сохранение энергии менее важно, когда время и фаза заранее выровнены. Альтернативно, границы могут увеличиваться или уменьшаться.

Боковой сигнал S дополнительно предсказывается согласно M:

где где . Альтернативно, оптимальный коэффициент усиления предсказания g можно найти путем минимизации среднеквадратической ошибки (MSE) остатка и ILD, выведенной из вышеприведенного уравнения.

Остаточный сигнал может моделироваться двумя средствами: либо путем его предсказания с помощью задержанного спектра M, либо путем его кодирования непосредственно в области MDCT.

6. Декодирование стереосигнала

Сначала средний сигнал X и боковой сигнал S преобразуются в левый и правый каналы L и R следующим образом:

где коэффициент усиления g для каждой параметрической полосы выводится из параметра ILD:

где

Для параметрических полос ниже cod_max_band, два канала обновляются декодированным боковым сигналом:

Для более высоких параметрических полос, боковой сигнал предсказывается, и каналы обновляются в виде:

Наконец, каналы умножаются на комплексное значение для восстановления начальной энергии и межканальной фазы стереосигнала:

где

где a задано и ограничено, как определено ранее, и где , и где atan2(x,y) - четырехквадрантная обратная функция тангенса x по y.

Наконец, каналы сдвигаются по времени во временной или в частотной области в зависимости от передаваемых ITD. Каналы во временной области синтезируются посредством обратного DFT и сложения с перекрытием.

Конкретные признаки изобретения относятся к комбинации пространственных сигналов и совместного суммарно-разностного кодирования стереосигнала. В частности, пространственные сигналы IDT и IPD вычисляются и применяются на стереоканалах (левом и правом). Кроме того, сигналы суммы-разности (M/S) вычисляются и, предпочтительно, применяется предсказание S с помощью M.

На стороне декодера, широкополосные и узкополосные пространственные сигналы объединяются совместно с суммарно-разностным совместным кодированием стереосигнала. В частности, боковой сигнал предсказывается с помощью среднего сигнала с использованием, по меньшей мере, одного пространственного сигнала, например ILD, и обратная сумма-разность вычисляется для получения левого и правого канала и, дополнительно, широкополосные и узкополосные пространственные сигналы применяются на левом и правом каналы.

Предпочтительно, кодер имеет окно и сложение с перекрытием в отношении выровненных по времени каналов после обработки с использованием ITD. Кроме того, декодер дополнительно имеет операцию вырезания и сложения с перекрытием сдвинутых или со снятым выравниванием версий каналов после применения межканальной разницы во времени.

Вычисление межканальной разницы во времени способом GCC-PHAT является особенно надежным способом.

Новая процедура является преимущественно традиционной, поскольку достигает кодирования битовой скорости стереофонического аудиосигнала или многоканального аудиосигнала с низкой задержкой. Она, в частности, предназначена быть надежной для разных характеров входных сигналов и разных установок многоканальной или стереофонической записи. В частности, настоящее изобретение обеспечивает хорошее качество кодирования битовой скорости речевых стереосигналов.

Предпочтительные процедуры находят использование в распространении вещания всех типов контента стереофонического или многоканального аудиосигнала, например, наподобие речи и музыки с постоянным перцептивным качеством при данной низкой битовой скорости. Такими областями применение являются цифровое радио, потоковая передача в интернете или приложения передачи аудиосигнала.

Аудиосигнал, кодированный согласно изобретению, может храниться на цифровом носителе данных или нетранзиторном носителе данных или может передаваться в среде передачи, например, беспроводной среде передачи или проводной среде передачи, например, интернете.

Хотя некоторые аспекты были описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признака этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы аппаратными средствами или программными средствами. Реализация может осуществляться с использованием цифрового носителя данных, например, флоппи-диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флеш-памяти, на котором хранятся электронно считываемые сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой, таким образом, что осуществляется один из описанных здесь способов.

В общем случае, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код способен осуществлять один из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из описанных здесь способов, хранящихся на машиночитаемом носителе или нетранзиторном носителе данных.

Другими словами, вариант осуществления способа, отвечающего изобретению, является, таким образом, компьютерной программой, имеющей программный код для осуществления одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.

Дополнительный вариант осуществления способов, отвечающих изобретению, таким образом, является носителем данных (или цифровым носителем данных, или компьютерно-считываемым носителем), на котором записана компьютерная программа для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления способа, отвечающего изобретению, является, таким образом, потоком данных или последовательностью сигналов, представляющей компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов может, например, быть выполнена с возможностью переноса через соединение передачи данных, например, через интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер, или программируемое логическое устройство, выполненное с возможностью или адаптированное для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления содержит компьютер, на котором установлена компьютерная программа для осуществления одного из описанных здесь способов.

В некоторых вариантах осуществления, программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) может использоваться для осуществления некоторых или всех из функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления, вентильная матрица, программируемая пользователем, может взаимодействовать с микропроцессором для осуществления одного из описанных здесь способов. В общем случае, способы предпочтительно осуществляются любым аппаратным устройством.

Вышеописанные варианты осуществления призваны лишь иллюстрировать принципы настоящего изобретения. Следует понимать, что модификации и вариации описанных здесь конфигураций и деталей будут очевидны другим специалистам в данной области техники. Таким образом, следует ограничиваться только объемом нижеследующей формулы изобретения, но не конкретными деталями, представленными посредством описания и объяснения рассмотренных здесь вариантов осуществления.

1. Устройство для оценивания межканальной разницы во времени между сигналом первого канала и сигналом второго канала, содержащее:

вычислитель (1020) для вычисления спектра взаимной корреляции для временного блока из сигнала первого канала во временном блоке и сигнала второго канала во временном блоке;

оцениватель (1010) спектральной характеристики для оценивания характеристики спектра сигнала первого канала или сигнала второго канала для временного блока;

сглаживающий фильтр (1030) для сглаживания спектра взаимной корреляции по времени с использованием спектральной характеристики для получения сглаженного спектра взаимной корреляции; и

процессор (1040) для обработки сглаженного спектра взаимной корреляции для получения межканальной разницы во времени.

2. Устройство по п. 1,

в котором процессор (1040) выполнен с возможностью нормализации (456) сглаженного спектра взаимной корреляции с использованием величины сглаженного спектра взаимной корреляции.

3. Устройство по п. 1,

в котором процессор (1040) выполнен с возможностью

вычисления (1031) представления во временной области сглаженного спектра взаимной корреляции или нормализованного сглаженного спектра взаимной корреляции; и

анализа (1032) представления во временной области для определения межканальной разницы во времени.

4. Устройство по п. 1,

в котором процессор (1040) выполнен с возможностью фильтрации (458) до низких частот представления во временной области и дополнительной обработки (1033) результата низкочастотной фильтрации.

5. Устройство по п. 1,

в котором процессор выполнен с возможностью осуществления определения межканальной разницы во времени путем осуществления операции поиска пика или отбора пика в представлении во временной области, определенном из сглаженного спектра взаимной корреляции.

6. Устройство по п. 1,

в котором оцениватель (1010) спектральной характеристики выполнен с возможностью определения, в качестве спектральной характеристики, шумности или тональности спектра; и

сглаживающий фильтр (1030) выполнен с возможностью применения более сильного сглаживания по времени с первой степенью сглаживания в случае первой менее шумовой характеристики или первой более тональной характеристики или для применения более слабого сглаживания по времени со второй степенью сглаживания в случае второй более шумовой характеристики или второй менее тональной характеристики,

причем первая степень сглаживания больше, чем вторая степень сглаживания, и при этом первая шумовая характеристика является менее шумовой, чем второй шумовая характеристика, или первая тональная характеристика является более тональной, чем вторая тональная характеристика.

7. Устройство по п. 1,

в котором оцениватель (1010) спектральной характеристики выполнен с возможностью вычисления, в качестве характеристики, первой меры спектральной плоскостности спектра сигнала первого канала и второй меры спектральной плоскостности второго спектра сигнала второго канала и определения характеристики спектра из первой и второй мер спектральной плоскостности путем выбора максимального значения, путем определения взвешенного среднего или невзвешенного среднего между мерами спектральной плоскостности или путем выбора минимального значения.

8. Устройство по п. 1,

в котором сглаживающий фильтр (1030) выполнен с возможностью вычисления значения частоты сглаженного спектра взаимной корреляции посредством взвешенного комбинирования значения частоты спектра взаимной корреляции из временного блока и значения частоты спектра взаимной корреляции из, по меньшей мере, одного прошлого временного блока, причем весовые коэффициенты взвешенного комбинирования определяются характеристикой спектра.

9. Устройство по п. 1,

в котором процессор (1040) выполнен с возможностью

осуществления операции поиска пика в представлении во временной области, выведенного из сглаженного спектра взаимной корреляции,

определения (1034) переменного порога из представления во временной области; и

сравнения (1035) пика с переменным порогом, причем межканальная разница во времени определяется как отставание по времени, связанное с пиком, находящимся в заранее определенном отношении с переменным порогом.

10. Устройство по п. 9,

в котором процессор выполнен с возможностью определения переменного порога (1334c) как значения, равного целому кратному значения среди наибольших 10% значений представления во временной области.

11. Устройство по п. 1,

в котором процессор (1040) выполнен с возможностью определения (1102) амплитуды максимального пика в каждом подблоке из множества подблоков представления во временной области, выведенного из сглаженного спектра взаимной корреляции,

процессор (1040) выполнен с возможностью вычисления (1104, 1105) переменного порога на основании средней пиковой величины, выведенной из максимальных пиковых величин множества подблоков, и

процессор выполнен с возможностью определения межканальной разницы во времени как значения отставания по времени, соответствующего максимальному пику из множества подблоков, превышающему переменный порог.

12. Устройство по п. 11,

в котором процессор (1040) выполнен с возможностью вычисления переменного порога путем умножения (1105) среднего порога, определенного как средний пик среди пиков в подблоках, и значения,

причем значение определяется (1104) характеристикой SNR (отношения сигнал-шум) сигнала первого и второго каналов, причем первое значение связано с первым значением SNR и второе значение связано со вторым значением SNR, причем первое значение больше, чем второе значение, и при этом первое значение SNR больше, чем второе значение SNR.

13. Устройство по п. 12,

в котором процессор (1040) выполнен с возможностью использования (1104) третьего значения (a_lowest), которое меньше второго значения (a_low) в случае третьего значения SNR, которое меньше второго значения SNR, и когда разность между порогом и максимальным пиком меньше заранее определенного значения (ε).

14. Способ оценивания межканальной разницы во времени между сигналом первого канала и сигналом второго канала, содержащий этапы, на которых:

вычисляют (1020) спектр взаимной корреляции для временного блока из сигнала первого канала во временном блоке и сигнала второго канала во временном блоке;

оценивают (1010) характеристику спектра сигнала первого канала или сигнала второго канала для временного блока;

сглаживают (1030) спектр взаимной корреляции по времени с использованием спектральной характеристики для получения сглаженного спектра взаимной корреляции; и

обрабатывают (1040) сглаженный спектр взаимной корреляции для получения межканальной разницы во времени.

15. Машиночитаемый носитель, имеющий компьютерную программу, хранящуюся на нем, для осуществления, при выполнении на компьютере или процессоре, способа по п. 14.

Изобретение относится к области пользовательских интерфейсов. Технический результат заключается в осуществлении перевода и транслитерации вводимого текста в зависимости от заданных жестов, осуществляемых пользователем.

Классификация типа эмоции для интерактивной диалоговой системы // 2705465

Изобретение относится к средствам для классификации типа эмоции для интерактивной диалоговой системы. Технический результат заключается в обеспечении возможности генерировать синтезированную речь с эмоциональными характеристиками для повышения эффективности взаимодействия с пользователем.

Устройство и способ для кодирования или декодирования многоканального сигнала с использованием сихронизации управления кадрами // 2705007

Изобретение относится к области обработки многоканальных сигналов. Технический результат заключается в повышении точности обработки многоканального сигнала.

Устройство и способ кодирования или декодирования многоканального сигнала с использованием параметра широкополосного выравнивания и множества параметров узкополосного выравнивания // 2704733

Изобретение относится к области технологий для кодирования многоканального сигнала. Технический результат заключается в повышении точности кодирования многоканального сигнала.

Назначение оценки релевантности для искусственных нейронных сетей // 2703343

Группа изобретений относится к области вычислительной техники и может быть использована в искусственных нейронных сетях. Техническим результатом является обеспечение назначения оценки релевантности для искусственных нейронных сетей.

Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования // 2701707

Изобретение относится к вычислительной технике. Технический результат – улучшение маскирования ошибки.

Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума // 2700189

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи. Техническим результатом является увеличение значения вероятности правильного решения о появлении речевого сигнала и повышение точности определения момента его появления при наличии речеподобного шума.

Устройство и способ распознавания речи // 2698773

Изобретение относится к вычислительной технике для распознавания речи. Технический результат заключается в повышении точности распознавания речи пользователя.

Коммуникационное устройство, коммуникационный робот и машиночитаемый носитель данных // 2696307

Изобретение относится к коммуникационному устройству и коммуникационному роботу. Технический результат заключается в создании коммуникационного устройства, которое позволяет персонажу отображать даже для одного и того же диалога различные выражения лица в зависимости от ситуации.

Устройство преобразования коэффициентов линейного предсказания и способ преобразования коэффициентов линейного предсказания // 2694150

Изобретение относится к области кодирования аудио и речи. Технический результат – обеспечение эффективного сокращения объема вычислений при преобразовании коэффициентов линейного предсказания.

Маскирование ошибок в области mdct // 2711334

Изобретение относится к средствам для маскирования ошибок в области MDCT. Технический результат заключается в повышении эффективности маскирования ошибок.

Устройство и способ для кодирования или декодирования многоканального сигнала // 2711055

Изобретение относится к средствам для кодирования и декодирования многоканального сигнала. Технический результат заключается в повышении эффективности кодирования и декодирования аудиосигнала.

Кодер, декодер и способы для адаптивного к сигналу переключения отношения перекрытия при кодировании аудио с преобразованием // 2710929

Изобретение относится к области обработки аудиоданных. Технический результат заключается в повышении точности обработки аудио данных.

Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи // 2707931

Изобретение относится к средствам для кодирования и декодирования речи. Технический результат заключается в уменьшении опережающего и запаздывающего эха.

Устройство аудиодекодирования, устройство аудиокодирования, способ аудиодекодирования, способ аудиокодирования, программа аудиодекодирования и программа аудиокодирования // 2707722

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в снижении искажения компонента частотного диапазона, кодированного с малым числом битов во временной области.

Аудиокодер, аудиодекодер, способ кодирования аудиосигнала и способ декодирования кодированного аудиосигнала // 2707151

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования аудио.

Способ и устройство обработки сигналов // 2702265

Изобретение относится к области вычислительной техники для обработки аудио сигналов. Технический результат заключается в повышении точности обработки аудио сигналов.

Изобретение относится к вычислительной технике. Технический результат – улучшение маскирования ошибки.

Маскирование ошибок в области mdct // 2711334