Способ обработки аудиосигнала, блок обработки сигналов, стереофонический рендерер, аудиокодер и аудиодекодер

Авторы патента:

ФЮГ Зимоне (DE)

ПЛОГСТИС Ян (DE)

H04S7/00 - Индикаторные устройства; устройства управления, например уравновешенного (балансного) управления

H03M7/30 - уплотнение (анализ-синтез речи для сокращения многословия или избыточности G10L 19/00; для передачи изображения H04N); расширение; подавление излишней информации, например сокращение избыточности

G10L19/00 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2642376:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к области кодирования/декодирования аудиоданных, в особенности к пространственному объектному кодированию аудиоданных, например к области трехмерных систем кодирования/декодирования аудиоданных. Технический результат – обеспечение идентичности поздней реверберации импульсной характеристики помещения результату свертки аудиосигнала с полной импульсной характеристикой. В данном способе обработки аудиосигнала согласно импульсной характеристике помещения аудиосигнал обрабатывают с использованием ранней части импульсной характеристики помещения отдельно от поздней реверберации импульсной характеристики помещения, причем обработка поздней реверберации содержит формирование масштабированного реверберирующего сигнала, причем масштабирование зависит от аудиосигнала. Обработанную раннюю часть аудиосигнала и масштабированный реверберирующий сигнал объединяют. 6 н. и 13 з.п. ф-лы, 10 ил., 2 табл.

Данное изобретение относится к области кодирования/декодирования аудиоданных, в особенности к пространственному кодированию аудиоданных и пространственному объектному кодированию аудиоданных, например к области трехмерных систем кодирования/декодирования аудиоданных. Варианты осуществления данного изобретения относятся к способу обработки аудиосигнала согласно импульсной характеристике помещения, блоку обработки сигналов, стереофоническому рендереру, аудиокодеру и аудиодекодеру.

Средства пространственного кодирования аудиоданных хорошо известны в данной области техники и стандартизированы, например в стандарте объемного звучания MPEG. Пространственное аудиокодирование начинается с множества исходных входных сигналов, например пяти или семи входных каналов, которые идентифицируют посредством их расположения в схеме воспроизведения, например, как левый канал, центральный канал, правый канал, левый канал объемного звука, правый канал объемного звука и канал усиления низких частот. Пространственный аудиокодер может получать один или более каналов понижающего микширования из исходных каналов и, дополнительно, может получать параметрические данные, относящиеся к пространственным признакам, таким как межканальные разности уровней, в значениях когерентности каналов, межканальные разности фаз, межканальные временные различия и т.д. Один или более каналов понижающего микширования передают вместе с параметрической вспомогательной информацией, указывающей пространственные признаки, к пространственному аудиодекодеру, для декодирования каналов понижающего микширования и соответствующих параметрических данных, для конечного получения выходных каналов, которые являются приближенной версией исходных входных каналов. Размещение каналов в выходной схеме может быть фиксированным, например, может быть форматом 5.1, форматом 7.1 и т.д.

Также средства кодирования пространственных аудиообъектов являются общеизвестными в данной области техники и являются стандартизированными, например стандарт SAOC MPEG (SAOC=кодирование пространственных аудиообъектов). В отличие от пространственного аудиокодирования, начинающегося с исходных каналов, кодирование пространственных аудиообъектов начинается с аудиообъектов, не предназначенных автоматически для некоторой схемы воспроизведения рендеринга. Напротив, размещение аудиообъектов в сцене воспроизведения является гибким и может быть установлено пользователем, например, посредством ввода некоторой информации рендеринга в декодер кодирования пространственных аудиообъектов. Альтернативно или дополнительно, информация рендеринга может быть передана в виде дополнительной вспомогательной информации или метаданных; информация рендеринга может включать в себя информацию о том, в какое положение в схеме воспроизведения должен быть помещен некоторый аудиообъект (например, в зависимости от времени). Для получения некоторого сжатия данных некоторое количество аудиообъектов кодируют с использованием SAOC-кодера, который вычисляет, на основании входных объектов, один или более транспортных каналов посредством понижающего микширования объектов согласно некоторой информации понижающего микширования. Кроме того, SAOC-кодер вычисляет параметрическую вспомогательную информацию, представляющую межобъектные признаки, такие как разности уровней объектов (OLD), значения когерентности объектов и т.д. В случае SAC (SAC=пространственное аудиокодирование) межобъектные параметрические данные вычисляют для отдельных временных/частотных элементов. Для некоторого кадра (например, 1024 или 2048 дискретных единиц) аудиосигнала рассматривают множество диапазонов частот (например, 24, 32 или 64 диапазона частот), таким образом, чтобы параметрические данные были обеспечены для каждого кадра и каждого диапазона частот. Например, когда фрагмент аудиоданных имеет 20 кадров и когда каждый кадр подразделен на 32 диапазона частот, количество временных/частотных элементов равно 640.

В трехмерных аудиосистемах может быть необходимо обеспечение пространственного впечатления от аудиосигнала, как если бы аудиосигнал прослушивался в конкретном помещении. В такой ситуации обеспечивают импульсную характеристику конкретного помещения, например, на основании ее измерения и используют ее для обработки аудиосигнала при представлении его слушателю. В таком представлении может быть необходима обработка прямого звука и ранних отражений, отделенных от поздней реверберации.

Задача, лежащая в основе данного изобретения, состоит в обеспечении утвержденной методики для отдельной обработки аудиосигнала с использованием ранней части и поздней реверберации импульсной характеристики помещения, что позволяет обеспечить результат, который с точки зрения восприятия является наиболее идентичным результату свертки аудиосигнала с полной импульсной характеристикой.

Эта задача решается способом по пункту 1 формулы изобретения, блоком обработки сигнала по пункту 19 формулы изобретения, стереофоническим рендерером по пункту 23 формулы изобретения, аудиокодером по пункту 24 формулы изобретения и аудиодекодером по пункту 25 формулы изобретения.

Настоящее изобретение основано на заключении автора изобретения о том, что в общепринятых методиках существует проблема, состоящая в том, что при обработке аудиосигнала согласно импульсной характеристике помещения результат обработки аудиосигнала отдельно относительно ранней части и реверберации отклоняется от результата, получаемого при применении свертки с полной импульсной характеристикой. Данное изобретение дополнительно основано на заключении автором изобретения, что адекватный уровень реверберации зависит как от входного аудиосигнала, так и от импульсной характеристики, поскольку влияние входного аудиосигнала на реверберацию не сохраняется полностью, например, при использовании методики синтетической реверберации. Влияние импульсной характеристики может учитываться с использованием известных характеристик реверберации в качестве входного параметра. Влияние входного сигнала может быть учтено посредством зависимого от сигнала масштабирования для адаптации уровня реверберации, который определяют на основании входного аудиосигнала. Было обнаружено, что посредством этой методики воспринимаемый уровень реверберации лучше соответствует уровню реверберации с использованием методики полной свертки, для стереофонического рендеринга.

(1) Данное изобретение обеспечивает способ обработки аудиосигнала согласно импульсной характеристике помещения, причем способ предусматривает:

отдельную обработку аудиосигнала с использованием ранней части и поздней реверберации импульсной характеристики помещения, причем обработка поздней реверберации содержит формирование масштабированного реверберирующего сигнала, причем масштабирование зависит от аудиосигнала; и

объединение аудиосигнала, обработанного с использованием ранней части импульсной характеристики помещения, и масштабированного реверберирующего сигнала.

При сравнении с общепринятыми методиками, описанными выше, методика согласно изобретению имеет преимущество, поскольку она обеспечивает масштабирование поздней реверберации без необходимости вычисления результата полной свертки или без необходимости применения пространственной и неточной модели слышимости. Варианты осуществления методики согласно изобретению обеспечивают легкий способ масштабирования искусственной поздней реверберации таким образом, чтобы она звучала подобно реверберации в методике с полной сверткой. Масштабирование основано на входном сигнале, и нет необходимости в дополнительной модели слышимости или целевой громкости реверберации. Коэффициент масштабирования может быть получен в частотно-временной области, что является преимуществом, поскольку в этой области часто доступен также аудиоматериал в системе кодер/декодер.

(2) Согласно вариантам осуществления, масштабирование может зависеть от состояния одного или более входных каналов аудиосигнала (например, количества входных каналов, количества активных входных каналов и/или активности во входном канале).

Это обеспечивает преимущество, поскольку масштабирование может быть легко определено на основании входного аудиосигнала с использованием меньших вычислительных затрат. Например, масштабирование может быть определено посредством простого определения количества каналов в исходном аудиосигнале, которые микшируют с понижением в рассматриваемом в данный момент канале понижающего микширования, включающим в себя уменьшенное количество каналов, по сравнению с исходным аудиосигналом. Альтернативно, количество активных каналов (каналов, показывающих некоторую активность в текущем кадре аудиоданных), микшируемых с понижением в рассматриваемом в данный момент канале понижающего микширования, может образовать основу для масштабирования реверберирующего сигнала.

(3) Согласно вариантам осуществления, масштабирование (дополнительно или альтернативно к состоянию входных каналов) зависит от заданной или вычисленной меры корреляции аудиосигнала.

Использование заданной меры корреляции является преимуществом, поскольку это уменьшает вычислительную сложность процесса. Заданная мера корреляции может иметь фиксированное значение, например, в диапазоне от 0,1 до 0,9, которое может быть определено эмпирически на основании анализа множества аудиосигналов. С другой стороны, вычисление меры корреляции является преимуществом, несмотря на необходимость дополнительных вычислительных ресурсов, в случае, когда необходимо отдельно получить более точную меру для обрабатываемого в данный момент аудиосигнала.

(4) Согласно вариантам осуществления, формирование масштабированного реверберирующего сигнала содержит применение коэффициента усиления, причем коэффициент усиления определяют на основании состояния одного или более входных каналов аудиосигнала и/или на основании заданной или вычисленной меры корреляции для аудиосигнала, причем коэффициент усиления может быть применен перед, во время или после обработки поздней реверберации аудиосигнала.

Это является преимуществом, поскольку коэффициент усиления может быть легко вычислен на основании вышеупомянутых параметров и может быть гибко применен в отношении ревербератора в системе обработки, в зависимости от конкретных реализаций.

(5) Согласно вариантам осуществления, коэффициент усиления определяют следующим образом:

где

=заданная или вычисленная мера корреляции для аудиосигнала,

=коэффициенты, указывающие на состояние одного или более входных каналов аудиосигнала, причем относится к полностью некоррелированным каналам, а относится к полностью коррелированным каналам.

Это является преимуществом, поскольку этот коэффициент масштабируется в зависимости от времени количеством активных каналов в аудиосигнале.

(6) Согласно вариантам осуществления, cu и cc определяют следующим образом:

где

=количество активных или фиксированных каналов понижающего микширования.

Это является преимуществом, поскольку этот коэффициент прямо зависит от количества активных каналов в аудиосигнале. Если нет активных каналов, то тогда реверберацию масштабируют с использованием коэффициента, равного нулю, если большее количество каналов являются активными, то амплитуда реверберации становится большей.

(7) Согласно вариантам осуществления, коэффициенты усиления фильтруют по низкой частоте на протяжении множества кадров аудиоданных, причем коэффициенты усиления могут быть отфильтрованы по низкой частоте следующим образом:

где

ts=постоянная времени фильтра низкой частоты,

ti=кадр аудиоданных в кадре ti,

gs=сглаженный коэффициент усиления,

k=размер кадра и

fs=частота дискретизации.

Это является преимуществом, поскольку не происходит резких изменений коэффициента усиления с течением времени.

(8) Согласно вариантам осуществления, формирование масштабированного реверберирующего сигнала содержит анализ корреляции аудиосигнала, причем анализ корреляции аудиосигнала может содержать определение для кадра аудиоданных аудиосигнала объединенной меры корреляции, причем объединенная мера корреляции может быть вычислена посредством объединения коэффициентов корреляции для множества комбинаций каналов одного кадра аудиоданных, причем каждый кадр аудиоданных содержит один или более интервалов времени, и при этом объединение коэффициентов корреляции может содержать усреднение множества коэффициентов корреляции кадра аудиоданных.

Это является преимуществом, поскольку корреляция может быть описана посредством одного значения, которое описывает общую корреляцию одного кадра аудиоданных. Нет необходимости в обработке многочисленных частотно-зависимых значений.

(9) Согласно вариантам осуществления, определение объединенной меры корреляции может содержать (i) вычисление общего среднего значения для каждого канала одного кадра аудиоданных, (ii) вычисление кадра аудиоданных с нулевым средним, посредством вычитания средних значений из соответствующих каналов, (iii) вычисление для множества комбинаций каналов коэффициента корреляции, и (iv) вычисление объединенной меры корреляции в виде среднего значения множества коэффициентов корреляции.

Это является преимуществом, поскольку, как упомянуто выше, вычисляют только одно общее значение корреляции на кадр (легкая обработка), и вычисление может быть выполнено подобно вычислению «стандартного» коэффициента корреляции Пирсона, которое также использует сигналы с нулевым средним и их среднеквадратические отклонения.

(10)Согласно вариантам осуществления, коэффициент корреляции для комбинации каналов определяют следующим образом:

где

=коэффициент корреляции,

=среднеквадратическое отклонение по одному интервалу времени j канала m,

=среднеквадратическое отклонение по одному интервалу времени j канала n,

=переменные с нулевым средним,

=диапазоны частот,

=интервалы времени,

=каналы,

=комплексно сопряженная величина.

Это является преимуществом, поскольку может быть использована общеизвестная формула для коэффициента корреляции Пирсона, и она может быть преобразована в формулу с частотной и временной зависимостью.

(11) Согласно вариантам осуществления, обработка поздней реверберации аудиосигнала содержит понижающее микширование аудиосигнала и подачу микшированного с понижением аудиосигнала к ревербератору.

Это является преимуществом, поскольку обработка, например, в ревербераторе должна управлять меньшим количеством каналов, и процесс понижающего микширования можно контролировать напрямую.

(12) Данное изобретение обеспечивает блок обработки сигналов, содержащий вход для приема аудиосигнала, процессор ранней части для обработки принятого аудиосигнала согласно ранней части импульсной характеристики помещения, процессор поздней реверберации для обработки принятого аудиосигнала согласно поздней реверберации импульсной характеристики помещения, причем процессор поздней реверберации выполнен с возможностью или запрограммирован с возможностью формирования масштабированного реверберирующего сигнала в зависимости от принятого аудиосигнала, и выход для объединения аудиосигнала, обработанного с использованием ранней части импульсной характеристики помещения, и масштабированного реверберирующего сигнала, в выходной аудиосигнал.

(13) Согласно вариантам осуществления, процессор поздней реверберации содержит ревербератор, принимающий аудиосигнал и формирующий реверберирующий сигнал, анализатор корреляции, формирующий коэффициент усиления в зависимости от аудиосигнала, и усилительный каскад, соединенный с входом или выходом ревербератора и управляемый посредством коэффициента усиления, обеспечиваемого анализатором корреляции.

(14) Согласно вариантам осуществления, блок обработки сигналов дополнительно содержит по меньшей мере одно из низкочастотного фильтра, присоединенного между анализатором корреляции и усилительным каскадом, и элемента задержки, присоединенного между усилительным каскадом и сумматором, причем сумматор дополнительно соединен с процессором ранней части и выходом.

(15) Данное изобретение обеспечивает стереофонический рендерер, содержащий блок обработки сигналов согласно изобретению.

(16) Данное изобретение обеспечивает аудиокодер для кодирования аудиосигналов, содержащий блок обработки сигналов согласно изобретению или стереофонический рендерер согласно изобретению для обработки аудиосигналов перед кодированием.

(17) Данное изобретение обеспечивает аудиодекодер для декодирования кодированных аудиосигналов, содержащий блок обработки сигналов согласно изобретению или стереофонический рендерер согласно изобретению для обработки декодируемых аудиосигналов.

Варианты осуществления данного изобретения будут описаны со ссылкой на сопровождающие чертежи, на которых:

Фиг. 1 иллюстрирует общую схему трехмерного аудиокодера трехмерной аудиосистемы;

Фиг. 2 иллюстрирует общую схему трехмерного аудиодекодера трехмерной аудиосистемы;

Фиг. 3 иллюстрирует пример реализации преобразователя формата, который может быть реализован в трехмерном аудиодекодере фиг. 2;

Фиг. 4 иллюстрирует вариант осуществления стереофонического рендерера, который может быть реализован в трехмерном аудиодекодере фиг. 2;

Фиг. 5 иллюстрирует пример импульсной характеристики помещения h(t);

Фиг. 6 иллюстрирует разные возможности для обработки входного аудиосигнала с использованием импульсной характеристики помещения, причем фиг. 6(А) показывает обработку полного аудиосигнала согласно импульсной характеристике помещения, а фиг. 6(B) показывает отдельную обработку ранней части и части поздней реверберации;

Фиг. 7 иллюстрирует блок-схему блока обработки сигналов, подобного стереофоническому рендереру, функционирующего согласно принципам данного изобретения;

Фиг. 8 схематично иллюстрирует стереофоническую обработку аудиосигналов в стереофоническом рендерере согласно варианту осуществления данного изобретения; и

Фиг. 9 схематично иллюстрирует обработку в ревербераторе частотной области стереофонического рендерера фиг. 8 согласно варианту осуществления данного изобретения.

Теперь будут описаны варианты осуществления методики согласно изобретению. Нижеследующее описание начнется с общей схемы системы трехмерной аудиосистемы кодирования/декодирования, в которой может быть реализована методика согласно изобретению.

Фиг. 1 и 2 показывают алгоритмические блоки трехмерной аудиосистемы согласно вариантам осуществления. Более конкретно, фиг. 1 показывает общую схему трехмерного аудиокодера 100. Аудиокодер 100 принимает в схеме 102 пред-рендерера/микшера, который может быть предусмотрен при необходимости, входные сигналы, более конкретно множество входных каналов, обеспечивающих аудиокодеру 100 множество канальных сигналов 104, множество объектных сигналов 106 и соответствующие объектные метаданные 108. Объектные сигналы 106, обработанные схемой 102 пред-рендерера/микшера (см. сигналы 110), могут быть обеспечены для SAOC-кодера 112 (SAOC=кодирование пространственных аудиообъектов). SAOC-кодер 112 формирует транспортные каналы 114 SAOC, обеспечиваемые для USAC-кодера 116 (USAC=унифицированное кодирование речи и звука). Дополнительно, SAOC-SI 118 сигналов (SAOC-SI=вспомогательная информация SAOC) также обеспечивают для USAC-кодера 116. USAC-кодер 116 дополнительно принимает объектные сигналы 120 прямо от пред-рендерера/микшера, а также канальные сигналы и объектные сигналы 122, подвергнутые предварительному рендерингу. Информацию 108 об объектных метаданных используют в OAM-кодере 124 (OAM=объектные метаданные) для обеспечения сжатой информации 126 об объектных метаданных для USAC-кодера. USAC-кодер 116, на основании вышеупомянутых входных сигналов, формирует сжатый выходной сигнал mp4, как показано у 128.

Фиг. 2 показывает общую схему трехмерного аудиодекодера 200 трехмерной аудиосистемы. Кодированный сигнал 128 (mp4), формируемый аудиокодером 100 фиг. 1, принимают в аудиодекодере 200, более конкретно в USAC-декодере 202. USAC-декодер 202 декодирует принятый сигнал 128 в канальные сигналы 204, объектные сигналы 206, подвергнутые предварительному рендерингу, объектные сигналы 208 и транспортные канальные сигналы 210 SAOC. Дополнительно, сжатую информацию 212 об объектных метаданных и SAOC-SI 214 сигналов выводят посредством USAC-декодера 202. Объектные сигналы 208 обеспечивают для объектного рендерера 216, выдающего подвергнутые рендерингу объектные сигналы 218. Транспортные канальные сигналы 210 SAOC подают к SAOC-декодеру 220, выдающему подвергнутые рендерингу объектные сигналы 222. Сжатую информацию 212 об объектных метаданных подают к OAM-декодеру 224, выдающему соответствующие управляющие сигналы для объектного рендерера 216 и SAOC-декодера 220, для формирования подвергнутых рендерингу объектных сигналов 218 и сформированных объектных сигналов 222. Декодер дополнительно содержит микшер 226, принимающий, как показано на фиг. 2, входные сигналы 204, 206, 218 и 222 для выдачи канальных сигналов 228. Канальные сигналы могут быть прямо выведены к громкоговорителю, например 32-канальному громкоговорителю, как указано у 230. Сигналы 228 могут быть обеспечены для схемы 232 преобразования формата, принимающей в качестве управляющего входного сигнала сигнал схемы воспроизведения, указывающий способ, посредством которого канальные сигналы 228 должны быть преобразованы. В варианте осуществления, показанном на фиг. 2, предполагают, что преобразование подлежит выполнению таким образом, чтобы сигналы могли быть обеспечены для системы громкоговорителей формата 5.1, как указано у 234. Также канальные сигналы 228 могут быть обеспечены для стереофонического рендерера 236, формирующего два выходных сигнала, например для наушников, как указано у 238.

В варианте осуществления данного изобретения система кодирования/декодирования, показанная на фиг. 1 и 2, основана на MPEG-D USAC кодеке для кодирования канала и объектных сигналов (см. сигналы 104 и 106). Для увеличения эффективности кодирования большого количества объектов может быть использована MPEG SAOC технология. Три типа рендереров могут выполнять задачи рендеринга объектов для каналов, рендеринга каналов для головных телефонов или рендеринга каналов для другой схемы громкоговорителей (см. фиг. 2, ссылочные позиции 230, 234 и 238). Когда объектные сигналы явно передают или параметрически кодируют с использованием SAOC, соответствующую информацию 108 об объектных метаданных сжимают (см. сигнал 126) и мультиплексируют в трехмерный битовый поток 128 аудиоданных.

Алгоритмические блоки для общей трехмерной аудиосистемы, показанной на фиг. 1 и 2, будут дополнительно подробно описаны ниже.

Пред-рендерер/микшер 102 может быть при необходимости выполнен с возможностью преобразования канальной плюс объектной входной сцены в канальную сцену, перед кодированием. Функционально, он является идентичным объектному рендереру/микшеру, который будет описан ниже. Предварительный рендеринг объектов может быть необходим для обеспечения энтропии детерминированного сигнала на входе кодера, которая, в основном, независима от количества одновременно активных объектных сигналов. При использовании предварительного рендеринга объектов не требуется никакой передачи объектных метаданных. Дискретные объектные сигналы подвергают рендерингу для схемы каналов, которую может использовать кодер. Весовые коэффициенты объектов для каждого канала получают из соответствующих объектных метаданных (OAM).

USAC-кодер 116 является основным кодеком для канальных сигналов громкоговорителя, дискретных объектных сигналов, объектных сигналов понижающего микширования и подвергнутых предварительному рендерингу сигналов. Он основан на MPEG-D USAC технологии. Он обеспечивает кодирование вышеупомянутых сигналов посредством создания информации отображения каналов и объектов, на основании геометрической и семантической информации о входном канале и назначении объектов. Эта информация отображения описывает, как входные каналы и объекты отображаются в элементах USAC-каналов, таких как элементы канальных пар (CPE), элементы одного канала (SCE), низкочастотные эффекты (LFE) и четырехканальные элементы (QCE) и CPE, SCE и LFE, и соответствующую информацию передают к декодеру. Все дополнительные элементы полезной нагрузки, такие как SAOC-данные 114, 118 или объектные метаданные 126, учитывают при управлении скоростью кодера. Кодирование объектов можно обеспечить разными способами, в зависимости от требований к скорости/искажениям и требованиям к интерактивности для рендерера. Согласно вариантам осуществления, возможны следующие варианты кодирования объектов:

• Подвергнутые предварительному рендерингу объекты: объектные сигналы подвергают предварительному рендерингу и микшируют с канальными сигналами формата 22.2, перед кодированием. Последующая цепь кодирования видит канальные сигналы формата 22.2.

• Сигналы дискретных объектов: объекты подают к кодеру в виде монофонических сигналов. Кодер использует элементы одного канала (SCE) для передачи объектов вместе с канальными сигналами. Декодированные объекты формируют и микшируют на стороне приемника. Сжатую информацию об объектных метаданных передают к приемнику/рендереру.

• Сигналы параметрических объектов: объектные характеристики и их отношение друг с другом описывают посредством SAOC-параметров. Понижающее микширование объектных сигналов кодируют с использованием USAC. Параметрическую информацию передают совместно. Количество каналов понижающего микширования выбирают в зависимости от количества объектов и общей скорости данных. Сжатую информацию об объектных метаданных передают к SAOC-рендереру.

SAOC-кодер 112 и SAOC-декодер 220 для объектных сигналов могут быть основаны на MPEG SAOC технологии. Система способна обеспечить повторное создание, модификацию и рендеринг некоторого количества аудиообъектов на основании меньшего количества передаваемых каналов и дополнительных параметрических данных, таких как OLD, межобъектная когерентность (IOC), коэффициенты усиления понижающего микширования (DMGs). Дополнительные параметрические данные демонстрируют значительно меньшую скорость данных, чем скорость, необходимая для передачи всех объектов отдельно, что делает кодирование очень эффективным. SAOC-кодер 112 берет в качестве входных сигналов объектные/канальные сигналы в виде монофонических сигналов и выдает параметрическую информацию (которую пакетируют в трехмерный битовый поток 128 аудиоданных) и транспортные каналы SAOC (которые кодируют с использованием элементов одного канала и передают). SAOC-декодер 220 реконструирует объектные/канальные сигналы из декодированных транспортных каналов 210 SAOC и параметрической информации 214, и формирует выходную аудиосцену на основании схемы воспроизведения, развернутой информации об объектных метаданных и при необходимости на основании информации о взаимодействии с пользователем.

Кодек объектных метаданных (см. OAM-кодер 124 и OAM-декодер 224) обеспечен таким образом, чтобы для каждого объекта соответствующие метаданные, которые задают геометрическое положение и уровень громкости объектов в трехмерном пространстве, эффективно кодировались посредством квантования объектных характеристик во времени и пространстве. Сжатые объектные метаданные 126 OAM передают к приемнику 200 в виде вспомогательной информации.

Объектный рендерер 216 использует сжатые объектные метаданные для формирования объектных сигналов согласно заданному формату воспроизведения. Каждый объект подвергают рендерингу для некоторого выходного канала, согласно его метаданным. Выходные данные этого блока получают из суммы частичных результатов. Если как контент на основании каналов, так и дискретные/параметрические объекты декодированы, то сигналы на основании каналов и подвергнутые рендерингу объектные сигналы микшируют посредством микшера 226 перед выводом результирующих сигналов 228, или перед подачей их к модулю постпроцессора, такому как стереофонический рендерер 236 или модуль 232 рендерера громкоговорителей.

Модуль 236 стереофонического рендерера обеспечивает стереофоническое понижающее микширование многоканального аудиоматериала таким образом, чтобы каждый входной канал был представлен виртуальным источником звука. Эту обработку проводят по кадрам в области квадратурного зеркального банка фильтров (QMF), и стереофоническое звучание основано на измеренных стереофонических импульсных характеристиках помещения.

Рендерер 232 громкоговорителей обеспечивает преобразование между переданной канальной конфигурацией 228 и необходимым форматом воспроизведения. Он может также называться «преобразователем формата». Преобразователь формата выполняет преобразования для обеспечения меньших количеств выходных каналов, т.е. он создает понижающие микширования.

Фиг. 3 показывает пример реализации преобразователя 232 формата. Преобразователь 232 формата, также называемый рендерером громкоговорителей, обеспечивает преобразование между канальной конфигурацией передатчика и необходимым форматом воспроизведения. Преобразователь 232 формата выполняет преобразования для обеспечения меньшего количества выходных каналов, т.е. он выполняет процесс 240 понижающего микширования (DMX). Понижающий микшер 240, который предпочтительно функционирует в области QMF, принимает выходные сигналы 228 микшера и выдает сигналы 234 громкоговорителей. Может быть обеспечен конфигуратор 242, также называемый контроллером, который принимает, в качестве управляющего входного сигнала, сигнал 246, указывающий схему выходного сигнала микшера, т.е. схему, для которой определяют данные, представленные выходным сигналом 228 микшера, и сигнал 248, указывающий на необходимую схему воспроизведения. На основании этой информации, контроллер 242 предпочтительно автоматически формирует оптимизированные матрицы понижающего микширования, для данной комбинации входных и выходных форматов, и обеспечивает эти матрицы для понижающего микшера 240. Преобразователь 232 формата обеспечивает стандартные конфигурации громкоговорителей, а также произвольные конфигурации с нестандартными положениями громкоговорителей.

Фиг. 4 иллюстрирует вариант осуществления стереофонического рендерера 236 фиг. 2. Модуль стереофонического рендерера может обеспечить стереофоническое понижающее микширование многоканального аудиоматериала. Обеспечение стереофонического звучания может быть основано на измеренных стереофонических импульсных характеристиках помещения. Импульсные характеристики помещения могут рассматриваться в качестве «сигнатуры» акустических характеристик реального помещения. Импульсные характеристики помещения измеряют и сохраняют, и произвольные акустические сигналы могут быть обеспечены с использованием этого «отпечатка пальца», обеспечивая, таким образом, около слушателя моделирование акустических характеристик помещения, соответствующих импульсной характеристике помещения. Стереофонический рендерер 236 может быть выполнен с возможностью, или запрограммирован с возможностью, рендеринга выходных каналов в виде двух стереофонических каналов, с использованием передаточных функций, относящихся к голове, или стереофонических импульсных характеристик помещения (BRIR). Например, для мобильных устройств стереофонический рендеринг необходим для головных телефонов или громкоговорителей, присоединенных к таким мобильным устройствам. В таких мобильных устройствах вследствие ограничений может быть необходимо ограничение сложности декодера и рендеринга. Дополнительно к исключению декорреляции в таких сценариях обработки может быть предпочтительным выполнение сначала понижающего микширования с использованием понижающего микшера 250 для обеспечения сигнала 252 понижающего микширования, т.е. для обеспечения меньшего количества выходных каналов, что приводит к меньшему количеству входных каналов для фактического стереофонического преобразователя 254. Например, материал канала формата 22.2 может быть смикширован с понижением посредством понижающего микшера 250 в промежуточное понижающее микширование формата 5.1, или, альтернативно, промежуточное понижающее микширование может быть прямо вычислено посредством SAOC-декодера 220 на фиг. 2 в некотором режиме «сокращения». Тогда стереофонический рендеринг должен применить только десять передаточных функций, относящихся к положению головы (HRTF), или BRIR-функций, для рендеринга пяти отдельных каналов в разных положениях, в отличие от применения 44 HRTF-функций или BRIR-функций, если бы входные каналы формата 22.2 подлежали прямому рендерингу. Операции свертки, необходимые для стереофонического рендеринга, требуют большой вычислительной мощности, и, следовательно, уменьшение этой вычислительной мощности при получении, вместе с тем, приемлемого качества звука, является, конкретно, полезным для мобильных устройств. Стереофонический рендерер 236 обеспечивает стереофоническое понижающее микширование 238 многоканального аудиоматериала 228 таким образом, что каждый входной канал (исключая LFE-каналы) представлен посредством виртуального источника звука. Эта обработка может быть проведена по кадрам в области QMF. Обеспечение стереофонического звучания основано на измеренных стереофонических импульсных характеристиках помещения, и прямой звук и ранние отражения могут оставить след в аудиоматериале посредством методики свертки в области псевдо-FFT с использованием быстрой свертки поверх области QMF, в то время как поздняя реверберация может быть обработана отдельно.

Фиг. 5 показывает пример импульсной характеристики помещения h(t) 300. Импульсная характеристика помещения содержит три компонента, а именно прямой звук 301, ранние отражения 302 и позднюю реверберацию 304. Таким образом, импульсная характеристика помещения описывает поведение отражений замкнутого реверберирующего акустического пространства, когда проигрывают некоторый импульс. Ранние отражения 302 являются дискретными отражениями с увеличивающейся плотностью, а часть импульсной характеристики, где отдельные отражения больше не могут быть различены, называют поздней реверберацией 304. Прямой звук 301 может быть легко идентифицирован в импульсной характеристике помещения и может быть отделен от ранних отражений, однако переход от раннего отражения 302 к поздней реверберации 304 является менее очевидным.

Как было описано выше, для стереофонического рендерера, например стереофонического рендерера, показанного на фиг. 2, известны разные методики для обработки многоканального входного аудиосигнала согласно импульсной характеристике помещения.

Фиг. 6 показывает разные возможности для обработки входного аудиосигнала с использованием импульсной характеристики помещения. Фиг. 6(А) показывает обработку полного аудиосигнала согласно импульсной характеристике помещения, а фиг. 6(B) показывает отдельную обработку ранней части и части поздней реверберации. Как показано на фиг. 6(A), входной сигнал 400, например многоканальный входной аудиосигнал, принимают и подают к процессору 402, который выполнен с возможностью, или запрограммирован с возможностью, обеспечения вычисления полной свертки многоканального входного аудиосигнала 400 с импульсной характеристикой помещения (см. фиг. 5), что в показанном варианте осуществления обеспечивает двухканальный выходной аудиосигнал 404. Как упомянуто выше, эта методика считается неэффективной, поскольку использование свертки для всей импульсной характеристики помещения нуждается в больших вычислительных затратах. Таким образом, согласно другой методике, показанной на фиг. 6(B), вместо обработки всего многоканального входного аудиосигнала посредством применения полной свертки с импульсной характеристикой помещения, как было описано в отношении фиг. 6(A), обработку разделяют в отношении ранних частей 301, 302 (см. фиг. 5) импульсной характеристики 300 помещения и части 302 поздней реверберации. Более конкретно, как показано на фиг. 6(B), принимают многоканальный входной аудиосигнал 400, однако этот сигнал подают параллельно к первому процессору 406 для обработки ранней части, а именно для обработки аудиосигнала согласно прямому звуку 301 и ранним отражениям 302 в импульсной характеристике 300 помещения, показанной на фиг. 5. Многоканальный входной аудиосигнал 400 также подают к процессору 408 для обработки аудиосигнала согласно поздней реверберации 304 импульсной характеристики 300 помещения. В варианте осуществления, показанном на фиг. 6(B), многоканальный входной аудиосигнал может быть также подан к понижающему микшеру 410 для понижающего микширования многоканального сигнала 400 для обеспечения сигнала, имеющего меньшее количество каналов. Выходной сигнал понижающего микшера 410 затем подают к процессору 408. Выходные сигналы процессоров 406 и 408 объединяют, у 412, для формирования двухканального выходного аудиосигнала 404’.

В стереофоническом рендерере, как упомянуто выше, может быть необходимой обработка прямого звука и ранних отражений отдельно от поздней реверберации, главным образом, для уменьшения вычислительной сложности. Обработка прямого звука и ранних отражений может, например, оставить след на аудиосигнале посредством методики свертки, выполняемой процессором 406 (см. фиг. 6(B)), в то время как реверберация может быть заменена синтетической реверберацией, обеспечиваемой процессором 408. Общий стереофонический выходной сигнал 404’ является тогда объединением результата свертки, обеспечиваемого процессором 406, и синтетического реверберирующего сигнала, обеспечиваемого процессором 408.

Эта обработка также описана в источнике [1] из уровня техники. Результат описанной выше методики должен быть с точки зрения восприятия наиболее идентичным результату свертки полной импульсной характеристики, причем методика полного преобразования описана в отношении фиг. 6(A). Однако, если аудиосигнал или, в общем, аудиоматериал свертывают с прямым звуком и частью ранних отражений импульсной характеристики, то другие результирующие каналы добавляются для образования общего аудиосигнала, который связан с сигналом воспроизведения для одного уха слушателя. Реверберацию, однако, не вычисляют из этого общего сигнала, а она является, в общем, реверберирующим сигналом одного канала или понижающего микширования исходного входного аудиосигнала. Авторами данного изобретения определено, что, таким образом, поздняя реверберация недостаточно соответствует результату свертки, обеспечиваемому процессором 406. Было установлено, что достаточный уровень реверберации зависит как от входного аудиосигнала, так и от импульсных характеристик 300 помещения. Влияние импульсных характеристик обеспечивают посредством использования характеристик реверберации в качестве входного параметра ревербератора, который может быть частью процессора 408, и эти входные параметры получают из анализа измеренных импульсных характеристик, например частотно-зависимого времени реверберации и частотно-зависимой энергетической меры. Эти меры в общем могут быть определены из одной импульсной характеристики, например, посредством вычисления энергии и времени реверберации RT60 в анализе октавного банка фильтров, или являются средними значениями результатов анализа многочисленных импульсных характеристик.

Однако, было установлено, что несмотря на обеспечение этих входных параметров для ревербератора, влияние входного аудиосигнала на реверберацию не полностью сохраняется при использовании методики синтетической реверберации, которая описана в отношении фиг. 6(В). Например, вследствие понижающего микширования, используемого для формирования синтетической конечной фазы реверберации, влияние входного аудиосигнала теряется. Результирующий уровень реверберации не является, таким образом, перцептуально, идентичным результату методики полной свертки, особенно в случае, когда входной сигнал содержит многочисленные каналы.

До сих пор не существует известных методик, которые сравнивают величину поздней реверберации с результатами методики полной свертки или согласуют ее с результатом свертки. Существуют некоторые технологии, которые стараются оценить качество поздней реверберации или то, насколько естественно она звучит. Например, в одном способе, для естественно звучащей реверберации определяют меру громкости, которая прогнозирует воспринимаемую громкость реверберации, с использованием модели громкости. Эта методика описана в источнике [2] из уровня техники, и этот уровень может быть приведен в соответствие с целевым значением. Недостаток этой методики состоит в том, что она основана на модели слышимости человеком, которая является сложной и неточной. Она также нуждается в целевой громкости для обеспечения коэффициента масштабирования для поздней реверберации, который может быть найден с использованием результата полной свертки.

В другом способе, описанном в источнике [3] из уровня техники, используют критерий взаимной корреляции для тестирования качества искусственной реверберации. Однако это применимо только для тестирования других алгоритмов реверберации, а не для многоканального звука, не для стереофонического звука и не для оценки качества масштабирования поздней реверберации.

Другой возможной методикой является использование количества входных каналов у рассматриваемого уха в качестве коэффициента масштабирования, однако это не обеспечивает перцептуально корректное масштабирование, поскольку воспринимаемая амплитуда общего аудиосигнала зависит от корреляции других аудиоканалов, а не только от данного количества каналов.

Таким образом, согласно методике согласно изобретению обеспечен зависимый от сигнала способ масштабирования, который адаптирует уровень реверберации согласно входному аудиосигналу. Как упомянуто выше, желательно, чтобы воспринимаемый уровень реверберации соответствовал уровню реверберации при использовании методики полной свертки для стереофонического рендеринга, и определение меры для достаточного уровня реверберации является, таким образом, важным для обеспечения хорошего качества звука. Согласно вариантам осуществления, аудиосигнал обрабатывают отдельно с использованием ранней части и поздней реверберации импульсной характеристики помещения, причем обработка поздней реверберации содержит формирование масштабированного реверберирующего сигнала, причем масштабирование зависит от аудиосигнала. Обработанную раннюю часть аудиосигнала и масштабированный реверберирующий сигнал объединяют в выходном сигнале. Согласно одному варианту осуществления, масштабирование зависит от состояния одного или более входных каналов аудиосигнала (например, количества входных каналов, количества активных входных каналов и/или активности во входном канале). Согласно другому варианту осуществления, масштабирование зависит от заданной или вычисленной меры корреляции для аудиосигнала. Альтернативные варианты осуществления могут выполнять масштабирование на основании объединения состояния одного или более входных каналов и заданной или вычисленной меры корреляции.

Согласно вариантам осуществления, масштабированный реверберирующий сигнал может быть сформирован посредством применения коэффициента усиления, который определяют на основании состояния одного или более входных каналов аудиосигнала, или на основании заданной или вычисленной меры корреляции для аудиосигнала, или на основании их объединения.

Согласно вариантам осуществления, отдельная обработка аудиосигнала содержит обработку аудиосигнала с использованием части 301, 302 ранних отражений импульсной характеристики 300 помещения во время первого процесса и обработку аудиосигнала с использованием диффузной реверберации 304 импульсной характеристики 300 помещения во время второго процесса, который является отличным и отдельным от первого процесса. Переход от первого процесса ко второму процессу происходит в момент времени перехода. Согласно дополнительным вариантам осуществления, во втором процессе диффузная (поздняя) реверберация 304 может быть заменена синтетической реверберацией. В этом случае импульсная характеристика помещения, применяемая для первого процесса, содержит только часть 300, 302 ранних отражений (см. фиг. 5), а поздняя диффузная реверберация 304 не включена.

Далее будет дополнительно подробно описан вариант осуществления методики согласно изобретению, в соответствии с которым коэффициент усиления вычисляют на основании анализа корреляции входного аудиосигнала. Фиг. 7 показывает блок-схему блока обработки сигналов, такого как стереофонический рендерер, функционирующего согласно принципам данного изобретения. Стереофонический рендерер 500 содержит первое ответвление, включающее в себя процессор 502, принимающий от входа 504 аудиосигнал x[k], включающий в себя N каналов. Процессор 502, который является частью стереофонического рендерера, обрабатывает входной сигнал 504 для формирования выходного сигнала 506 xconv[k]. Более конкретно, процессор 502 обеспечивает свертку входного аудиосигнала 504 с прямым звуком и ранними отражениями импульсной характеристики помещения, которые могут быть обеспечены для процессора 502 из внешней базы 508 данных, хранящей множество записанных стереофонических импульсных характеристик помещения. Процессор 502, как упоминалось, может функционировать на основании стереофонических импульсных характеристик помещения, обеспечиваемых базой 508 данных, таким образом, обеспечивая выходной сигнал 502, имеющий только два канала. Выходной сигнал 506 передают от процессора 502 к сумматору 510. Входной сигнал 504 дополнительно передают в ответвление 512 реверберации, включающее в себя процессор 514 ревербератора и понижающий микшер 516. Микшированный с понижением входной сигнал обеспечивают для ревербератора 514, который, на основании параметров ревербератора, таких как реверберация RT60 и энергия реверберации, хранящихся в базах 518 и 520 данных, соответственно, формирует реверберирующий сигнал r[k] на выходе ревербератора 514, который может включать в себя только два канала. Параметры, хранящиеся в базах 518 и 520 данных, могут быть получены из сохраненных стереофонических импульсных характеристик помещения посредством соответствующего анализа 522, как указано пунктирными линиями на фиг. 7.

Ответвление 512 реверберации дополнительно включает в себя процессор 524 анализа корреляции, который принимает входной сигнал 504 и формирует коэффициент усиления g на своем выходе. Дополнительно, обеспечен усилительный каскад 526, который присоединен между ревербератором 514 и сумматором 510. Усилительный каскад 526 управляется посредством коэффициента усиления g, таким образом формируя на выходе усилительного каскада 526 масштабированный реверберирующий сигнал rg[k], который подают к сумматору 510. Сумматор 510 объединяет раннюю обработанную часть и реверберирующий сигнал для обеспечения выходного сигнала y[k], который также включает в себя два канала. При необходимости, ответвление 512 реверберации может содержать низкочастотный фильтр 528, присоединенный между процессором 524 и усилительным каскадом, для сглаживания коэффициента усиления по некоторому количеству кадров аудиоданных. При необходимости, элемент 530 задержки может быть также обеспечен между выходом усилительного каскада 526 и сумматором 510, для задержки масштабированного реверберирующего сигнала таким образом, чтобы он соответствовал переходу между ранним отражением и реверберацией в импульсной характеристике помещения.

Как описано выше, фиг. 7 является блок-схемой стереофонического рендерера, который обрабатывает прямой звук и ранние отражения отдельно от поздней реверберации. Как можно увидеть, входной сигнал x[k], который обрабатывают с использованием прямого звука и ранних отражений стереофонической импульсной характеристики помещения, обеспечивает сигнал xconv[k].

Этот сигнал, как показано, передают к сумматору 510 для добавления его к компоненту реверберирующего сигнала rg[k]. Этот сигнал формируют посредством обеспечения понижающего микширования, например стереофонического понижающего микширования, входного сигнала x[k], для ревербератора 514, за которым следует умножитель или усилительный каскад 526, который принимает реверберирующий сигнал r[k] понижающего микширования и коэффициент усиления g. Коэффициент усиления g получают посредством анализа корреляции входного сигнала x[k], выполняемого процессором 524, и, как упомянуто выше, он может быть сглажен по времени низкочастотным фильтром 528. Масштабированный или взвешенный реверберирующий компонент может быть при необходимости задержан посредством элемента 530 задержки, для согласования его начала с точкой перехода от ранних отражений к поздней реверберации таким образом, чтобы на выходе сумматора 510 был получен выходной сигнал y[k].

Многоканальный стереофонический рендерер, показанный на фиг. 7, вводит синтетическую двухканальную позднюю реверберацию и, для преодоления вышеупомянутых недостатков общепринятых методик, и согласно методике согласно изобретению синтетическую позднюю реверберацию масштабируют посредством коэффициента усиления g для согласования восприятия с результатом методики полной свертки. Наложение многочисленных каналов (например, вплоть до формата 22.2) в ухе слушателя является зависимым от корреляции. Вот почему поздняя реверберация может быть отмасштабирована согласно корреляции канала входного сигнала, и варианты осуществления методики согласно изобретению обеспечивают зависимый от времени способ масштабирования на основании корреляции, который определяет достаточную амплитуду поздней реверберации.

Для вычисления коэффициентов масштабирования, вводят меру корреляции, которая основана на коэффициенте корреляции, и, согласно вариантам осуществления, ее определяют в двухмерной частотно-временной области, например области QMF. Значение корреляции между -1 и 1 вычисляют для каждого многомерного кадра аудиоданных, причем каждый кадр аудиоданных определяют посредством некоторого количества диапазонов частот N, некоторого количества интервалов времени M на кадр и некоторого количества аудиоканалов A. Получают один коэффициент масштабирования на кадр на ухо.

Далее будет дополнительно подробно описан вариант осуществления методики данного изобретения. Прежде всего, необходимо обратиться к мере корреляции, используемой в процессоре 524 анализа корреляции фиг. 7. Мера корреляции, согласно этому варианту осуществления, основана на коэффициенте корреляции смешанных моментов Пирсона, также известным как коэффициент корреляции, который вычисляют посредством деления ковариации двух переменных на произведение их среднеквадратических отклонений:

где

=оператор математического ожидания,

=коэффициент корреляции,

=среднеквадратические отклонения переменных .

Эта обработка, согласно описанному варианту осуществления, передается по двум измерениям в частотно-временной области, например области QMF. Этими двумя измерениями являются интервалы времени и диапазоны частот QMF. Эта методика является целесообразной, поскольку данные часто кодируют и передают также в частотно-временной области. Оператор математического ожидания заменяют операцией нахождения среднего значения по нескольким дискретным единицам времени и/или частоты таким образом, чтобы мера частотно-временной корреляции между двумя переменными с нулевым средним xm, xn в диапазоне (0, 1) определялась следующим образом:

Где

=коэффициент корреляции,

=среднеквадратическое отклонение по одному интервалу времени j канала m,

=среднеквадратическое отклонение по одному интервалу времени j канала n,

=переменные с нулевым средним,

=диапазоны частот,

=интервалы времени,

=каналы,

=комплексно сопряженная величина.

После вычисления этого коэффициента для множества комбинаций каналов (m,n) одного кадра аудиоданных значения ρ[m,n,ti] объединяют в одну меру корреляции ρm(ti) посредством вычисления среднего значения (или усреднения) множества значений корреляции ρ[m,n,ti]. Следует отметить, что кадр аудиоданных может содержать 32 интервала времени QMF, а t_i указывает на соответствующий кадр аудиоданных. Вышеупомянутая обработка может быть обобщена для одного кадра аудиоданных следующим образом:

(i) Сначала вычисляют общее среднее значение для каждого из k каналов кадра аудиоданных или кадра данных x, имеющего размер [N,M,K], причем, согласно вариантам осуществления, все k каналов микшируют с понижением в одном входном канале ревербератора.

(ii) Вычисляют кадр аудиоданных или кадр данных с нулевым средним, посредством вычитания значений из соответствующих каналов.

(iii) Для множества комбинаций каналов (m,n) вычисляют определенный коэффициент корреляции или значение корреляции c.

(iv) Вычисляют среднее значение корреляции cm в виде среднего значения множества значений корреляции ρ[m,n] (исключая ошибочно вычисленные значения, например, при делении на ноль).

Согласно описанному выше варианту осуществления, масштабирование было определено на основании вычисленной меры корреляции для аудиосигнала. Это имеет преимущество, несмотря на необходимость дополнительных вычислительных ресурсов, например, когда необходимо отдельно получить меру корреляции для обрабатываемого в данный момент аудиосигнала.

Однако данное изобретение не ограничено такой методикой. Согласно другим вариантам осуществления, кроме вычисленной меры корреляции, также может быть использована заданная мера корреляции. Использование заданной меры корреляции имеет преимущество, поскольку оно уменьшает вычислительную сложность в процессе. Заданная мера корреляции может иметь фиксированное значение, например от 0,1 до 0,9, которое может быть определено эмпирически на основании анализа множества аудиосигналов. В этом случае, анализ 524 корреляции может быть исключен, и коэффициент усиления усилительного каскада может быть установлен посредством соответствующего управляющего сигнала.

Согласно другим вариантам осуществления, масштабирование может зависеть от состояния одного или более входных каналов аудиосигнала (например, количества входных каналов, количества активных входных каналов и/или активности во входном канале). Это является преимуществом, поскольку масштабирование может быть легко определено на основании входного аудиосигнала с меньшими вычислительными затратами. Например, масштабирование может быть определено посредством простого определения количества каналов в исходном аудиосигнале, который микшируют с понижением в рассматриваемом канале понижающего микширования, включающем в себя уменьшенное количество каналов по сравнению с исходным аудиосигналом. Альтернативно, количество активных каналов (каналов, показывающих некоторую активность в текущем кадре аудиоданных), микшируемых с понижением в рассматриваемом в данный момент канале понижающего микширования, может образовать основу для масштабирования реверберирующего сигнала. Это может быть выполнено в блоке 524.

Далее будет подробно описан вариант осуществления, определяющий масштабирование реверберирующего сигнала на основании состояния одного или более входных каналов аудиосигнала и на основании меры корреляции (либо фиксированной, либо вычисленной, как описано выше). Согласно такому варианту осуществления, коэффициент усиления или усиление или коэффициент масштабирования g определяют следующим образом:

где

=заданный или вычисленный коэффициент корреляции для аудиосигнала,

=количество активных ненулевых или фиксированных каналов понижающего микширования,

является коэффициентом, который применяют, если микшированные с понижением каналы являются полностью некоррелированными (нет межканальных зависимостей). В случае использования только состояния одного или более входных каналов, , и заданный фиксированный коэффициент корреляции устанавливают равным нулю. является коэффициентом, который применяют, если микшированные с понижением каналы являются полностью коррелированными (сигналы являются взвешенными версиями (плюс фазовый сдвиг и смещение) друг друга). В случае использования только состояния одного или более входных каналов, , и заданный фиксированный коэффициент корреляции устанавливают равным единице. Эти коэффициенты описывают минимальное и максимальное масштабирование поздней реверберации в кадре аудиоданных (в зависимости от количества (активных) каналов).

«Количество каналов» определяют согласно вариантам осуществления следующим образом: многоканальный аудиосигнал микшируют с понижением для стереофонического понижающего микширования с использованием матрицы понижающего микширования Q, которая определяет, какие входные каналы включены в какой канал понижающего микширования (размера M×2, причем M является количеством входных каналов входного аудиоматериала, например 6 каналов для схемы 5.1).

Например, матрица понижающего микширования Q может быть представлена следующим образом:

Для каждого из двух каналов понижающего микширования коэффициент масштабирования вычисляют следующим образом:

причем является средним/средним значением всех коэффициентов корреляции для некоторого количества комбинаций каналов , а зависит от количества каналов, которое может быть представлено следующим образом:

• может быть количеством каналов, которые микшируют с понижением в рассматриваемом в данный момент канале понижающего микширования k [1,2] (количество строк в матрице понижающего микширования Q в столбце k, которые содержат значения, неравные нулю). Это количество является инвариантным к времени, поскольку матрица понижающего микширования Q задана для одной конфигурации входных каналов и не изменяется на протяжении длительности одного входного аудиосигнала.

Например, при рассмотрении входного сигнала формата 5.1 применяют следующее:

каналы 1, 3, 4 микшируют с понижением в канале 1 понижающего микширования (см. матрицу Q выше),

=3 в каждом кадре (3 канала).

• может быть количеством активных каналов, которые микшируют с понижением в рассматриваемом в данный момент канале понижающего микширования k [1,2] (количество входных каналов, где существует активность в текущем кадре аудиоданных и где соответствующая строка матрицы понижающего микширования Q в столбце k содержит значение, неравное нулю → количество каналов на пересечении активных каналов и неравных элементов в столбце k из Q). Это количество может быть инвариантным к времени на протяжении длительности одного входного аудиосигнала, поскольку даже если Q остается той же самой, активность сигнала может изменяться по времени.

Например, при рассмотрении входного сигнала формата 5.1 применяют следующее:

каналы 1, 3, 4 микшируют с понижением в канале 1 понижающего микширования (см. матрицу Q выше),

В кадре n:

▪ активные каналы являются каналами 1, 2, 4,

▪ является количеством каналов в пересечении {1, 4},

▪

В кадре n+1:

▪ активные каналы являются каналами 1, 2, 3, 4,

▪ является количеством каналов в пересечении {1, 3, 4},

▪ .

Аудиоканал (в заданном кадре) может считаться активным в случае, когда он имеет некоторую амплитуду или некоторую энергию в пределах заданного кадра, которая превышает предварительно установленное пороговое значение, например, согласно вариантам осуществления, активность в аудиоканале (в заданном кадре) может быть определена следующим образом:

• сумма или максимальное значение абсолютных амплитуд сигнала (во временной области, области QMF, и т.д.) в кадре являются большими нуля, или

• сумма или максимальное значение энергии сигнала (квадрат абсолютного значения амплитуд во временной области или области QMF) в кадре являются большими нуля.

Вместо нуля может быть также использован другой порог (относительно максимальной энергии или амплитуды), больший нуля, например порог, равный 0,01.

Согласно вариантам осуществления, обеспечен коэффициент усиления для каждого уха, который зависит от количества активных (изменяющихся во времени) каналов или от фиксированного количества включенных каналов (матрица понижающего микширования не равна нулю) в канале понижающего микширования. Предполагается, что этот коэффициент линейно возрастает между полностью некоррелированным случаем и полностью коррелированным случаем. Полная некоррелированность означает отсутствие межканальных зависимостей (значение корреляции равно нулю), а полная коррелированность означает, что сигналы являются взвешенными версиями друг друга (с разностью фаз или смещением, значение корреляции равно единице).

Как упомянуто выше, коэффициент усиления или коэффициент масштабирования g может быть сглажен по кадрам аудиоданных посредством низкочастотного фильтра 528. Низкочастотный фильтр 528 может иметь постоянную времени t_s, которая обеспечивает сглаженный коэффициент усиления gS(t) для размера кадра k следующим образом:

где

ts=постоянная времени низкочастотного фильтра в [с],

ti=кадр аудиоданных в качестве кадра ti,

gs=сглаженный коэффициент усиления,

k=размер кадра и

fs=частота дискретизации в [Гц].

Размер кадра k может иметь размер кадра аудиоданных в дискретных единицах во временной области, например 2048 дискретных единиц.

Реверберирующий сигнал левого канала кадра аудиоданных x(t_i), тогда масштабируют посредством коэффициента gs,left(ti), а реверберирующий сигнал правого канала масштабируют посредством коэффициента gs,right(ti). Коэффициент масштабирования один раз вычисляют с использованием в качестве количества (активных ненулевых или полного количества) каналов, которые присутствуют в левом канале стереофонического понижающего микширования, который подают к ревербератору, обеспечивающему коэффициент усиления gs,left(ti). Затем коэффициент масштабирования вычисляют еще один раз с использованием в качестве количества (активных ненулевых или полного количества) каналов, которые присутствуют в правом канале стереофонического понижающего микширования, который подают к ревербератору, обеспечивающему коэффициент усиления gs,right(ti). Ревербератор выдает обратно стереофоническую реверберирующую версию кадра аудиоданных. Левый канал реверберирующей версии (или левый канал входа ревербератора) масштабируют с использованием gs,left(ti), а правый канал реверберирующей версии (или правый канал входа ревербератора) масштабируют с использованием gs,right(ti).

Масштабированную искусственную (синтетическую) позднюю реверберацию применяют в сумматоре 510 для добавления к сигналу 506, который обработан с использованием прямого звука и ранних отражений.

Как упомянуто выше, методика согласно изобретению в соответствии с вариантами осуществления может быть использована в стереофоническом процессоре для стереофонической обработки аудиосигналов. Далее будет описан вариант осуществления стереофонической обработки аудиосигналов. Стереофоническая обработка может быть выполнена в виде процесса декодера, преобразующего декодированный сигнал в стереофонический сигнал понижающего микширования, который обеспечивает восприятие объемного звука при прослушивании через головные телефоны.

Фиг. 8 показывает схематичное представление стереофонического рендерера 800 для стереофонической обработки аудиосигналов, согласно варианту осуществления данного изобретения. Фиг. 8 также обеспечивает общую схему обработки области QMF в стереофоническом рендерере. На вход 802 стереофонический рендерер 800 принимает аудиосигнал, подлежащий обработке, например входной сигнал, включающий в себя N каналов и 64 диапазона частот QMF. Дополнительно, стереофонический рендерер 800 принимает некоторое количество входных параметров для управления обработкой аудиосигнала. Входные параметры включают в себя стереофоническую импульсную характеристику 804 помещения (BRIR) для 2*N каналов и 64 диапазонов частот QMF, указание K_max 806 максимального диапазона частот, которое используют для свертки входного аудиосигнала с частью ранних отражений BRIR 804, и параметры 808 и 810 ревербератора, упомянутые выше (RT60 и энергия реверберации). Стереофонический рендерер 800 содержит процессор 812 быстрой свертки для обработки входного аудиосигнала 802 с использованием ранней части принятых BRIR 804. Процессор 812 формирует на выходе ранний обработанный сигнал 814, включающий в себя два канала и K_max диапазонов частот QMF. Стереофонический рендерер 800 содержит, кроме ответвления ранней обработки, имеющего процессор 812 быстрой свертки, также ответвление реверберации, включающее в себя два ревербератора 816а и 816b, причем каждый из них принимает в качестве входного параметра RT60-информацию 808 и информацию 810 об энергии реверберации. Ответвление реверберации дополнительно включает в себя стереофонический процессор 818 понижающего микширования и процессор 820 анализа корреляции, которые оба также принимают входной аудиосигнал 802. Дополнительно, два усилительных каскада 821а и 821b обеспечены между стереофоническим процессором 818 понижающего микширования и соответствующими ревербераторами 816а и 816b, для управления усилением микшируемого с понижением сигнала 822, обеспечиваемого стереофоническим процессором 818 понижающего микширования. Стереофонический процессор 818 понижающего микширования обеспечивает, на основании входного сигнала 802, микшированный с понижением сигнал 822, имеющий два диапазона частот и 64 диапазона частот QMF. Усилением усилительных каскадов 821а и 821b управляют посредством соответствующих управляющих сигналов 624а и 824b, обеспечиваемых процессором 820 анализа корреляции. Микшированный с понижением сигнал с управляемым усилением вводят в соответствующие ревербераторы 816а и 816b, формирующие соответствующие реверберирующие сигналы 826а, 826b. Ранний обработанный сигнал 814 и реверберирующие сигналы 826a, 826b принимаются микшером 828, который объединяет принятые сигналы в выходной аудиосигнал 830, имеющий два канала и 64 диапазона частот QMF. Дополнительно, согласно данному изобретению, процессор 812 быстрой свертки и ревербераторы 816а и 816b принимают дополнительный входной параметр 832, указывающий на переход в импульсной характеристике 804 помещения от ранней части к поздней реверберации, определяемый, как описано выше.

Модуль 800 стереофонического рендерера (например, стереофонический рендерер 236 фиг. 2 или фиг. 4) имеет в качестве входа 802 декодированный поток данных. Этот сигнал обрабатывают посредством банка фильтров анализа QMF, как описано в ISO/IEC 14496-3:2009, подпункт 4.B.18.2 с изменениями, установленными в ISO/IEC 14496-3:2009, подпункт 8.6.4.2. Модуль 800 рендерера может также обрабатывать входные данные области QMF; в этом случае банк фильтров анализа может быть исключен. Стереофонические импульсные характеристики 804 помещения (BRIR) представляют в виде комплексных фильтров области QMF. Преобразование от стереофонических импульсных характеристик помещения временной области к представлению комплексных фильтров QMF описано в ISO/IEC FDIS 23003-1:2006, Приложение B. BRIR 804 ограничены некоторым количеством интервалов времени в комплексной области QMF, так что они содержат только часть 301, 302 ранних отражений (см. фиг. 5), а поздняя диффузная реверберация 304 не включена. Точку 832 перехода от ранних отражений к поздней реверберации определяют, как описано выше, например, посредством анализа BRIR 804 на этапе предобработки стереофонической обработки. Аудиосигналы 802 области QMF и BRIR 804 области QMF затем обрабатывают посредством быстрой свертки 812 по диапазонам частот для выполнения стереофонической обработки. Ревербератор 816a, 816b области QMF используют для формирования двухканальной поздней реверберации 826a, 826b области QMF. Модуль 816a, 816b реверберации использует набор частотно-зависимых времен 808 реверберации и значений 810 энергии для адаптации характеристик реверберации. Сигнал реверберации основан на стереофоническом понижающем микшировании 818 входного аудиосигнала 802, и его адаптивно масштабируют 821a, 821b по амплитуде в зависимости от корреляционного анализа 820 многоканального аудиосигнала 802. Двухканальный результат 814 свертки области QMF и двухканальную реверберацию 816a, 816b области QMF затем объединяют 828, и, наконец, два банка фильтров синтеза QMF вычисляют стереофонические выходные сигналы 830 временной области, как описано в ISO/IEC 14496-3:2009, подпункт 4.6.18.4.2. Рендерер может также обеспечить выходные данные области QMF; тогда банк фильтров синтеза исключают.

ОПРЕДЕЛЕНИЯ

Аудиосигналы 802, которые подают в модуль 800 стереофонического рендерера, далее называются входными сигналами. Аудиосигналы 802, которые являются результатом стереофонической обработки, называются выходными сигналами. Входные сигналы 802 модуля 800 стереофонического рендерера являются выходными аудиосигналами основного декодера (см., например, сигналы 228 на фиг. 2). Используют следующие определения переменных:

	Количество входных каналов
	Количество выходных каналов,
	Матрица понижающего микширования, содержащая вещественные неотрицательные коэффициенты понижающего микширования (коэффициенты усиления понижающего микширования). имеет размер
	Длина кадра, измеренная в дискретных единицах аудиоданных во временной области.
	Индекс дискретной единицы во временной области
	Индекс интервала времени QMF (индекс дискретной единицы поддиапазона)
	Длина кадра, измеренная в интервалах времени QMF
	Индекс кадра (номер кадра)
	Количество диапазонов частот QMF,
	Индекс диапазона частот QMF (1..64)
	Индексы каналов (номера каналов канальных конфигураций)
	Длина части ранних отражений BRIR в дискретных единицах во временной области
	Длина части ранних отражений BRIR в интервалах времени QMF
	Количество пар BRIR в наборе данных BRIR
	Длина FFT-преобразования
	Реальная часть комплексного сигнала
	Мнимая часть комплексного сигнала
	Вектор, который сигнализирует о том, какой канал входного сигнала к какой паре BRIR в наборе данных BRIR относится
	Максимальная частота, используемая для стереофонической обработки
	Максимальная частота сигнала, которая присутствует в выходном аудиосигнале декодера
	Максимальный диапазон частот, который используют для свертки входного аудиосигнала с частью ранних отражений BRIR
	Коэффициент матрицы понижающего микширования
	Коэффициент коррекции энергии по диапазонам частот
	Численная постоянная,
	Задержка в интервалах времени области QMF
	Представление сигнала области псевдо-FFT в диапазоне частот k
	Индекс частоты псевдо-FFT
	Представление BRIR области псевдо-FFT в диапазоне частот k
	Результат свертки области псевдо-FFT в диапазоне частот k
	Промежуточный сигнал: двухканальный результат свертки в области QMF
	Промежуточный сигнал: двухканальная реверберация в области QMF
	Количество диапазонов частот анализа (используемых для ревербератора)
	Центральные частоты диапазонов частот анализа
	Количество каналов, которые микшируют с понижением в одном канале стереофонического понижающего микширования и которые являются активными в фактическом кадре сигнала
	Общий коэффициент корреляции для одного кадра сигнала
	Коэффициент корреляции для комбинации каналов
	Среднеквадратическое отклонение для интервала времени n сигнала
	Вектор из двух коэффициентов масштабирования
	Вектор из двух коэффициентов масштабирования, сглаженный по времени

ОБРАБОТКА

Теперь будет описана обработка входного сигнала. Модуль стереофонического рендерера оперирует смежными неперекрывающимися кадрами длиной L=2048 дискретных единиц во временной области входных аудиосигналов и выдает один кадр из L дискретных единиц на обработанный входной кадр длины L.

(1) Инициализация и предобработка

Инициализацию блока стереофонической обработки выполняют перед обработкой дискретных единиц аудиоданных, обеспеченных основным декодером (см., например, декодер из 200 на фиг. 2). Инициализация состоит из нескольких этапов обработки.

(а) Считывание значений для анализа

Модуль 816a, 816b ревербератора берет частотно-зависимый набор времен 808 реверберации и значений 810 энергии в качестве входных параметров. Эти значения считывают из интерфейса при инициализации модуля 800 стереофонической обработки. Дополнительно, считывают время 832 перехода от ранних отражений к поздней реверберации в дискретных единицах во временной области. Эти значения могут быть сохранены в двоичном файле, записанном с использованием 32 битов на дискретную единицу, могут быть значениями с плавающей точкой, могут иметь обратный порядок байтов. Считываемые значения, которые необходимы для обработки, определены в таблице ниже:

Описание значения	Количество	Тип данных
Длина перехода	1	Целочисленный
Количество диапазонов частот	1	Целочисленный
Центральные частоты диапазонов частот		С плавающей точкой
Времена реверберации RT60 в секундах		С плавающей точкой
Значения энергии, которые представляют энергию (амплитуду в квадрате) части поздней реверберации одной BRIR		С плавающей точкой

(b) Считывание и предобработка BRIR

Стереофонические импульсные характеристики 804 помещения считывают из двух специальных файлов, которые хранят отдельно BRIR левого и правого уха. Дискретные единицы во временной области BRIR сохраняют в целочисленных аудиофайлах с разрешением 24 бита на дискретную единицу и 32 каналами. Порядок BRIR в этом файле определен в следующей таблице:

Номер канала	Обозначение громкоговорителя
1	CH_M_L045
2	CH_M_R045
3	CH_M_000
4	CH_LFE1
5	CH_M_L135
6	CH_M_R135
7	CH_M_L030
8	CH_M_R030
9	CH_M_180
10	CH_LFE2
11	CH_M_L090
12	CH_M_R090
13	CH_U_L045
14	CH_U_R045
15	CH_U_000
16	CH_T_000
17	CH_U_L135
18	CH_U_R135
19	CH_U_L090
20	CH_U_R090
21	CH_U_180
22	CH_L_000
23	CH_L_L045
24	CH_L_R045
25	CH_M_L060
26	CH_M_R060
27	CH_M_L110
28	CH_M_R110
29	CH_U_L030
30	CH_U_R030
31	CH_U_L110
32	CH_U_R110

Если не существует BRIR, измеренной в одном из положений громкоговорителей, то соответствующий канал в аудиофайле содержит нулевые значения. LFE-каналы не используют для стереофонической обработки.

В качестве этапа предобработки, данный набор стереофонических импульсных характеристик помещения (BRIR) преобразуют из фильтров временной области в фильтры комплексной области QMF. Реализацию данных фильтров временной области в комплексной области QMF выполняют согласно ISO/IEC FDIS 23003-1:2006, Приложение B. Эталонные коэффициенты фильтров для преобразования фильтров используют согласно ISO/IEC FDIS 23003-1:2006, Приложение B, Таблица B.1. Представление временной области с обрабатывают для получения фильтра комплексной области QMF с .

(2) Обработка аудиосигнала

Блок обработки аудиоданных модуля 800 стереофонического рендерера получает дискретные единицы 802 аудиоданных во временной области для входных каналов от основного декодера и формирует стереофонический выходной сигнал 830, состоящий из каналов.

Эта обработка берет в качестве входных данных

декодированные аудиоданные 802 от основного декодера,

представление комплексной области QMF части ранних отражений набора 804 BRIR и

частотно-зависимый набор 808, 810, 832 параметров, который используется ревербератором 816a, 816b области QMF для формирования поздней реверберации 826a, 826b.

(а) QMF-анализ аудиосигнала

В качестве первого этапа обработки, модуль стереофонического рендерера преобразует L=2048 дискретных единиц во временной области -канального входного сигнала временной области (поступающего от основного декодера) в -канальное представление 802 сигнала области QMF с размером =32 интервала времени QMF (индекс интервала времени n) и K=64 диапазонами частот (индекс диапазона частот k).

QMF-анализ, описанный в ISO/IEC 14496-3:2009, подпункт 4.B.18.2, с изменениями, определенными в ISO/IEC 14496-3:2009, подпункт 8.6.4.2., выполняют на кадре сигнала временной области для получения кадра сигнала области QMF с и .

(b) Быстрая свертка аудиосигнала области QMF и BRIR области QMF

Затем выполняют быструю свертку 812 для обработки аудиосигнала 802 области QMF и BRIR 804 области QMF. FFT-анализ может быть выполнен для каждого диапазона частот QMF для каждого канала входного сигнала 802 и каждой BRIR 804.

Вследствие комплексных значений в области QMF один FFT-анализ выполняют на реальной части представления сигнала области QMF и один FFT-анализ выполняют на мнимых частях представления сигнала области QMF. Затем результаты объединяют для образования конечного комплексного сигнала области псевдо-FFT по диапазонам частот

и комплексных BRIR по диапазонам частот

Длину FFT-преобразования определяют согласно длине фильтров BRIR комплексной области QMF и длине кадров в интервалах времени области QMF , так что

Сигналы комплексной области псевдо-FFT затем умножают на фильтры BRIR комплексной области псевдо-FFT для образования результатов быстрой свертки. Вектор используют для сигнализации того, какой канал входного сигнала какой паре BRIR в наборе данных BRIR соответствует.

Это умножение выполняют по диапазонам частот для всех диапазонов частот QMF k с . Максимальный диапазон частот определяется диапазоном частот QMF, представляющим либо частоту 18 кГц, либо максимальную частоту сигнала от основного декодера

Результаты умножения от каждого входного аудиоканала с каждой парой BRIR суммируют в каждом диапазоне частот QMF k с , что обеспечивает промежуточный двухканальный - диапазонный сигнал области псевдо-FFT.

и являются результатом свертки псевдо-FFT в диапазоне частот области QMF k.

Затем выполняют FFT-синтез по диапазонам частот для преобразования результата свертки обратно в область QMF, что обеспечивает промежуточный двухканальный - диапазонный сигнал области QMF с интервалами времени с и .

Для каждого кадра входного сигнала области QMF с L=32 интервалами времени возвращается кадр сигнала результата свертки с L=32 интервалами времени. Остальные интервалы времени сохраняют и выполняют обработку перекрытия-добавления в следующем кадре (кадрах).

(c) Формирование поздней реверберации

В качестве второго промежуточного сигнала 826a, 826b формируют сигнал реверберации, называемый , посредством модуля 816a, 816b ревербератора частотной области. Ревербератор 816a, 816b частотной области берет в качестве входных данных

• стереофоническое понижающее микширование 822 области QMF одного кадра входного сигнала,

• набор параметров, который содержит частотно-зависимые времена 808 реверберации и значения 810 энергии.

Ревербератор 816a, 816b частотной области возвращает двухканальную конечную фазу поздней реверберации области QMF.

Максимальное используемое количество диапазонов частот частотно-зависимого набора параметров вычисляют в зависимости от максимальной частоты.

Сначала выполняют стереофоническое понижающее микширование 818 области QMF одного кадра входного сигнала , для образования входных данных ревербератора, посредством взвешенного суммирования каналов входного сигнала. Взвешенные коэффициенты усиления содержатся в матрице понижающего микширования . Они являются вещественными и неотрицательными, а матрица понижающего микширования имеет размер . Она содержит ненулевое значение, когда канал входного сигнала отображается одним или двумя выходными каналами.

Каналы, которые представляют положения громкоговорителей на левой полусфере, отображаются левым выходным каналом, а каналы, которые представляют громкоговорители, расположенные на правой полусфере, отображаются правым выходным каналом. Сигналы этих каналов взвешивают посредством коэффициента, равного 1. Каналы, которые представляют громкоговорители в средней плоскости, отображаются обоими выходными каналами стереофонического сигнала. Входные сигналы этих каналов взвешивают посредством коэффициента

Дополнительно, выполняют этап коррекции энергии в понижающем микшировании. Это адаптирует энергию одного канала понижающего микширования по диапазонам частот для обеспечения ее равенства сумме энергии каналов входного сигнала по диапазонам частот, которые содержатся в этом канале понижающего микширования. Эту коррекцию энергии проводят посредством умножения по диапазонам частот на вещественный коэффициент

Коэффициент ограничен интервалом [0.5, 2]. Численная постоянная введена, чтобы избежать деления на ноль. Понижающее микширование также ограничено по диапазону частот частотой ; значения во всех более высоких диапазонах частот устанавливают равными нулю.

Фиг. 9 схематично представляет обработку в ревербераторе 816a, 816b частотной области стереофонического рендерера 800, согласно варианту осуществления данного изобретения.

В ревербераторе частотной области вычисляют монофоническое понижающее микширование стереофонического входного сигнала с использованием входного микшера 900. Это выполняют посредством некогерентного применения фазового сдвига на 90° на каждом втором входном канале.

Этот монофонический сигнал затем подают к контуру 902 обратной связи с задержкой в каждом диапазоне частот k, который создает затухающую последовательность импульсов. За ним следуют параллельные FIR-декорреляторы, которые распределяют энергию сигнала с затуханием в интервалах между импульсами и создают некогерентность между выходными каналами. Уменьшающуюся плотность отводов фильтра применяют для создания затухания энергии. Операции с фазами отводов фильтра ограничены четырьмя опциями для реализации разреженного и свободного от умножения декоррелятора.

После вычисления реверберации коррекцию 904 межканальной когерентности (ICC) обеспечивают в модуле реверберации для каждого диапазона частот QMF. На этапе коррекции ICC для адаптации ICC используют частотно-зависимые коэффициенты прямого усиления g_direct и коэффициенты усиления кросс-микширования g_cross.

Величина энергии и времена реверберации для разных диапазонов частот содержатся в наборе входных параметров. Эти значения заданы для некоторого количества точек частоты, которые, по сути дела, отображают K=64 диапазона частот QMF.

Два примера ревербератора частотной области используют для вычисления конечного промежуточного сигнала . Сигнал является первым выходным каналом первого примера ревербератора, а является вторым выходным каналом второго примера ревербератора. Их объединяют в кадр конечного сигнала реверберации, который имеет размер 2 канала, 64 диапазона частот и 32 интервала времени.

Стереофоническое понижающее микширование 822 два раза масштабируют 821a,b, согласно мере 820 корреляции кадра входного сигнала, для обеспечения правильного масштабирования выходного сигнала ревербератора. Коэффициент масштабирования определяют в виде значения в интервале , линейно зависящего от коэффициента корреляции между 0 и 1, причем

где означает среднеквадратическое отклонение по одному интервалу времени канала , оператор означает комплексно сопряженную величину, и является версией с нулевым средним сигнала области QMF в фактическом кадре сигнала.

вычисляют два раза: один раз для множества каналов , которые являются активными в фактическом кадре сигнала и которые включены в левый канал стереофонического понижающего микширования, и один раз для множества каналов , которые являются активными в фактическом кадре сигнала и которые включены в правый канал стереофонического понижающего микширования. является количеством входных каналов, которые микшируют с понижением в одном канале понижающего микширования (количество элементов матрицы в -й строке матрицы понижающего микширования , которые не равны нулю) и которые являются активными в текущем кадре.

Тогда, коэффициенты масштабирования можно представить в виде:

Коэффициенты масштабирования сглаживают по кадрам аудиосигнала посредством низкочастотного фильтра 1-го порядка, что обеспечивает сглаженные коэффициенты масштабирования .

Коэффициенты масштабирования инициализируют в первом кадре входных аудиоданных посредством анализа корреляции во временной области с использованием того же средства.

Входной сигнал первого примера ревербератора масштабируют с использованием коэффициента масштабирования , а входной сигнал второго примера ревербератора масштабируют с использованием коэффициента масштабирования .

(d) Объединение результатов свертки и поздней реверберации

Затем результат 814 свертки, , и выходной сигнал 826a, 826b ревербератора, , для одного входного кадра аудиоданных области QMF, объединяют посредством процесса 828 микширования, который суммирует эти два сигнала по диапазонам частот. Следует отметить, что верхние диапазоны частот выше, чем , являются нулевыми в , поскольку свертку проводят только в диапазонах частот вплоть до .

Выходной сигнал поздней реверберации задерживают на количество интервалов времени в процессе микширования.

Задержка учитывает время перехода от ранних отражений к поздним отражениям в BRIR и начальную задержку ревербератора, равную 20 интервалам времени QMF, а также задержку анализа, равную 0,5 интервала времени QMF для QMF-анализа BRIR, для обеспечения вставки поздней реверберации у целесообразного интервала времени. Объединенный сигнал у одного интервала времени вычисляют посредством .

(e) QMF-синтез стереофонического сигнала области QMF

Один двухканальный кадр из 32 интервалов времени выходного сигнала области QMF преобразуют в двухканальный кадр сигнала временной области с длиной , посредством QMF-синтеза, согласно ISO/IEC 14496-3:2009, подпункт 4.6.18.4.2., что обеспечивает конечный выходной сигнал 830 временной области, .

Согласно методике по изобретению, синтетическую или искусственную позднюю реверберацию масштабируют с учетом характеристик входного сигнала, улучшая, таким образом, качество выходного сигнала при обеспечении преимущества в уменьшенной вычислительной сложности, полученного посредством отдельной обработки. Также, как можно увидеть из приведенного выше описания, нет необходимости в дополнительных моделях слышимости или целевой громкости реверберации.

Следует отметить, что данное изобретение не ограничено описанным выше вариантом осуществления. Например, в то время как вышеупомянутый вариант осуществления описан в комбинации с областью QMF, следует отметить, что могут быть также использованы другие частотно-временные области, например область STFT. Также, коэффициент масштабирования может быть вычислен частотно-зависимым способом так, что корреляцию вычисляют не по всему количеству диапазонов частот, а именно , а вычисляют в некотором количестве S подмножеств, определяемых следующим образом:

Также сглаживание может быть применено по диапазонам частот, или диапазоны частот могут быть объединены согласно конкретному правилу, например согласно частотному разрешению слышымости. Сглаживание может быть адаптировано к разным постоянным времени, например в зависимости от размера кадра или предпочтений слушателя.

Методика согласно изобретению может быть также применена для разных размеров кадров, даже, возможно, для размера кадра, равного только одному интервалу времени в частотно-временной области.

Согласно вариантам осуществления, разные матрицы понижающего микширования могут быть использованы для понижающего микширования, например симметричные матрицы понижающего микширования или асимметричные матрицы.

Мера корреляции может быть получена на основании параметров, которые передают в битовом потоке аудиоданных, например, на основании межканальной когерентности в стандарте объемного звучания MPEG или SAOC. Также, согласно вариантам осуществления, можно исключить некоторые значения матрицы из вычисления средних значений, например ошибочно вычисленные значения или значения на главной диагонали, значения автокорреляции, при необходимости.

Этот процесс может быть выполнен в кодере, вместо использования его в стереофоническом рендерере на стороне декодера, например, при применении стереофонического профиля низкой сложности. Это приводит к некоторому представлению коэффициентов масштабирования, например самих коэффициентов масштабирования, меры корреляции, между 0 и 1 и т.п., и эти параметры передают в битовый поток от кодера к декодеру для фиксированной матрицы нисходящего потока.

Также, в то время как описанный выше вариант осуществления описан с применением усиления после ревербератора 514, следует отметить, что, согласно другим вариантам осуществления, усиление может быть также применено перед ревербератором 514 или внутри ревербератора, например, посредством модификации коэффициентов усиления внутри ревербератора 514. Это является преимуществом, поскольку может требовать меньшего количества вычислений.

Хотя некоторые аспекты описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где некоторый блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока, или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах осуществления, один или более наиболее важных этапов способа могут быть выполнены посредством такого устройства.

В зависимости от некоторых требований реализации, варианты осуществления данного изобретения могут быть реализованы в аппаратном обеспечении или программном обеспечении. Реализация может быть выполнена с использованием постоянного запоминающего носителя, такого как цифровой запоминающий носитель, например гибкий диск, DVD, Blu-Ray, CD, ROM, PROM, и EPROM, EEPROM или FLASH-память, на котором сохранены считываемые электронным способом управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, чтобы был выполнен соответствующий способ. Таким образом, цифровой запоминающий носитель может быть машиночитаемым.

Некоторые варианты осуществления согласно данному изобретению содержат носитель данных, который содержит считываемые электронным способом управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой таким образом, чтобы был выполнен один из способов, описанных здесь.

В общем, варианты осуществления данного изобретения могут быть реализованы в виде компьютерного программного продукта с использованием программного кода, причем программный код обеспечивает выполнение одного из способов, когда компьютерный программный продукт функционирует на компьютере. Этот программный код может быть, например, сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных здесь, хранящуюся на машиночитаемом носителе.

Другими словами, вариант осуществления способа согласно изобретению представляет собой, таким образом, компьютерную программу, имеющую программный код для выполнения одного из способов, описанных здесь, когда компьютерная программа функционирует на компьютере.

Дополнительный вариант осуществления способа согласно изобретению является, таким образом, носителем данных (или цифровым запоминающим носителем, или машиночитаемым носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных здесь. Носитель данных, цифровой запоминающий носитель или записываемый носитель обычно являются материальными и/или постоянными.

Дополнительный вариант осуществления данного изобретения является, таким образом, потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных здесь. Поток данных или последовательность сигналов могут быть, например, выполнены с возможностью передачи через соединение для передачи данных, например, через интернет.

Дополнительный вариант осуществления содержит обрабатывающее средство, например, компьютер или программируемое логическое устройство, выполненное с возможностью, или запрограммированное с возможностью, выполнения одного из способов, описанных здесь.

Дополнительный вариант осуществления содержит компьютер, имеющий инсталлированную на нем компьютерную программу для выполнения одного из способов, описанных здесь.

Дополнительный вариант осуществления, согласно данному изобретению, содержит устройство или систему, выполненные с возможностью передачи (например, электронным или оптическим способом) компьютерной программы для выполнения одного из способов, описанных здесь, к приемнику. Приемник может быть, например, компьютером, мобильным устройством, запоминающим устройством и т.п. Устройство или система могут, например, содержать сервер файлов для передачи компьютерной программы к приемнику.

В некоторых вариантах осуществления, может быть использовано программируемое логическое устройство (например, программируемая логическая интегральная схема), для выполнения некоторых или всех функциональностей способов, описанных здесь. В некоторых вариантах осуществления, матрица программируемых логических вентилей может взаимодействовать с микропроцессором для выполнения одного из способов, описанных здесь. В общем, способы предпочтительно выполняются посредством любого аппаратного устройства.

Описанные выше варианты осуществления лишь иллюстрируют принципы данного изобретения. Следует понимать, что специалистам в данной области техники будут понятны модификации и варианты схем и элементов, описанных здесь. Таким образом, предполагается, что данное изобретение ограничено лишь объемом нижеследующей формулы изобретения, а не конкретными подробностями, представленными в описании и объяснении вариантов осуществления данного изобретения.

СПИСОК ЛИТЕРАТУРЫ

[1] M. R. Schroeder, "Digital Simulation of Sound Transmission in Reverberant Spaces", The Journal of the Acoustical Society of America, VoS. 47, pp. 424-431 (1970) and enhanced in JA. Moorer, "About This Reverberation Business", Computer Music Journal, Vol. 3, no. 2, pp. 13-28, MIT Press (1979).

[2] Uhle, Christian; Paulus, Jouni; Herre, Jürgen: “Predicting the Perceived Level of Late Reverberation Using Computational Models of Loudness” Proceedings, 17th International Conference on Digital Signal Processing (DSP), July 6-8, 2011, Corfu, Greece.

[3] Czyzewski, Andrzej: “A Method of Artificial Reverberation Quality Testing” J. Audio Eng. Soc., Vol. 38, No 3, 1990.

1. Способ обработки аудиосигнала (504, 802) согласно импульсной характеристике (300) помещения, причем способ содержит этапы, на которых:

отдельно обрабатывают (502, 514, 812, 816а, 816b) аудиосигнал (504, 802) с использованием ранней части (301, 302) и поздней реверберации (304) импульсной характеристики (300) помещения, причем обработка поздней реверберации (304) содержит этап, на котором формируют масштабированный реверберирующий сигнал, и

объединяют аудиосигнал, обработанный с использованием ранней части импульсной характеристики помещения, и масштабированный реверберирующий сигнал,

причем формирование масштабированного реверберирующего сигнала содержит этапы, на которых

устанавливают коэффициент усиления согласно заданной мере корреляции аудиосигнала (504, 802), имеющего фиксированное значение, определенное эмпирически на основании анализа множества аудиосигналов, и применяют коэффициент усиления, или

вычисляют меру корреляции аудиосигнала (504, 802) с использованием анализа корреляции аудиосигнала (504, 802) и коэффициента усиления, и применяют коэффициент усиления.

2. Способ по п.1, в котором масштабирование зависит от состояния одного или более входных каналов аудиосигнала (504, 802),

причем условие одного или более входных каналов аудиосигнала (504, 802) содержит одно или более из количества входных каналов, количества активных входных каналов и активности в одном или более входных каналах.

3. Способ по п.2, в котором коэффициент усиления определяют на основании состояния одного или более входных каналов аудиосигнала (504, 802).

4. Способ по п.3, в котором формирование масштабированного реверберирующего сигнала содержит этап, на котором применяют коэффициент усиления перед, во время или после обработки поздней реверберации (304) аудиосигнала (504, 802).

5. Способ по п.3, в котором коэффициент усиления определяют следующим образом:

где

=заданная или вычисленная мера корреляции для аудиосигнала (504, 802),

cu,cc=коэффициенты, указывающие на состояние одного или более входных каналов аудиосигнала (504, 802), причем cu относится к полностью некоррелированным каналам, а cc относится к полностью коррелированным каналам,

причем cu и cc определяют следующим образом:

где

=количество активных входных каналов аудиосигнала.

6. Способ по п.1, в котором анализ корреляции аудиосигнала (504, 802) содержит этап, на котором определяют для кадра аудиоданных аудиосигнала (504, 802) объединенную меру корреляции, и при этом объединенную меру корреляции вычисляют посредством объединения коэффициентов корреляции для множества комбинаций каналов одного кадра аудиоданных, причем каждый кадр аудиоданных содержит один или более интервалов времени.

7. Способ по п.6, в котором объединение коэффициентов корреляции содержит усреднение множества коэффициентов корреляции кадра аудиоданных.

8. Способ по п.6, в котором определение объединенной меры корреляции содержит этапы, на которых:

(i) вычисляют общее среднее значение для каждого канала одного кадра аудиоданных,

(ii) вычисляют кадр аудиоданных с нулевым средним посредством вычитания средних значений из соответствующих каналов,

(iii) вычисляют для множества комбинаций каналов коэффициент корреляции, и

(iv) вычисляют объединенную меру корреляции в виде среднего значения множества коэффициентов корреляции.

9. Способ по п.6, в котором коэффициент корреляции для комбинации каналов определяют следующим образом:

где

=коэффициент корреляции,

=среднеквадратическое отклонение по одному интервалу времени j канала m,

=среднеквадратическое отклонение по одному интервалу времени j канала n,

=переменные с нулевым средним,

=диапазоны частот,

=интервалы времени,

=каналы,

=комплексно сопряженная величина.

10. Способ по п.1, содержащий этап, на котором задерживают масштабированный реверберирующий сигнал для согласования его начала с точкой перехода от ранних отражений к поздней реверберации (304) в импульсной характеристике (300) помещения.

11. Способ п.1, в котором аудиосигнал (504, 802) является многоканальным входным аудиосигналом и в котором обработка поздней реверберации содержит этап, на котором подают многоканальный входной аудиосигнал в понижающий микшер (410) для понижающего микширования многоканального входного аудиосигнала (504, 802) для обеспечения сигнала, имеющего меньшее количество каналов, и подают микшированный с понижением аудиосигнал к ревербератору.

12. Машиночитаемый носитель, на котором сохранена компьютерная программа, которая при исполнении ее посредством компьютера или процессора обеспечивает выполнение способа по одному из пп.1-11.

13. Блок обработки сигналов, содержащий

вход для приема аудиосигнала (504, 802),

процессор ранней части для обработки принятого аудиосигнала (504, 802) согласно ранней части (301, 302) импульсной характеристики (300) помещения,

процессор поздней реверберации для обработки принятого аудиосигнала (504, 802) согласно поздней реверберации импульсной характеристики (300) помещения, причем процессор поздней реверберации выполнен с возможностью формирования масштабированного реверберирующего сигнала, и

выход для объединения обработанной ранней части принятого аудиосигнала (504, 802) и масштабированного реверберирующего сигнала в выходной аудиосигнал,

причем процессор поздней реверберации выполнен с возможностью формирования масштабированного реверберирующего сигнала посредством установки коэффициента усиления согласно заданной мере корреляции аудиосигнала (504, 802), имеющего фиксированное значение, определенное эмпирически на основании анализа множества аудиосигналов, и применения коэффициента усиления, или

вычисления меры корреляции аудиосигнала (504, 802) с использованием анализа корреляции аудиосигнала (504, 802) и коэффициента усиления и применения коэффициента усиления.

14. Блок обработки сигналов по п.13, в котором процессор поздней реверберации содержит:

ревербератор, принимающий аудиосигнал (504, 802) и формирующий реверберирующий сигнал; и

усилительный каскад, соединенный с входом или выходом ревербератора и управляемый посредством коэффициента усиления.

15. Блок обработки сигналов по п.13, содержащий анализатор корреляции, формирующий коэффициент усиления в зависимости от аудиосигнала (504, 802).

16. Блок обработки сигналов по п.13, дополнительно содержащий по меньшей мере одно из:

низкочастотного фильтра, соединенного с усилительным каскадом, и

элемента задержки, соединенного между усилительным каскадом и сумматором, причем сумматор дополнительно соединен с процессором ранней части и выходом.

17. Стереофонический рендерер, содержащий блок обработки сигналов по одному из пп.13-16.

18. Аудиокодер для кодирования аудиосигналов, содержащий:

блок обработки сигналов по одному из пп.13-16 или стереофонический рендерер по п.17 для обработки аудиосигналов перед кодированием.

19. Аудиодекодер для декодирования кодированных аудиосигналов, содержащий:

блок обработки сигналов по одному из пп.13-16 или стереофонический рендерер по п.17 для обработки декодируемых аудиосигналов.

Изобретение относится к области кодирования аудиосигналов и предназначено для преобразования первого и второго входных каналов в один выходной канал, и в частности, предназначено для использования при преобразовании формата между различными конфигурациями каналов громкоговорителей.

Способ и процессор сигналов для преобразования множества входных каналов из конфигурации входных каналов в выходные каналы из конфигурации выходных каналов // 2635903

Изобретение относится к области радиосвязи и предназначено для понижающего преобразования формата между различными конфигурациями каналов громкоговорителей. Технический результат – повышение качества звука.

Способ и устройство для определения позиции микрофона // 2635286

Изобретение относится к средствам для определения позиции микрофона. Технический результат заключается в повышении точности определения позиции микрофона.

Устройство и способ формирования множества параметрических звуковых потоков и устройство и способ формирования множества сигналов акустической системы // 2633134

Изобретение относится к средствам для формирования множества параметрических звуковых потоков. Технический результат заключается в улучшении качества пространственного звука.

Способы кодирования и декодирования звука, соответствующие машиночитаемые носители и соответствующие устройство кодирования и устройство декодирования звука // 2628177

Изобретение относится к кодированию и декодированию аудио сигналов. Технический результат – обеспечение возможности улучшения восстановления звукового объекта.

Рендеринг отраженного звука для объектно-ориентированной аудиоинформации // 2602346

Изобретение относится к средствам рендеринга пространственного аудиоконтента в системе, которая сконфигурирована для отражения аудио от одной или нескольких поверхностей среды прослушивания.

Схема контроллера предварительной коррекции аудио с использованием переменного набора поддерживающих громкоговорителей // 2595896

Изобретение относится к средствам предварительной коррекции аудио с использованием переменного набора поддерживающих громкоговорителей. Технический результат заключается в обеспечении возможности расширенной предварительной коррекции для повышения качества воспроизведения стерео или многоканального аудиоматериала в двух или более громкоговорителях.

Система и способ для воспроизведения звука // 2589377

Изобретение относится к средствам для воспроизведения аудио сигнала. Технический результат заключается в повышении гибкости расположения громкоговорителей, увеличении уровня звукового давления и увеличении качества пространственного ощущения.

Пространственное воспроизведение звука // 2559713

Изобретение относится к средствам для пространственного воспроизведения звука. Технический результат заключается в улучшении пространственного восприятия при прослушивании.

Система и инструментальные средства для усовершенствованной авторской разработки и представления трехмерных аудиоданных // 2554523

Изобретение относится к средствам для усовершенствованной авторской разработки и представления трехмерных аудиоданных. Технический результат заключается в уменьшении вычислительной сложности обработки трехмерного звука.

Способ и устройство обработки сигналов // 2641466

Изобретение относится к области кодирования и декодирования аудио сигналов. Технический результат – повышение качества кодирования и декодирования аудио сигналов и исключение потери битов.

Структура декоррелятора для параметрического восстановления звуковых сигналов // 2641463

Изобретение относится к области кодирования и декодирования звуковых сигналов. Технический результат – повышение точности восстановления звуковых сигналов.

Адаптивное расширение полосы пропускания и устройство для этого // 2641224

Изобретение относится к области техники обработки речи, в частности к адаптивному расширению полосы пропускания. Технический результат – обеспечение формирования расширенной полосы пропускания частот в декодере.

Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио // 2640743

Изобретение относится к средствам для маскирования ошибок при кодировании/декодировании аудио. Технический результат заключается в восстановлении качества звучания без увеличения алгоритмической задержки, когда происходит потеря пакета при кодировании аудио.

Устройство и способ для кодирования/декодирования для расширения диапазона высоких частот // 2639694

Изобретение относится к кодированию и декодированию аудиосигналов и предназначено для кодирования и декодирования сигнала, соответствующего диапазону высоких частот аудиосигнала.

Кодер и декодер // 2639677

Группа изобретений относится к области кодирования. Техническим результатом является повышение эффективности сжатия данных.

Кодер и декодер // 2639677

Кодирование спектральных коэффициентов спектра аудиосигнала // 2638734

Изобретение относится к кодированию спектральных коэффициентов спектра аудиосигнала, используемого в различных аудиокодеках на основе преобразования. Технический результат – повышение эффективности кодирования спектральных коэффициентов спектра аудиосигнала за счет кодирования/декодирования спектрального коэффициента, подлежащего кодированию/декодированию в данный момент времени, путем энтропийного кодирования/декодирования.

Устройство и способ кодирования // 2636697

Изобретение относится к технике связи. Технический результат – повышение эффективности кодирования со сжатием и повышение качества сигнала.

Устройство и способ для кодирования и декодирования исходных данных // 2630750

Группа изобретений относится к области кодирования. Техническим результатом является повышение эффективности сжатия кодированных данных.

Принцип для кодирования и декодирования аудио для аудиоканалов и аудиообъектов // 2641481

Изобретение относится к кодированию аудио и, в частности, к пространственному кодированию аудиообъектов. Технический результат заключается в повышении эффективности сжатия при высоком качестве звука.