Способ и устройство для осуществления преобразования между многоканальными звуковыми форматами

Авторы патента:

ХЕРРЕ Юрген (DE)

ПУЛККИ Вилле (FI)

G10L19 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2449385:

Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен (DE)

Изобретение имеет отношение к методу преобразования между различными многоканальными звуковыми форматами с максимально возможным качеством, не ограничиваясь конкретными многоканальными представлениями. То есть данное изобретение имеет отношение к методу, позволяющему осуществлять преобразование между произвольными многоканальными форматами. Входное многоканальное представление преобразуется в другое выходное многоканальное представление пространственного звукового сигнала, а в нем формируется промежуточное представление пространственного звукового сигнала; промежуточное представление имеет параметры направления, указывающие направление происхождения области пространственного звукового сигнала; и в нем происходит генерирование выходного многоканального представления пространственного звукового сигнала с использованием промежуточного представления пространственного звукового сигнала. Технический результат - повышение качества воспроизведения пространственного звукового сигнала. 3 н. и 17 з.п. ф-лы, 5 ил.

Данное изобретение имеет отношение к методу преобразования между различными многоканальными звуковыми форматами с максимально возможным качеством, не ограничиваясь конкретными многоканальными представлениями. То есть данное изобретение имеет отношение к методу, позволяющему осуществлять преобразование между произвольными многоканальными форматами.

Обычно при многоканальном воспроизведении и прослушивании слушатель окружен многочисленными громкоговорителями. Существуют различные методы захвата звуковых сигналов для определенных установок. Общая цель в воспроизведении состоит в том, чтобы воспроизвести пространственный состав первоначально записанного звука, то есть происхождение индивидуальных звуковых источников, таких как местоположение трубы в оркестре. Использование нескольких акустических установок достаточно распространено и может создать различные пространственные впечатления. Не используя специальные методы компоновки, общеизвестные двухканальные стерео установки могут только воссоздать слуховые события на линии между этими двумя громкоговорителями. Это, главным образом, достигается так называемым «амплитудным панорамированием», где амплитуда сигнала, связанного с одним звуковым источником, распределяется между этими двумя громкоговорителями, в зависимости от положения звукового источника относительно громкоговорителей. Это обычно делается во время звукозаписи или последующего микширования. То есть источник звука, поступающий с крайне левой позиции относительно слушателя, будет, главным образом, воспроизведен левым громкоговорителем, а источник звука с позиции перед слушателем будет воспроизведен с идентичной амплитудой (уровнем) обоими громкоговорителями. Однако звук, исходящий с других направлений, не может быть воспроизведен.

Следовательно, при использовании большего количества громкоговорителей, которые распределены вокруг слушателя, большее количество направлений может быть покрыто, и может быть создано более естественное пространственное впечатление. Вероятно самая известная схема расположения многоканальных громкоговорителей - это стандарт 5.1 (ITU-R775-1), который состоит из 5 громкоговорителей, азимутальные углы которых определены равными 0°, ±30° и ±110° относительно положения слушателя. Это означает, что во время звукозаписи или микширования сигнал приспосабливается к этой определенной конфигурации громкоговорителей, и отклонения установки воспроизведения от стандарта приведут к снижению качества воспроизведения.

Многочисленные другие системы с различным числом громкоговорителей, расположенных в различных направлениях, также были предложены. Профессиональные и специальные системы, особенно в театрах и звуковых установках, также включают громкоговорители, расположенные на различных высотах.

Недавно была предложена универсальная звуковая система воспроизведения, называемая DirAC, которая может записывать и воспроизводить звук для произвольных акустических установок. Цель DirAC состоит в воспроизведении пространственного впечатления существующей акустической окружающей среды настолько точно, насколько возможно, используя многоканальную акустическую систему, имеющую произвольную геометрическую структуру. В пределах звукозаписывающего окружения отклики окружающей среды (которые могут быть непрерывно записываемым звуковым или импульсным откликом) измеряются при помощи ненаправленного микрофона (W) и набора микрофонов, позволяющих измерить направление поступления звука и диффузность звука. В следующих параграфах и в рамках использования, термин «диффузность» должен пониматься как мера для неориентированности звука. То есть звук, поступающий на позицию прослушивания или записи с равной силой со всех направлений, максимально рассеян. Обычный способ измерения диффузии состоит в использовании величин диффузности в интервале [0, …, 1], где величина 1 описывает максимально рассеянный звук, а величина 0 описывает идеально направленный звук, то есть звук, исходящий только из одного отчетливо различимого направления. Один общеизвестный метод измерения направления поступления звука предполагает использование 3 микрофонов «восьмерок» (XYZ), ориентированных по осям декартовой системы координат. Были разработаны специальные микрофоны, так называемые «микрофоны акустического поля», которые прямо приводят к получению всех желаемых откликов. Однако, как упомянуто выше, сигналы W, X, Y и Z могут также быть вычислены из набора дискретных ненаправленных микрофонов.

Другой метод сохранения звуковых форматов для произвольного числа каналов на один или два канала понижающего микширования звукозаписи с сопроводительными направленными характеристиками был недавно предложен Гудвином и Джотом. Этот формат может быть применен к произвольным воспроизводящим системам. Направленные характеристики, то есть характеристики, содержащие информацию о направлении звуковых источников, вычислены с использованием «векторов Герзона», которые состоят из вектора скорости и вектора энергии. Вектор скорости - взвешенная сумма векторов, указывающих на громкоговорители с позиции прослушивания, где каждый вес - величина спектра частоты в данное время/при данной частоте для громкоговорителя. Вектор энергии - аналогично взвешенная векторная сумма. Однако веса - это кратковременные оценки мощности сигналов громкоговорителя, то есть они описывают несколько сглаженный сигнал или интеграл мощности сигнала, содержащийся в сигнале в пределах временных интервалов конечной длины. Эти векторы имеют тот же недостаток, что и случай отсутствия зависимости от физической или перцепционной величины в обоснованном способе. Например, относительная фаза громкоговорителей касательно друг друга должным образом не принимается во внимание. Это означает, например, что если широкополосный сигнал подается в громкоговорители стереофонической установки, находящейся перед позицией прослушивания с противоположной фазой, слушатель будет воспринимать звук от окружающего направления, и звуковое поле в позиции прослушивания будет иметь звуковую энергию колебаний из стороны в сторону (например, с левой стороны на правую сторону). При таком сценарии векторы Герзона указывали бы на направление спереди, которое очевидно не представляет физическую или перцепционную ситуацию.

Естественно, имея многочисленные многоканальные форматы или представления на рынке, существует необходимость иметь возможность осуществлять преобразования между различными представлениями, так чтобы индивидуальные представления могли быть воспроизведены установками, первоначально предназначавшимися для реконструкции альтернативного многоканального представления. То есть, например, преобразование между каналами 5.1 и каналами 7.1 или 7.2 может потребовать использования существующего канала 7.1 или 7.2 установки воспроизведения для воспроизведения многоканальных представлений 5.1, обычно используемых на DVD. Большое разнообразие звуковых форматов делает производство звукового содержания трудным, поскольку все форматы требуют определенных форматов смешивания и хранения/передачи. Поэтому необходимо преобразование между различными форматами звукозаписи для воспроизведения на различных установках воспроизведения.

Предложено много методов для преобразования аудиоматериала в определенном звуковом формате в другой звуковой формат. Однако эти методы всегда приспосабливаются к определенным многоканальным форматам или представлениям. То есть они применимы только для преобразования от одного заранее определенного многоканального представления в другое определенное многоканальное представление.

Обычно, уменьшение числа каналов воспроизведения (так - называемое «понижающее микширование») осуществляется проще, чем увеличение числа каналов воспроизведения («повышающее микширование»). Для некоторых стандартных акустических установок воспроизведения имеются рекомендации, например ITU, по осуществлению понижающего микширования для установок воспроизведения с меньшим числом каналов воспроизведения. В этих так называемых «ITU» уравнениях понижающего микширования выходные сигналы извлекаются как простые статические линейные комбинации входных сигналов. Обычно, уменьшение числа каналов воспроизведения приводит к ухудшению воспринятого пространственного изображения, то есть ухудшению качества воспроизведения пространственного звукового сигнала.

Для получения возможного преимущества от использования большого числа каналов воспроизведения или воспроизводящих громкоговорителей были разработаны методы понижающего микширования для определенных типов преобразований. Часто исследуемой проблемой является проблема преобразования двухканальной стереофонический аудиозаписи для воспроизведения на пятиканальных круговых акустических системах. Один подход или исполнение такого повышающего микширования с 2 каналов к 5 должен использовать так называемый «матричный» декодер. Такие декодеры получили распространение для обеспечения понижающего микширования многоканального звука 5.1 через стерео передающие инфраструктуры, особенно на ранних стадиях развития кругового звука для кинотеатров и домашних театров. Главная идея состоит в воспроизведении звуковых компонентов, которые совпадают по фазе в стерео сигнале во фронте звукового изображения, и в помещении несовпадающих по фазе компонентов в задние громкоговорители. Альтернативный метод повышающего микширования с 2 каналов к 5 предлагает извлекать окружающие компоненты стерео сигнала и воспроизводить эти компоненты через задние громкоговорители установок 5.1. Подход, преследующий те же самые основные идеи на перцепционно более обоснованной основе и использующий математически более изящное исполнение, был недавно предложен К.Фоллером в работе «Параметрическое многоканальное звуковое кодирование: синтез реплик когерентности», IEEE Об обработке речевых и звуковых сигналов., издание 14, номер 1, январь 2006 г.

Недавно опубликованный стандарт MPEG осуществляет повышающее микширование от одного или двух переданных каналов понижающего микширования на конечные каналы, используемые в воспроизведении или проигрывании, которое обычно является смешиванием 5.1. Это осуществляется либо при использовании пространственной дополнительной информации (дополнительная информация аналогична ВСС технике), либо без дополнительной информации при использовании фазовых соотношений между двумя каналами стерео понижающего микширования («неуправляемый способ» или «расширенный матричный способ»).

Все методы для преобразования формата, описанного в предыдущих параграфах, предназначены для применения к определенным конфигурациям как исходного, так и целевого формата воспроизведения звукозаписи, и таким образом они не универсальны. То есть преобразование между произвольными" входными многоканальными представлениями и произвольными выходными многоканальными представлениями не может быть выполнено. То есть прототип методов преобразования специально приспособлен к числу громкоговорителей и их точному положению для входного многоканального звукового представления, а также для выходного многоканального представления.

Международная патентная заявка 2004/077884 предлагает использовать DirAC-кодирование для записи импульсных характеристик звуковых сигналов в пределах окружающей среды прослушивания. Используя такие записанные импульсные характеристики, звуковые сигналы могут быть воспроизведены с пространственным восприятием окружающей среды прослушивания.

AES-соглашение 6658 предназначено для звукового кодирования DirAC и предлагает метод создания эффективного закодированного представления сигналов, записанных микрофонами b-формата.

Международная патентная заявка 01/82651 имеет отношение к методу многоканальной объемной записи оригинала и методу воспроизведения. Специальная пространственная техника кодирования предложена для обеспечения передачи компактного закодированного представления. Закодированное представление затем может быть расшифровано специально разработанным декодером на приемном конце.

Естественно, желательно иметь концепцию многоканального преобразования, которое применимо к произвольным комбинациям входного и выходного многоканального представления.

Согласно одному осуществлению данного изобретения прибор для преобразования входного многоканального представления в выходное многоканальное представление, отличное от входного, пространственного звукового сигнала включает: анализатор для получения промежуточного представления пространственного звукового сигнала; промежуточное представление, имеющее параметры направления, указывающие направление происхождения области пространственного звукового сигнала; и синтезатор сигнала для производства выходного многоканального представления пространственного звукового сигнала при использовании промежуточного представления пространственного звукового сигнала.

При этом используется промежуточное представление, которое имеет параметры направления, указывающие направление происхождения области пространственного звукового сигнала; преобразование может быть достигнуто между произвольными многоканальными представлениями, если известна акустическая конфигурация выходного многоканального представления. Важно отметить, что акустическая конфигурация выходного многоканального представления не обязательно должна быть известна заранее, то есть во время проектирования устройства для преобразования. Поскольку устройство для преобразования и способ универсальны, многоканальное представление, предусмотренное как входное многоканальное представление и разработанное для определенной акустической установки, может быть изменено на приемной стороне, чтобы соответствовать имеющейся в наличии установке воспроизведения, так чтобы качество воспроизведения пространственного звукового сигнала возрастало.

Согласно дальнейшему осуществлению данного изобретения, направление происхождения области пространственного звукового сигнала проанализировано в пределах различных диапазонов частот. Так, различные параметры направления получены для конечной ширины частотных областей пространственного звукового сигнала. Чтобы получить конечную ширину частотной области, может быть использован, например, блок фильтров или преобразование Фурье. Согласно другому осуществлению, частотные области или диапазоны частот, для которых анализ выполнен индивидуально, выбраны так, чтобы соответствовать частотному разрешению порога слышимости человека. Эти осуществления могут иметь то преимущество, что направление происхождения частей пространственного звукового сигнала выполнено так же хорошо, как слуховая система человека, и может определить направление происхождения звуковых сигналов. Поэтому анализ выполняется без потенциальных потерь точности при определении происхождения звукового объекта или части сигнала, когда такой проанализированный сигнал восстановлен и воспроизведен через произвольную акустическую установку.

Согласно следующему осуществлению данного изобретения, один или несколько каналов понижающего микширования получены дополнительно и принадлежат промежуточному представлению. То есть каналы понижающего микширования получены из звуковых каналов, соответствующих громкоговорителям, связанным со входным многоканальным представлением, которое потом может использоваться для формирования выходного многоканального представления или для формирования звуковых каналов, соответствующих громкоговорителям, связанным с выходным многоканальным представлением.

Например, монофонический канал понижающего микширования может быть произведен из входных каналов 5.1 обычных 5.1 каналов аудиосигнала. Это могло, например, быть выполнено путем подсчета суммы всех индивидуальных звуковых каналов. Основанный на таком полученном монофоническом канале понижающего микширования синтезатор сигнала может распределять такие части монофонического канала понижающего микширования, соответствующие проанализированным частям входного многоканального представления каналам выходного многоканального представления, как обозначено параметрами направления. То есть, проанализированная область частоты/времени или часть сигнала, которая должна поступить из крайнего левого пространственного звукового сигнала, будет перераспределена на громкоговорители выходного многоканального представления, которые расположены на левой стороне относительно позиции прослушивания.

Обычно некоторые осуществления данного изобретения позволяют распределять части пространственного звукового сигнала с большей интенсивностью на канал, соответствующий громкоговорителю, расположенному ближе к направлению, обозначенному параметрами направления, а не на канал, расположенный дальше от этого направления. То есть, независимо от того, как местоположение громкоговорителей, используемых для воспроизведения, определено в выходном многоканальном представлении, пространственное перераспределение будет достигнуто насколько возможно качественно, применимо к имеющейся установке воспроизведения.

Согласно некоторым осуществлениям данного изобретения, пространственное разрешение, при котором может быть определено направление происхождения области пространственного звукового сигнала, намного выше, чем угол трехмерного пространства, связанного с одним единственным громкоговорителем входного многоканального представления. То есть направление происхождения области пространственного звукового сигнала может быть получено с большей точностью, чем пространственное разрешение, которое можно получить простым перераспределением звуковых каналов от одной индивидуальной установки на другую установку, как например, перераспределением каналов установки 5.1 на установки 7.1 или 7.2.

Подводя итог, можно сказать, что некоторые осуществления изобретения позволяют применять расширенный метод для преобразования формата, который универсально применим и не зависит от конкретного желаемого целевого расположения/конфигурации громкоговорителя. Некоторые осуществления преобразовывают входной многоканальный звуковой формат (представление) с каналами N1 в выходной многоканальный формат (представление), имеющее каналы N2, посредством извлечения параметров направления (аналогичный DirAC), которые затем используются для синтезирования выходного сигнала, имеющего каналы N2. Кроме того, согласно некоторым осуществлениям, многие N0 каналы понижающего микширования вычисляются из входных сигналов N1 (звуковые каналы, соответствующие громкоговорителям согласно входному многоканальному представлению), которые затем используются как основание для процесса декодирования, использующего извлеченные параметры направления.

Несколько осуществлений данного изобретения будут в дальнейшем описаны со ссылкой на приложенные чертежи.

Фиг.1 иллюстрирует происхождения параметров направления, указывающих направление происхождения области звукового сигнала; и

Фиг.2 показывает дальнейшее осуществление происхождения параметров направления, основанное на представлении канала 5.1;

Фиг.3 показывает пример формирования выходного многоканального представления;

Фиг.4 показывает пример звукового преобразования установки с каналом 5.1 на установку с каналом 8.1; и

Фиг.5 показывает пример изобретенного прибора для осуществления преобразования между многоканальными звуковыми форматами.

Некоторые осуществления данного изобретения производят промежуточное представление пространственного звукового сигнала, имеющего параметры направления, указывающие направление происхождения области пространственного звукового сигнала. Одна возможность состоит в получении вектора скорости, указывающего направление происхождения области пространственного звукового сигнала. Пример этого будет описан в следующих параграфах со ссылкой на фиг.1.

Прежде чем детализировать понятие, следует отметить, что следующий анализ может быть применен к множественной индивидуальной области частоты или времени базового пространственного звукового сигнала одновременно. Для простоты, однако, анализ будет описан только для одной определенной частоты или времени или области времени/частоты. Анализ основан на энергетическом анализе звукового поля, записанного в позиции записи 2, расположенной в центре системы координат, как показано на фиг.1.

Система координат - декартова система координат, имеющая Х ось 4 и Y ось 6, перпендикулярные друг другу. Используя правостороннюю систему, Z ось, не показанная в фиг.1, указывает на направление из площади чертежа.

Для анализа направления принято, что записаны 4 сигнала (известны как сигналы В-формата). Записан один ненаправленный сигнал w, то есть сигнал, получающий сигналы со всех направлений с (в идеале) равной чувствительностью. Кроме того, записаны трехмерные сигналы X, Y и Z, имеющие распределение чувствительности, указывающее направление осей декартовой системы координат. Примеры возможных образцов чувствительности используемых микрофонов даны на фиг.1, показывающей два образца «в виде восьмерки» 8а и 8b, указывающих на направления осей. Два возможных звуковых источника 10 и 12, кроме того, проиллюстрированы в двухмерном проектировании системы координат, показанном на фиг.1.

Для анализа направления мгновенный вектор скорости (при индексе времени n) составлен для различных частотных областей (описанный индексом i) при помощи:

То есть создается вектор, имеющий индивидуально записанные сигналы микрофонов, связанных с осью системы координат в качестве компонентов. В предыдущем и последующих уравнениях величины индексированы во времени (n), а также в частоте (i) двумя индексами (n, i). То есть

e_х, e_у и e_z представляют декартовы единичные векторы.

Используя одновременно записанный ненаправленный сигнал w, мгновенная интенсивность I вычисляется как

мгновенная энергия получается согласно следующей формуле:

где обозначает векторную норму.

То есть величина интенсивности получена с поправкой на возможную интерференцию между двумя сигналами (поскольку могут возникнуть положительные и отрицательные амплитуды). Дополнительно, получена величина энергии, которая, естественно, не учитывает интерференцию между двумя сигналами, поскольку величина энергии не содержит отрицательные величины, учитывающие отмену сигнала.

Эти свойства интенсивности и энергии сигналов могут преимущественно использоваться для получения направления происхождения частей сигнала с высокой точностью, сохраняя фактическую корреляцию звуковых каналов (относительная фаза между каналами), как это будет подробнее описано ниже.

С одной стороны, мгновенный вектор интенсивности может использоваться как вектор, указывающий направление происхождения области пространственного звукового сигнала. Однако, этот вектор может подвергнуться быстрым изменениям, вызывающим появление артефактов при воспроизведении сигнала. Поэтому, альтернативно, мгновенное направление может быть вычислено, используя кратковременное усреднение, применяя окно Хенинга W₂ согласно следующей формуле:

где W₂ - окно Хенинга для кратковременного усреднения D.

То есть, по выбору, может быть получен кратковременный средний вектор направления, имеющий параметры, указывающие направление происхождения пространственного звукового сигнала.

По выбору, показатель диффузности Ψ может быть вычислен следующим образом:

где W₁(m) - функция окна, определенная между -М/2 и М/2 для кратковременного усреднения.

Следует снова отметить, что дифференцирование выполнено таким образом, чтобы сохранить фактическую корреляцию звуковых каналов. То есть, фазовая информация должным образом принимается во внимание, что не имеет места в случае оценок направления, основанных только на оценках энергии (как, например, векторы Герзона).

Следующий простой пример поможет объяснить это более подробно. Рассмотрим идеально рассеянный сигнал, который воспроизводится двумя громкоговорителями стерео системы. При рассеивании сигнала (происходящего со всех направлений) он должен воспроизводиться обоими громкоговорителями с равной интенсивностью. Однако, поскольку восприятие будет рассеяно, потребуется сдвиг фазы на 180 градусов. При таком сценарии оценка направления, основывающаяся исключительно на энергия, приведет к появлению вектора направления, указывающего точно на середину между двумя громкоговорителями, что, конечно, является нежелательным результатом, не отражающим действительность.

Согласно идее изобретения, подробно описанной выше, фактическая корреляция звуковых каналов сохраняется при оценке параметров направления (векторы направления). В этом конкретном примере вектор направления будет нулем, что указывает на то, что звук не исходит из одного определенного направления, что в действительности не так. Соответственно, параметр диффузности уравнения (5) - 1, что идеально соответствует реальной ситуации.

Окна Хенинга в вышеупомянутых уравнениях могут, кроме того, иметь различные длины для различных диапазонов частот.

В результате этого анализа для каждого интервала времени частотной области, получаются вектор направления или параметры направления, указывающие направление происхождения области пространственного звукового сигнала, для которого был выполнен анализ. По выбору, может быть получен параметр диффузности, показывающий диффузность направления области пространственного звукового сигнала. Как было описано ранее, величина диффузии параметра, полученного согласно уравнению (4), описывает сигнал максимальной диффузности, то есть исходящий из всех направлений с равной интенсивностью.

И наоборот, небольшие величины диффузности отнесены к областям сигнала, исходящего преимущественно из одного направления.

Фиг.2 показывает пример получения параметров направления от входного многоканального представления, имеющего пять каналов согласно ITU-775-1. Многоканальный входной аудио сигнал, то есть входное многоканальное представление, сначала преобразуется в В-формат, путем моделирования нереверберирующей записи соответствующей многоканальной звуковой установки. Относительно центра 20 декартовой системы координат, имеющей, x ось 22 и у ось 24, задне-правый громкоговоритель 26 расположен под углом 110°. Передне-правый громкоговоритель 28 расположен под углом +30°, центральный громкоговоритель под углом 0°, передне-левый громкоговоритель 32 под углом -31° и задне-левый громкоговоритель 34 под углом -110°. На практике, нереверберирующая запись может быть смоделирована путем применения простых операций матрицирования; геометрическая структура входного многоканального представления известна.

Ненаправленный сигнал w может быть получен, если будет взята прямая сумма всех сигналов громкоговорителя, то есть всех звуковых каналов, соответствующих громкоговорителям, связанным с входным многоканальным представлением. Дипольные сигналы или сигналы «в виде восьмерки» X, Y и Z могут быть сформированы при добавлении сигналов громкоговорителя, взвешенных косинусом угла между громкоговорителем и соответствующими декартовыми осями, то есть направление максимальной чувствительности дипольного микрофона, которое должно быть смоделировано. Пусть Ln будет 2-D или 3-D декартовым вектором, указывающим на n-й громкоговоритель, и V будет единичным вектором, указывающим на направление декартовой оси, соответствующее дипольному микрофону. Тогда, весовой коэффициент - косинус (угла (Ln, V)). Направленный сигнал Х был бы, например, записан как

когда С_n обозначает сигнал громкоговорителя n-го канала, а N - число каналов. Термин угол должен интерпретироваться как оператор при вычислении пространственного угла между двумя данными векторами. То есть, например, угол 40 (Θ) между Y осью 24 и передне-левым громкоговорителем 32 в двухмерном случае, проиллюстрированном на фиг.2.

Дальнейшее получение параметров направления могло, например, быть выполнено, как иллюстрировано на фиг.1 и детализировано в соответствующем описании, то есть аудио сигналы X, Y, и Z могут быть разделены на диапазоны частот согласно частотному разрешению слуховой системы человека. Направление звука, то есть направление происхождения областей пространственного звукового сигнала, и, по выбору, диффузность анализируются в зависимости от времени в каждом частотном канале. По выбору, замена звуковой диффузности при помощи другого, отличного от диффузности, показателя несходства сигнала также может использоваться, например, когерентность между (стерео) каналами, связанными с пространственным звуковым сигналом.

Если, в качестве упрощенного примера, присутствует один источник звука 44, как обозначено на фиг.2, где этот источник только содействует сигналу в пределах определенного частотного диапазона, будет получен вектор направления 46, указывающий на источник звука 44. Вектор направления представлен параметрами направления (векторные компоненты), указывающими направление области пространственного звукового сигнала, происходящего от источника звука 44. В установке воспроизведения на фиг.2 такой сигнал будет воспроизведен главным образом передне-левым громкоговорителем 32, как иллюстрировано символической формой волны, связанной с этим громкоговорителем. Однако незначительные области сигнала также будут воспроизведены с задне-левого громкоговорителя 32. Следовательно, направленный сигнал микрофона, связанный с Х координатой 22, получит компоненты сигнала от передне-левого канала 32 (звуковой канал, связанный с передне-левым громкоговорителем 32) и задне-левого канала 34.

Так как, согласно вышеупомянутому осуществлению, направленный сигнал Y, связанный с осью Y, получит также области сигнала, воспроизведенные передне-левым громкоговорителем 32, направленный анализ, основанный на направленных сигналах Х и Y, сможет восстановить звук, поступающий из вектора направления 46 с высокой точностью.

Для заключительного преобразования в желаемое многоканальное представление (многоканальный формат) используются параметры направления, указывающие направление происхождения областей звуковых сигналов. По выбору, могут использоваться один или несколько (N0) дополнительных аудио каналов понижающего микширования. Такой канал понижающего микширования может, например, быть ненаправленным каналом W или любым другим монофоническим каналом. Однако, для пространственного распределения, использование только одного единственного канала, связанного с промежуточным представлением, имеет незначительное негативное воздействие. То есть несколько каналов понижающего микширования, таких как стерео смешанные каналы W, Х и Y, или все каналы В-формата могут использоваться до тех пор, пока параметры направления или направленные данные будут получены и могут использоваться для реконструкции или генерирования выходного многоканального представления. Альтернативно также возможно использовать 5 каналов фиг.2 непосредственно или любую комбинацию каналов, связанных с входным многоканальным представлением в качестве замены для возможных каналов понижающего микширования. Когда сохраняется только один канал, может произойти ухудшение качества при воспроизведении рассеянного звука.

Фиг.3 показывает пример воспроизведения сигнала источника звука 44 при помощи установки громкоговорителя, значительно отличающейся от установки громкоговорителя фиг.2, которая была входным многоканальным представлением, из которого были получены параметры. Фиг.3 показывает, в качестве примера, шесть громкоговорителей 50а-50f, одинаково распределенных вдоль линии перед позицией прослушивания 60, определяя центр системы координат, имеющей Х ось 22 и Y ось 24, как показано на фиг.2. Поскольку предыдущий анализ предоставил параметры направления, описывающие направление вектора направления 46, указывающего на источник звукового сигнала 44, выходное многоканальное представление, приспособленное к установке громкоговорителя фиг.3, может легко быть получено путем перераспределения области пространственного звукового сигнала, который будет воспроизведен, на громкоговорители, находящиеся близко к направлению источника звука 44, то есть теми громкоговорителями, которые расположены близко к направлению, обозначенному параметрами направления. То есть звуковым каналам, соответствующим громкоговорителям в направлении, обозначенном параметрами направления, придано особое значение относительно звуковых каналов, соответствующих громкоговорителям, расположенным далеко от этого направления. То есть громкоговорители 50а и 50b могут регулироваться (например, с использованием панорамирования амплитуды) для воспроизведения области сигнала, несмотря на то, что громкоговорители 50с-50f не воспроизводят эту конкретную область сигнала, в то время как они могут использоваться для воспроизведения рассеянного звука или других областей сигнала различных частотных диапазонов.

Использование синтезатора сигналов для генерирования выходного многоканального представления пространственного звукового сигнала при использовании параметров направления может также интерпретироваться как являющийся расшифровкой промежуточного сигнала в желаемый многоканальный выходной формат, имеющий N2 выходные каналы. Звуковые каналы понижающего микширования или генерированные сигналы типично обрабатываются в том же самом частотном диапазоне, в котором они были проанализированы. Декодирование может быть выполнено в манере, аналогичной DirAC. В дополнительном воспроизведении рассеянного звука использование звука для представления нерассеянного потока типично является или одним из дополнительных N0 сигналов каналов понижающего микширования или их линейными комбинациями.

Для дополнительного создания рассеянного потока существует несколько вариантов синтеза, чтобы создать рассеянную часть выходных сигналов или выходных каналов, соответствующих громкоговорителям согласно выходному многоканальному представлению. Если есть только один переданный канал понижающего микширования, этот канал должен использоваться для создания нерассеянных сигналов для каждого громкоговорителя. Если имеется большее количество переданных каналов, есть больше вариантов создания рассеянного звука. Если, например, используется стерео понижающего микширования в процессе конверсии, наиболее приемлемый метод - применить левый канал понижающего микширования к громкоговорителям слева и правый канал понижающего микширования к громкоговорителям на правильной стороне. Если несколько каналов понижающего микширования используются для преобразования (то есть N0>1), рассеянный поток для каждого громкоговорителя может быть вычислен как дифференцированно взвешенная сумма этих каналов понижающего микширования. Одна возможность, например, передача сигнала В-формата (каналы X, Y, Z и w, как ранее описано) и вычисление сигнала фактического сигнала кардиоидного микрофона для каждого громкоговорителя.

Следующий текст описывает возможную процедуру для преобразования входного многоканального представления в выходное многоканальное представление в виде перечня. В этом примере звук записывается при помощи смоделированного В-форматного микрофона и затем подвергается дальнейшей обработке звуковым синтезатором для прослушивания или воспроизведения при помощи многоканальной или монофонической акустической установки. Отдельные шаги объяснены со ссылкой на фиг.4, показывающий преобразование входного многоканального представления с каналами 5.1 в выходное многоканальное представление с 8 каналами. Основание - звуковой формат N1-канала (N1=5 в конкретном примере). Чтобы преобразовать входное многоканальное представление в другое выходное многоканальное представление, выполняются следующие шаги.

1. Моделируется не реверберирующая запись произвольного многоканального звукового представления, имеющего аудио каналы N1 (5 каналов), как иллюстрировано в сегменте записи 70 (при помощи смоделированного В-форматного микрофона в центре 72 схемы).

2. На стадии анализа 74 смоделированные сигналы микрофона разделяются на частотные диапазоны, а на стадии направленного анализа 76 получается направление происхождения областей смоделированных сигналов микрофона. Кроме того, по выбору, диффузность (или когерентность) может быть определена на стадии прекращения диффузности 78.

Как было ранее упомянуто, направленный анализ может быть выполнен без использования промежуточной стадии В-формата. То есть, обычно, промежуточное представление пространственного звукового сигнала должно быть получено, основываясь на входном многоканальном представлении, где промежуточное представление имеет параметры направления, указывающие направление происхождения области пространственного звукового сигнала.

3. На стадии понижающего микширования 80, N0 звуковые сигналы понижающего микширования получаются, чтобы использоваться в качестве основания для преобразования/создания выходного многоканального представления. На стадии соединения 82, N0 звуковые сигналы понижающего микширования декодируются или подвергаются повышающему микшированию для произвольной акустической установки, требующей N2 звуковых каналов, при помощи соответствующего метода синтеза (например, используя панорамирование амплитуды или аналогичные методы).

Результат может быть воспроизведен многоканальной акустической системой, имеющей, например, 8 громкоговорителей, как показано в сценарии воспроизведения 84 на фиг.4. Однако, благодаря универсальности концепции, преобразование может также быть выполнено для монофонической акустической установки, обеспечивая эффект, как если бы пространственный звуковой сигнал был записан при помощи направленного микрофона.

Фиг.5 показывает принципиальную схему устройства для осуществления преобразования между многоканальными звуковыми форматами 100.

Устройство 100 предназначено для получения входного многоканального представления 102.

Устройство 100 включает анализатор 104 для получения промежуточного представления 106 пространственного звукового сигнала, промежуточное представление 106 имеет параметры направления, указывающие направление происхождения области пространственного звукового сигнала.

Прибор 100, кроме того, включает синтезатор сигналов 108 для генерирования выходного многоканального представления 110 пространственного звукового сигнала с использованием промежуточного представления (106) пространственного звукового сигнала.

Подводя итог, можно сказать, что ранее описанные осуществления устройства и способа преобразования обеспечивают значительные преимущества. Прежде всего, фактически любой входной звуковой формат может быть обработан таким образом. Кроме того, процесс преобразования может генерировать выход для любой схемы расположения громкоговорителей, включая нестандартное расположение/конфигурацию громкоговорителей, без необходимости конкретно устанавливать новые связи для новых комбинаций входного расположения/конфигурации громкоговорителей и выходного расположения/конфигурации громкоговорителей. Кроме того, пространственное разрешение звукового воспроизведения увеличивается, когда увеличивается число громкоговорителей, вопреки предшествующим аналогам.

В зависимости от определенных требований исполнения изобретенный способ может быть осуществлен в приборных средствах или в программном обеспечении. Исполнение может быть осуществлено с использованием цифровых носителей данных, в особенности дисков, DVD- или CD-дисков, сохраняющих электронно-считываемые управляющие сигналы, которые взаимодействуют с программируемой компьютерной системой таким образом, что позволяет осуществлять изобретенные методы. В целом, данное изобретение - это компьютерный программный продукт с управляющей программой, хранящийся на машиночитаемом носителе; управляющая программа необходима для выполнения изобретенных методов, когда компьютерный программный продукт запущен на компьютере. Другими словами, изобретенные методы - это компьютерная программа, имеющая управляющую программу для выполнения, по крайней мере, одного из изобретенных методов, когда компьютерная программа запущена на компьютере.

В то время как все вышесказанное было показано и описано в отношении этих конкретных осуществлений, квалифицированные специалисты, сведущие в этой области, должны понимать, что различные другие изменения формы и деталей могут быть произведены без изменения духа и сферы действия. Следует понимать, что различные изменения могут быть произведены для приспосабливания к различным осуществлениям, не отступая от более широких представлений, раскрытых здесь и содержащихся в требованиях, которые приведены ниже.

1. Устройство для преобразования входного многоканального представления (102) в выходное многоканальное представление (110) пространственного звукового сигнала, отличное от входного, включающее входной интерфейс для получения входного многоканального представления (102), анализатор (104) для получения промежуточного представления (106) пространственного звукового сигнала, имеющего параметры направления (40), указывающие направления происхождения области пространственного звукового сигнала; анализатор (104) выполнен с возможностью получения звукового канала понижающего микширования, основанного на объединении звуковых каналов, соответствующих громкоговорителям (26-34), связанным с входным многоканальным представлением (102), и синтезатор сигналов (108) для генерирования выходного многоканального представления (110) пространственного звукового сигнала с использованием канала понижающего микширования в соответствии с параметрами направления промежуточного представления (106) пространственного звукового сигнала.

2. Устройство по п.1, в котором анализатор (104) выполнен с возможностью получения параметров направления (40), зависящих от фактической корреляции звуковых каналов, связанных с входным многоканальным представлением.

3. Устройство по п.1, в котором анализатор (104) выполнен с возможностью получения параметров направления (40), сохраняющих относительную фазовую информацию звуковых каналов, связанных с входным многоканальным представлением (102).

4. Устройство по п.1, в котором анализатор (104) выполнен с возможностью получения других параметров направления (40) для конечной ширины частотных областей пространственного звукового сигнала.

5. Устройство по п.11, в котором анализатор (104) выполнен с возможностью получения других параметров направления (40) для конечной длины временных интервалов пространственного звукового сигнала.

6. Устройство по п.4, в котором анализатор (104) выполнен с возможностью получения других параметров направления (40) для конечной длины временных областей пространственного звукового сигнала, связанного с частотными областями, где длина первой временной области, связанная с первой частотной областью, отличается от длины второй временной области, связанной со второй другой частотной областью пространственного звукового сигнала.

7. Устройство по п.1, в котором анализатор (104) выполнен с возможностью получения параметров направления (40), описывающих вектор, указывающий направление происхождения области пространственного звукового сигнала.

8. Устройство по п.1, в котором анализатор (104) выполнен с возможностью получения одного смешенного вниз канала в виде суммы звуковых каналов, соответствующих громкоговорителям, связанным с входным многоканальным представлением.

9. Устройство по п.1, в котором анализатор (104) выполнен с возможностью получения, по крайней мере, одного звукового канала, связанного с направлением оси декартовой системы координат.

10. Устройство по п.9, в котором анализатор (104) выполнен с возможностью получения, по крайней мере, одного звукового канала, компонующего взвешенную сумму звуковых каналов, соответствующих громкоговорителям, связанным с входным многоканальным представлением.

11. Устройство по п.9, в котором анализатор (104) выполнен таким образом, что получение, по крайней мере, одного звукового канала X, связанного с направлением V оси декартовой системы координат, может быть описано комбинацией n звуковых каналов Сn, соответствующих n громкоговорителям, связанным с входным многоканальным представлением, и ориентированного в направлении L_n, согласно следующей формуле:

12. Устройство по п.1, в котором анализатор (104) выполнен с возможностью получения (78) параметра диффузности, обозначающего диффузность происхождения области пространственного звукового сигнала.

13. Устройство по п.1, в котором синтезатор сигналов (108) выполнен с возможностью распределения области пространственного звукового сигнала на несколько каналов, соответствующих нескольким громкоговорителям, связанным с выходным многоканальным представлением.

14. Устройство по п.13, в котором синтезатор сигналов (108) выполнен таким образом, что область пространственного звукового сигнала распределяется с большей интенсивностью на канал, соответствующий громкоговорителю, расположенному ближе к направлению, обозначенному параметрами направления, чем на канал, соответствующий громкоговорителю, расположенному дальше от этого направления.

15. Устройство по п.12, в котором синтезатор сигналов (108) выполнен таким образом, что область пространственного звукового сигнала распределяется с более однородной интенсивностью на каналы, соответствующие громкоговорителям, связанным с выходным многоканальным представлением, когда параметр диффузности обозначает более высокую степень диффузности, чем когда параметр диффузности обозначает более низкую степень диффузности.

16. Устройство по п.1, характеризующееся тем, что дополнительно содержит декодер входного представления для получения числа звуковых каналов, соответствующих всем громкоговорителям, связанным с входным многоканальным представлениям.

17. Устройство по п.15, в котором синтезатор сигналов (108) дополнительно включает выходной канал кодирующего устройства для получения выходного многоканального представления, основанного на звуковых каналах, соответствующих громкоговорителям, связанным с представлением выходного канала.

18. Устройство по п.1, характеризующееся тем, что дополнительно включает выходной интерфейс для обеспечения выходного многоканального представления.

19. Способ преобразования входного многоканального представления в выходное многоканальное представление пространственного звукового сигнала, отличное от входного; характеризующийся тем, что дополнительно включает получение входного многоканального представления, получение промежуточного представления (74; 76) пространственного звукового сигнала; при этом промежуточное представление имеет параметры направления, указывающие направление происхождения области пространственного звукового сигнала; где звуковой канал понижающего микширования получен, базируясь на объединении звуковых каналов, соответствующих громкоговорителям (26-34), связанным с входным многоканальным представлением, и генерирование (82) выходного многоканального представления пространственного звукового сигнала с использованием канала понижающего микширования в соответствии с параметрами направления промежуточного представления пространственного звукового сигнала.

20. Машиночитаемый носитель с сохраненной на нем компьютерной программой, которая будучи запущенной на компьютере, реализует способ преобразования многоканального представления в выходное многоканальное представление пространственного звукового сигнала, отличное от входного; при этом способ включает получение входного многоканального представления; получение промежуточного представления пространственного звукового сигнала; промежуточное представление имеет параметры направления, указывающие направление происхождения области пространственного звукового сигнала; в котором звуковой канал понижающего микширования получен на основании объединения звуковых каналов, соответствующих громкоговорителям (26-34), связанным с входным многоканальным представлением; и генерирование выходного многоканального представления пространственного звукового сигнала с использованием канала понижающего микширования в соответствии с параметрами направления промежуточного представления пространственного звукового сигнала.

Способ улучшения восприятия синтезированной речи при реализации процедуры анализа через синтез в вокодерах с линейным предсказанием // 2445719

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов.

Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале // 2445718

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при низкоскоростном кодировании речевого сигнала.

Кодер, декодер и методы кодирования и декодирования сегментов данных, представляющих собой поток данных временной области // 2444071

Изобретение относится к кодированию данных для случаев, когда различные характеристики данных, подлежащих кодированию, используются для кодирования скоростей, как, например, в видео- и звуковом кодировании.

Способ и устройство для генерации бинаурального аудиосигнала // 2443075

Изобретение относится к способу и устройству для генерирования бинаурального звукового сигнала и, в частности, к генерированию бинаурального звукового сигнала из моносигнала понижающего микширования.

Эффективная реализация наборов фильтров анализа и синтеза для кодеров/декодеров mpeg aac и mpeg aac eld // 2442232

Изобретение относится к кодерам и декодерам, в частности, к реализации набора фильтров для перспективного аудиокодирования (ААС) и усовершенствованного с низкой задержкой (ELD) ААС.

Эффективная реализация наборов фильтров анализа и синтеза для кодеров/декодеров mpeg aac и mpeg aac eld // 2442232

Системы, способы и устройство для широкополосного кодирования и декодирования активных кадров // 2441288

Изобретение относится к обработке речевых сигналов. .

Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов // 2441286

Системы и способы затенения первого пакета, соответствующего первой битовой скорости, во втором пакете, соответствующем второй битовой скорости // 2440628

Изобретение относится к технологии обработки речи, в частности к затенению первого пакета. .

Способ и устройство для аудиодекодирования // 2449386

Изобретение относится к области голосовой связи, в частности к способам и устройствам для аудиодекодирования

Способ и устройство для обработки сигнала // 2449387

Изобретение относится к кодированию и декодированию сигнала посредством схемы согласно характеристике сигнала как аудиосигнала или речевого сигнала

Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов // 2449388

Изобретение относится к способу и устройству кодирования аудио и способу и устройству декодирования аудиосигналов

Устройство и способ для кодирования многоканального звукового сигнала // 2450369

Изобретение относится к кодированию многоканального звукового сигнала, в частности к сведению фонограмм стереофонического речевого сигнала к монофоническому сигналу для кодирования с помощью монофонического кодера, такого как кодер линейного предсказания

Способ и устройство для обработки аудиосигнала // 2450440

Изобретение относится к способу и устройству для обработки аудиосигнала, в частности аудиосигнала, принятого в виде цифрового носителя, широковещательного сигнала или т.п

Эффективный способ проектирования набора фильтров для mdct/imdct в приложениях для кодирования речи и аудиосигналов // 2451998

Изобретение относится к кодирующим устройствам и декодерам

Способ и устройство для обработки аудиосигнала // 2452042

Изобретение относится к устройству обработки аудиосигналов для эффективного кодирования и декодирования аудиосигналов разных видов и способу для этого

Аудиокодирование с использованием понижающего микширования // 2452043

Изобретение относится к вычислительной технике

Улучшенная компенсация температуры многопараметрического датчика давления // 2453931

Изобретение относится к области регулирования промышленных процессов и может быть использовано при контроле различного рода оборудования

Способ и устройство многоступенчатого квантования // 2453932

Изобретение относится к области методов сжатия данных, в частности к способу и устройству для многоступенчатого квантования