Многоканальный декоррелятор, многоканальный аудиодекодер, многоканальный аудиокодер, способы и компьютерная программа с использованием предварительного микширования входных сигналов декоррелятора

Авторы патента:

РИДДЕРБУШ Фалько (DE)

ХЕРРЕ Юрген (DE)

ХЕЛЛЬМУТ Оливер (DE)

ДИШ Саша (DE)

ПАУЛУС Йоуни (DE)

МУРТАЗА Адриан (RO)

ТЕРЕНТИВ Леон (DE)

ФУКС Харальд (DE)

H04S3/02 - матричного типа, т.е. в которых входные сигналы совмещены алгебраически, например после фазового сдвига сигналов относительно друг друга

H04S3/00 - Системы с более, чем двумя каналами, например квадрафонические (H04S 5/00,H04S 7/00 имеют преимущество)

G10L19/008 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2666640:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к средствам для аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен. Предварительно микшируют первый набор из N входных сигналов декоррелятора во второй набор из K входных сигналов декоррелятора, где K<N. Предоставляют первый набор из K' выходных сигналов декоррелятора на основе второго набора из K входных сигналов декоррелятора. Микшируют с повышением первый набор из K' выходных сигналов декоррелятора во второй набор из N' выходных сигналов декоррелятора, где N'>K'. Первый набор из N входных сигналов декоррелятора предварительно микшируется во второй набор из K входных сигналов декоррелятора с использованием матрицы M_pre предварительного микширования. Первый набор из K' выходных сигналов декоррелятора получается на основе второго набора из K входных сигналов декоррелятора. Первый набор из K' выходных сигналов декоррелятора микшируется с повышением во второй набор W из N' выходных сигналов декоррелятора с использованием матрицы M_post постмикширования. 32 н. и 22 з.п. ф-лы, 50 ил.

Область техники, к которой относится изобретение

Варианты осуществления согласно изобретению относятся к многоканальному декоррелятору для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора.

Дополнительные варианты осуществления согласно изобретению относятся к многоканальному аудиодекодеру для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления.

Дополнительные варианты осуществления согласно изобретению относятся к многоканальному аудиокодеру для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов.

Дополнительные варианты осуществления согласно изобретению относятся к способу для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора.

Некоторые варианты осуществления согласно изобретению относятся к способу для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления.

Некоторые варианты осуществления согласно изобретению относятся к способу для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов.

Некоторые варианты осуществления согласно изобретению относятся к компьютерной программе для осуществления одного из упомянутых способов.

Некоторые варианты осуществления согласно изобретению относятся к кодированному аудиопредставлению.

Вообще говоря, некоторые варианты осуществления согласно изобретению относятся к принципу декорреляции для систем многоканального параметрического кодирования аудиообъектов с понижающим микшированием/повышающим микшированием.

Уровень техники

В последние годы, спрос на хранение и передачу аудиоконтента постоянно растет. Кроме того, также постоянно растут требования к качеству для хранения и передачи аудиоконтента. Соответственно, совершенствуются принципы для кодирования и декодирования аудиоконтента.

Например, разработано так называемое "усовершенствованное кодирование аудио" (AAC), которое описывается, например, в международном стандарте ISO/IEC 13818-7:2003. Кроме того, созданы некоторые пространственные расширения, такие как, например, так называемый принцип "на основе стандарта объемного звучания MPEG", который описывается, например, в международном стандарте ISO/IEC 23003-1:2007. Кроме того, дополнительные улучшения для кодирования и декодирования пространственной информации аудиосигналов описываются в международном стандарте ISO/IEC 23003-2:2010, который относится к так называемому "пространственному кодированию аудиообъектов".

Кроме того, принцип переключаемого кодирования/декодирования аудио, который предоставляет возможность кодировать как общие аудиосигналы, так и речевые сигналы с хорошей эффективностью кодирования и обрабатывать многоканальные аудиосигналы, задается в международном стандарте ISO/IEC 23003-3:2012, который описывает так называемый принцип "стандартизированного кодирования речи и аудио".

Кроме того, дополнительные традиционные принципы описываются в ссылочных материалах, которые упоминаются в конце настоящего описания.

Тем не менее, желательно предоставлять еще более усовершенствованный принцип для эффективного кодирования и декодирования трехмерных аудиосцен.

Сущность изобретения

Вариант осуществления согласно изобретению создает многоканальный декоррелятор для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора. Многоканальный декоррелятор выполнен с возможностью предварительно микшировать первый набор из N входных сигналов декоррелятора во второй набор из K входных сигналов декоррелятора, где K<N. Многоканальный декоррелятор выполнен с возможностью предоставлять первый набор из K' выходных сигналов декоррелятора на основе второго набора из K входных сигналов декоррелятора. Многоканальный декоррелятор дополнительно выполнен с возможностью микшировать с повышением первый набор из K' выходных сигналов декоррелятора во второй набор из N' выходных сигналов декоррелятора, где N'>K'.

Этот вариант осуществления согласно изобретению основан на такой идее, что сложность декорреляции может уменьшаться посредством предварительного микширования первого набора из N входных сигналов декоррелятора во второй набор из K входных сигналов декоррелятора, при этом второй набор из K входных сигналов декоррелятора содержит меньшее число сигналов, чем первый набор из N входных сигналов декоррелятора. Соответственно, фундаментальная функциональность декоррелятора выполняется только для K сигналов (из K входных сигналов декоррелятора из второго набора) таким образом, что требуется, например, только K (отдельных) декорреляторов (или отдельных декорреляций) (а не N декорреляторов). Кроме того, для того чтобы предоставлять N' выходных сигналов декоррелятора, выполняется повышающее микширование, при котором первый набор из K' выходных сигналов декоррелятора микшируется с повышением во второй набор из N' выходных сигналов декоррелятора. Соответственно, можно получать сравнительно большое число декоррелированных сигналов (а именно, N' сигналов из второго набора выходных сигналов декоррелятора) на основе сравнительно большого числа входных сигналов декоррелятора (а именно, N сигналов из первого набора входных сигналов декоррелятора), при этом базовая функциональность декорреляции выполняется только на основе K сигналов (например, с использованием только K отдельных декорреляторов). Таким образом, достигается значительный выигрыш по эффективности декорреляции, что помогает экономить вычислительную мощность и ресурсы (например, энергию).

В предпочтительном варианте осуществления, число K сигналов из второго набора входных сигналов декоррелятора равно числу K' сигналов из первого набора выходных сигналов декоррелятора. Соответственно, например, может быть предусмотрено K отдельных декорреляторов, каждый из которых принимает один входной сигнал декоррелятора (из второго набора входных сигналов декоррелятора) из предварительного микширования и каждый из которых предоставляет выходные сигналы декоррелятора (из первого набора выходных сигналов декоррелятора) в повышающее микширование. Таким образом, могут использоваться простые отдельные декорреляторы, каждый из которых предоставляет один выходной сигнал на основе одного входного сигнала.

В другом предпочтительном варианте осуществления, число N сигналов из первого набора входных сигналов декоррелятора может быть равно числу N' сигналов из второго набора выходных сигналов декоррелятора. Таким образом, число сигналов, принимаемых посредством многоканального декоррелятора, равно числу сигналов, предоставляемых посредством многоканального декоррелятора, так что многоканальный декоррелятор выглядит, снаружи, как гребенка из N независимых декорреляторов (тем не менее, при этом результат декорреляции может содержать некоторые неидеальности вследствие использования только K входных сигналов для базового декоррелятора). Соответственно, многоканальный декоррелятор может использоваться в качестве понижающей замены для традиционных декорреляторов, имеющих равное число входных сигналов и выходных сигналов. Кроме того, следует отметить, что повышающее микширование, например, может извлекаться из предварительного микширования в такой конфигурации с небольшими усилиями.

В предпочтительном варианте осуществления, число N сигналов из первого набора входных сигналов декоррелятора может превышать или быть равно 3, и число N' сигналов из второго набора выходных сигналов декоррелятора также может превышать или быть равно 3. В таком случае, многоканальный декоррелятор может предоставлять конкретную эффективность.

В предпочтительном варианте осуществления, многоканальный декоррелятор может быть выполнен с возможностью предварительно микшировать первый набор из N входных сигналов декоррелятора во второй набор из K входных сигналов декоррелятора с использованием матрицы предварительного микширования (т.е. с использованием функциональности линейного предварительного микширования). В этом случае, многоканальный декоррелятор может быть выполнен с возможностью получать первый набор из K' выходных сигналов декоррелятора на основе второго набора из K входных сигналов декоррелятора (например, с использованием отдельных декорреляторов). Многоканальный декоррелятор также может быть выполнен с возможностью микшировать с повышением первый набор из K' выходных сигналов декоррелятора во второй набор из N' выходных сигналов декоррелятора с использованием матрицы постмикширования, т.е. с использованием линейной функции постмикширования. Соответственно, искажения могут поддерживаться небольшими. Кроме того, предварительное микширование и постмикширование (также обозначенное как "повышающее микширование") могут выполняться вычислительно эффективным способом.

В предпочтительном варианте осуществления, многоканальный декоррелятор может быть выполнен с возможностью выбирать матрицу предварительного микширования в зависимости от пространственных позиций, с которыми ассоциированы сигналы каналов из первого набора из N входных сигналов декоррелятора. Соответственно, пространственные зависимости (или корреляции) могут рассматриваться в процессе предварительного микширования, который полезен для того, чтобы исключать чрезмерное ухудшение характеристик вследствие процесса предварительного микширования, выполняемого в многоканальном декорреляторе.

В предпочтительном варианте осуществления, многоканальный декоррелятор может быть выполнен с возможностью выбирать матрицу предварительного микширования в зависимости от характеристик корреляции или характеристик ковариантности сигналов каналов из первого набора из N входных сигналов декоррелятора. Такая функциональность также может помогать исключать чрезмерные искажения вследствие предварительного микширования, выполняемого посредством многоканального декоррелятора. Например, входные сигналы декоррелятора (из первого набора входных сигналов декоррелятора), которые тесно связаны (т.е. содержат высокую взаимную корреляцию или высокую взаимную ковариантность), например, могут комбинироваться в один входной сигнал декоррелятора из второго набора входных сигналов декоррелятора, и, следовательно, могут обрабатываться, например, посредством общего отдельного декоррелятора (ядра декоррелятора). Таким образом, можно не допускать того, что существенно отличающиеся входные сигналы декоррелятора (из первого набора входных сигналов декоррелятора) предварительно микшируются (или микшируются с понижением) в один входной сигнал декоррелятора (из второго набора входных сигналов декоррелятора), который вводится в ядро декоррелятора, поскольку это типично приводит к несоответствующим выходным сигналам декоррелятора (что например, нарушает пространственное восприятие при использовании для того, чтобы доводить аудиосигналы до требуемых характеристик взаимной корреляции или характеристик взаимной ковариантности). Соответственно, многоканальный декоррелятор может определять интеллектуальным способом то, какие сигналы должны комбинироваться в процессе предварительного микширования (или понижающего микширования), чтобы предоставлять возможность хорошего компромисса между эффективностью декорреляции и качеством звука.

В предпочтительном варианте осуществления, многоканальный декоррелятор выполнен с возможностью определять матрицу предварительного микширования таким образом, что матричное произведение между матрицей предварительного микширования и ее эрмитовым оператором является хорошо обусловленным относительно операции инверсии. Соответственно, матрица предварительного микширования может быть выбрана таким образом, что матрица постмикширования может определяться без численных задач.

В предпочтительном варианте осуществления, многоканальный декоррелятор выполнен с возможностью получать матрицу постмикширования на основе матрицы предварительного микширования с использованием некоторых операций умножения матриц и инверсии матрицы. Таким образом, матрица постмикширования может получаться эффективно, так что матрица постмикширования хорошо адаптирована к процессу предварительного микширования.

В предпочтительном варианте осуществления, многоканальный декоррелятор выполнен с возможностью принимать информацию относительно конфигурации рендеринга, ассоциированной с сигналами каналов из первого набора из N входных сигналов декоррелятора. В этом случае, многоканальный декоррелятор выполнен с возможностью выбирать матрицу предварительного микширования в зависимости от информации относительно конфигурации рендеринга. Соответственно, матрица предварительного микширования может выбираться таким способом, который хорошо адаптирован к конфигурации рендеринга, так что может получаться высокое качество звука.

В предпочтительном варианте осуществления, многоканальный декоррелятор выполнен с возможностью комбинировать сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с пространственно смежными позициями аудиосцены при выполнении предварительного микширования. Таким образом, тот факт, что сигналы каналов, ассоциированные с пространственно смежными позициями аудиосцены, типично являются аналогичными, использован при установлении предварительного микширования. Следовательно, аналогичные аудиосигналы могут комбинироваться при предварительном микшировании и обрабатываться с использованием идентичного отдельного декоррелятора в ядре декоррелятора. Соответственно, могут исключаться неприемлемые ухудшения характеристик аудиоконтента.

В предпочтительном варианте осуществления, многоканальный декоррелятор выполнен с возможностью комбинировать сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями аудиосцены, при выполнении предварительного микширования. Этот принцип основан на таких выявленных сведениях, что аудиосигналы из вертикально пространственно смежных позиций аудиосцены типично являются аналогичными. Кроме того, человеческое восприятие не является очень чувствительным относительно разностей между сигналами, ассоциированными с вертикально пространственно смежными позициями аудиосцены. Соответственно, обнаружено, что комбинирование аудиосигналов, ассоциированных с вертикально пространственно смежными позициями аудиосцены, не приводит к существенному ухудшению впечатления от прослушивания, полученного на основе декоррелированных аудиосигналов.

В предпочтительном варианте осуществления, многоканальный декоррелятор может быть выполнен с возможностью комбинировать сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с горизонтальной парой пространственных позиций, содержащих левостороннюю позицию и правостороннюю позицию. Обнаружено, что сигналы каналов, которые ассоциированы с горизонтальной парой пространственных позиций, содержащих левостороннюю позицию и правостороннюю позицию, типично также в определенной степени связаны, поскольку сигналы каналов, ассоциированные с горизонтальной парой пространственных позиций, типично используются для того, чтобы получать пространственное впечатление. Соответственно, обнаружено, что комбинирование сигналов каналов, ассоциированных с горизонтальной парой пространственных позиций, является обоснованным решением, например, если недостаточно комбинировать сигналы каналов, ассоциированные с вертикально пространственно смежными позициями аудиосцены, поскольку комбинирование сигналов каналов, ассоциированных с горизонтальной парой пространственных позиций, типично не приводит к чрезмерному ухудшению впечатления от прослушивания.

В предпочтительном варианте осуществления, по меньшей мере, два левосторонних сигнала каналов (т.е. сигналы каналов, ассоциированные с пространственными позициями в левой стороне аудиосцены), которые должны комбинироваться, ассоциированы с пространственными позициями, которые являются симметричными, относительно осевой плоскости аудиосцены, с пространственными позициями, ассоциированными, по меньшей мере, с двумя правосторонними сигналами каналов, которые должны комбинироваться (т.е. сигналами каналов, ассоциированными с пространственными позициями в правой стороне аудиосцены). Обнаружено, что комбинация сигналов каналов, ассоциированных с "симметричными" пространственными позициями, типично способствует хорошим результатам, поскольку сигналы, ассоциированные с такими "симметричными" пространственными позициями, типично в определенной степени связаны, что является преимущественным для выполнения общей (комбинированной) декорреляции.

В предпочтительном варианте осуществления, многоканальный декоррелятор выполнен с возможностью принимать информацию сложности, описывающую число K входных сигналов декоррелятора из второго набора входных сигналов декоррелятора. В этом случае, многоканальный декоррелятор может быть выполнен с возможностью выбирать матрицу предварительного микширования в зависимости от информации сложности. Соответственно, многоканальный декоррелятор может гибко адаптироваться к различным требованиям по сложности. Таким образом, можно варьировать компромисс между качеством звука и сложностью.

В предпочтительном варианте осуществления, многоканальный декоррелятор постепенно выполнен с возможностью (например, пошагово) увеличивать число входных сигналов декоррелятора из первого набора входных сигналов декоррелятора, которые комбинируются между собой, с тем чтобы получать входные сигналы декоррелятора из второго набора входных сигналов декоррелятора со снижающимся значением информации сложности. Соответственно, можно комбинировать все большее число входных сигналов декоррелятора из первого набора входных сигналов декоррелятора (например, в один входной сигнал декоррелятора из второго набора входных сигналов декоррелятора), если требуется снижать сложность, что дает возможность варьировать сложность при небольших усилиях.

В предпочтительном варианте осуществления, многоканальный декоррелятор выполнен с возможностью комбинировать только сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями аудиосцены, при выполнении предварительного микширования для первого значения информации сложности. Тем не менее, многоканальный декоррелятор (также) может быть выполнен с возможностью комбинировать, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями в левой стороне аудиосцены, и, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями в правой стороне аудиосцены, с тем чтобы получать данный сигнал из второго набора входных сигналов декоррелятора при выполнении предварительного микширования для второго значения информации сложности. Другими словами, для первого значения информации сложности, комбинирование сигналов каналов из различных сторон аудиосцены не может выполняться, что приводит к очень хорошему качеству аудиосигналов (и впечатлению от прослушивания, которое может получаться на основе декоррелированных аудиосигналов). Напротив, если требуется меньшая сложность, горизонтальное комбинирование также может выполняться в дополнение к вертикальному комбинированию. Обнаружено, что это представляет собой обоснованный принцип для пошагового регулирования сложности, при котором в определенной степени более высокое ухудшение впечатления от прослушивания обнаруживается для меньшей сложности.

В предпочтительном варианте осуществления, многоканальный декоррелятор выполнен с возможностью комбинировать, по меньшей мере, четыре сигнала каналов из первого набора из N входных сигналов декоррелятора, при этом, по меньшей мере, два из упомянутых, по меньшей мере, четырех сигналов каналов ассоциированы с пространственными позициями в левой стороне аудиосцены, и при этом, по меньшей мере, два из упомянутых, по меньшей мере, четырех сигналов каналов ассоциированы с пространственными позициями в правой стороне аудиосцены при выполнении предварительного микширования для второго значения информации сложности. Этот принцип основан на таких выявленных сведениях, что сравнительно низкая вычислительная сложность может получаться посредством комбинирования, по меньшей мере, двух сигналов каналов, ассоциированных с пространственными позициями в левой стороне аудиосцены, и, по меньшей мере, двух сигналов каналов, ассоциированных с пространственными позициями в правой стороне аудиосцены, даже если упомянутые сигналы каналов не являются вертикально смежными (или, по меньшей мере, не являются идеально вертикально смежными).

В предпочтительном варианте осуществления, многоканальный декоррелятор выполнен с возможностью комбинировать, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями в левой стороне аудиосцены, с тем чтобы получать первый входной сигнал декоррелятора из второго набора входных сигналов декоррелятора, и комбинировать, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями в правой стороне аудиосцены, с тем чтобы получать второй входной сигнал декоррелятора из второго набора входных сигналов декоррелятора для первого значения информации сложности. Кроме того, многоканальный декоррелятор предпочтительно выполнен с возможностью комбинировать, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями в левой стороне аудиосцены, и, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями в правой стороне аудиосцены, с тем чтобы получать входной сигнал декоррелятора из второго набора входных сигналов декоррелятора для второго значения информации сложности. В этом случае, число входных сигналов декоррелятора из второго набора входных сигналов декоррелятора больше для первого значения информации сложности, чем для второго значения информации сложности. Другими словами, четыре сигнала каналов, которые используются для того, чтобы получать два входных сигнала декоррелятора из второго набора входных сигналов декоррелятора для первого значения информации сложности, могут использоваться для того, чтобы получать один входной сигнал декоррелятора из второго набора входных сигналов декоррелятора для второго значения информации сложности. Таким образом, сигналы, которые служат в качестве входных сигналов для двух отдельных декорреляторов для первого значения информации сложности, комбинируются таким образом, что они служат в качестве входных сигналов для одного отдельного декоррелятора для второго значения информации сложности. Таким образом, эффективное уменьшение числа отдельных декорреляторов (или числа входных сигналов декоррелятора из второго набора входных сигналов декоррелятора) может получаться для уменьшенного значения информации сложности.

Вариант осуществления согласно изобретению создает многоканальный аудиодекодер для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления. Многоканальный аудиодекодер содержит многоканальный декоррелятор, как пояснено в данном документе.

Этот вариант осуществления основан на таких выявленных сведениях, что многоканальный аудиодекоррелятор оптимально подходит для применения в многоканальном аудиодекодере.

В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью представлять посредством рендеринга множество декодированных аудиосигналов, которые получаются на основе кодированного представления, в зависимости от одного или более параметров рендеринга, с тем чтобы получать множество представленных посредством рендеринга аудиосигналов. Многоканальный аудиодекодер выполнен с возможностью извлекать один или более декоррелированных аудиосигналов из представленных посредством рендеринга аудиосигналов с использованием многоканального декоррелятора, при этом представленные посредством рендеринга аудиосигналы составляют первый набор входных сигналов декоррелятора, и при этом второй набор выходных сигналов декоррелятора составляет декоррелированные аудиосигналы. Многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы или их масштабированную версию с одним или более декоррелированными аудиосигналами (из второго набора выходных сигналов декоррелятора), с тем чтобы получать выходные аудиосигналы. Этот вариант осуществления согласно изобретению основан на таких выявленных сведениях, что многоканальный декоррелятор, описанный в данном документе, оптимально подходит для обработки пострендеринга, при этом сравнительно большое число представленных посредством рендеринга аудиосигналов вводится в многоканальный декоррелятор, и при этом сравнительно большое число декоррелированных сигналов затем комбинируется с представленными посредством рендеринга аудиосигналами. Кроме того, обнаружено, что неидеальности, вызываемые использованием сравнительно небольшого числа отдельных декорреляторов (уменьшением сложности в многоканальном декорреляторе), типично не приводят к серьезному ухудшению качества выходных аудиосигналов, выводимых посредством многоканального декодера.

В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью выбирать матрицу предварительного микширования для использования посредством многоканального декоррелятора в зависимости от управляющей информации, включенной в кодированное представление. Соответственно, даже аудиокодер может управлять качеством декорреляции таким образом, что качество декорреляции может быть хорошо адаптировано к конкретному аудиоконтенту, что способствует хорошему компромиссу между качеством звука и сложностью декорреляции.

В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью выбирать матрицу предварительного микширования для использования посредством многоканального декоррелятора в зависимости от выходной конфигурации, описывающей выделение выходных аудиосигналов для пространственных позиций аудиосцены. Соответственно, многоканальный декоррелятор может быть адаптирован к конкретному сценарию рендеринга, который помогает исключать существенное ухудшение качества звука посредством эффективной декорреляции.

В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью выбирать между тремя или более различными матрицами предварительного микширования для использования посредством многоканального декоррелятора в зависимости от управляющей информации, включенной в кодированное представление для данного выходного представления. В этом случае, каждая из трех или более различных матриц предварительного микширования ассоциирована с различным числом сигналов из второго набора из K входных сигналов декоррелятора. Таким образом, сложность декорреляции может регулироваться в широком диапазоне.

В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования для использования посредством многоканального декоррелятора в зависимости от матрицы (Dconv, Drender) микширования, которая используется преобразователем форматов или модулем рендеринга, который принимает, по меньшей мере, два выходных аудиосигнала.

В другом варианте осуществления, многоканальный аудиодекодер выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования для использования посредством многоканального декоррелятора таким образом, что она равна матрице (Dconv, Drender) микширования, которая используется преобразователем форматов или модулем рендеринга, который принимает, по меньшей мере, два выходных аудиосигнала.

Вариант осуществления согласно изобретению создает многоканальный аудиокодер для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов. Многоканальный аудиокодер выполнен с возможностью предоставлять один или более сигналов понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов. Многоканальный аудиокодер также выполнен с возможностью предоставлять один или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами. Кроме того, многоканальный аудиокодер выполнен с возможностью предоставлять параметр сложности декорреляции, описывающий сложность декорреляции, которая должна использоваться на стороне аудиодекодера. Соответственно, многоканальный аудиокодер имеет возможность управлять многоканальным аудиодекодером, описанным выше, таким образом, что сложность декорреляции может регулироваться согласно требованиям аудиоконтента, который кодируется посредством многоканального аудиокодера.

Другой вариант осуществления согласно изобретению создает способ для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора. Способ содержит предварительное микширование первого набора из N входных сигналов декоррелятора во второй набор из K входных сигналов декоррелятора, где K<N. Способ также содержит предоставление первого набора из K' выходных сигналов декоррелятора на основе второго набора из K входных сигналов декоррелятора. Кроме того, способ содержит повышающее микширование первого набора из K' выходных сигналов декоррелятора во второй набор из N' выходных сигналов декоррелятора, где N'>K'. Этот способ основан на идеях, идентичных идеям вышеописанного многоканального декоррелятора.

Другой вариант осуществления согласно изобретению создает способ для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления. Способ содержит предоставление множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, как описано выше. Этот способ основан на выявленных сведениях, идентичных выявленным сведениям вышеописанного многоканального аудиодекодера.

Другой вариант осуществления создает способ для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов. Способ содержит предоставление одного или более сигналов понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов. Способ также содержит предоставление одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами. Дополнительно, способ содержит предоставление параметра сложности декорреляции, описывающего сложность декорреляции, которая должна использоваться на стороне аудиодекодера. Этот способ основан на идеях, идентичных идеям для вышеописанного аудиокодера.

Кроме того, варианты осуществления согласно изобретению создают компьютерную программу для осуществления упомянутых способов.

Другой вариант осуществления согласно изобретению создает кодированное аудиопредставление. Кодированное аудиопредставление содержит кодированное представление сигнала понижающего микширования и кодированное представление одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами. Кроме того, кодированное аудиопредставление содержит кодированный параметр способа декорреляции, описывающий то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера. Соответственно, кодированное аудиопредставление дает возможность управлять многоканальным декоррелятором, описанным выше, а также многоканальным аудиодекодером, описанным выше.

Кроме того, следует отметить, что способы, описанные выше, могут дополняться посредством любых из признаков и функциональности, описанной относительно устройств, как упомянуто выше.

Краткое описание чертежей

Далее описываются варианты осуществления согласно настоящему изобретению со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 показывает принципиальную блок-схему многоканального аудиодекодера, согласно варианту осуществления настоящего изобретения;

Фиг. 2 показывает принципиальную блок-схему многоканального аудиокодера, согласно варианту осуществления настоящего изобретения;

Фиг. 3 показывает блок-схему последовательности операций способа для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления, согласно варианту осуществления изобретения;

Фиг. 4 показывает блок-схему последовательности операций способа для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов, согласно варианту осуществления настоящего изобретения;

Фиг. 5 показывает схематичное представление кодированного аудиопредставления, согласно варианту осуществления настоящего изобретения;

Фиг. 6 показывает принципиальную блок-схему многоканального декоррелятора, согласно варианту осуществления настоящего изобретения;

Фиг. 7 показывает принципиальную блок-схему многоканального аудиодекодера, согласно варианту осуществления настоящего изобретения;

Фиг. 8 показывает принципиальную блок-схему многоканального аудиокодера, согласно варианту осуществления настоящего изобретения;

Фиг. 9 показывает блок-схему последовательности операций способа для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, согласно варианту осуществления настоящего изобретения;

Фиг. 10 показывает блок-схему последовательности операций способа для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления, согласно варианту осуществления настоящего изобретения;

Фиг. 11 показывает блок-схему последовательности операций способа для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов, согласно варианту осуществления настоящего изобретения;

Фиг. 12 показывает схематичное представление кодированного представления, согласно варианту осуществления настоящего изобретения.

Фиг. 13 показывает схематичное представление, которое предоставляет общее представление принципа параметрического понижающего микширования/повышающего микширования на основе MMSE;

Фиг. 14 показывает геометрическое представление для принципа ортогональности в трехмерном пространстве;

Фиг. 15 показывает принципиальную блок-схему системы параметрического восстановления с декорреляцией, применяемой к представленному посредством рендеринга выводу, согласно варианту осуществления настоящего изобретения;

Фиг. 16 показывает принципиальную блок-схему модуля декорреляции;

Фиг. 17 показывает принципиальную блок-схему модуля декорреляции с меньшей сложностью, согласно варианту осуществления настоящего изобретения;

Фиг. 18 показывает табличное представление позиций громкоговорителей, согласно варианту осуществления настоящего изобретения;

Фиг. 19a-19g показывают табличные представления коэффициентов предварительного микширования для N=22 и K между 5 и 11;

Фиг. 20a-20d показывают табличные представления коэффициентов предварительного микширования для N=10 и K между 2 и 5;

Фиг. 21a-21c показывают табличные представления коэффициентов предварительного микширования для N=8 и K между 2 и 4;

Фиг. 21d-21f показывают табличные представления коэффициентов предварительного микширования для N=7 и K между 2 и 4;

Фиг. 22a и 22b показывают табличные представления коэффициентов предварительного микширования для N=5 и K=2 или K=3;

Фиг. 23 показывает табличное представление коэффициентов предварительного микширования для N=2 и K=1;

Фиг. 24 показывает табличное представление групп сигналов каналов;

Фиг. 25 показывает синтаксическое представление дополнительных параметров, которые могут быть включены в синтаксис SAOCSpecifigConfig() или, эквивалентно, SAOC3DSpecificConfig();

Фиг. 26 показывает табличное представление различных значений для переменной bsDecorrelationMethod потока битов;

Фиг. 27 показывает табличное представление числа декорреляторов для различных уровней декорреляции и выходных конфигураций, указываемых посредством переменной bsDecorrelationLevel потока битов;

Фиг. 28 показывает, в форме принципиальной блок-схемы, общее представление касательно трехмерного аудиокодера;

Фиг. 29 показывает, в форме принципиальной блок-схемы, общее представление касательно трехмерного аудиодекодера; и

Фиг. 30 показывает принципиальную блок-схему структуры преобразователя форматов;

Фиг. 31 показывает принципиальную блок-схему процессора понижающего микширования, согласно варианту осуществления настоящего изобретения;

Фиг. 32 показывает таблицу, представляющую режимы декодирования для различного числа объектов SAOC-понижающего микширования; и

Фиг. 33 показывает синтаксическое представление элемента SAOC3DSpecificConfig потока битов.

Подробное описание вариантов осуществления

1. Многоканальный аудиодекодер согласно фиг. 1

Фиг. 1 показывает принципиальную блок-схему многоканального аудиодекодера 100 согласно варианту осуществления настоящего изобретения.

Многоканальный аудиодекодер 100 выполнен с возможностью принимать кодированное представление 110 и предоставлять, на его основе, по меньшей мере, два выходных аудиосигнала 112, 114.

Многоканальный аудиодекодер 100 предпочтительно содержит декодер 120, который выполнен с возможностью предоставлять декодированные аудиосигналы 122 на основе кодированного представления 110. Кроме того, многоканальный аудиодекодер 100 содержит модуль 130 рендеринга, который выполнен с возможностью представлять посредством рендеринга множество декодированных аудиосигналов 122, которые получаются на основе кодированного представления 110 (например, посредством декодера 120) в зависимости от одного или более параметров 132 рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов 134, 136. Кроме того, многоканальный аудиодекодер 100 содержит декоррелятор 140, который выполнен с возможностью извлекать один или более декоррелированных аудиосигналов 142, 144 из представленных посредством рендеринга аудиосигналов 134, 136. Кроме того, многоканальный аудиодекодер 100 содержит модуль 150 комбинирования, который выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы 134, 136 или их масштабированную версию с одним или более декоррелированными аудиосигналами 142, 144, чтобы получать выходные аудиосигналы 112, 114.

Тем не менее, следует отметить, что другая аппаратная структура многоканального аудиодекодера 100 может быть возможной при условии, что предоставлены функциональности, описанные выше.

Относительно функциональности многоканального аудиодекодера 100 следует отметить, что декоррелированные аудиосигналы 142, 144 извлекаются из представленных посредством рендеринга аудиосигналов 134, 136, и что декоррелированные аудиосигналы 142, 144 комбинированы с представленными посредством рендеринга аудиосигналами 134, 136, чтобы получать выходные аудиосигналы 112, 114. Посредством извлечения декоррелированных аудиосигналов 142, 144 из представленных посредством рендеринга аудиосигналов 134, 136 может достигаться очень эффективная обработка, поскольку число представленных посредством рендеринга аудиосигналов 134, 136 типично является независимым от числа декодированных аудиосигналов 122, которые вводятся в модуль 130 рендеринга. Таким образом, усилия по декорреляции являются типично независимыми от числа декодированных аудиосигналов 122, что повышает эффективность реализации. Кроме того, применение декорреляции после рендеринга исключает введение артефактов, которые могут вызываться посредством модуля рендеринга при комбинировании нескольких декоррелированных сигналов в случае, если декорреляция применяется перед рендерингом. Кроме того, характеристики представленных посредством рендеринга аудиосигналов могут учитываться при декорреляции, выполняемой посредством декоррелятора 140, что типично приводит к выходным аудиосигналам хорошего качества.

Кроме того, следует отметить, что многоканальный аудиодекодер 100 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе. В частности, следует отметить, что отдельные улучшения, как описано в данном документе, могут вводиться в многоканальный аудиодекодер 100, чтобы за счет этого даже повышать эффективность обработки и/или качество выходных аудиосигналов.

2. Многоканальный аудиокодер согласно фиг. 2

Фиг. 2 показывает принципиальную блок-схему многоканального аудиокодера 200, согласно варианту осуществления настоящего изобретения. Многоканальный аудиокодер 200 выполнен с возможностью принимать два или более входных аудиосигналов 210, 212 и предоставлять, на их основе, кодированное представление 214. Многоканальный аудиокодер содержит модуль 220 предоставления сигналов понижающего микширования, который выполнен с возможностью предоставлять один или более сигналов 222 понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов 210, 212. Кроме того, многоканальный аудиокодер 200 содержит модуль 230 предоставления параметров, который выполнен с возможностью предоставлять один или более параметров 232, описывающих взаимосвязь (например, взаимную корреляция, взаимную ковариантность, разность уровней и т.п.), по меньшей мере, между двумя входными аудиосигналами 210, 212.

Кроме того, многоканальный аудиокодер 200 также содержит модуль 240 предоставления параметров способа декорреляции, который выполнен с возможностью предоставлять параметр 242 способа декорреляции, описывающий то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера. Один или более сигналов 222 понижающего микширования, один или более параметров 232 и параметр 242 способа декорреляции включены, например, в кодированной форме, в кодированное представление 214.

Тем не менее, следует отметить, что аппаратная структура многоканального аудиокодера 200 может отличаться при условии, что удовлетворяются функциональности, как описано выше. Другими словами, распределение функциональностей многоканального аудиокодера 200 в отдельные блоки (например, в модуль 220 предоставления сигналов понижающего микширования, в модуль 230 предоставления параметров и в модуль 240 предоставления параметров способа декорреляции) должно рассматриваться только в качестве примера.

Относительно функциональности многоканального аудиокодера 200 следует отметить, что один или более сигналов 222 понижающего микширования и один или более параметров 232 предоставляются традиционным способом, например, как в многоканальном SAOC-аудиокодере или в многоканальном USAC-аудиокодере. Тем не менее, параметр 242 способа декорреляции, который также предоставляется посредством многоканального аудиокодера 200 и включен в кодированное представление 214, может использоваться для того, чтобы адаптировать режим декорреляции к входным аудиосигналам 210, 212 или к требуемому качеству воспроизведения. Соответственно, режим декорреляции может быть адаптирован к различным типам аудиоконтента. Например, различные режимы декорреляции могут быть выбраны для типов аудиоконтента, в которых входные аудиосигналы 210, 212 сильно коррелируются, и для типов аудиоконтента, в которых входные аудиосигналы 210, 212 являются независимыми. Кроме того, различные режимы декорреляции, например, могут сигнализироваться посредством параметра 242 режима декорреляции для типов аудиоконтента, в которых пространственное восприятие является очень важным, и для типов аудиоконтента, в которых пространственное впечатление является менее важным или даже имеет второстепенную важность (например, по сравнению с воспроизведением отдельных каналов). Соответственно, многоканальный аудиодекодер, который принимает кодированное представление 214, может управляться посредством многоканального аудиокодера 200 и может задаваться в режим декодирования, который способствует наилучшему компромиссу между качеством воспроизведения и сложностью декодирования.

Кроме того, следует отметить, что многоканальный аудиокодер 200 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе. Следует отметить, что возможные дополнительные признаки и улучшения, описанные в данном документе, могут добавляться в многоканальный аудиокодер 200 по отдельности или в комбинации, чтобы за счет этого улучшать (или совершенствовать) многоканальный аудиокодер 200.

3. Способ для предоставления, по меньшей мере, двух выходных аудиосигналов согласно фиг. 3

Фиг. 3 показывает блок-схему последовательности операций способа 300 для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления. Способ содержит рендеринг 310 множества декодированных аудиосигналов, которые получаются на основе кодированного представления 312, в зависимости от одного или более параметров рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов. Способ 300 также содержит извлечение 320 одного или более декоррелированных аудиосигналов из представленных посредством рендеринга аудиосигналов. Способ 300 также содержит комбинирование 330 представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы 332.

Следует отметить, что способ 300 основан на соображениях, идентичных соображениям для многоканального аудиодекодера 100 согласно фиг. 1. Кроме того, следует отметить, что способ 300 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе (по отдельности или в комбинации). Например, способ 300 может дополняться посредством любых из признаков и функциональностей, описанных относительно многоканальных аудиодекодеров, описанных в данном документе.

4. Способ для предоставления кодированного представления согласно фиг. 4

Фиг. 4 показывает блок-схему последовательности операций способа 400 для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов. Способ 400 содержит предоставление 410 одного или более сигналов понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов 412. Способ 400 дополнительно содержит предоставление 420 одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами 412, и предоставление 430 параметра способа декорреляции, описывающего то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера. Соответственно, предоставляется кодированное представление 432, которое предпочтительно включает в себя кодированное представление одного или более сигналов понижающего микширования, одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и параметра способа декорреляции.

Следует отметить, что способ 400 основан на соображениях, идентичных соображениям для многоканального аудиокодера 200 согласно фиг. 2, так что вышеприведенные пояснения также применимы.

Кроме того, следует отметить, что порядок этапов 410, 420, 430 может гибко варьироваться, и что этапы 410, 420, 430 также могут выполняться параллельно, насколько это является возможным в среде выполнения для способа 400. Кроме того, следует отметить, что способ 400 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе по отдельности или в комбинации. Например, способ 400 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканальных аудиокодеров. Тем не менее, также можно вводить признаки и функциональности, которые соответствуют признакам и функциональностям многоканальных аудиодекодеров, описанных в данном документе, которые принимают кодированное представление 432.

5. Кодированное аудиопредставление согласно фиг. 5

Фиг. 5 показывает схематичное представление кодированного аудиопредставления 500 согласно варианту осуществления настоящего изобретения.

Кодированное аудиопредставление 500 содержит кодированное представление 510 сигнала понижающего микширования, кодированное представление 520 одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя аудиосигналами. Кроме того, кодированное аудиопредставление 500 также содержит кодированный параметр 530 способа декорреляции, описывающий то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера. Соответственно, кодированное аудиопредставление дает возможность сигнализировать режим декорреляции из аудиокодера в аудиодекодер. Соответственно, можно получать режим декорреляции, который хорошо адаптирован к характеристикам аудиоконтента (который описывается, например, посредством кодированного представления 510 одного или более сигналов понижающего микширования и посредством кодированного представления 520 одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя аудиосигналами (например, по меньшей мере, между двумя аудиосигналами, которые микшированы с понижением в кодированное представление 510 одного или более сигналов понижающего микширования)). Таким образом, кодированное аудиопредставление 500 предоставляет возможность рендеринга аудиоконтента, представленного посредством кодированного аудиопредставления 500, с очень хорошим слуховым пространственным впечатлением и/или очень хорошим компромиссом между слуховым пространственным впечатлением и сложностью декодирования.

Кроме того, следует отметить, что кодированное представление 500 может дополняться посредством любых из признаков и функциональностей, описанных относительно многоканальных аудиокодеров и многоканальных аудиодекодеров, по отдельности или в комбинации.

6. Многоканальный декоррелятор согласно фиг. 6

Фиг. 6 показывает принципиальную блок-схему многоканального декоррелятора 600, согласно варианту осуществления настоящего изобретения.

Многоканальный декоррелятор 600 выполнен с возможностью принимать первый набор из N входных сигналов 610a-610n декоррелятора и предоставлять, на их основе, второй набор из N' выходных сигналов 612a-612n' декоррелятора. Другими словами, многоканальный декоррелятор 600 выполнен с возможностью предоставления множества (по меньшей мере, приблизительно) декоррелированных сигналов 612a-612n' на основе входных сигналов 610a-610n декоррелятора.

Многоканальный декоррелятор 600 содержит предварительный микшер 620, который выполнен с возможностью предварительно микшировать первый набор из N входных сигналов 610a-610n декоррелятора во второй набор из K входных сигналов 622a-622k декоррелятора, где K меньше N (причем K и N являются целыми числами). Многоканальный декоррелятор 600 также содержит ядро 630 декорреляции (или декоррелятора), которое выполнено с возможностью предоставлять первый набор из K' выходных сигналов 632a-632k' декоррелятора на основе второго набора из K входных сигналов 622a-622k декоррелятора. Кроме того, многоканальный декоррелятор содержит постмикшер 640, который выполнен с возможностью повышающе микшировать первый набор из K' выходных сигналов 632a-632k' декоррелятора во второй набор из N' выходных сигналов 612a-612n' декоррелятора, где N' превышает K' (при этом N' и K' являются целыми числами).

Тем не менее, следует отметить, что данная структура многоканального декоррелятора 600 должна рассматриваться только в качестве примера, и что необязательно подразделять многоканальный декоррелятор 600 на функциональные блоки (например, на предварительный микшер 620, ядро 630 декорреляции или декоррелятора и постмикшер 640) при условии, что функциональность, описанная в данном документе, предоставляется.

Относительно функциональности многоканального декоррелятора 600, также следует отметить, что принцип выполнения предварительного микширования, чтобы извлекать второй набор из K входных сигналов декоррелятора из первого набора N входных сигналов декоррелятора, и выполнения декорреляции на основе (предварительно микшированного или "микшированного с понижением") второго набора из K входных сигналов декоррелятора способствует уменьшению сложности, по сравнению с принципом, в котором фактическая декорреляция применяется, например, непосредственно к N входных сигналов декоррелятора. Кроме того, второй (повышающе микшированный) набор из N' выходных сигналов декоррелятора получается на основе первого (исходного) набора выходных сигналов декоррелятора, которые являются результатом фактической декорреляции, на основе постмикширования, которое может выполняться посредством повышающего микшера 640. Таким образом, многоканальный декоррелятор 600 эффективно (при просмотре извне) принимает N входных сигналов декоррелятора и предоставляет, на их основе, N' выходных сигналов декоррелятора, в то время как фактическое ядро 630 декоррелятора работает только для меньшего числа сигналов (а именно, K микшированных с понижением входных сигналов 622a-622k декоррелятора из второго набора из K входных сигналов декоррелятора). Таким образом, сложность многоканального декоррелятора 600 может быть существенно уменьшена, по сравнению с традиционными декорреляторами, посредством выполнения понижающего микширования или "предварительного микширования" (которое предпочтительно может представлять собой линейное предварительное микширование без функциональности декорреляции) на входной стороне ядра 630 декорреляции (или декоррелятора) и посредством выполнения повышающего микширования или "постмикширования" (например, линейного повышающего микширования без дополнительной функциональности декорреляции) на основе (исходных) выходных сигналов 632a-632k' ядра 630 декорреляции (декоррелятора).

Кроме того, следует отметить, что многоканальный декоррелятор 600 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканальной декорреляции, а также относительно многоканальных аудиодекодеров. Следует отметить, что признаки, описанные в данном документе, могут добавляться в многоканальный декоррелятор 600 по отдельности или в комбинации, чтобы за счет этого улучшать или совершенствовать многоканальный декоррелятор 600.

Следует отметить, что многоканальный декоррелятор без уменьшения сложности может извлекаться из вышеописанного многоканального декоррелятора для K=N (и возможно K'=N' или даже K=N=K'=N').

7. Многоканальный аудиодекодер согласно фиг. 7

Фиг. 7 показывает принципиальную блок-схему многоканального аудиодекодера 700, согласно варианту осуществления изобретения.

Многоканальный аудиодекодер 700 выполнен с возможностью принимать кодированное представление 710 и предоставлять, на его основе, по меньшей мере, два выходных сигнала 712, 714. Многоканальный аудиодекодер 700 содержит многоканальный декоррелятор 720, который может быть практически идентичным многоканальному декоррелятору 600 согласно фиг. 6. Кроме того, многоканальный аудиодекодер 700 может содержать любые из признаков и функциональностей многоканального аудиодекодера, которые известны для специалистов в данной области техники или которые описываются в данном документе относительно других многоканальных аудиодекодеров.

Кроме того, следует отметить, что многоканальный аудиодекодер 700 содержит, в частности, высокую эффективность, по сравнению с традиционными многоканальными аудиодекодерами, поскольку многоканальный аудиодекодер 700 использует высокоэффективный многоканальный декоррелятор 720.

8. Многоканальный аудиокодер согласно фиг. 8

Фиг. 8 показывает принципиальную блок-схему многоканального аудиокодера 800, согласно варианту осуществления настоящего изобретения. Многоканальный аудиокодер 800 выполнен с возможностью принимать, по меньшей мере, два входных аудиосигнала 810, 812 и предоставлять, на их основе, кодированное представление 814 аудиоконтента, представленного посредством входных аудиосигналов 810, 812.

Многоканальный аудиокодер 800 содержит модуль 820 предоставления сигналов понижающего микширования, который выполнен с возможностью предоставлять один или более сигналов 822 понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов 810, 812. Многоканальный аудиокодер 800 также содержит модуль 830 предоставления параметров, который выполнен с возможностью предоставлять один или более параметров 832 (например, параметров взаимной корреляции или параметров взаимной ковариантности, или параметров межобъектной корреляции, и/или параметров разности уровней объектов) на основе входных аудиосигналов 810, 812. Кроме того, многоканальный аудиокодер 800 содержит модуль 840 предоставления параметров сложности декорреляции, который выполнен с возможностью предоставлять параметр 842 сложности декорреляции, описывающий сложность декорреляции, которая должна использоваться на стороне аудиодекодера (который принимает кодированное представление 814). Один или более сигналов 822 понижающего микширования, один или более параметров 832 и параметр 842 сложности декорреляции включены в кодированное представление 814, предпочтительно в кодированной форме.

Тем не менее, следует отметить, что внутренняя структура многоканального аудиокодера 800 (например, присутствие модуля 820 предоставления сигналов понижающего микширования, модуля 830 предоставления параметров и модуля 840 предоставления параметров сложности декорреляции) должна рассматриваться только в качестве примера. Различные структуры являются возможными при условии, что функциональность, описанная в данном документе, достигается.

Относительно функциональности многоканального аудиокодера 800 следует отметить, что многоканальный кодер предоставляет кодированное представление 814, при этом один или более сигналов 822 понижающего микширования и один или более параметров 832 могут быть аналогичными или равными сигналам и параметрам понижающего микширования, предоставленным посредством традиционных аудиокодеров (таких как, например, традиционные SAOC-аудиокодеры или USAC-аудиокодеры). Тем не менее, многоканальный аудиокодер 800 также выполнен с возможностью предоставлять параметр 842 сложности декорреляции, который дает возможность определять сложность декорреляции, которая применяется на стороне аудиодекодера. Соответственно, сложность декорреляции может быть адаптирована к аудиоконтенту, который в данный момент кодируется. Например, можно сигнализировать требуемую сложность декорреляции, которая соответствует достижимому качеству звука в зависимости от знаний на стороне кодера относительно характеристик входных аудиосигналов. Например, если обнаружено, что пространственные характеристики являются важными для аудиосигнала, более высокая сложность декорреляции может сигнализироваться, с использованием параметра 842 сложности декорреляции, по сравнению со случаем, в котором пространственные характеристики не являются настолько важными. Альтернативно, использование высокой сложности декорреляции может сигнализироватьмя с использованием параметра 842 сложности декорреляции, если обнаружено, что прохождение аудиоконтента или всего аудиоконтента является таким, что декорреляция с высокой сложностью требуется на стороне аудиодекодера по другим причинам.

Если обобщать, многоканальный аудиокодер 800 предоставляет возможность управлять многоканальным аудиодекодером таким образом, чтобы использовать сложность декорреляции, которая адаптирована к характеристикам сигналов или требуемым характеристикам воспроизведения, которые могут задаваться посредством многоканального аудиокодера 800.

Кроме того, следует отметить, что многоканальный аудиокодер 800 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканального аудиокодера, по отдельности или в комбинации. Например, некоторые или все признаки, описанные в данном документе относительно многоканальных аудиокодеров, могут добавляться в многоканальный аудиокодер 800. Кроме того, многоканальный аудиокодер 800 может быть выполнен с возможностью взаимодействия с многоканальными аудиодекодерами, описанными в данном документе.

9. Способ для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, согласно фиг. 9

Фиг. 9 показывает блок-схему последовательности операций способа 900 для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора.

Способ 900 содержит предварительное микширование 910 первого набора из N входных сигналов декоррелятора во второй набор из K входных сигналов декоррелятора, где K меньше N. Способ 900 также содержит предоставление 920 первого набора из K' выходных сигналов декоррелятора на основе второго набора из K входных сигналов декоррелятора. Например, первый набор из K' выходных сигналов декоррелятора может предоставляться на основе второго набора из K входных сигналов декоррелятора с использованием декорреляции, которая может выполняться, например, с использованием ядра декоррелятора или с использованием алгоритма декорреляции. Способ 900 дополнительно содержит постмикширование 930 первого набора из K' выходных сигналов декоррелятора во второй набор из N' выходных сигналов декоррелятора, где N' превышает K' (при этом N' и K' являются целыми числами). Соответственно, второй набор из N' выходных сигналов декоррелятора, которые являются выводом способа 900, может предоставляться на основе первого набора N входных сигналов декоррелятора, которые являются вводом в способ 900.

Следует отметить, что способ 900 основан на соображениях, идентичных соображениям для многоканального декоррелятора, описанного выше. Кроме того, следует отметить, что способ 900 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканального декоррелятора (и также относительно многоканального аудиокодера, если применимо), по отдельности или в комбинации.

10. Способ для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления, согласно фиг. 10

Фиг. 10 показывает блок-схему последовательности операций способа 1000 для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления.

Способ 1000 содержит предоставление 1010, по меньшей мере, двух выходных аудиосигналов 1014, 1016 на основе кодированного представления 1012. Способ 1000 содержит предоставление 1020 множества декоррелированных сигналов на основе множества входных сигналов декоррелятора в соответствии со способом 900 согласно фиг. 9.

Следует отметить, что способ 1000 основан на соображениях, идентичных соображениям для многоканального аудиодекодера 700 согласно фиг. 7.

Кроме того, следует отметить, что способ 1000 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканальных декодеров, по отдельности или в комбинации.

11. Способ для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов, согласно фиг. 11

Фиг. 11 показывает блок-схему последовательности операций способа 1100 для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов.

Способ 1100 содержит предоставление 1110 одного или более сигналов понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов 1112, 1114. Способ 1100 также содержит предоставление 1120 одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами 1112, 1114. Кроме того, способ 1100 содержит предоставление 1130 параметра сложности декорреляции, описывающего сложность декорреляции, которая должна использоваться на стороне аудиодекодера. Соответственно, кодированное представление 1132 предоставляется на основе, по меньшей мере, двух входных аудиосигналов 1112, 1114, при этом кодированное представление типично содержит один или более сигналов понижающего микширования, один или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и параметр сложности декорреляции в кодированной форме.

Следует отметить, что этапы 1110, 1120, 1130 могут выполняться параллельно или в другом порядке в некоторых вариантах осуществления согласно изобретению. Кроме того, следует отметить, что способ 1100 основан на соображениях, идентичных соображениям для многоканального аудиокодера 800 согласно фиг. 8, и что способ 1100 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканального аудиокодера, в комбинации или по отдельности. Кроме того, следует отметить, что способ 1100 может быть выполнен с возможностью соответствовать многоканальному аудиодекодеру и способу для предоставления, по меньшей мере, двух выходных аудиосигналов, описанными в данном документе.

12. Кодированное аудиопредставление согласно фиг. 12

Фиг. 12 показывает схематичное представление кодированного аудиопредставления, согласно варианту осуществления настоящего изобретения. Кодированное аудиопредставление 1200 содержит кодированное представление 1210 сигнала понижающего микширования, кодированное представление 1220 одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и кодированный параметр 1230 сложности декорреляции, описывающий сложность декорреляции, которая должна использоваться на стороне аудиодекодера. Соответственно, кодированное аудиопредставление 1200 дает возможность регулировать сложность декорреляции, используемую посредством многоканального аудиодекодера, что способствует повышенной эффективности декодирования и возможно повышенному качеству звука или улучшенному компромиссу между эффективностью кодирования и качеством звука. Кроме того, следует отметить, что кодированное аудиопредставление 1200 может предоставляться посредством многоканального аудиокодера, как описано в данном документе, и может использоваться посредством многоканального аудиодекодера, как описано в данном документе. Соответственно, кодированное аудиопредставление 1200 может дополняться посредством любых из признаков, описанных относительно многоканальных аудиокодеров и относительно многоканальных аудиодекодеров.

13. Система обозначений и базовые соображения

В последнее время, параметрические технологии для эффективной по скорости передачи битов передачи/хранения аудиосцен, содержащих несколько аудиообъектов, предложены в области техники кодирования аудио (см., например, ссылочные материалы [BCC], [АО], [SAOC], [SAOC1], [SAOC2]) и информированного разделения источников (см., например, ссылочные материалы [ISS1], [ISS2], [ISS3], [ISS4], [ISS5], [ISS6]). Эти технологии направлены на восстановление требуемой выходной аудиосцены или исходного аудиообъекта на основе дополнительной вспомогательной информации, описывающей передаваемую/сохраненную аудиосцену и/или исходные объекты в аудиосцене. Это восстановление осуществляется в декодере с использованием схемы параметрического информированного разделения источников. Кроме того, также следует обратиться к так называемому принципу "на основе стандарта объемного звучания MPEG", который описывается, например, в международном стандарте ISO/IEC 23003-1:2007. Кроме того, также следует обратиться к так называемому "пространственному кодированию аудиообъектов", которое описывается в международном стандарте ISO/IEC 23003-2:2010. Кроме того, следует обратиться к так называемому принципу "стандартизированного кодирования речи и аудио", который описывается в международном стандарте ISO/IEC 23003-3:2012. Принципы из этих стандартов могут использоваться в вариантах осуществления согласно изобретению, например, в многоканальных аудиокодерах, упомянутых в данном документе, и в многоканальных аудиодекодерах, упомянутых в данном документе, при этом могут требоваться некоторые адаптации.

Далее описывается некоторая исходная информация. В частности, общее представление схем параметрического разделения предоставляется с использованием примера технологии пространственного кодирования аудиообъектов (SAOC) по стандарту MPEG (см., например, ссылочный материал [SAOC]). Рассматриваются математические свойства этого способа.

13.1. Система обозначений и определения

Следующая система математических обозначений применяется в текущем документе:

	число сигналов аудиообъектов
	число (обработанных) каналов понижающего микширования
	число (выходных) каналов повышающего микширования
	число обработанных выборок данных
	матрица понижающего микширования, размер
	входной сигнал аудиообъекта, размер
	ковариационная матрица объектов, размер , задана как
	аудиосигнал понижающего микширования, размер , задан как
	ковариационная матрица сигналов понижающего микширования, размер , задана как
	матрица оценки параметрических источников, размер , которая аппроксимирует
	параметрически восстановленный сигнал объекта, размер , который аппроксимирует и задается как
	матрица рендеринга (указывается на стороне декодера), размер
	идеальный представленный посредством рендеринга выходной сигнал сцены, размер , задана как
	представленный посредством рендеринга параметрический вывод, размер , задан как
	ковариационная матрица идеального вывода, размер , задана как
	выводы декоррелятора, размер
	комбинированный сигнал , размер
	ковариационная матрица комбинированных сигналов, размер , задана как
	конечный вывод, размер
	самосопряженный (эрмитов) оператор, который представляет комплексно-сопряженное транспонирование . Также может использоваться обозначение .
	функция декоррелятора
	аддитивная постоянная, чтобы не допускать деления на нуль

13.2. Системы параметрического разделения

Общие системы параметрического разделения нацелены на оценку числа аудиоисточников из смеси сигналов (понижающего микширования) с использованием вспомогательной информации параметров (такой как, например, информация значений межканальной корреляции, значений межканальной разности уровней, значений межобъектной корреляции и/или разности уровней объектов). Стандартное решение этой задачи основано на применении алгоритмов оценки на основе минимальной среднеквадратической ошибки (MMSE). SAOC-технология является одним примером таких систем параметрического кодирования/декодирования аудио.

Фиг. 13 показывает общий принцип архитектуры SAOC-кодера/декодера. Другими словами, фиг. 13 показывает, в форме принципиальной блок-схемы, общее представление принципа параметрического понижающего микширования/повышающего микширования на основе MMSE.

Кодер 1310 принимает множество сигналов 1312a, 1312b-1312n объектов. Кроме того, кодер 1310 также принимает параметры D микширования, 1314, которые, например, могут представлять собой параметры понижающего микширования. Кодер 1310 предоставляет, на их основе, один или более сигналов 1316a, 1316b понижающего микширования и т.д. Кроме того, кодер предоставляет вспомогательную информацию 1318. Один или более сигналов понижающего микширования и вспомогательная информация, например, могут предоставляться в кодированной форме.

Кодер 1310 содержит микшер 1320, который типично выполнен с возможностью принимать сигналы 1312a-1312n объектов и комбинировать (например, микшировать с понижением) сигналы 1312a-1312n объектов в один или более сигналов 1316a, 1316b понижающего микширования в зависимости от параметров 1314 микширования. Кроме того, кодер содержит модуль 1330 оценки вспомогательной информации, который выполнен с возможностью извлекать вспомогательную информацию 1318 из сигналов 1312a-1312n объектов. Например, модуль 1330 оценки вспомогательной информации может быть выполнен с возможностью извлекать вспомогательную информацию 1318 таким образом, что вспомогательная информация описывает взаимосвязь между сигналами объектов, например, взаимную корреляцию между сигналами объектов (которая может обозначаться как "межобъектная корреляция (IOC)"), и/или информацию, описывающую разность уровней между сигналами объектов (которая может обозначаться как "информация разности уровней объектов (OLD)").

Один или более сигналов 1316a, 1316b понижающего микширования и вспомогательная информация 1318 могут сохраняться и/или передаваться в декодер 1350, что указывается по ссылке с номером 1340.

Декодер 1350 принимает один или более сигналов 1316a, 1316b понижающего микширования и вспомогательную информацию 1318 (например, в кодированной форме) и предоставляет, на их основе, множество выходных аудиосигналов 1352a-1352n. Декодер 1350 также может принимать информацию 1354 пользовательского взаимодействия, которая может содержать один или более параметров R рендеринга (которые могут задавать матрицу рендеринга). Декодер 1350 содержит модуль 1360 разделения параметрических объектов, процессор 1370 вспомогательной информации и модуль 1380 рендеринга. Процессор 1370 вспомогательной информации принимает вспомогательную информацию 1318 и предоставляет, на ее основе, управляющую информацию 1372 для модуля 1360 разделения параметрических объектов. Модуль 1360 разделения параметрических объектов предоставляет множество сигналов 1362a-1362n объектов на основе сигналов 1360a, 1360b понижающего микширования и управляющей информации 1372, которая извлекается из вспомогательной информации 1318 посредством процессора 1370 вспомогательной информации. Например, модуль разделения объектов может выполнять декодирование кодированных сигналов понижающего микширования и разделение объектов. Модуль 1380 рендеринга представляет посредством рендеринга восстановленные сигналы объектов 1362a-1362n, чтобы за счет этого получать выходные аудиосигналы 1352a-1352n.

Далее поясняется функциональность принципа параметрического понижающего микширования/повышающего микширования на основе MMSE.

Общая обработка параметрического понижающего микширования/повышающего микширования выполняется частотно-временным избирательным способом и может описываться как последовательность следующих этапов:

- В "кодер" 1310 предоставляются входные "аудиообъекты" x и "параметры D микширования". "Микшер" 1320 микширует с понижением "аудиообъекты" x в число "сигналов Y понижающего микширования" с использованием "параметров D микширования" (например, усилений при понижающем микшировании). "Модуль оценки вспомогательной информации" извлекает вспомогательную информацию 1318, описывающую характеристики входных "аудиообъектов" x (например, свойства ковариантности).

- "Сигналы Y понижающего микширования" и вспомогательная информация передаются или сохраняются. Эти аудиосигналы понижающего микширования дополнительно могут сжиматься с использованием аудиокодеров (таких как MPEG-1/2 уровня II или III, усовершенствованное кодирование аудио (AAC) по стандарту MPEG-2/4, стандартизированное кодирование речи и аудио (USAC) MPEG и т.д.). Вспомогательная информация также может быть представлена и кодирована эффективно (например, в качестве кодированных без потерь отношений мощностей объектов и коэффициентов корреляции объектов).

- "Декодер" 1350 восстанавливает исходные "аудиообъекты" из декодированных "сигналов понижающего микширования" с использованием передаваемой вспомогательной информации 1318. "Процессор 1370 вспомогательной информации" оценивает коэффициенты 1372 обратного микширования, которые должны применяться к "сигналам понижающего микширования" в "модуле 1360 разделения параметрических объектов", чтобы получать восстановление параметрических объектов x. Восстановленные "аудиообъекты" 1362a-1362n представляют посредством рендеринга в (многоканальную) целевую сцену, представленную посредством выходных каналов Z, посредством применения "параметров R 1354 рендеринга".

Кроме того, следует отметить, что функциональности, описанные относительно кодера 1310 и декодера 1350, могут использоваться в других аудиокодерах и аудиодекодерах, описанных в данном документе также.

13.3. Принцип ортогональности оценки на основе минимальной среднеквадратической ошибки

Принцип ортогональности является одним главным свойством модулей MMSE-оценки. Рассмотрим два гильбертовых пространства и , при этом охватывается посредством набора векторов , и вектор . Если требуется находить оценку , которая аппроксимирует x в качестве линейной комбинации векторов , при минимизации среднеквадратической ошибки, то вектор ошибок является ортогональным в пространстве, охватываемом посредством векторов .

Как следствие, ошибка оценки и сама оценка являются ортогональными:

Геометрически можно визуализировать это посредством примеров, показанных на фиг. 14.

Фиг. 14 показывает геометрическое представление для принципа ортогональности в трехмерном пространстве. Как можно видеть, векторное пространство охватывается посредством векторов y₁, y₂. Вектор x равен сумме вектора и разностного вектора e (или вектора ошибок). Как можно видеть, вектор e ошибок является ортогональным к векторному пространству V (или плоскости), охватываемому посредством векторов y₁ и y₂.

Соответственно, вектор может рассматриваться как наилучшее приближение x в векторном пространстве V.

13.4. Ошибка параметрического восстановления

При задании матрицы, содержащей N сигналов (x), и обозначении ошибки оценки как , могут формулироваться следующие идентификаторы. Исходный сигнал может представляться как сумма параметрического восстановления и ошибки восстановления следующим образом:

Вследствие принципа ортогональности, ковариационная матрица исходных сигналов может формулироваться в качестве суммы ковариационной матрицы восстановленных сигналов и ковариационной матрицы ошибок оценки следующим образом:

Когда входные объекты x не находятся в пространстве, охватываемом посредством каналов понижающего микширования (например, число каналов понижающего микширования меньше числа входных сигналов), и входные объекты не могут представляться как линейные комбинации каналов понижающего микширования, алгоритмы на основе MMSE вводят неточность восстановления.

13.5. Межобъектная корреляция

В слуховой системе, взаимная ковариантность (когерентность/корреляция) тесно связана с восприятием огибания как окружения посредством звука, а также с воспринимаемой шириной источника звука. Например, в системах на основе SAOC параметры межобъектной корреляции (IOC) используются для определения характеристик этого свойства:

Рассмотрим пример воспроизведения источника звука с использованием двух аудиосигналов. Если значение IOC является близким к единице, звук воспринимается как хорошо локализованный точечный источник. Если значение IOC является близким к нулю, воспринимаемая ширина источника звука увеличивается, и для крайних случаев, он может даже восприниматься как два различных источника [Blauert, глава 3].

13.6. Компенсация неточности восстановления

В случае неидеального параметрического восстановления выходной сигнал может демонстрировать более низкую энергию по сравнению с исходными объектами. Ошибка в диагональных элементах ковариационной матрицы может приводить к звуковым разностям уровней и ошибке во внедиагональных элементах в искаженном пространственном звуковом изображении (по сравнению с идеальным опорным выводом). Предложенный способ имеет цель разрешать эту проблему.

В стандарте объемного звучания MPEG (MPS), например, эта проблема исследуется только для некоторых конкретных сценариев канальной обработки, а именно, для моно/стереопонижающего микширования и ограниченных статических выходных конфигураций (например, моно, стерео, 5.1, 7.1 и т.д.). В объектно-ориентированных технологиях, таких как SAOC, которая также использует моно/стереопонижающее микширование, эта проблема исследуется посредством применения рендеринга с MPS-постобработкой только для выходной 5.1-конфигурации.

Существующие решения ограничены стандартными выходными конфигурациями и фиксированным числом входных/выходных каналов. А именно, они реализованы в качестве последовательного применения нескольких блоков, реализующих просто способы канальной декорреляции "моно-в-стерео" (или "стерео-в-три").

Следовательно, требуется общее решение (например, способ коррекции свойств энергетического уровня и корреляции) для компенсации неточности параметрического восстановления, которое может применяться для гибкого числа каналов понижающего микширования/выходных каналов и произвольных выходных конфигурационных компоновок.

13.7. Заключения

В качестве вывода, предоставлено общее представление в отношении системы обозначений. Кроме того, описана система параметрического разделения, на которой основаны варианты осуществления согласно изобретению. Кроме того, указано то, что принцип ортогональности применяется к оценке на основе минимальной среднеквадратической ошибки. Кроме того, предоставлено уравнение для вычисления ковариационной матрицы , которое применяется при наличии ошибки восстановления. Кроме того, предоставлена взаимосвязь между так называемыми значениями межобъектной корреляции и элементами ковариационной матрицы , которая может применяться, например, в вариантах осуществления согласно изобретению, чтобы извлекать требуемые характеристики ковариантности (или характеристики корреляции) из значений межобъектной корреляции (которые могут быть включены в параметрическую вспомогательную информацию) и возможно формировать разности уровней объектов. Кроме того, указано то, что характеристики восстановленных сигналов объектов могут отличаться от требуемых характеристик вследствие неидеального восстановления. Кроме того, указано то, что существующие решения для разрешения проблемы ограничены некоторыми конкретными выходными конфигурациями и основываются на конкретной комбинации стандартных блоков, что делает традиционные решения негибкими.

14. Вариант осуществления согласно фиг. 15

14.1. Общее представление принципа

Варианты осуществления согласно изобретению расширяют способы параметрического MMSE-восстановления, используемые в схемах параметрического аудиоразделения с решением по декорреляции для произвольного числа каналов понижающего микширования/повышающего микширования. Варианты осуществления согласно изобретению, такие как, например, изобретаемое устройство и изобретательский способ, могут компенсировать энергетические потери во время параметрического восстановления и восстанавливать свойства корреляции оцененных объектов.

Фиг. 15 предоставляет общее представление принципа параметрического понижающего микширования/повышающего микширования с интегрированным трактом декорреляции. Другими словами, фиг. 15 показывает, в форме принципиальной блок-схемы, систему параметрического восстановления с декорреляцией, применяемую для представленного посредством рендеринга вывода.

Система согласно фиг. 15 содержит кодер 1510, который является практически идентичным кодеру 1310 согласно фиг. 13. Кодер 1510 принимает множество сигналов 1512a-1512n объектов и предоставляет, на их основе, один или более сигналов 1516a, 1516b понижающего микширования, а также вспомогательную информацию 1518. Сигналы 1516a, 1515b понижающего микширования могут быть практически идентичными сигналам 1316a, 1316b понижающего микширования и может обозначаться как Y. Вспомогательная информация 1518 может быть практически идентичной вспомогательной информации 1318. Тем не менее, вспомогательная информация, например, может содержать параметр режима декорреляции или параметр способа декорреляции, или параметр сложности декорреляции. Кроме того, кодер 1510 может принимать параметры 1514 микширования.

Система параметрического восстановления также содержит передачу и/или хранение одного или более сигналов 1516a, 1516b понижающего микширования и вспомогательной информации 1518, при этом передача и/или хранение обозначены с помощью 1540, и при этом один или более сигналов 1516a, 1516b понижающего микширования и вспомогательная информация 1518 (которая может включать в себя параметрическую вспомогательную информацию) могут кодироваться.

Кроме того, система параметрического восстановления согласно фиг. 15 содержит декодер 1550 1550, который выполнен с возможностью принимать передаваемые или сохраненные один или более (возможно кодированных) сигналов 1516a, 1516b понижающего микширования и передаваемую или сохраненную (возможно кодированную) вспомогательную информацию 1518 и предоставлять, на их основе, выходные аудиосигналы 1552a-1552n. Декодер 1550 (который может рассматриваться как многоканальный аудиодекодер) содержит модуль 1560 разделения параметрических объектов и процессор 1570 вспомогательной информации. Кроме того, декодер 1550 содержит модуль 1580 рендеринга, декоррелятор 1590 и микшер 1598.

Модуль 1560 разделения параметрических объектов выполнен с возможностью принимать один или более сигналов 1516a, 1516b понижающего микширования и управляющую информацию 1572, которая предоставляется посредством процессора 1570 вспомогательной информации на основе вспомогательной информации 1518, и предоставлять, на их основе, сигналы 1562a-1562n объектов, которые также обозначены с X и которые могут рассматриваться как декодированные аудиосигналы. Управляющая информация 1572, например, может содержать коэффициенты обратного микширования, которые должны применяться к сигналам понижающего микширования (например, к декодированным сигналам понижающего микширования, извлекаемым из кодированных сигналов 1516a, 1516b понижающего микширования) в модуле разделения параметрических объектов, чтобы получать восстановленные сигналы объектов (например, декодированные аудиосигналы 1562a-1562n). Модуль 1580 рендеринга представляет посредством рендеринга декодированные аудиосигналы 1562a-1562n (которые могут быть восстановленными сигналами объектов и которые, например, могут соответствовать входным сигналам 1512a-1512n объектов), чтобы за счет этого получать множество представленных посредством рендеринга аудиосигналов 1582a-1582n. Например, модуль 1580 рендеринга может учитывать параметры R рендеринга, которые, например, могут предоставляться посредством пользовательского взаимодействия и которые, например, могут задавать матрицу рендеринга. Тем не менее, альтернативно параметры рендеринга могут извлекаться из кодированного представления (которое может включать в себя кодированные сигналы 1516a, 1516b понижающего микширования и кодированную вспомогательную информацию 1518).

Декоррелятор 1590 выполнен с возможностью принимать представленные посредством рендеринга аудиосигналы 1582a-1582n и предоставлять, на их основе, декоррелированные аудиосигналы 1592a-1592n, которые также обозначены с помощью W. Микшер 1598 принимает представленные посредством рендеринга аудиосигналы 1582a-1582n и декоррелированные аудиосигналы 1592a-1592n и комбинирует представленные посредством рендеринга аудиосигналы 1582a-1582n и декоррелированные аудиосигналы 1592a-1592n, чтобы за счет этого получать выходные аудиосигналы 1552a-1552n. Микшер 1598 также может использовать управляющую информацию 1574, которая извлекается посредством процессора 1570 вспомогательной информации из кодированной вспомогательной информации 1518, как описано ниже.

14.2. Функция декоррелятора

Далее описываются некоторые подробности относительно декоррелятора 1590. Тем не менее, следует отметить, что могут использоваться другие принципы декоррелятора, некоторые из которых описываются ниже.

В варианте осуществления, функция декоррелятора предоставляет выходной сигнал w, который является ортогональным к входному сигналу . Выходной сигнал w имеет равные (входному сигналу ) свойства спектральной и временной огибающей (или, по меньшей мере, аналогичные свойства). Кроме того, сигнал w воспринимается аналогично и имеет субъективное качество, идентичное (или аналогичное) субъективному качеству входного сигнала (см., например, [SAOC2]).

В случае нескольких входных сигналов, предпочтительно, если функция декорреляции формирует несколько выводов, которые являются взаимно ортогональными (т.е., так что для всех i и j, и для ).

Точное подробное описание для реализации функции декоррелятора находится за рамками объема этого описания. Например, декорреляторы на основе гребенки из нескольких фильтров с бесконечной импульсной характеристикой (HR), указываемые в стандарте объемного звучания MPEG, могут быть использованы в целях декорреляции [MPS].

Общие декорреляторы, описанные в этом описании, предположительно являются идеальными. Это подразумевает то, что (в дополнение к перцепционным требованиям) вывод каждого декоррелятора является ортогональным для своего ввода и для вывода всех других декорреляторов. Следовательно, для данного ввода с ковариантностью и вывода справедливы следующие свойства ковариационных матриц:

Из этих взаимосвязей следует, что:

Вывод W декоррелятора может использоваться для того, чтобы компенсировать неточность прогнозирования в модуле MMSE-оценки (следует напомнить, что ошибка прогнозирования является ортогональной к прогнозированным сигналам) посредством использования прогнозированных сигналов в качестве вводов.

При этом следует отметить, что ошибки прогнозирования в общем случае не являются ортогональными между собой. Таким образом, одна цель идеи изобретения (например, способа) состоит в том, чтобы создавать смесь "сухого" (т.е. входного декоррелятора) сигнала (например, представленных посредством рендеринга аудиосигналов 1582a-1582n) и "мокрого" (т.е. выходного декоррелятора) сигнала (например, декоррелированных аудиосигналов 1592a-1592n), так что ковариационная матрица результирующей смеси (например, выходных аудиосигналов 1552a-1552n) становится аналогичной ковариационной матрице требуемого вывода.

Кроме того, следует отметить, что может использоваться уменьшение сложности для модуля декорреляции, которое подробно описывается ниже и которое может способствовать некоторым неидеальностям декоррелированного сигнала, которые, тем не менее, могут быть приемлемыми.

14.3. Коррекция выходной ковариантности с использованием декоррелированных сигналов

Далее описывается принцип для того, чтобы регулировать характеристики ковариантности выходных аудиосигналов 1552a-1552n, чтобы получать достаточно хорошее впечатление от прослушивания.

Предложенный способ для коррекции ошибок выходной ковариантности составляет выходной сигнал (например, выходные аудиосигналы 1552a-1552n) в качестве взвешенной суммы параметрически восстановленного сигнала (например, представленных посредством рендеринга аудиосигналов 1582a-1582n) и его декоррелированной части W. Эта сумма может представляться следующим образом:

Матрицы P микширования, применяемая к прямому сигналу , и M, применяемая к декоррелированному сигналу W, имеют следующую структуру (при этом , где обозначает число представленных посредством рендеринга аудиосигналов, которое может быть равно числу выходных аудиосигналов):

При применении обозначения для комбинированной матрицы и сигнал в результате получается:

С использованием этого представления, ковариационная матрица выходного сигнала задается следующим образом:

Целевая ковариация C идеальной созданной представленной посредством рендеринга выходной сцены задается следующим образом:

Матрица F микширования вычисляется таким образом, что ковариационная матрица конечного вывода аппроксимирует или равна целевой ковариации C следующим образом:

Матрица F микширования вычисляется, например, в качестве функции известных величин следующим образом:

где матрицы U, T и V, Q могут определяться, например, с использованием разложения по сингулярным значениям (SVD) ковариационных матриц и C, что дает в результате:

Прототипная матрица H может быть выбрана согласно требуемым взвешиваниям для трактов передачи прямых и декоррелированных сигналов.

Например, возможная прототипная матрица H может определяться следующим образом:

Далее предоставляются некоторые математические извлечения для общей структуры матрицы F.

Другими словами, ниже описывается извлечение матрицы F микширования для общего решения.

Ковариационные матрицы E_S и C могут выражаться с использованием, например, разложения по сингулярным значениям (SVD) следующим образом:

где T и Q являются диагональными матрицами с сингулярными значениями C и E_S, соответственно, и U и V являются унитарными матрицами, содержащими соответствующие сингулярные векторы.

Следует отметить, что применение триангуляции Шура или разложения по собственным значениям (вместо SVD) приводит к аналогичным результатам (или даже идентичным результатам, если диагональные матрицы Q и T ограничены положительными значениями).

При применении этого разложения к требованию , в результате получается (по меньшей мере, приблизительно):

Чтобы следить за размерностью ковариационных матриц, в некоторых случаях требуется регуляризация. Например, может применяться прототипная матрица H размера с таким свойством, что :

Из этого следует, что матрица F микширования может определяться следующим образом:

Прототипная матрица H выбрана согласно требуемым взвешиваниям для трактов передачи прямых и декоррелированных сигналов. Например, возможная прототипная матрица H может определяться следующим образом:

В зависимости от состояния ковариационной матрицы E_S комбинированных сигналов, последнее уравнение, возможно, должно включать в себя некоторую регуляризацию, но в иных отношениях оно должно быть численно стабильным.

В качестве вывода, описан принцип для того, чтобы извлекать выходные аудиосигналы (представленные посредством матрицы или эквивалентно, посредством вектора ) на основе представленных посредством рендеринга аудиосигналов (представленных посредством матрицы или эквивалентно, вектора ) и декоррелированных аудиосигналов (представленных посредством матрицы W или эквивалентно, вектора w). Как можно видеть, обычно определяются две матрицы P и M микширования общей матричной структуры. Например, комбинированная матрица F, как задано выше, может определяться таким образом, что ковариационная матрица выходных аудиосигналов 1552a-1562n аппроксимирует или равна требуемой ковариантности C (также обозначаемой как "целевая ковариантность"). Требуемая ковариационная матрица C, например, может извлекаться на основе знаний матрицы R рендеринга (которые могут предоставляться, например, посредством пользовательского взаимодействия) и на основе знаний ковариационной матрицы E_X объектов, которые, например, могут извлекаться на основе кодированной вспомогательной информации 1518. Например, ковариационная матрица E_X объектов может извлекаться с использованием значений межобъектной корреляции (IOC), которые описываются выше и которые могут быть включены в кодированную вспомогательную информацию 1518. Таким образом, целевая ковариационная матрица C, например, может предоставляться посредством процессора 1570 вспомогательной информации в качестве информации 1574 или в качестве части информации 1574.

Тем не менее, альтернативно процессор 1570 вспомогательной информации также может непосредственно предоставлять матрицу F микширования в качестве информации 1574 в микшер 1598.

Кроме того, описано правило вычисления для матрицы F микширования, которое использует разложение по сингулярным значениям. Тем не менее, следует отметить, что имеются определенные степени свободы, поскольку могут быть выбраны записи и прототипной матрицы H. Предпочтительно, записи прототипной матрицы H выбираются как находящиеся в диапазоне между 0 и 1. Если значения выбираются как более близкие к единице, то возникает значительное микширование представленных посредством рендеринга выходных аудиосигналов, в то время как влияние декоррелированных аудиосигналов является сравнительно небольшим, что может быть желательным в некоторых случаях. Тем не менее, в некоторых других ситуациях может быть более желательным иметь сравнительно большое влияние декоррелированных аудиосигналов, в то время как имеется только слабое микширование между представленными посредством рендеринга аудиосигналами. В этом случае, значения типично выбираются таким образом, что они превышают . Таким образом, декодер 1550 может быть адаптирован к требованиям посредством надлежащего выбора записей прототипной матрицы H.

14.4. Упрощенные способы для коррекции выходной ковариантности

В этом разделе, описываются две альтернативных структуры для упомянутой выше матрицы F микширования вместе с примерными алгоритмами для определения ее значений. Две альтернативы разработаны для различного входного контента (например, аудиоконтента):

Способ регулирования ковариантности для высококоррелированного контента (например, канального ввода с высокой корреляцией между различными канальными парами).

Способ энергетической компенсации для независимых входных сигналов (например, объектно-ориентированного ввода, обычно предполагаемого независимым).

14.4.1. Способ (A) регулирования ковариантности

С учетом того, что сигнал (например, представленные посредством рендеринга аудиосигналы 1582a-1582n) уже является оптимальным в отношении MMSE, обычно нежелательно модифицировать параметрические восстановления (например, выходные аудиосигналы 1552a-1552n), чтобы улучшать свойства ковариантности вывода , поскольку это может влиять на качество разделения.

Если обрабатывается только смесь декоррелированных сигналов W, матрица P микширования может уменьшаться до единичной матрицы (или ее кратного). Таким образом, этот упрощенный способ может описываться посредством задания следующего:

Конечный вывод системы может представляться следующим образом:

Следовательно, конечная выходная ковариантность системы может представляться следующим образом:

Разность между идеальной (или требуемой) выходной ковариационной матрицей C и ковариационной матрицей представленного посредством рендеринга параметрического восстановления (например, представленных посредством рендеринга аудиосигналов) задается следующим образом:

Следовательно, матрица M микширования определяется таким образом, что:

Матрица M микширования вычисляется таким образом, что ковариационная матрица микшированных декоррелированных сигналов MW равна или аппроксимирует разность ковариантности между требуемой ковариантностью и ковариантностью сухих сигналов (например, представленных посредством рендеринга аудиосигналов). Следовательно, ковариантность конечного вывода аппроксимирует целевую ковариантность :

где матрицы U, T и V, Q могут определяться, например, с использованием разложения по сингулярным значениям (SVD) ковариационных матриц и , что дает в результате:

Этот подход обеспечивает хорошее восстановление взаимной корреляции, максимизирующее использование сухого вывода (например, представленных посредством рендеринга аудиосигналов 1582a-1582n), и использует только свободу микширования декоррелированных сигналов. Другими словами, не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов (или их масштабированной версии) с одним или более декоррелированными аудиосигналами. Тем не менее, разрешается то, что данный декоррелированный сигнал комбинирован, с идентичным или различным масштабированием, с множеством представленных посредством рендеринга аудиосигналов или их масштабированной версией, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности выходных аудиосигналов. Комбинация задается, например, посредством матрицы M, как задано здесь.

Далее предоставляются некоторые математические извлечения для ограниченной структуры матрицы F.

Другими словами, поясняется извлечение матрицы M микширования для упрощенного способа A.

Ковариационные матрицы и могут выражаться с использованием, например, разложения по сингулярным значениям (SVD) следующим образом:

где T и Q являются диагональными матрицами с сингулярными значениями и , соответственно, и U и V являются унитарными матрицами, содержащими соответствующие сингулярные вектора.

При применении этого разложения к требованию , в результате получается (по меньшей мере, приблизительно):

При этом отметим, что обе стороны уравнения представляют квадрат матрицы, отбрасывается возведение в квадрат и находится решение для полной матрицы M.

Из этого следует, что матрица M микширования может определяться следующим образом:

Этот способ может извлекаться из общего способа посредством задания прототипной матрицы H следующим образом:

В зависимости от состояния ковариационной матрицы мокрых сигналов, последнее уравнение, возможно, должно включать в себя некоторую регуляризацию, но в иных отношениях оно должно быть численно стабильным.

14.4.2. Способ (B) энергетической компенсации

Иногда (в зависимости от сценария применения) нежелательно разрешать микширование параметрических восстановлений (например, представленных посредством рендеринга аудиосигналов) или декоррелированных сигналов, а по отдельности микшировать каждый параметрически восстановленный сигнал (например, представленный посредством рендеринга аудиосигнал) только с собственным декоррелированным сигналом.

Чтобы достигать этого требования, дополнительное ограничение должно вводиться в упрощенный способ A. Теперь, матрица M микширования мокрых сигналов (декоррелированных сигналов) должна иметь диагональную форму:

Основная цель этого подхода состоит в том, чтобы использовать декоррелированные сигналы для того, чтобы компенсировать потери энергии в параметрическом восстановлении (например, в представленном посредством рендеринга аудиосигнале), тогда как внедиагональная модификация ковариационной матрицы выходного сигнала игнорируется, т.е. отсутствует прямая обработка взаимных корреляций. Следовательно, взаимная утечка между выходными объектами/каналами (например, между представленными посредством рендеринга аудиосигналами) не вводится при применении декоррелированных сигналов.

Как результат, только главная диагональ целевой ковариационной матрицы (или требуемая ковариационная матрица) может быть достигнута, а не-диагонали полностью зависят от точности параметрического восстановления и суммированных декоррелированных сигналов. Этот способ является самым подходящим для только объектно-ориентированных вариантов применения, в которых сигналы могут считаться декоррелированными.

Конечный вывод способа (например, выходные аудиосигналы) задается посредством с диагональной матрицей M, вычисленной таким образом, что записи ковариационной матрицы, соответствующие энергиям восстановленных сигналов , равны с требуемыми энергиями:

C может определяться так, как пояснено выше для общего случая.

Например, матрица M микширования может непосредственно извлекаться посредством деления требуемых энергий сигналов компенсации (разностей между требуемыми энергиями (которые могут описываться посредством диагональных элементов взаимной ковариационной матрицы C) и энергий параметрических восстановлений (которые могут определяться посредством аудиодекодера)) на энергии декоррелированных сигналов (которые могут определяться посредством аудиодекодера):

где является неотрицательным пороговым значением, используемым для того, чтобы ограничивать величину декоррелированного компонента, суммируемого с выходными сигналами (например, =4).

Следует отметить, что энергии могут быть восстановлены параметрически (например, с использованием OLD, IOC и коэффициентов рендеринга) или могут быть фактически вычислены посредством декодера (что типично является более вычислительно затратным).

Этот способ максимизирует использование сухих представленных посредством рендеринга выводов явно. Способ является эквивалентным упрощению A, когда ковариационные матрицы не имеют внедиагональных записей.

Этот способ имеет уменьшенную вычислительную сложность.

Тем не менее, следует отметить, что способ энергетической компенсации необязательно подразумевает то, что члены взаимной корреляции не модифицируются. Это справедливо только в том случае, если используются идеальные декорреляторы, и отсутствует уменьшение сложности для модуля декорреляции. Идея способа состоит в том, чтобы восстанавливать энергию и игнорировать модификации в перекрестных членах (изменения перекрестных членов не модифицируют существенно свойства корреляции и не влияют на полное пространственное впечатление).

14.5. Требования для матрицы F микширования

Далее, поясняется то, что матрица F микширования, извлечение которой описано в разделах 14.3 и 14.4, удовлетворяет требованиям, чтобы исключать ухудшения.

Во избежание ухудшений в выводе, любой способ для компенсации ошибок параметрического восстановления должен формировать результат со следующим свойством: если матрица рендеринга равна матрице понижающего микширования, то выходные каналы должны быть равными (или, по меньшей мере, аппроксимировать) каналы понижающего микширования. Предложенная модель удовлетворяет этому свойству. Если матрица рендеринга равна матрице понижающего микширования, R=D, параметрическое восстановление задается следующим образом:

и требуемая ковариационная матрица является следующей:

Следовательно, уравнение, которое должно быть решено для получения матрицы F микширования, следующее:

где является квадратной матрицей размера в нулей. При решении предыдущего уравнения для F, можно получать:

Это означает то, что декоррелированные сигналы имеют нулевой весовой коэффициент в суммировании, и конечный вывод задается посредством сухих сигналов, которые являются идентичными с сигналами понижающего микширования:

Как результат, в этом сценарии рендеринга удовлетворяется данное требование для равенства системного вывода сигналу понижающего микширования.

14.6. Оценка ковариационной матрицы E_s сигналов

Для того, чтобы получать матрицу F микширования, знание ковариационной матрицы E_s комбинированных сигналов S является обязательным или, по меньшей мере, желательным.

В принципе, можно оценивать ковариационную матрицу E_s непосредственно из доступных сигналов (а именно, из параметрического восстановления и вывода W декоррелятора).

Хотя этот подход может приводить к более точным результатам, он может не быть практичным вследствие ассоциированной вычислительной сложности. Предложенные способы используют параметрические аппроксимации ковариационной матрицы E_s.

Общая структура ковариационной матрицы E_s может представляться следующим образом:

где матрица является взаимной ковариантностью между прямыми и декоррелированными W сигналами.

При условии, что декорреляторы являются идеальными (т.е. сохраняющими энергию, причем выводы являются ортогональным к вводам, и все выводы являются взаимно ортогональными), ковариационная матрица E_s может выражаться с использованием упрощенной формы следующим образом:

Ковариационная матрица параметрически восстановленного сигнала может определяться параметрически следующим образом:

Ковариационная матрица декоррелированного сигнала W предположительно удовлетворяет свойству взаимной ортогональности и содержит только диагональные элементы следующим образом:

Если допущение в отношении взаимной ортогональности и/или сохранении энергии нарушается (например, в случае, когда число доступных декорреляторов меньше числа сигналов, которые должны быть декоррелированы), то ковариационная матрица может оцениваться следующим образом:

15. Уменьшение сложности для модуля декорреляции

Далее описывается то, как может уменьшаться сложность декорреляторов, используемых в вариантах осуществления согласно настоящему изобретению.

Следует отметить, что реализация функции декоррелятора зачастую является вычислительно сложной. В некоторых вариантах применения (например, в решениях для портативных декодеров), ограничения на число декорреляторов, возможно, должны вводиться вследствие ограниченных вычислительных ресурсов. Этот раздел предоставляет описание средств для уменьшения сложности модуля декорреляции посредством управления числом применяемых декорреляторов (или декорреляций). Интерфейс модуля декорреляции проиллюстрирован на фиг. 16 и 17.

Фиг. 16 показывает принципиальную блок-схему простого (традиционного) модуля декорреляции. Модуль 1600 декорреляции согласно фиг. 6 выполнен с возможностью принимать N входных сигналов 1610a-1610n декоррелятора, таких как, например, представленные посредством рендеринга аудиосигналы . Кроме того, модуль 1600 декорреляции предоставляет N выходных сигналов 1612a-1612n декоррелятора. Модуль 1600 декорреляции, например, может содержать N отдельных декорреляторов 1620a-1620n (или функций декорреляции). Например, каждый из отдельных декорреляторов 1620a-1620n может предоставлять один из выходных сигналов 1612a-1612n декоррелятора на основе ассоциированного одного из входных сигналов 1610a-1610n декоррелятора. Соответственно, может требоваться N отдельных декорреляторов 1620a-1620n или функций декорреляции, чтобы предоставлять N декоррелированных сигналов 1612a-1612n на основе N входных сигналов 1610a-1610n декоррелятора.

Тем не менее, фиг. 17 показывает принципиальную блок-схему модуля 1700 декорреляции с меньшей сложностью. Модуль 1700 декорреляции с меньшей сложностью выполнен с возможностью принимать N входных сигналов 1710a-1710n декоррелятора и предоставлять, на их основе, N выходных сигналов 1712a-1712n декоррелятора. Например, входные сигналы 1710a-1710n декоррелятора могут представлять собой представленные посредством рендеринга аудиосигналы , а выходные сигналы 1712a-1712n декоррелятора могут представлять собой декоррелированные аудиосигналы W.

Декоррелятор 1700 содержит предварительный микшер 1720 (или эквивалентно, функциональность предварительного микширования), который выполнен с возможностью принимать первый набор из N входных сигналов 1710a-1710n декоррелятора и предоставлять, на их основе, второй набор из K входных сигналов 1722a-1722k декоррелятора. Например, предварительный микшер 1720 может выполнять так называемое "предварительное микширование" или "понижающее микширование", чтобы извлекать второй набор из K входных сигналов 1722a-1722k декоррелятора на основе первого набора N входных сигналов 1710a-1710n декоррелятора. Например, K сигналов второго набора из K входных сигналов 1722a-1722k декоррелятора могут быть представлены с использованием матрицы . Модуль 1700 декорреляции (или, эквивалентно, многоканальный декоррелятор) также содержит ядро 1730 декоррелятора, которое выполнено с возможностью принимать K сигналов из второго набора входных сигналов 1722a-1722k декоррелятора и предоставлять, на их основе, K выходных сигналов декоррелятора, которые составляют первый набор выходных сигналов 1732a-1732k декоррелятора. Например, ядро 1730 декоррелятора может содержать K отдельных декорреляторов (или функций декорреляции), при этом каждый из отдельных декорреляторов (или функций декорреляции) предоставляет один из выходных сигналов декоррелятора из первого набора из K выходных сигналов 1732a-1732k декоррелятора на основе соответствующего входного сигнала декоррелятора из второго набора из K входных сигналов 1722a-1722k декоррелятора. Альтернативно, данный декоррелятор или функция декорреляции может применяться K раз, так что каждый из выходных сигналов декоррелятора из первого набора из K выходных сигналов 1732a-1732k декоррелятора основан на одном из входных сигналов декоррелятора из второго набора из K входных сигналов 1722a-1722k декоррелятора.

Модуль 1700 декорреляции также содержит постмикшер 1740, который выполнен с возможностью принимать K выходных сигналов 1732a-1732k декоррелятора из первого набора выходных сигналов декоррелятора и предоставлять, на их основе, N сигналов 1712a-1712n из второго набора выходных сигналов декоррелятора (которые составляют "внешние" выходные сигналы декоррелятора).

Следует отметить, что предварительный микшер 1720 предпочтительно может выполнять операцию линейного микширования, которая может описываться посредством матрицы M_pre предварительного микширования. Кроме того, постмикшер 1740 предпочтительно выполняет операцию линейного микширования (или повышающего микширования), которая может быть представлена посредством матрицы постмикширования, чтобы извлекать N выходных сигналов 1712a-1712n декоррелятора из второго набора выходных сигналов декоррелятора из первого набора из K выходных сигналов 1732a-1732k декоррелятора (т.е. из выходных сигналов ядра 1730 декоррелятора).

Основная идея предложенного способа и устройства состоит в том, чтобы сокращать число входных сигналов в декорреляторы (или в ядро декоррелятора) с N до k посредством следующего:

- Предварительное микширование сигналов (например, представленных посредством рендеринга аудиосигналов) в меньшее число каналов с помощью:

- Применение декорреляции с использованием доступных K декорреляторов (например, ядра декоррелятора) с помощью:

- Повышающее микширование декоррелированных сигналов обратно в N каналов с помощью:

Матрица M_pre предварительного микширования может составляться на основе информации понижающего микширования/рендеринга/корреляции/и т.д. таким образом, что матричное произведение становится хорошо обусловленным (относительно операции инверсии). Матрица постмикширования может вычисляться следующим образом:

Даже если ковариационная матрица промежуточных декоррелированных сигналов (или ) является диагональной (при допущении идеальных декорреляторов), ковариационная матрица конечных декоррелированных сигналов W с достаточной большой вероятностью больше не является диагональной при использовании этого вида обработки. Следовательно, ковариационная матрица, возможно, должна оцениваться с использованием матриц микширования следующим образом:

Число используемых декорреляторов (или отдельных декорреляций), k, не указывается и зависит от требуемой вычислительной сложности и доступных декорреляторов. Его значение может варьироваться от N (наибольшая вычислительная сложность) до 1 (наименьшая вычислительная сложность).

Число входных сигналов в модуль декорреляции, N, является произвольным, и предложенный способ поддерживает любое число входных сигналов, независимо от конфигурации рендеринга системы.

Например, в вариантах применения с использованием трехмерного аудиоконтента, с высоким числом выходных каналов, в зависимости от выходной конфигурации одно возможное выражение для матрицы предварительного микширования M_pre описывается ниже.

Далее описывается то, как предварительное микширование, которое выполняется посредством предварительного микшера 1720 (и следовательно, постмикширование, которое выполняется посредством постмикшера 1740), регулируется, если модуль 1700 декорреляции используется в многоканальном аудиодекодере, при этом входные сигналы 1710a-1710n декоррелятора из первого набора входных сигналов декоррелятора ассоциированы с различными пространственными позициями аудиосцены.

С этой целью, фиг. 18 показывает табличное представление позиций громкоговорителей, которые используются для различных выходных форматов.

В таблице 1800 по фиг. 18, первый столбец 1810 описывает числовой индекс громкоговорителя. Второй столбец 1820 описывает метку громкоговорителя. Третий столбец 1830 описывает азимутальную позицию соответствующего громкоговорителя, и четвертый столбец 1832 описывает азимутальный допуск позиции громкоговорителя. Пятый столбец 1840 описывает подъем позиции соответствующего громкоговорителя, и шестой столбец 1842 описывает соответствующий допуск по подъему. Седьмой столбец 1850 указывает, какие громкоговорители используются для выходного формата 0-2.0. Восьмой столбец 1860 показывает то, какие громкоговорители используются для выходного формата 0-5.1. Девятый столбец 1864 показывает то, какие громкоговорители используются для выходного формата 0-7.1. Десятый столбец 1870 показывает то, какие громкоговорители используются для выходного формата 0-8.1, одиннадцатый столбец 1880 показывает то, какие громкоговорители используются для выходного формата 0-10.1, и двенадцатый столбец 1890 показывает то, какие громкоговорители используются для выходного формата 0-22.2. Как можно видеть, два громкоговорителя используются для выходного формата 0-2.0, шесть громкоговорителей используются для выходного формата 0-5.1, восемь громкоговорителей используются для выходного формата 0-7.1, девять громкоговорителей используются для выходного формата 0-8.1, 11 громкоговорителей используются для выходного формата 0-10.1, и 24 громкоговорителя используются для выходного формата 0-22.2.

Тем не менее, следует отметить, что один громкоговоритель с низкочастотным эффектом используется для выходных форматов 0-5.1, 0-7.1, 0-8.1 и 0-10.1, и что два громкоговорителя (LFE1, LFE2) с низкочастотным эффектом используются для выходного формата 0-22.2. Кроме того, следует отметить, что в предпочтительном варианте осуществления, один представленный посредством рендеринга аудиосигнал (например, один из представленных посредством рендеринга аудиосигналов 1582a-1582n) ассоциирован с каждым из громкоговорителей, за исключением одного или более громкоговорителей с низкочастотным эффектом. Соответственно, два представленных посредством рендеринга аудиосигнала ассоциированы с двумя громкоговорителями, используемыми согласно формату 0-2.0, пять представленных посредством рендеринга аудиосигналов ассоциированы с пятью громкоговорителями без низкочастотного эффекта, если используется формат 0-5.1, семь представленных посредством рендеринга аудиосигналов ассоциированы с семью громкоговорителями без низкочастотного эффекта, если используется формат 0-7.1, восемь представленных посредством рендеринга аудиосигналов ассоциированы с восемью громкоговорителями без низкочастотного эффекта, если используется формат 0-8.1, десять представленных посредством рендеринга аудиосигналов ассоциированы с десятью громкоговорителями без низкочастотного эффекта, если используется формат 0-10.1, и 22 представленных посредством рендеринга аудиосигнала ассоциированы с 22 громкоговорителями без низкочастотного эффекта, если используется формат 0-22.2.

Тем не менее, часто желательно использовать меньшее число (отдельных) декорреляторов (ядра декоррелятора), как упомянуто выше. Далее описывается то, как число декорреляторов может гибко уменьшаться, когда выходной формат 0-22.2 используется посредством многоканального аудиодекодера, так что предусмотрено 22 представленных посредством рендеринга аудиосигнала 1582a-1582n (которые могут быть представлены посредством матрицы или посредством вектора ).

Фиг. 19a-19g представляют различные варианты для предварительного микширования представленных посредством рендеринга аудиосигналов 1582a-1582n при допущении, что имеется N=22 представленных посредством рендеринга аудиосигнала. Например, фиг. 19a показывает табличное представление записей матрицы M_pre предварительного микширования. Строки, помеченные 1-11 на фиг. 19a, представляют строки матрицы M_pre предварительного микширования, и столбцы, помеченные 1-22, ассоциированы со столбцами матрицы M_pre предварительного микширования. Кроме того, следует отметить, что каждая строка матрицы M_pre предварительного микширования ассоциирована с одним из K входных сигналов 1722a-1722k декоррелятора из второго набора входных сигналов декоррелятора (т.е. с входными сигналами ядра декоррелятора). Кроме того, каждый столбец матрицы M_pre предварительного микширования ассоциирован с одним из N входных сигналов 1710a-1710n декоррелятора из первого набора входных сигналов декоррелятора, и, следовательно, с одним из представленных посредством рендеринга аудиосигналов 1582a-1582n (поскольку входные сигналы 1710a-1710n декоррелятора из первого набора входных сигналов декоррелятора типично являются идентичными представленными посредством рендеринга аудиосигналам 1582-1582n в варианте осуществления). Соответственно, каждый столбец матрицы M_pre предварительного микширования ассоциирован с конкретным громкоговорителем, и, следовательно, поскольку громкоговорители ассоциированы с пространственными позициями, с конкретной пространственной позицией. Строка 1910 указывает то, с каким громкоговорителем (и следовательно, с какой пространственной позицией) ассоциированы столбцы матрицы M_pre предварительного микширования (при этом метки громкоговорителей задаются в столбце 1820 таблицы 1800).

Далее подробнее описывается функциональность, заданная посредством предварительного микширования M_pre по фиг. 19a. Как можно видеть, представленные посредством рендеринга аудиосигналы, ассоциированные с динамиками (или, эквивалентно, позициями динамиков) "CH_M_000" и "CH_L_000", комбинированы с возможностью получать первый входной сигнал декоррелятора из второго набора входных сигналов декоррелятора (т.е. первый микшированный с понижением входной сигнал декоррелятора), который указывается посредством значений в "1" в первом и втором столбце первой строки матрицы предварительного микширования M_pre Аналогично, представленные посредством рендеринга аудиосигналы, ассоциированные с динамиками (или, эквивалентно, позициями динамиков) "CH_U_000" и "CH_T_000" комбинированы с возможностью получать второй микшированный с понижением входной сигнал декоррелятора (т.е. второй входной сигнал декоррелятора из второго набора входных сигналов декоррелятора). Кроме того, можно видеть, что матрица M_pre предварительного микширования по фиг. 19a задает одиннадцать комбинаций из двух представленных посредством рендеринга аудиосигналов, так что одиннадцать микшированных с понижением входных сигналов декоррелятора извлекаются из 22 представленных посредством рендеринга аудиосигналов. Также можно видеть, что четыре центральных сигнала комбинированы с возможностью получать два микшированных с понижением входных сигнала декоррелятора (см. столбцы 1-4 и строки 1 и 2 матрицы предварительного микширования). Кроме того, можно видеть, что другие микшированные с понижением входные сигналы декоррелятора получены посредством комбинирования двух аудиосигналов, ассоциированных с идентичной стороной аудиосцены. Например, третий микшированный с понижением входной сигнал декоррелятора, представленный посредством третьей строки матрицы предварительного микширования, получается посредством комбинирования представленных посредством рендеринга аудиосигналов, ассоциированных с азимутальной позицией +135° ("CH_M_L135"; "CH_U_L135"). Кроме того, можно видеть, что четвертый входной сигнал декоррелятора (представленный посредством четвертой строки матрицы предварительного микширования) получается посредством комбинирования представленных посредством рендеринга аудиосигналов, ассоциированных с азимутальной позицией -135° ("CH_M_R135"; "CH_U_R135"). Соответственно, каждый из микшированных с понижением входных сигналов декоррелятора получается посредством комбинирования двух представленных посредством рендеринга аудиосигналов, ассоциированных с идентичной (или аналогичной) азимутальной позицией (или, эквивалентно, горизонтальной позицией), при этом типично предусмотрена комбинация сигналов, ассоциированных с различным подъемом (или, эквивалентно, вертикальной позицией).

Обратимся теперь к фиг. 19b, который показывает коэффициенты предварительного микширования (записи матрицы M_pre предварительного микширования) для N=22 и K=10. Структура таблицы по фиг. 19b является идентичной структуре таблицы по фиг. 19a. Тем не менее, как можно видеть, матрица M_pre предварительного микширования согласно фиг. 19b отличается от матрицы M_pre предварительного микширования по фиг. 19a тем, что первая строка описывает комбинацию четырех представленных посредством рендеринга аудиосигналов, имеющих идентификаторы каналов (или позиции) "CH_M_000", "CH_L_000", "CH_U_000" и "CH_T_000". Другими словами, четыре представленных посредством рендеринга аудиосигнала, ассоциированные с вертикально смежными позициями, комбинированы в предварительное микширование, чтобы сокращать число требуемых декорреляторов (десять декорреляторов вместо одиннадцати декорреляторов для матрицы согласно фиг. 19a).

Если обратиться теперь к фиг. 19c, который показывает коэффициенты предварительного микширования (записи матрицы M_pre предварительного микширования) для N=22 и K=9, можно видеть, что матрица M_pre предварительного микширования согласно фиг. 19c содержит только девять строк. Кроме того, из второй строки матрицы M_pre предварительного микширования по фиг. 19c можно видеть, что представленные посредством рендеринга аудиосигналы, ассоциированные с идентификаторами каналов (или позициями) "CH_M_L135", "CH_U_L135", "CH_M_R135" и "CH_U_R135", комбинированы (в предварительном микшере, сконфигурированном согласно матрице предварительного микширования по фиг. 19c) с возможностью получать второй микшированный с понижением входной сигнал декоррелятора (входной сигнал декоррелятора из второго набора входных сигналов декоррелятора). Как можно видеть, представленные посредством рендеринга аудиосигналы, которые комбинированы в отдельные микшированные с понижением входные сигналы декоррелятора посредством матриц предварительного микширования согласно фиг. 19a и 19b, микшированы с понижением в общий микшированный с понижением входной сигнал декоррелятора согласно фиг. 19c. Кроме того, следует отметить, что представленные посредством рендеринга аудиосигналы, имеющие идентификаторы каналов "CH_M_L135" и "CH_U_L135", ассоциированы с идентичными горизонтальными позициями (или азимутальными позициями) на идентичной стороне аудиосцены и пространственно смежными вертикальными позициями (или подъемами), и что представленные посредством рендеринга аудиосигналы, имеющие идентификаторы каналов "CH_M_R135" и "CH_U_R135", ассоциированы с идентичными горизонтальными позициями (или азимутальными позициями) на второй стороне аудиосцены и пространственно смежными вертикальными позициями (или подъемами). Кроме того, можно сказать, что представленные посредством рендеринга аудиосигналы, имеющие идентификаторы каналов "CH_M_L135", "CH_U_L135", "CH_M_R135" и "CH_U_R135", ассоциированы с горизонтальной парой (или даже горизонтальной четверкой) пространственных позиций, содержащих левостороннюю позицию и правостороннюю позицию. Другими словами, во второй строке матрицы M_pre предварительного микширования по фиг. 19c можно видеть, что два из четырех представленных посредством рендеринга аудиосигналов, которые комбинированы для декорреляции с использованием одного данного декоррелятора, ассоциированы с пространственными позициями в левой стороне аудиосцены, и что два из четырех представленных посредством рендеринга аудиосигналов, которые комбинированы для декорреляции с использованием идентичного данного декоррелятора, ассоциированы с пространственными позициями в правой стороне аудиосцены. Кроме того, можно видеть, что левосторонние представленные посредством рендеринга аудиосигналы (из упомянутых четырех представленных посредством рендеринга аудиосигналов) ассоциированы с пространственными позициями, которые являются симметричными, относительно центральной плоскости аудиосцены, с пространственными позициями, ассоциированными с правосторонними представленными посредством рендеринга аудиосигналами (из упомянутых четырех представленных посредством рендеринга аудиосигналов), так что "симметричная" четверка представленных посредством рендеринга аудиосигналов комбинирована посредством предварительного микширования для декорреляции с использованием одного (отдельного) декоррелятора.

Если обратиться к фиг. 19d, 19e, 19f и 19g, можно видеть, что все большее число представленных посредством рендеринга аудиосигналов комбинированы с сокращением числа (отдельных) декорреляторов (т.е. со снижением K). Как можно видеть на фиг. 19a-19g, типично представленные посредством рендеринга аудиосигналы, которые микшированы с понижением в два отдельных микшированных с понижением входных сигнала декоррелятора, комбинированы при сокращении числа декорреляторов посредством 1. Кроме того, можно видеть, что типично комбинируются такие представленные посредством рендеринга аудиосигналы, которые ассоциированы с "симметричной четверкой" пространственных позиций, при этом, для сравнительно высокого числа декорреляторов, комбинируются только представленные посредством рендеринга аудиосигналы, ассоциированные с равными или, по меньшей мере, аналогичными горизонтальными позициями (или азимутальными позициями), тогда как для сравнительно меньшего числа декорреляторов, также комбинируются представленные посредством рендеринга аудиосигналы, ассоциированные с пространственными позициями на противоположных сторонах аудиосцены.

Если обратиться теперь к фиг. 20a-20d, 21a-21c, 22a-22b и 23, следует отметить, что аналогичные принципы также могут применяться для различного числа представленных посредством рендеринга аудиосигналов.

Например, фиг. 20a-20d описывают записи матрицы M_pre предварительного микширования для N=10 и для K между 2 и 5.

Аналогично, фиг. 21a-21c описывают записи матрицы M_pre предварительного микширования для N=8 и K между 2 и 4.

Аналогично, фиг. 21d-21f описывают записи матрицы M_pre предварительного микширования для N=7 и K между 2 и 4.

Фиг. 22a и 22b показывают записи матрицы предварительного микширования для N=5 и K=2 и K=3.

В завершение, фиг. 23 показывает записи матрицы предварительного микширования для N=2 и K=1.

Если обобщать, матрицы предварительного микширования согласно фиг. 19-23 могут использоваться, например, переключаемым способом, в многоканальном декорреляторе, который является частью многоканального аудиодекодера. Переключение между матрицами предварительного микширования может выполняться, например, в зависимости от требуемой выходной конфигурации (которая типично определяет число N представленных посредством рендеринга аудиосигналов), а также в зависимости от требуемой сложности декорреляции (которая определяет параметр K и которая может регулироваться, например, в зависимости от информации сложности, включенной в кодированное представление аудиоконтента).

Если обратиться теперь к фиг. 24, подробнее описывается уменьшение сложности для выходного 22.2-формата. Как уже указано выше, одно возможное решение для составления матрицы предварительного микширования и матрицы постмикширования состоит в том, чтобы использовать пространственную информацию схемы размещения для воспроизведения, чтобы выбирать каналы, которые должны микшироваться, и вычислять коэффициенты микширования. На основе их позиции, геометрически связанные громкоговорители (и, например, представленные посредством рендеринга аудиосигналы, ассоциированные кроме того) группируются между собой, с рассмотрением вертикальных и горизонтальных пар, как описано в таблице по фиг. 24. Другими словами, фиг. 24 показывает, в форме таблицы, группировку позиций громкоговорителей, которые могут быть ассоциированы с представленными посредством рендеринга аудиосигналами. Например, первая строка 2410 описывает первую группу позиций громкоговорителей, которые находятся в центре аудиосцены. Вторая строка 2412 представляет вторую группу позиций громкоговорителей, которые пространственно связаны. Позиции громкоговорителей "CH_M_L135" и "CH_U_L135" ассоциированы с идентичными азимутальными позициями (или эквивалентно горизонтальными позициями) и смежными позициями подъема (или эквивалентно, вертикально смежными позициями). Аналогично, позиции "CH_M_R135" и "CH_U_R135" содержат идентичный азимут (или, эквивалентно, идентичную горизонтальную позицию) и аналогичный подъем (или, эквивалентно, вертикально смежную позицию). Кроме того, позиции "CH_M_L135", "CH_U_L135", "CH_M_R135" и "CH_U_R135" формируют четверку позиций, в которой позиции "CH_M_L135" и "CH_U_L135" являются симметричными позициям "CH_M_R135" и "CH_U_R135" относительно осевой плоскости аудиосцены. Кроме того, позиции "CH_M_180" и "CH_U_180" также содержат идентичную азимутальную позицию (или, эквивалентно, идентичную горизонтальную позицию) и аналогичный подъем (или, эквивалентно, смежную вертикальную позицию).

Третья строка 2414 представляет третью группу позиций. Следует отметить, что позиции "CH_M_L030" и "CH_L_L045" являются пространственно смежными позициями и содержат аналогичный азимут (или, эквивалентно, аналогичную горизонтальную позицию) и аналогичный подъем (или, эквивалентно, аналогичную вертикальную позицию). То же справедливо для позиций "CH_M_R030" и "CH_L_R045". Кроме того, позиции третьей группы позиций формируют четверку позиций, в которой позиции "CH_M_L030" и "CH_L_L045" являются пространственно смежными и симметричными относительно осевой плоскости аудиосцены позициям "CH_M_R030" и "CH_L_R045".

Четвертая строка 2416 представляет четыре дополнительных позиции, которые имеют аналогичные характеристики, по сравнению с первыми четырьмя позициями второй строки, и которые формируют симметричную четверку позиций.

Пятая строка 2418 представляет другую четверку симметричных позиций "CH_M_L060", "CH_U_L045", "CH_M_R060" и "CH_U_R045".

Кроме того, следует отметить, что представленные посредством рендеринга аудиосигналы, ассоциированные с позициями различных групп позиций, могут быть комбинированы все в большем числе с сокращением числа декорреляторов. Например, при наличии одиннадцати отдельных декорреляторов в многоканальном декорреляторе, представленные посредством рендеринга аудиосигналы, ассоциированные с позициями в первом и втором столбце, могут быть комбинированы для каждой группы. Помимо этого, представленные посредством рендеринга аудиосигналы, ассоциированные с позициями, представленными в третьем и четвертом столбце, могут быть комбинированы для каждой группы. Кроме того, представленные посредством рендеринга аудиосигналы, ассоциированные с позициями, показанными в пятом и шестом столбце, могут быть комбинированы для второй группы. Соответственно, могут получаться одиннадцать входных сигналов декоррелятора понижающего микширования (которые вводятся в отдельные декорреляторы). Тем не менее, если требуется иметь меньше отдельных декорреляторов, представленные посредством рендеринга аудиосигналы, ассоциированные с позициями, показанными в столбцах 1-4, могут быть комбинированы для одной или более групп. Кроме того, представленные посредством рендеринга аудиосигналы, ассоциированные со всеми позициями второй группы, могут быть комбинированы, если требуется дополнительно сокращать число отдельных декорреляторов.

Если обобщать, сигналы, подаваемые в выходную схему размещения (например, в динамики), имеют горизонтальные и вертикальные зависимости, которые должны сохраняться во время процесса декорреляции. Следовательно, коэффициенты микширования вычисляются таким образом, что каналы, соответствующие различным группам громкоговорителя, не микшируются.

В зависимости от числа доступных декорреляторов или требуемого уровня декорреляции, в каждой группе сначала микшируются вертикальные пары (между средним уровнем и верхним уровнем или между средним уровнем и нижним уровнем). Во-вторых, микшируются горизонтальные пары (между левым и правым) или оставшиеся вертикальные пары. Например, в группе три, сначала микшируются каналы в левой вертикальной паре ("CH_M_L030" и "CH_L_L045") и в правой вертикальной паре ("CH_M_R030" и "CH_L_R045"), за счет этого сокращая число требуемых декорреляторов для этой группы с четырех до двух. Если требуется сокращать еще больше число декорреляторов, полученная горизонтальная пара микширована с понижением только в один канал, и число требуемых декорреляторов для этой группы уменьшается с четырех до одного.

На основе представленных правил микширования, вышеупомянутые таблицы (например, показанные на фиг. 19-23) извлекаются для разных уровней требуемой декорреляции (или для разных уровней требуемой сложности декорреляции).

16. Совместимость со вторичным внешним модулем рендеринга/преобразователем форматов

В случае, когда SAOC-декодер (или, если обобщать, многоканальный аудиодекодер) используется вместе с внешним вторичным модулем рендеринга/преобразователем форматов, могут использоваться следующие изменения предложенного принципа (способа или устройства):

- внутренняя матрица R рендеринга (например, модуля рендеринга) задается равной идентификатору (когда используется внешний модуль рендеринга) или инициализируется с коэффициентами микширования, извлекаемыми из промежуточной конфигурации рендеринга (когда используется внешний преобразователь форматов).

- число декорреляторов уменьшается с использованием способа, описанного в разделе 15, с матрицей M_pre предварительного микширования, вычисленной на основе информации обратной связи, принимаемой из модуля рендеринга/преобразователя форматов (например, , где является матрицей понижающего микширования, используемой в преобразователе форматов). Каналы, которые должны микшироваться за пределами SAOC-декодера, предварительно микшируются и подаются в идентичный декоррелятор в SAOC-декодере.

С использованием внешнего преобразователя форматов, внутренний модуль SAOC-рендеринга должен предварительно представлять посредством рендеринга в промежуточную конфигурацию (например, конфигурацию с наибольшим числом громкоговорителей).

В качестве вывода, в некоторых вариантах осуществления информация относительно того, какие из выходных аудиосигналов микшируются во внешнем модуле рендеринга или преобразователе форматов, используется для того, чтобы определять матрицу M_pre предварительного микширования, так что матрица предварительного микширования задает комбинацию таких входных сигналов декоррелятора (первого набора входных сигналов декоррелятора), которые фактически комбинированы во внешнем модуле рендеринга. Таким образом, информация, принимаемая из внешнего модуля рендеринга/преобразователя форматов (который принимает выходные аудиосигналы многоканального декодера), используется для того, чтобы выбирать или регулировать матрицу предварительного микширования (например, когда внутренняя матрица рендеринга многоканального аудиодекодера задается равной идентификатору или инициализируется с коэффициентами микширования, извлекаемыми из промежуточной конфигурации рендеринга), и внешний модуль рендеринга/преобразователь форматов соединен, чтобы принимать выходные аудиосигналы, как упомянуто выше относительно многоканального аудиодекодера.

17. Поток битов

Далее описывается то, какая дополнительная служебная информация может использоваться в потоке битов (или эквивалентно, в кодированном представлении аудиоконтента). В вариантах осуществления согласно изобретению, способ декорреляции может сигнализироваться в потоке битов для обеспечения требуемого уровня качества. Таким образом, пользователь (или аудиокодер) имеет большую гибкость в том, чтобы выбирать способ на основе контента. С этой целью, синтаксис MPEG SAOC-потока битов, например, может быть расширен на два бита для указания используемого способа декорреляции и/или два бита для указания конфигурации (или сложности).

Фиг. 25 показывает синтаксическое представление элементов bsDecorrelationMethod и bsDecorrelationLevel потока битов, которые могут добавляться, например, в часть SAOCSpecifigConfig() или SAOC3DSpecificConfig() потока битов. Как можно видеть на фиг. 25, два бита могут использоваться для элемента bsDecorrelationMethod потока битов, и два бита могут использоваться для элемента bsDecorrelationLevel потока битов.

Фиг. 26 показывает, в форме таблицы, ассоциирование между значениями переменной bsDecorrelationMethod потока битов и различными способами декорреляции. Например, три различных способа декорреляции могут сигнализироваться посредством различных значений упомянутой переменной потока битов. Например, коррекция выходной ковариантности с использованием декоррелированных сигналов, как описано, например, в разделе 14.3, может сигнализироваться в качестве одного из вариантов. В качестве другого варианта, может сигнализироваться способ регулирования ковариантности, например, как описано в разделе 14.4.1. В качестве еще одного другого варианта, может сигнализироваться способ энергетической компенсации, например, как описано в разделе 14.4.2. Соответственно, три различных способа для восстановления характеристик сигналов выходных аудиосигналов на основе представленных посредством рендеринга аудиосигналов и декоррелированных аудиосигналов могут выбираться в зависимости от переменной потока битов.

Режим энергетической компенсации использует способ, описанный в разделе 14.4.2, режим ограниченного регулирования ковариантности использует способ, описанный в разделе 14.4.1, а режим общего регулирования ковариантности использует способ, описанный в разделе 14.3.

Если обратиться теперь к фиг. 27, который показывает, в форме табличного представления, как различные уровни декорреляции могут сигнализироваться посредством переменной bsDecorrelationLevel потока битов, описывается способ для выбора сложности декорреляции. Другими словами, упомянутая переменная может оцениваться посредством многоканального аудиодекодера, содержащего многоканальный декоррелятор, описанный выше, чтобы определять то, какая сложность декорреляции используется. Например, упомянутый параметр потока битов может сигнализировать различные "уровни" декорреляции, которые могут быть обозначены с помощью значений: 0, 1, 2 и 3.

Пример конфигураций декорреляции (которые, например, могут обозначаться как "уровни декорреляции") приведен в таблице по фиг. 27. Фиг. 27 показывает табличное представление числа декорреляторов для различных "уровней" (например, уровней декорреляции) и выходных конфигураций. Другими словами, фиг. 27 показывает число K входных сигналов декоррелятора (второго набора входных сигналов декоррелятора), которые используются посредством многоканального декоррелятора. Как можно видеть в таблице по фиг. 27, число (отдельных) декорреляторов, используемых в многоканальном декорреляторе, переключается между 11, 9,7 и 5 для выходной 22.2-конфигурации в зависимости от того, какой "уровень декорреляции" сигнализируется посредством параметра bsDecorrelationLevel потока битов. Для выходной 10.1-конфигурации, выбор осуществляется между 10, 5, 3 и 2 отдельными декорреляторами, для 8.1-конфигурации, выбор осуществляется между 8, 4, 3 или 2 отдельными декорреляторами, и для выходной 7.1-конфигурации, выбор осуществляется между 7, 4, 3 и 2 декорреляторами в зависимости от "уровня декорреляции", сигнализируемого посредством упомянутого параметра потока битов. В выходной 5.1-конфигурации, предусмотрено только три допустимых варианта для чисел отдельных декорреляторов, а именно, 5, 3 или 2. Для выходной 2.1-конфигурации, предусмотрен только выбор между двумя отдельными декорреляторами (уровень 0 декорреляции) и одним отдельным декоррелятором (уровень 1 декорреляции).

Если обобщать, способ декорреляции может определяться на стороне декодера на основе вычислительной мощности и доступного числа декорреляторов. Помимо этого, выбор числа декорреляторов может осуществляться на стороне кодера и сигнализироваться с использованием параметра потока битов.

Соответственно, как способ того, как применяются декоррелированные аудиосигналы, чтобы получать выходные аудиосигналы, так и сложность для инициализации декоррелированных сигналов может управляться со стороны аудиокодера с использованием параметров потока битов, показанных на фиг. 25 и подробнее заданных на фиг. 26 и 27.

18. Области применения для изобретаемой обработки

Следует отметить, что одна из целей введенных способов заключается в том, чтобы восстанавливать сигнальные аудиометки, которые имеют большую важность для человеческого восприятия аудиосцены. Варианты осуществления согласно изобретению повышают точность восстановления свойств энергетического уровня и корреляции и, следовательно, увеличивают перцепционное качество звучания конечного выходного сигнала. Варианты осуществления согласно изобретению могут применяться для произвольного числа каналов понижающего микширования/повышающего микширования. Кроме того, способы и устройства, описанные в данном документе, могут быть комбинированы с существующими алгоритмами разделения параметрических источников. Варианты осуществления согласно изобретению дают возможность управлять вычислительной сложностью системы посредством задания ограничений на число применяемых функций декоррелятора. Варианты осуществления согласно изобретению могут приводить к упрощению алгоритмов объектно-ориентированного параметрического составления, таких как SAOC, посредством удаления этапа MPS-транскодирования.

19. Окружение кодирования/декодирования

Далее описывается окружение кодирования/декодирования аудио, в котором могут применяться принципы согласно настоящему изобретению.

Система трехмерных аудиокодеков, в которой могут использоваться принципы согласно настоящему изобретению, основана на MPEG-D USAC-кодеке для кодирования сигналов каналов и объектов, чтобы повышать эффективность для кодирования большого количества объектов. Адаптирована MPEG SAOC-технология. Три типа модулей рендеринга выполняют задачи рендеринга объектов в каналы, рендеринга каналов в наушники или рендеринга каналов в различные компоновки громкоговорителей. Когда сигналы объектов явно передаются или параметрически кодируются с использованием SAOC, соответствующая информация метаданных объектов сжимается и мультиплексируется в трехмерный аудиопоток.

Фиг. 28, 29 и 30 показывают различные алгоритмические блоки трехмерной аудиосистемы.

Фиг. 28 показывает принципиальную блок-схему такого аудиокодера, а фиг. 29 показывает принципиальную блок-схему такого аудиодекодера. Другими словами, фиг. 28 и 29 показывают различные алгоритмические блоки трехмерной аудиосистемы.

Если обратиться теперь к фиг. 28, который показывает принципиальную блок-схему трехмерного аудиокодера 2900, поясняются некоторые подробности. Кодер 2900 содержит необязательный модуль 2910 предварительного рендеринга/микшер, который принимает один или более сигналов 2912 каналов и один или более сигналов 2914 объектов и предоставляет, на их основе, один или более сигналов 2916 каналов, а также один или более сигналов 2918, 2920 объектов. Аудиокодер также содержит USAC-кодер 2930 и необязательно SAOC-кодер 2940. SAOC-кодер 2940 выполнен с возможностью предоставлять один или более транспортных SAOC-каналов 2942 и вспомогательную SAOC-информацию 2944 на основе одного или более объектов 2920, предоставленных для SAOC-кодера. Кроме того, USAC-кодер 2930 выполнен с возможностью принимать сигналы 2916 каналов, содержащие каналы и предварительно представленные посредством рендеринга объекты, из модуля 2910 предварительного рендеринга/микшера, принимать один или более сигналов 2918 объектов из модуля 2910 предварительного рендеринга/микшера и принимать один или более транспортных SAOC-каналов 2942 и вспомогательную SAOC-информацию 2944 и предоставлять, на их основе, кодированное представление 2932. Кроме того, аудиокодер 2900 также содержит кодер 2950 метаданных объектов, который выполнен с возможностью принимать метаданные 2952 объектов (которые могут оцениваться посредством модуля 2910 предварительного рендеринга/микшера) и кодировать метаданные объектов, чтобы получать кодированные метаданные 2954 объектов. Кодированные метаданные также приняты посредством USAC-кодера 2930 и использованы для того, чтобы предоставлять кодированное представление 2932.

Ниже описываются некоторые подробности относительно отдельных компонентов аудиокодера 2900.

Если обратиться теперь к фиг. 29, описывается аудиодекодер 3000. Аудиодекодер 3000 выполнен с возможностью принимать кодированное представление 3010 и предоставлять, на его основе, многоканальный сигнал 3012 громкоговорителя, сигналы 3014 наушников и/или сигналы 3016 громкоговорителей в альтернативном формате (например, в 5.1-формате). Аудиодекодер 3000 содержит USAC-декодер 3020, который предоставляет один или более сигналов 3022 каналов, один или более предварительно представленных посредством рендеринга сигналов 3024 объектов, один или более сигналов 3026 объектов, один или более транспортных SAOC-каналов 3028, вспомогательную SAOC-информацию 3030 и информацию 3032 сжатых метаданных объектов на основе кодированного представления 3010. Аудиодекодер 3000 также содержит модуль 3040 рендеринга объектов, который выполнен с возможностью предоставлять один или более представленных посредством рендеринга сигналов 3042 объектов на основе одного или более сигналов 3026 объектов и информацию 3044 метаданных объектов, при этом информация 3044 метаданных объектов предоставляется посредством декодера 3050 метаданных объектов на основе информации 3032 сжатых метаданных объектов. Аудиодекодер 3000 также содержит, необязательно, SAOC-декодер 3060, который выполнен с возможностью принимать транспортный SAOC-канал 3028 и вспомогательную SAOC-информацию 3030 и предоставлять, на их основе, один или более представленных посредством рендеринга сигналов 3062 объектов. Аудиодекодер 3000 также содержит микшер 3070, который выполнен с возможностью принимать сигналы 3022 каналов, предварительно представленные посредством рендеринга сигналы 3024 объектов, представленные посредством рендеринга сигналы 3042 объектов и представленные посредством рендеринга сигналы 3062 объектов и предоставлять, на их основе, множество микшированных сигналов 3072 каналов, которые, например, могут составлять многоканальные сигналы 3012 громкоговорителей. Аудиодекодер 3000, например, может также содержать модуль 3080 бинаурального рендеринга, который выполнен с возможностью принимать микшированные сигналы 3072 каналов и предоставлять, на их основе, сигналы 3014 наушников. Кроме того, аудиодекодер 3000 может содержать преобразование 3090 формата, которое выполнено с возможностью принимать микшированные сигналы 3072 каналов и информацию 3092 схемы размещения для воспроизведения и предоставлять, на их основе, сигнал 3016 громкоговорителя для альтернативной компоновки громкоговорителей.

Далее описываются некоторые подробности относительно компонентов аудиокодера 2900 и аудиодекодера 3000.

19.1. Модуль предварительного рендеринга/микшер

Модуль 2910 предварительного рендеринга/микшер необязательно может быть использован для того, чтобы преобразовывать входную сцену каналов плюс объектов в сцену каналов перед кодированием. Функционально, он может быть идентичным, например, модулю рендеринга объектов/микшеру, описанному ниже.

Предварительный рендеринг объектов, например, может обеспечивать детерминированную энтропию сигналов на входе кодера, которая по существу является независимой от числа одновременно активных сигналов объектов.

При предварительном рендеринге объектов, не требуется передача метаданных объектов.

Сигналы дискретных объектов представляются посредством рендеринга в схему размещения каналов, которую кодер выполнен с возможностью использовать, весовые коэффициенты объектов для каждого канала получаются из ассоциированных метаданных 1952 объектов (OAM).

19.2. Базовый USAC-кодек

Базовый кодек 2930, 3020 для сигналов каналов громкоговорителя, сигналов дискретных объектов, сигналов понижающего микширования объектов и предварительно представленных посредством рендеринга сигналов основан на MPEG-D USAC-технологии. Он обрабатывает декодирование множества сигналов посредством создания информации преобразования каналов и объектов на основе геометрической и семантической информации назначения входных каналов и объектов. Эта информация преобразования описывает то, как входные каналы и объекты преобразуются в канальные USAC-элементы (CPE, SCE, LFE), и соответствующая информация передается в декодер.

Все дополнительные рабочие данные, такие как SAOC-данные или метаданные объектов, проходят через расширенные элементы и учитываются при управлении скоростью кодеров. Декодирование объектов является возможным различными способами, в зависимости от требований по искажению в зависимости от скорости передачи и требований по интерактивности для модуля рендеринга. Возможны следующие варианты кодирования объектов:

- Предварительно представленные посредством рендеринга объекты: сигналы объектов представляются посредством рендеринга и микшируются в 22.2-канальные сигналы перед кодированием. Последующая цепочка кодирования видит 22.2-канальные сигналы.

- Формы сигналов дискретных объектов: объекты, применяемые в качестве монофонических форм сигнала для кодера. Кодер использует одноканальные элементы (SCE) для того, чтобы передавать объекты в дополнение к сигналам каналов. Декодированные объекты представляются посредством рендеринга и микшируются на стороне приемного устройства. Информация сжатых метаданных объектов передается в приемное устройство/модуль рендеринга совместно.

- Формы сигналов параметрических объектов: свойства объектов и их взаимосвязь между собой описываются посредством SAOC-параметров. Понижающее микширование сигналов объектов кодируется с помощью USAC. Параметрическая информация передается совместно. Число каналов понижающего микширования выбирается в зависимости от числа объектов и полной скорости передачи данных. Информация сжатых метаданных объектов передается в модуль SAOC-рендеринга.

19.3. SAOC

SAOC-кодер 2940 и SAOC-декодер 3060 для сигналов объектов основаны на MPEG SAOC-технологии. Система допускает повторное создание, модификацию и рендеринг определенного числа аудиообъектов на основе меньшего числа передаваемых каналов и дополнительных параметрических данных (разностей уровней объектов (OLD), межобъектных корреляций (IOC), усилений при понижающем микшировании (DMG)). Дополнительные параметрические данные демонстрируют значительно более низкую скорость передачи данных, чем требуется для передачи всех объектов по отдельности, что делает декодирование очень эффективным. SAOC-кодер принимает в качестве ввода сигналы объектов/каналов в качестве монофонических форм сигнала и выводит параметрическую информацию (которая пакетирована в трехмерный поток 2932, 3010 аудиобитов) и транспортные SAOC-каналы (которые кодируются с использованием одноканальных элементов и передаются). SAOC-декодер 3000 восстанавливает сигналы объектов/каналов из декодированных транспортных SAOC-каналов и 3028 параметрической информации 3030 и формирует выходную аудиосцену на основе схемы размещения для воспроизведения, информации распакованных метаданных объектов и необязательно на основе информации пользовательского взаимодействия.

19.4. Кодек метаданных объектов

Для каждого объекта, ассоциированные метаданные, которые указывают геометрическую позицию и объем объекта в трехмерном пространстве, эффективно кодируются посредством квантования свойств объектов во времени и пространстве. Сжатые метаданные 2954, 3032 объектов (cOAM) передаются в приемное устройство в качестве вспомогательной информации.

19.5. Модуль рендеринга объектов/микшер

Модуль рендеринга объектов использует распакованные метаданные 3044 объектов (OAM) для того, чтобы формировать формы сигналов объектов согласно данному формату воспроизведения. Каждый объект представляется посредством рендеринга в определенные выходные каналы согласно своим метаданным. Вывод этого блока получается в результате суммы частичных результатов.

Если декодируются как канальный контент, так и дискретные/параметрические объекты, канальные формы сигналов и представленные посредством рендеринга формы сигналов объектов микшируются перед выводом результирующих форм сигналов (или перед их подачей в модуль постпроцессора, такой как модуль бинаурального рендеринга или модуль рендеринга громкоговорителей).

19.6. Модуль бинаурального рендеринга

Модуль 3080 бинаурального рендеринга формирует бинауральное понижающее микширование многоканального аудиоматериала таким образом, что каждый входной канал представлен посредством виртуального источника звука. Обработка осуществляется покадрово в QMF-области. Бинаурализация основана на измеренных бинауральных импульсных характеристиках в помещении.

19.7. Модуль рендеринга громкоговорителей/преобразование формата

Модуль 3090 рендеринга громкоговорителей преобразует между конфигурацией передаваемых каналов и требуемым форматом воспроизведения. Таким образом, далее он называется "преобразователем форматов". Преобразователь форматов выполняет преобразования в меньшие числа выходных каналов, т.е. он создает понижающего микширования. Система автоматически формирует оптимизированные матрицы понижающего микширования для данной комбинации входных и выходных форматов и применяет эти матрицы в процессе понижающего микширования. Преобразователь форматов обеспечивает возможность стандартных конфигураций громкоговорителей, а также случайных конфигураций с нестандартными позициями громкоговорителей.

Фиг. 30 показывает принципиальную блок-схему преобразователя форматов. Другими словами, фиг. 30 показывает структуру преобразователя форматов.

Как можно видеть, преобразователь 3100 форматов принимает выходные сигналы 3110 микшера, например, микшированные сигналы 3072 каналов и предоставляет сигналы 3112 громкоговорителей, например, сигналы 3016 динамиков. Преобразователь форматов содержит процесс 3120 понижающего микширования в QMF-области и конфигуратор 3130 понижающего микширования, при этом конфигуратор понижающего микширования предоставляет конфигурационную информацию для процесса 3020 понижающего микширования на основе информации 3032 схемы размещения выходов микшера и информации 3034 схемы размещения для воспроизведения.

19.8. Общие примечания

Кроме того, следует отметить, что принципы, описанные в данном документе, например, аудиодекодер 100, аудиокодер 200, многоканальный декоррелятор 600, многоканальный аудиодекодер 700, аудиокодер 800 или аудиодекодер 1550, могут использоваться в аудиокодере 2900 и/или в аудиодекодере 3000. Например, вышеупомянутые аудиокодеры/декодеры могут использоваться в качестве части SAOC-кодера 2940 и/или в качестве части SAOC-декодера 3060. Тем не менее, принципы, упомянутые выше, также могут использоваться в других позициях трехмерного аудиодекодера 3000 и/или аудиокодера 2900.

Естественно, способы, упомянутые выше, также могут использоваться в принципах для кодирования или декодирования аудиоинформации согласно фиг. 28 и 29.

20. Дополнительный вариант осуществления

20.1. Введение

Далее описывается другой вариант осуществления согласно настоящему изобретению.

Фиг. 31 показывает принципиальную блок-схему процессора понижающего микширования, согласно варианту осуществления настоящего изобретения.

Процессор 3100 понижающего микширования содержит обратный микшер 3110, модуль 3120 рендеринга, модуль 3130 комбинирования и многоканальный декоррелятор 3140. Модуль рендеринга предоставляет представленные посредством рендеринга аудиосигналы в модуль 3130 комбинирования и в многоканальный декоррелятор 3140. Многоканальный декоррелятор содержит предварительный микшер 3150, который принимает представленные посредством рендеринга аудиосигналы (которые могут рассматриваться как первый набор входных сигналов декоррелятора) и предоставляет, на их основе, предварительно микшированный второй набор входных сигналов декоррелятора в ядро 3160 декоррелятора. Ядро декоррелятора предоставляет первый набор выходных сигналов декоррелятора на основе второго набора входных сигналов декоррелятора для использования посредством постмикшера 3170. постмикшер постмикширует (или повышающе микширует) выходные сигналы декоррелятора, предоставленные посредством ядра 3160 декоррелятора, чтобы получать постмикшированный второй набор выходных сигналов декоррелятора, который предоставляется в модуль 3130 комбинирования.

Модуль 3130 рендеринга, например, может применять матрицу R для рендеринга, предварительный микшер, например, может применять матрицу M_pre для предварительного микширования, постмикшер, например, может применять матрицу для постмикширования, и модуль комбинирования, например, может применять матрицу P для комбинирования.

Следует отметить, что процессор 3100 понижающего микширования либо его отдельные компоненты или функциональности могут использоваться в аудиодекодерах, описанных в данном документе. Кроме того, следует отметить, что процессор понижающего микширования может дополняться посредством любых из признаков и функциональностей, описанных в данном документе.

20.2. Трехмерная SAOC-обработка

Применяется гибридная гребенка фильтров, описанная в 23003-1:2007 ISO/IEC. Деквантование параметров DMG, OLD, IOC соответствует правилам, идентичным правилам, заданным в 7.1.2 23003-2:2010 ISO/IEC.

20.2.1. Сигналы и параметры

Аудиосигналы задаются для каждого временного кванта n и каждой гибридной подполосы k частот. Соответствующие трехмерные SAOC-параметры задаются для каждого параметрического временного кванта и полосы m частот обработки. Последующее преобразование между гибридной и параметрической областью указывается посредством таблицы 31 23003-1:2007 ISO/IEC. Следовательно, все вычисления выполняются относительно определенного времени/индексов полос частот, и соответствующие размерности подразумеваются для каждой введенной переменной.

Доступные данные в трехмерном SAOC-декодере состоят из многоканального сигнала X понижающего микширования, ковариационной матрицы E, матрицы R рендеринга и матрицы D понижающего микширования.

20.2.1.1. Параметры объектов

Ковариационная матрица E размера NxN с элементами представляет аппроксимацию ковариационной матрицы исходных сигналов и получается из параметров OLD и IOC следующим образом:

Здесь, деквантованные параметры объектов получаются следующим образом:

20.2.1.3. Матрица понижающего микширования

Матрица D понижающего микширования, применяемая к входным аудиосигналам S, определяет сигнал понижающего микширования в качестве . Матрица D понижающего микширования размераполучается следующим образом:

Матрица и матрица имеют различные размеры в зависимости от режима обработки. Матрица получается из параметров DMG следующим образом:

Здесь, деквантованные параметры понижающего микширования получаются следующим образом:

20.2.1.3.1. Прямой режим

В случае прямого режима, не используется предварительное микширование. Матрица имеет размер и задается следующим образом: . Матрица имеет размер и получается из параметров DMG согласно 20.2.1.3.

20.2.1.3.2. Режим предварительного микширования

В случае режима предварительного микширования, матрица имеет размер и задается следующим образом:

где матрица предварительного микширования размера принимается как ввод в трехмерный SAOC-декодер из модуля рендеринга объектов.

Матрица имеет размер и получается из параметров DMG согласно 20.2.1.3

20.2.1.4. Матрица рендеринга

Матрица R рендеринга, применяемая к входным аудиосигналам S, определяет целевой представленный посредством рендеринга вывод в качестве . Матрица R рендеринга размеразадается следующим образом:

где размера представляет матрицу рендеринга, ассоциированную с входными каналами, и размера представляет матрицу рендеринга, ассоциированную с входными объектами.

20.2.1.4. Целевая выходная ковариационная матрица

Ковариационная матрица C размера с элементами представляет аппроксимацию целевой выходной ковариационной матрицы сигналов и получается из ковариационной матрицы E и матрицы R рендеринга:

20.2.2. Декодирование

Описывается способ для получения выходного сигнала с использованием трехмерных SAOC-параметров и информации рендеринга. Трехмерный SAOC-декодер, например, может состоять из процессора трехмерных SAOC-параметров и процессора трехмерного SAOC-понижающего микширования.

20.2.2.1. Процессор понижающего микширования

Выходной сигнал процессора понижающего микширования (представленный в гибридной QMF-области) подается в соответствующую гребенку синтезирующих фильтров, как описано в ISO/IEC 23003-1:2007, что дает в результате конечный вывод трехмерного SAOC-декодера. Подробная структура процессора понижающего микширования проиллюстрирована на фиг. 31.

Выходной сигнал вычисляется из многоканального сигнала X понижающего микширования и декоррелированного многоканального сигнала следующим образом:

где U представляет матрицу параметрического обратного микширования и задается в 20.2.2.1.1 и 20.2.2.1.2.

Декоррелированный многоканальный сигнал вычисляется согласно 20.2.3.

Матрица микширования описывается в 20.2.3. Матрицы для различной выходной конфигурации предоставлены на фиг. 19-23, и матрицы получаются с использованием следующего уравнения:

Режим декодирования управляется посредством элемента bsNumSaocDmxObjects потока битов, как показано на фиг. 32.

20.2.2.1.1. Комбинированный режим декодирования

В случае комбинированного режима декодирования, матрица U параметрического обратного микширования задается следующим образом:

Матрица J размера задается посредством при

20.2.2.1.2. Независимый режим декодирования

В случае независимого режима декодирования, матрица U обратного микширования задается следующим образом:

Канальная ковариационная матрица размера и объектно-ориентированная ковариационная матрица размера получаются из ковариационной матрицы E посредством выбора только соответствующих диагональных блоков:

где матрица представляет взаимную ковариационную матрицу между входными каналами и входными объектами и не обязательно должна вычисляться.

Канальная матрица понижающего микширования размера и объектно-ориентированная матрица понижающего микширования размера получаются из матрицы D понижающего микширования посредством выбора только соответствующих диагональных блоков:

Матрица размера извлекается, соответственно, в 20.2.2.1.4 для:

20.2.2.1.4. Вычисление матрицы J

Матрица вычисляется с использованием следующего уравнения:

Здесь сингулярный вектор V матрицы получается с использованием следующего характерного уравнения:

Регуляризованная инверсия диагональной матрицы сингулярных значений вычисляется следующим образом:

Относительный скаляр регуляризации определяется с использованием абсолютного порогового значения и максимального значения следующим образом:

20.2.3. Декорреляция

Декоррелированные сигналы созданы из декоррелятора, описанного в 6.6.2 23003-1:2007 ISO/IEC, с bsDecorrConfig==0 и индексом декоррелятора, x, согласно таблицам на фиг. 19-24. Следовательно, decorrFunc() обозначает процесс декорреляции:

20.2.4. Матрица P микширования - первый вариант

Вычисление матрицы микширования управляется посредством элемента bsDecorrelationMethod потока битов. Матрица P имеет размер , и и имеют размер .

20.2.4.1. Режим энергетической компенсации

Режим энергетической компенсации использует декоррелированные сигналы для того, чтобы компенсировать потери энергии в параметрическом восстановлении. Матрицы и микширования задаются следующим образом:

где является постоянной, используемой для того, чтобы ограничивать величину декоррелированного компонента, суммируемого с выходными сигналами.

20.2.4.2. Режим ограниченного регулирования ковариантности

Режим ограниченного регулирования ковариантности обеспечивает то, что ковариационная матрица микшированных декоррелированных сигналов аппроксимирует ковариационную матрицу разностей.

Матрицы и микширования задаются с использованием следующих уравнений:

при этом регуляризованная инверсия диагональной матрицы сингулярных значений вычисляется следующим образом:

Матрица разлагается с использованием разложения по сингулярным значениям следующим образом:

Ковариационная матрица декоррелированных сигналов также выражается с использованием разложения по сингулярным значениям:

20.2.4.3. Режим общего регулирования ковариантности

Режим общего регулирования ковариантности обеспечивает то, что ковариационная матрица конечных выходных сигналов аппроксимирует целевую ковариационную матрицу:. Матрица P микширования задается с использованием следующего уравнения:

Целевая ковариационная матрица C разлагается с использованием разложения по сингулярным значениям следующим образом:

Ковариационная матрица комбинированных сигналов также выражается с использованием разложения по сингулярным значениям:

Матрица H представляет прототипную матрицу весовых коэффициентов размера и задается посредством следующего уравнения:

20.2.4.4. Введенные ковариационные матрицы

Матрица представляет разность между целевой выходной ковариационной матрицей C и ковариационной матрицей параметрически восстановленных сигналов и задается следующим образом:

Матрица представляет ковариационную матрицу параметрически оцененных сигналов и задается с использованием следующего уравнения:

Матрица представляет ковариационную матрицу декоррелированных сигналов и задается с использованием следующего уравнения:

При рассмотрении сигнала состоящего из комбинации параметрических оцененных и декоррелированных сигналов:

ковариационная матрица задается посредством следующего уравнения:

21. Альтернативы реализации

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.

Изобретаемый кодированный аудиосигнал может быть сохранен на цифровом носителе хранения данных или может быть передан по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

Библиографический список

[BCC] C. Faller и F. Baumgarte "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans, on Speech and Audio Proc, издание 11, номер 6, ноябрь 2003 года.

[Blauert] J. Blauert "Spatial Hearing - The Psychophysics of Human Sound Localization", Revised Edition, The MIT Press, Лондон, 1997 год.

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Париж, 2006 год.

[ISS1] M. Parvaix и L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010 год.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with the single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010 год.

[ISS3] A. Liutkus и J. Pinel и R. Badeau и L. Girin и G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011 год.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011 год.

[ISS5] S. Zhang и L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011 год.

[ISS6] L. Girin и J. Pinel: "Informed Audio Source Separation from CoM_pressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011 год.

[MPS] ISO/IEC, "Information technology - MPEG audio technologies - Part 1: MPEG Surround", ISO/IEC JTC1/SC29/WG11 (MPEG) international Standard 23003-1:2006.

[OCD] J. Vilkamo, T. Backstrom и A. Kuntz "Optimized covariance domain framework for time-frequency processing of spatial audio", Journal of the Audio Engineering Society, 2013 год, в печати.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, апрель 2007 года.

[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers и VV. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric object Based Audio Coding", 124th AES Convention, Амстердам, 2008 год.

[SAOC] ISO/IEC "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

Международный Патент № WO/2006/026452, "MULTICHANNEL DECORRELATION IN SPATIAL AUDIO CODING", выданный 9 марта 2006 года.

1. Многоканальный декоррелятор (140; 600; 1590; 1700) для предоставления множества декоррелированных сигналов (142, 144; 612a-612n'; 1592a-1592n; 1712a-1712n) на основе множества входных сигналов (134, 136; 610a-610n; 1582a-1582n; 1710a-1710n) декоррелятора,

- при этом многоканальный декоррелятор выполнен с возможностью предварительно микшировать первый набор (134, 136; 610a-610n; 1582a-1582n; 1710a-1710n; ) из N входных сигналов декоррелятора во второй набор (622a-622k; 1722a-1722k; ) из K входных сигналов декоррелятора, где K<N;

- при этом многоканальный декоррелятор выполнен с возможностью предоставлять первый набор (632a-632k'; 1732a-1732k) из K' выходных сигналов декоррелятора на основе второго набора из K входных сигналов декоррелятора; и

- при этом многоканальный декоррелятор выполнен с возможностью микшировать с повышением первый набор из K' выходных сигналов декоррелятора во второй набор (142, 144; 612a-612n'; 1592a-1592n; 1712a-1712n) из N' выходных сигналов декоррелятора, где N'>K';

- при этом многоканальный декоррелятор выполнен с возможностью предварительно микшировать первый набор () из N входных сигналов декоррелятора во второй набор из K входных сигналов декоррелятора с использованием матрицы M_pre предварительного микширования согласно следующему:

;

- при этом многоканальный декоррелятор выполнен с возможностью получать первый набор из K' выходных сигналов декоррелятора на основе второго набора из K входных сигналов декоррелятора, и

- при этом многоканальный декоррелятор выполнен с возможностью микшировать с повышением первый набор из K' выходных сигналов декоррелятора во второй набор W из N' выходных сигналов декоррелятора с использованием матрицы M_post постмикширования согласно следующему:

- при этом многоканальный декоррелятор выполнен с возможностью выбирать матрицу M_pre предварительного микширования в зависимости от пространственных позиций, с которыми ассоциированы сигналы каналов из первого набора () из N входных сигналов декоррелятора.

2. Многоканальный декоррелятор по п. 1, в котором K=K'.

3. Многоканальный декоррелятор по п. 1, в котором N=N'.

4. Многоканальный декоррелятор по п. 1, в котором N>=3 и N'>=3.

5. Многоканальный декоррелятор по п. 1, при этом многоканальный декоррелятор выполнен с возможностью выбирать матрицу M_pre предварительного микширования в зависимости от характеристик корреляции или характеристик ковариантности сигналов каналов из первого набора () из N входных сигналов декоррелятора.

6. Многоканальный декоррелятор по п. 1,

- при этом многоканальный декоррелятор выполнен с возможностью получать матрицу M_post постмикширования согласно следующему:

7. Многоканальный декоррелятор по п. 1, при этом многоканальный декоррелятор выполнен с возможностью принимать информацию относительно конфигурации рендеринга, ассоциированной с сигналами каналов из первого набора из N входных сигналов декоррелятора, и при этом многоканальный декоррелятор выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования в зависимости от информации относительно конфигурации рендеринга.

8. Многоканальный декоррелятор по п. 1, при этом многоканальный декоррелятор выполнен с возможностью комбинировать сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с пространственно смежными позициями аудиосцены при выполнении предварительного микширования.

9. Многоканальный декоррелятор по п. 8, при этом многоканальный декоррелятор выполнен с возможностью комбинировать сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями аудиосцены, при выполнении предварительного микширования.

10. Многоканальный декоррелятор по п. 1, при этом многоканальный декоррелятор выполнен с возможностью комбинировать сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с горизонтальной парой пространственных позиций, содержащих левостороннюю позицию и правостороннюю позицию.

11. Многоканальный декоррелятор по п. 1, при этом многоканальный декоррелятор выполнен с возможностью комбинировать, по меньшей мере, четыре сигнала каналов из первого набора из N входных сигналов декоррелятора, при этом, по меньшей мере, два из упомянутых, по меньшей мере, четырех сигналов каналов ассоциированы с пространственными позициями в левой стороне аудиосцены и при этом, по меньшей мере, два из упомянутых, по меньшей мере, четырех сигналов каналов ассоциированы с пространственными позициями в правой стороне аудиосцены.

12. Многоканальный декоррелятор по п. 11, в котором, по меньшей мере, два левосторонних сигнала каналов, которые должны комбинироваться, ассоциированы с пространственными позициями, которые являются симметричными, относительно осевой плоскости аудиосцены, с пространственными позициями, ассоциированными, по меньшей мере, с двумя правосторонними сигналами каналов, которые должны комбинироваться.

13. Многоканальный декоррелятор по п. 1, при этом многоканальный декоррелятор выполнен с возможностью принимать информацию сложности, описывающую число K входных сигналов декоррелятора из второго набора входных сигналов декоррелятора, и при этом многоканальный декоррелятор выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования в зависимости от информации сложности.

14. Многоканальный декоррелятор по п. 13, при этом многоканальный декоррелятор выполнен с возможностью пошагово увеличивать число входных сигналов декоррелятора из первого набора входных сигналов декоррелятора, которые комбинируются таким образом, чтобы получать входные сигналы декоррелятора из второго набора входных сигналов декоррелятора со снижающимся значением информации сложности.

15. Многоканальный декоррелятор по п. 13, при этом многоканальный декоррелятор выполнен с возможностью комбинировать только сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями аудиосцены, при выполнении предварительного микширования для первого значения информации сложности, и

- при этом многоканальный декоррелятор выполнен с возможностью комбинировать, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями в левой стороне аудиосцены, и, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями в правой стороне аудиосцены, с тем чтобы получать данный сигнал из второго набора входных сигналов декоррелятора при выполнении предварительного микширования для второго значения информации сложности.

16. Многоканальный декоррелятор по п. 13, при этом многоканальный декоррелятор выполнен с возможностью комбинировать, по меньшей мере, четыре сигнала каналов из первого набора из N входных сигналов декоррелятора, при этом, по меньшей мере, два из упомянутых, по меньшей мере, четырех сигналов каналов ассоциированы с пространственными позициями в левой стороне аудиосцены и при этом, по меньшей мере, два из упомянутых, по меньшей мере, четырех сигналов каналов ассоциированы с пространственными позициями в правой стороне аудиосцены, с тем чтобы получать данный сигнал из второго набора входных сигналов декоррелятора при выполнении предварительного микширования для второго значения информации сложности.

17. Многоканальный декоррелятор по п. 13, при этом многоканальный декоррелятор выполнен с возможностью комбинировать, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями в левой стороне аудиосцены, с тем чтобы получать первый входной сигнал декоррелятора из второго набора входных сигналов декоррелятора, и комбинировать, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями в правой стороне аудиосцены, с тем чтобы получать второй входной сигнал декоррелятора из второго набора входных сигналов декоррелятора для первого значения информации сложности, и

- при этом многоканальный декоррелятор выполнен с возможностью комбинировать, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями левой стороны аудиосцены, и, по меньшей мере, два сигнала каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с вертикально пространственно смежными позициями в правой стороне аудиосцены, с тем чтобы получать входной сигнал декоррелятора из второго набора входных сигналов декоррелятора для второго значения информации сложности,

- при этом число входных сигналов декоррелятора из второго набора входных сигналов декоррелятора больше для первого значения информации сложности, чем для второго значения информации сложности.

18. Многоканальный аудиодекодер (100; 1550) для предоставления, по меньшей мере, двух выходных аудиосигналов (112, 114; 1552a-1552n) на основе кодированного представления (110; 1516a, 1516b, 1518),

- при этом многоканальный аудиодекодер содержит многоканальный декоррелятор (140; 600; 1590; 1700) по одному из пп. 1-17.

19. Многоканальный аудиодекодер по п. 18,

- при этом многоканальный аудиодекодер выполнен с возможностью представлять посредством рендеринга (130; 1580) множество декодированных аудиосигналов (122; 1562a-1562n), которые получаются на основе кодированного представления, в зависимости от одного или более параметров (132) рендеринга, с тем чтобы получать множество представленных посредством рендеринга аудиосигналов (134, 136; 1582a-1582n), и

- при этом многоканальный аудиодекодер выполнен с возможностью извлекать один или более декоррелированных аудиосигналов (142, 144; 1592a-1592n) из представленных посредством рендеринга аудиосигналов с использованием многоканального декоррелятора, при этом представленные посредством рендеринга аудиосигналы составляют первый набор входных сигналов декоррелятора и при этом второй набор выходных сигналов декоррелятора составляет декоррелированные аудиосигналы, и

- при этом многоканальный аудиодекодер выполнен с возможностью комбинировать (150; 1598) представленные посредством рендеринга аудиосигналы или их масштабированную версию с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы.

20. Многоканальный аудиодекодер по п. 18, при этом многоканальный аудиодекодер выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования для использования посредством многоканального декоррелятора в зависимости от управляющей информации, включенной в кодированное представление.

21. Многоканальный аудиодекодер по п. 18, при этом многоканальный аудиодекодер выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования для использования посредством многоканального декоррелятора в зависимости от выходной конфигурации, описывающей выделение выходных аудиосигналов для пространственных позиций аудиосцены.

22. Многоканальный аудиодекодер по п. 18, при этом многоканальный аудиодекодер выполнен с возможностью выбирать между тремя или более различными матрицами (M_pre) предварительного микширования для использования посредством многоканального декоррелятора в зависимости от управляющей информации, включенной в кодированное представление для данной выходной конфигурации, при этом каждая из трех или более различных матриц предварительного микширования ассоциирована с различным числом сигналов из второго набора из K входных сигналов декоррелятора.

23. Многоканальный аудиодекодер по п. 18, при этом многоканальный аудиодекодер выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования для использования посредством многоканального декоррелятора в зависимости от матрицы (Dconv, Drender) микширования, которая используется преобразователем форматов или модулем рендеринга, который принимает, по меньшей мере, два выходных аудиосигнала.

24. Многоканальный аудиодекодер по п. 23, при этом многоканальный аудиодекодер выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования для использования посредством многоканального декоррелятора таким образом, что она равна матрице (Dconv, Drender) микширования, которая используется преобразователем форматов или модулем рендеринга, который принимает, по меньшей мере, два выходных аудиосигнала.

25. Многоканальный аудиокодер (800) для предоставления кодированного представления (814) на основе, по меньшей мере, двух входных аудиосигналов (810; 812),

- при этом многоканальный аудиокодер выполнен с возможностью предоставлять один или более сигналов (822) понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов, и

- при этом многоканальный аудиокодер выполнен с возможностью предоставлять один или более параметров (832), описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и

- при этом многоканальный аудиокодер выполнен с возможностью предоставлять параметр (842) сложности декорреляции, описывающий сложность декорреляции, которая должна использоваться на стороне аудиодекодера.

26. Способ (900) для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, при этом способ содержит этапы, на которых:

- предварительно микшируют (910) первый набор из N входных сигналов декоррелятора во второй набор из K входных сигналов декоррелятора, где K<N;

- предоставляют (920) первый набор из K' выходных сигналов декоррелятора на основе второго набора из K входных сигналов декоррелятора; и

- микшируют с повышением (930) первый набор из K' выходных сигналов декоррелятора во второй набор из N' выходных сигналов декоррелятора, где N'>K',

- при этом первый набор из N входных сигналов декоррелятора предварительно микшируется во второй набор из K входных сигналов декоррелятора с использованием матрицы M_pre предварительного микширования согласно следующему:

- при этом первый набор из K' выходных сигналов декоррелятора получается на основе второго набора из K входных сигналов декоррелятора, и

- при этом первый набор из K' выходных сигналов декоррелятора микшируется с повышением во второй набор W из N' выходных сигналов декоррелятора с использованием матрицы M_post постмикширования согласно следующему:

- при этом матрица M_pre предварительного микширования выбирается в зависимости от пространственных позиций, с которыми ассоциированы сигналы каналов из первого набора из N входных сигналов декоррелятора.

27. Способ (1000) для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления,

- при этом способ содержит этап, на котором предоставляют (1020) множество декоррелированных сигналов на основе множества входных сигналов декоррелятора по п. 26.

28. Способ (1100) для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов, при этом способ содержит этапы, на которых:

- предоставляют (1110) один или более сигналов понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов, и

- предоставляют (1120) один или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и

- предоставляют (1130) параметр сложности декорреляции, описывающий сложность декорреляции, которая должна использоваться на стороне аудиодекодера.

29. Считываемый компьютером носитель, содержащий компьютерную программу для осуществления способа по п. 26, когда компьютерная программа работает на компьютере.

30. Считываемый компьютером носитель, содержащий компьютерную программу для осуществления способа по п. 27, когда компьютерная программа работает на компьютере.

31. Считываемый компьютером носитель, содержащий компьютерную программу для осуществления способа по п. 28, когда компьютерная программа работает на компьютере.

32. Считываемый компьютером носитель, содержащий кодированное аудиопредставление (1200), обеспечивающее возможность регулировать сложность декорреляции, используемую посредством многоканального аудиодекодера, содержащий:

- кодированное представление (1210) сигнала понижающего микширования;

- кодированное представление (1220) одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и

- кодированный параметр сложности декорреляции, описывающий сложность декорреляции, которая должна использоваться на стороне аудиодекодера.

33. Многоканальный декоррелятор (140; 600; 1590; 1700) для предоставления множества декоррелированных сигналов (142, 144; 612a-612n'; 1592a-1592n; 1712a-1712n) на основе множества входных сигналов (134, 136; 610a-610n; 1582a-1582n; 1710a-1710n) декоррелятора,

- при этом многоканальный декоррелятор выполнен с возможностью предварительно микшировать первый набор из N входных сигналов декоррелятора во второй набор из K входных сигналов декоррелятора с использованием матрицы M_pre предварительного микширования согласно следующему:

;

- при этом многоканальный декоррелятор выполнен с возможностью выбирать матрицу M_pre предварительного микширования в зависимости от характеристик корреляции или характеристик ковариантности сигналов каналов из первого набора из N входных сигналов декоррелятора.

34. Многоканальный декоррелятор (140; 600; 1590; 1700) для предоставления множества декоррелированных сигналов (142, 144; 612a-612n'; 1592a-1592n; 1712a-1712n) на основе множества входных сигналов (134, 136; 610a-610n; 1582a-1582n; 1710a-1710n) декоррелятора,

;

35. Многоканальный декоррелятор (140; 600; 1590; 1700) для предоставления множества декоррелированных сигналов (142, 144; 612a-612n'; 1592a-1592n; 1712a-1712n) на основе множества входных сигналов (134, 136; 610a-610n; 1582a-1582n; 1710a-1710n) декоррелятора,

- при этом многоканальный декоррелятор выполнен с возможностью принимать информацию относительно конфигурации рендеринга, ассоциированной с сигналами каналов из первого набора из N входных сигналов декоррелятора, и при этом многоканальный декоррелятор выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования в зависимости от информации относительно конфигурации рендеринга.

36. Многоканальный декоррелятор (140; 600; 1590; 1700) для предоставления множества декоррелированных сигналов (142, 144; 612a-612n'; 1592a-1592n; 1712a-1712n) на основе множества входных сигналов (134, 136; 610a-610n; 1582a-1582n; 1710a-1710n) декоррелятора,

- при этом многоканальный декоррелятор выполнен с возможностью комбинировать сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с пространственно смежными позициями аудиосцены при выполнении предварительного микширования.

37. Многоканальный декоррелятор (140; 600; 1590; 1700) для предоставления множества декоррелированных сигналов (142, 144; 612a-612n'; 1592a-1592n; 1712a-1712n) на основе множества входных сигналов (134, 136; 610a-610n; 1582a-1582n; 1710a-1710n) декоррелятора,

- при этом многоканальный декоррелятор выполнен с возможностью комбинировать сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с горизонтальной парой пространственных позиций, содержащих левостороннюю позицию и правостороннюю позицию.

38. Многоканальный декоррелятор (140; 600; 1590; 1700) для предоставления множества декоррелированных сигналов (142, 144; 612a-612n'; 1592a-1592n; 1712a-1712n) на основе множества входных сигналов (134, 136; 610a-610n; 1582a-1582n; 1710a-1710n) декоррелятора,

- при этом многоканальный декоррелятор выполнен с возможностью комбинировать, по меньшей мере, четыре сигнала каналов из первого набора из N входных сигналов декоррелятора, при этом, по меньшей мере, два из упомянутых, по меньшей мере, четырех сигналов каналов ассоциированы с пространственными позициями в левой стороне аудиосцены и при этом, по меньшей мере, два из упомянутых, по меньшей мере, четырех сигналов каналов ассоциированы с пространственными позициями в правой стороне аудиосцены.

39. Многоканальный декоррелятор (140; 600; 1590; 1700) для предоставления множества декоррелированных сигналов (142, 144; 612a-612n'; 1592a-1592n; 1712a-1712n) на основе множества входных сигналов (134, 136; 610a-610n; 1582a-1582n; 1710a-1710n) декоррелятора,

- при этом многоканальный декоррелятор выполнен с возможностью принимать информацию сложности, описывающую число K входных сигналов декоррелятора из второго набора входных сигналов декоррелятора, и при этом многоканальный декоррелятор выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования в зависимости от информации сложности.

40. Многоканальный аудиодекодер (100; 1550) для предоставления, по меньшей мере, двух выходных аудиосигналов (112, 114; 1552a-1552n) на основе кодированного представления (110; 1516a, 1516b, 1518),

- при этом многоканальный аудиодекодер содержит многоканальный декоррелятор (140; 600; 1590; 1700) для предоставления множества декоррелированных сигналов (142, 144; 612a-612n'; 1592a-1592n; 1712a-1712n) на основе множества входных сигналов (134, 136; 610a-610n; 1582a-1582n; 1710a-1710n) декоррелятора,

- при этом многоканальный аудиодекодер выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования для использования посредством многоканального декоррелятора в зависимости от выходной конфигурации, описывающей выделение выходных аудиосигналов для пространственных позиций аудиосцены.

41. Многоканальный аудиодекодер (100; 1550) для предоставления, по меньшей мере, двух выходных аудиосигналов (112, 114; 1552a-1552n) на основе кодированного представления (110; 1516a, 1516b, 1518),

- при этом многоканальный аудиодекодер выполнен с возможностью выбирать между тремя или более различными матрицами (M_pre) предварительного микширования для использования посредством многоканального декоррелятора в зависимости от управляющей информации, включенной в кодированное представление для данной выходной конфигурации, при этом каждая из трех или более различных матриц предварительного микширования ассоциирована с различным числом сигналов из второго набора из K входных сигналов декоррелятора.

42. Многоканальный аудиодекодер (100; 1550) для предоставления, по меньшей мере, двух выходных аудиосигналов (112, 114; 1552a-1552n) на основе кодированного представления (110; 1516a, 1516b, 1518),

- при этом многоканальный аудиодекодер выполнен с возможностью выбирать матрицу (M_pre) предварительного микширования для использования посредством многоканального декоррелятора в зависимости от матрицы (Dconv, Drender) микширования, которая используется преобразователем форматов или модулем рендеринга, который принимает, по меньшей мере, два выходных аудиосигнала.

43. Способ (900) для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, при этом способ содержит этапы, на которых:

- микшируют с повышением (930) первый набор из K' выходных сигналов декоррелятора во второй набор из N' выходных сигналов декоррелятора, где N'>K';

;

- при этом матрица M_pre предварительного микширования выбирается в зависимости от характеристик корреляции или характеристик ковариантности сигналов каналов из первого набора из N входных сигналов декоррелятора.

44. Способ (900) для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, при этом способ содержит этапы, на которых:

- при этом первый набор N входных сигналов декоррелятора предварительно микшируется во второй набор K входных сигналов декоррелятора с использованием матрицы M_pre предварительного микширования согласно следующему:

;

- при этом матрица M_post постмикширования получается согласно следующему:

45. Способ (900) для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, при этом способ содержит этапы, на которых:

- при этом способ содержит этап, на котором принимают информацию относительно конфигурации рендеринга, ассоциированной с сигналами каналов из первого набора из N входных сигналов декоррелятора, и при этом матрица (M_pre) предварительного микширования выбирается в зависимости от информации относительно конфигурации рендеринга.

46. Способ (900) для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, при этом способ содержит этапы, на которых:

- при этом сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с пространственно смежными позициями аудиосцены, комбинируются при выполнении предварительного микширования.

47. Способ (900) для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, при этом способ содержит этапы, на которых:

- при этом сигналы каналов из первого набора из N входных сигналов декоррелятора, которые ассоциированы с горизонтальной парой пространственных позиций, содержащих левостороннюю позицию и правостороннюю позицию, комбинируются.

48. Способ (900) для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, при этом способ содержит этапы, на которых:

- при этом, по меньшей мере, четыре сигнала каналов из первого набора из N входных сигналов декоррелятора комбинируются, при этом, по меньшей мере, два из упомянутых, по меньшей мере, четырех сигналов каналов ассоциированы с пространственными позициями в левой стороне аудиосцены и при этом, по меньшей мере, два из упомянутых, по меньшей мере, четырех сигналов каналов ассоциированы с пространственными позициями в правой стороне аудиосцены.

49. Способ (900) для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, при этом способ содержит этапы, на которых:

- при этом способ содержит этап, на котором принимают информацию сложности, описывающую число K входных сигналов декоррелятора из второго набора входных сигналов декоррелятора, и при этом матрица (M_pre) предварительного микширования выбирается в зависимости от информации сложности.

50. Способ (1000) для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления,

- при этом способ содержит этап, на котором предоставляют (1020) множество декоррелированных сигналов на основе множества входных сигналов декоррелятора,

- при этом предоставление множества декоррелированных сигналов на основе множества входных сигналов декоррелятора содержит этапы, на которых:

- при этом матрица (M_pre) предварительного микширования для использования посредством многоканального декоррелятора выбирается в зависимости от выходной конфигурации, описывающей выделение выходных аудиосигналов для пространственных позиций аудиосцены.

51. Способ (1000) для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления,

- при этом способ содержит этап, на котором выбирают между тремя или более различными матрицами (M_pre) предварительного микширования для использования посредством многоканального декоррелятора в зависимости от управляющей информации, включенной в кодированное представление для данной выходной конфигурации, при этом каждая из трех или более различных матриц предварительного микширования ассоциирована с различным числом сигналов из второго набора из K входных сигналов декоррелятора.

52. Способ (1000) для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления,

- при этом матрица (M_pre) предварительного микширования для использования посредством многоканального декоррелятора выбирается в зависимости от матрицы (Dconv, Drender) микширования, которая используется преобразователем форматов или модулем рендеринга, который принимает, по меньшей мере, два выходных аудиосигнала.

53. Считываемый компьютером носитель, содержащий компьютерную программу для осуществления способа по любому из пп. 43-49, когда компьютерная программа работает на компьютере.

54. Считываемый компьютером носитель, содержащий компьютерную программу для осуществления способа по любому из пп. 50-52, когда компьютерная программа работает на компьютере.

Изобретение относится к обработке аудиосигналов, в частности к аудиообработке моно- или двойного моносигнала. Технический результат – повышение качества звука аудиосигналов.

Устройство и способ для эффективного кодирования метаданных объектов // 2666282

Изобретение относится к средствам для формирования одного или более аудиоканалов. Технический результат заключается в повышении эффективности кодирования метаданных.

Устройство и способ для осуществления понижающего микширования saoc объемного (3d) аудиоконтента // 2666239

Изобретение относится к средствам для осуществления понижающего микширования SAOC объемного аудиоконтента. Технический результат заключается в повышении эффективности понижающего микширования аудиоконтента.

Многоканальный аудиодекодер, многоканальный аудиокодер, способы, компьютерная программа и кодированное аудиопредставление с использованием декорреляции представленных посредством рендеринга аудиосигналов // 2665917

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен.

Устройство и способ масштабирования центрального сигнала и улучшения стереофонии на основе отношения сигнал-понижающее микширование // 2663345

Изобретение относится к средствам для масштабирования центрального сигнала. Технический результат заключается в повышении разборчивости речи.

Способ и устройство для применения сжатия динамического диапазона к сигналу амбиофонии высшего порядка // 2658888

Изобретение относится к технике связи и предназначено для управления динамическим диапазоном. Технический результат – уменьшение динамического диапазона аудиосигнала.

Устройство и способ декодирования кодированного аудиосигнала для получения модифицированных выходных сигналов // 2653240

Изобретение относится к кодированию аудиообъектов. Технический результат изобретения заключается в сокращении вычислительных ресурсов, что минимизирует обработку пространственного кодирования аудиообъектов SAOC.

Аудиокодер и аудиодекодер // 2643489

Изобретение относится к средствам аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования аудиоданных.

Способ трансаурального синтеза для придания звуку пространственной формы // 2639955

Изобретение относится к средствам для создания цифрового пространственного стереоаудиофайла из исходного многоканального аудиофайла. Технический результат заключается в формировании ощущения, что звуковая среда экстернализирована.

Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования // 2614573

Изобретение относится к средствам кодирования и декодирования звуковых сигналов. Технический результат заключается в повышении качества кодирования сигнала.

Устройство и способ рендеринга звука с использованием определения геометрического расстояния // 2666473

Изобретение относится к устройствам, способу и машиночитаемому носителю для воспроизведения звукового объекта. Технический результат заключается в оптимизации воспроизведения звукового объекта.

Устройство и способ для эффективного кодирования метаданных объектов // 2666282

Устройство и способ для амплитудного панорамирования с затуханием фронтов // 2666248

Изобретение относится к средствам для амплитудного панорамирования с затуханием фронтов. Технический результат заключается в повышении эффективности кодирования аудио.

Устройство и способ для осуществления понижающего микширования saoc объемного (3d) аудиоконтента // 2666239

Аудио декодер, аудио кодер, способ обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления, способ обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов и компьютерная программа, использующие расширение диапазона // 2666230

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования и декодирования трехмерных аудио сцен.

Заполнение шумом при многоканальном кодировании аудио // 2661776

Изобретение относится к средствам для заполнения шумом при многоканальном кодировании аудио. Технический результат заключается в повышении эффективности кодирования на низких скоростях передачи битов.

Устройство и способ для улучшенного пространственного кодирования аудиообъектов // 2660638

Изобретение относится к аудиокодированию/аудиодекодированию. Технический результат – повышение точности воспроизведения аудиосигнала.

Способ оценки шума в аудиосигнале, средство оценки шума, аудиокодер, аудиодекодер и система для передачи аудиосигналов // 2666474

Изобретение относится к области обработки аудиосигналов. Технический результат – обеспечение эффективной оценки шума в аудиосигнале.