Аудиокодер, аудиодекодер, способы и компьютерная программа, использующие совместно кодированные разностные сигналы

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования. Совместно кодируют по меньшей мере первый канальный аудиосигнал и второй канальный аудиосигнал, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения первого сигнала понижающего микширования и первого разностного сигнала. Совместно кодируют по меньшей мере третий канальный аудиосигнал и четвертый канальный аудиосигнал, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения второго сигнала понижающего микширования и второго разностного сигнала. Совместно кодируют первый разностный сигнал и второй разностный сигнал, используя многоканальное кодирование, которое применяет совпадения и/или взаимозависимости между разностными сигналами, для получения кодированного представления разностных сигналов. 8 н. и 35 з.п. ф-лы, 23 ил.

 

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Варианты осуществления согласно изобретению относятся к аудио декодеру для обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления.

Дополнительные варианты осуществления согласно изобретению относятся к аудио кодеру для обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов.

Дополнительные варианты осуществления согласно изобретению относятся к способу обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления и к способу обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов.

Дополнительные варианты осуществления согласно изобретению относятся к компьютерной программе для выполнения одного из указанных способов.

Вообще говоря, варианты осуществления согласно изобретению относятся к совместному кодированию n каналов.

УРОВЕНЬ ТЕХНИКИ

В последние годы потребность в хранении и передачи аудио контента постоянно увеличивается. Кроме того, требование к качеству при хранении и передаче аудио контента также постоянно увеличивается. Соответственно, концепции кодирования и декодирования аудио контента усовершенствуются. Например, было разработано так называемое «усовершенствованное аудио кодирование» (AAC), которое описано, например, в международном стандарте 13818-7:2003 ISO/IEC. Кроме того, были созданы некоторые пространственные расширения, как, например, так называемый «MPEG Surround» - концепция, которая описана, например, в международном стандарте 23003-1:2007 ISO/IEC. Кроме того, дополнительные усовершенствования кодирования и декодирования пространственной информации аудио сигналов описаны в международном стандарте 23003-2:2010 ISO/IEC, который относится к так называемому пространственному кодированию аудио объекта (SAOC).

Кроме того, гибкая концепция аудио кодирования/декодирования, которая обеспечивает возможность кодирования и обобщенных аудио сигналов, и речевых сигналов с хорошей эффективностью кодирования и обработки многоканальных аудио сигналов, определена в международном стандарте 23003-3:2012 ISO/IEC, который описывает так называемую концепцию «унифицированного кодирования речи и аудио» (USAC).

В MPEG USAC [1] совместное стерео кодирование двух каналов выполняется, используя комплексное предсказание, MPS 2-1-1 или унифицированное стерео с разностными сигналами с ограниченным диапазоном или полным диапазоном.

MPEG surround [2] иерархически объединяет блоки OTT и TTT для совместного кодирования многоканального аудио с передачей разностных сигналов или без нее.

Однако, существует необходимость обеспечения еще более продвинутой концепции для эффективного кодирования и декодирования трехмерных аудио сцен.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Вариант осуществления согласно изобретению создает аудио декодер для обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления. Аудио декодер конфигурируется для обеспечения первого разностного сигнала и второго разностного сигнала на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя многоканальное декодирование. Аудио декодер также конфигурируется для обеспечения первого канального аудио сигнала и второго канального аудио сигнала на основе первого сигнала понижающего микширования и первого разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование. Аудио декодер также конфигурируется для обеспечения третьего канального аудио сигнала и четвертого канального аудио сигнала на основе второго сигнала понижающего микширования и второго разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование.

Этот вариант осуществления согласно изобретению основан на обнаружении, что взаимозависимости между четырьмя или даже большем количеством канальных аудио сигналов могут применяться с помощью извлечения двух разностных сигналов, каждый из которых используется для обеспечения двух или большего количества канальных аудио сигналов, используя выполняемое с помощью разностного сигнала многоканальное декодирование, из совместно кодированного представления разностных сигналов. Другими словами, было обнаружено, что обычно существуют некоторые совпадения указанных разностных сигналов, так что скорость передачи данных для кодирования указанных разностных сигналов, которая помогает улучшать качество аудио, когда декодируют по меньшей мере четыре канальных аудио сигнала, может уменьшаться с помощью извлечения этих двух разностных сигналов из совместно кодированного представления, используя многоканальное декодирование, которое применяет совпадения и/или взаимозависимости между разностными сигналами.

В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное декодирование. Соответственно, создается иерархическая структура аудио декодера, причем и сигналы понижающего микширования, и разностные сигналы, которые используются в выполняемом с помощью разностного сигнала многоканальном декодировании для обеспечения по меньшей мере четырех канальных аудио сигналов, извлекаются, используя отдельное многоканальное декодирование. Такая концепция особенно эффективна, так как эти два сигнала понижающего микширования обычно содержат совпадения, которые могут применяться при многоканальном кодировании/декодировании, и так как эти два разностных сигнала обычно также содержат совпадения, которые могут применяться при многоканальном кодировании/декодировании. Таким образом, хорошая эффективность кодирования может обычно получаться, используя эту концепцию.

В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого разностного сигнала и второго разностного сигнала на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя основанное на предсказании многоканальное декодирование. Использование основанного на предсказании многоканального декодирования обычно способствует сравнительно хорошему качеству восстановления для разностных сигналов. Это, например, выгодно, если первый разностный сигнал представляет левую сторону аудио сцены, а второй разностный сигнал представляет правую сторону аудио сцены, потому что человеческий слух обычно сравнительно чувствителен к различиям между левой и правой сторонами аудио сцены.

В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого разностного сигнала и второго разностного сигнала на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование. Было обнаружено, что особенно хорошее качество первого и второго разностного сигнала может достигаться, если первый разностный сигнал и второй разностный сигнал обеспечиваются, используя многоканальное декодирование, которое в свою очередь принимает разностный сигнал (и обычно также сигнал понижающего микширования, который комбинирует первый разностный сигнал и второй разностный сигнал). Таким образом, существует каскадирование стадий декодирования, причем два разностных сигнала (первый разностный сигнал, который используется для обеспечения первого канального аудио сигнала и второго канального аудио сигнала, и второй разностный сигнал, который используется для обеспечения третьего канального аудио сигнала и четвертого канального аудио сигнала) обеспечиваются на основе входного сигнала понижающего микширования и входного разностного сигнала, причем последний может также назначаться в качестве общего разностного сигнала (первого разностного сигнала и второго разностного сигнала). Таким образом, первый разностный сигнал и второй разностный сигнал фактически являются «промежуточными» разностными сигналами, которые извлекаются, используя многоканальное декодирование соответствующего сигнала понижающего микширования и соответствующего «общего» разностного сигнала.

В предпочтительном варианте осуществления основанное на предсказании многоканальное декодирование конфигурируется для оценки параметра предсказания, описывающего вклад компоненты сигнала, которая извлекается, используя компоненту сигнала из предыдущего кадра, для обеспечения разностных сигналов (то есть первого разностного сигнала и второго разностного сигнала) текущего кадра. Использование такого основанного на предсказании многоканального декодирования способствует особенно хорошему качеству разностных сигналов (первого разностного сигнала и второго разностного сигнала).

В предпочтительном варианте осуществления основанное на предсказании многоканальное декодирование конфигурируется для получения первого разностного сигнала и второго разностного сигнала на основе (соответствующего) сигнала понижающего микширования и (соответствующего) «общего» разностного сигнала, причем основанное на предсказании многоканальное декодирование конфигурируется для применения общего разностного сигнала с первым знаком для получения первого разностного сигнала, и применения общего разностного сигнала со вторым знаком, который является обратным к первому знаку, для получения второго разностного сигнала. Было обнаружено, что такое основанное на предсказании многоканальное декодирование способствует хорошей эффективности для восстановления первого разностного сигнала и второго разностного сигнала.

В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого разностного сигнала и второго разностного сигнала на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя многоканальное декодирование, которое функционирует в области измененного дискретного косинусного преобразования (области MDCT). Было обнаружено, что такая концепция может воплощаться эффективным способом, поскольку аудио декодирование, которое может использоваться для обеспечения совместно кодированного представления первого разностного сигнала и второго разностного сигнала, предпочтительно работает в области MDCT. Соответственно, промежуточных преобразований можно избежать с помощью применения многоканального декодирования для обеспечения первого разностного сигнала и второго разностного сигнала в области MDCT.

В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого разностного сигнала и второго разностного сигнала на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя комплексное стерео предсказание USAC (например, как упомянуто в вышеупомянутом стандарте USAC). Было обнаружено, что такое комплексное стерео предсказание USAC способствует хорошим результатам декодирования первого разностного сигнала и второго разностного сигнала. Кроме того, использование комплексного стерео предсказания USAC для декодирования первого разностного сигнала и второго разностного сигнала также учитывает простое воплощение блоков декодирования, используя концепции, которые уже доступны в унифицированном кодировании речи и аудио (USAC). Соответственно, декодер унифицированного кодирования речи и аудио может легко реконфигурироваться для выполнения концепции декодирования, обсуждаемой в данной работе.

В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого канального аудио сигнала и второго канального аудио сигнала на основе первого сигнала понижающего микширования и первого разностного сигнала, используя основанное на параметре выполняемое с помощью разностного сигнала многоканальное декодирование. Точно так же аудио декодер конфигурируется для обеспечения третьего канального аудио сигнала и четвертого канального аудио сигнала на основе второго сигнала понижающего микширования и второго разностного сигнала, используя основанное на параметре выполняемое с помощью разностного сигнала многоканальное декодирование. Было обнаружено, что такое многоканальное декодирование хорошо подходит для извлечения канальных аудио сигналов на основе первого сигнала понижающего микширования, первого разностного сигнала, второго сигнала понижающего микширования и второго разностного сигнала. Кроме того, было обнаружено, что такое основанное на параметре выполняемое с помощью разностного сигнала многоканальное декодирование может воплощаться с небольшим усилием, используя блоки обработки, которые уже присутствуют в обычных многоканальных аудио декодерах.

В предпочтительном варианте осуществления основанное на параметре выполняемое с помощью разностного сигнала многоканальное декодирование конфигурируется для оценки одного или большего количества параметров, описывающих желательную корреляцию между двумя каналами и/или различие уровней между двумя каналами, для обеспечения двух или большего количества канальных аудио сигналов на основе соответствующего сигнала понижающего микширования и соответствующего связанного с ним разностного сигнала. Было обнаружено, что такое основанное на параметре выполняемое с помощью разностного сигнала многоканальное декодирование хорошо настраивается ко второй стадии каскадного многоканального декодирования (причем, предпочтительно, первый и второй сигналы понижающего микширования и первый и второй разностные сигналы обеспечиваются, используя основанное на предсказании многоканальное декодирование).

В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого канального аудио сигнала и второго канального аудио сигнала на основе первого сигнала понижающего микширования и первого разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование, которое функционирует в области QMF. Точно так же аудио декодер предпочтительно конфигурируется для обеспечения третьего канального аудио сигнала и четвертого канального аудио сигнала на основе второго сигнала понижающего микширования и второго разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование, которое функционирует в области QMF. Соответственно, вторая стадия иерархического многоканального декодирования функционирует в области QMF, что хорошо настраивается к обычной последующей обработке, которая также часто выполняется в области QMF, так что можно избежать промежуточных преобразований.

В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого канального аудио сигнала и второго канального аудио сигнала на основе первого сигнала понижающего микширования и первого разностного сигнала, используя декодирование MPEG surround 2-1-2 или унифицированное стерео декодирование. Точно так же аудио декодер предпочтительно конфигурируется для обеспечения третьего канального аудио сигнала и четвертого канального аудио сигнала на основе второго сигнала понижающего микширования и второго разностного сигнала, используя декодирование MPEG surround 2-1-2 или унифицированное стерео декодирование. Было обнаружено, что такие концепции декодирования особенно хорошо подходят для второй стадии иерархического декодирования.

В предпочтительном варианте осуществления первый разностный сигнал и второй разностный сигнал связаны с различными горизонтальными положениями (или, эквивалентно, азимутальными положениями) аудио сцены. Было обнаружено, что особенно выгодно отделять разностные сигналы, которые связаны с различными горизонтальными положениями (или азимутальными положениями), на первой стадии иерархической многоканальной обработки, потому что особенно хорошее впечатление прослушивания может быть получено, если перцепционно важное разделение лево/право выполняется на первой стадии иерархического многоканального декодирования.

В предпочтительном варианте осуществления первый канальный аудио сигнал и второй канальный сигнал связаны с соседними по вертикали положениями аудио сцены (или, эквивалентно, с соседними положениями высоты аудио сцены). Кроме того, третий канальный аудио сигнал и четвертый канальный аудио сигнал предпочтительно связаны с соседними по вертикали положениями аудио сцены (или, эквивалентно, с соседними положениями высоты аудио сцены). Было обнаружено, что хорошие результаты декодирования могут быть достигнуты, если разделение между верхним и нижним сигналами выполняется на второй стадии иерархического аудио декодирования (которая обычно содержит несколько меньшую точность разделения, чем первая стадия), так как человеческая слуховая система менее чувствительна по отношению к вертикальному положению источника аудио по сравнению с горизонтальным положением источника аудио.

В предпочтительном варианте осуществления первый канальный аудио сигнал и второй канальный аудио сигнал связаны с первым горизонтальным положением аудио сцены (или, эквивалентно, азимутальным положением), и третий канальный аудио сигнал и четвертый канальный аудио сигнал связаны со вторым горизонтальным положением аудио сцены (или, эквивалентно, азимутальным положением), которое отличается от первого горизонтального положения (или, эквивалентно, азимутального положения).

Предпочтительно, первый разностный сигнал связан с левой стороной аудио сцены, и второй разностный сигнал связан с правой стороной аудио сцены. Соответственно, разделение «лево/право» выполняется на первой стадии иерархического аудио декодирования.

В предпочтительном варианте осуществления первый канальный аудио сигнал и второй канальный аудио сигнал связаны с левой стороной аудио сцены, а третий канальный аудио сигнал и четвертый канальный аудио сигнал связаны с правой стороной аудио сцены.

В другом предпочтительном варианте осуществления первый канальный аудио сигнал связан с нижней левой стороной аудио сцены, второй канальный аудио сигнал связан с верхней левой стороной аудио сцены, третий канальный аудио сигнал связан с нижней правой стороной аудио сцены, и четвертый канальный аудио сигнал связан с верхней правой стороной аудио сцены. Такая связь канальных аудио сигналов способствует особенно хорошим результатам кодирования.

В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное декодирование, причем первый сигнал понижающего микширования связан с левой стороной аудио сцены, а второй сигнал понижающего микширования связан с правой стороной аудио сцены. Было обнаружено, что сигналы понижающего микширования могут также кодироваться с хорошей эффективностью кодирования, используя многоканальное кодирование, даже если сигналы понижающего микширования связаны с различными сторонами аудио сцены.

В предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя основанное на предсказании многоканальное декодирование или даже используя выполняемое с помощью разностного сигнала основанное на предсказании многоканальное декодирование. Было обнаружено, что использование таких концепций многоканального декодирования обеспечивает особенно хороший результат декодирования. Кроме того, существующие функции декодирования могут многократно использоваться в некоторых аудио декодерах.

В предпочтительном варианте осуществления аудио декодер конфигурируется для выполнения первого многоканального расширения диапазона на основе первого канального аудио сигнала и третьего канального аудио сигнала. Кроме того, аудио декодер может конфигурироваться для выполнения второго (обычно отдельного) многоканального расширения диапазона на основе второго канального аудио сигнала и четвертого канального аудио сигнала. Было обнаружено, что выгодно выполнять возможное расширение диапазона на основе двух канальных аудио сигналов, которые связаны с различными сторонами аудио сцены (причем, различные разностные сигналы обычно связываются с различными сторонами аудио сцены).

В предпочтительном варианте осуществления аудио декодер конфигурируется для выполнения первого многоканального расширения диапазона для обеспечения двух или большего количества канальных аудио сигналов с расширенным диапазоном, связанных с первой общей горизонтальной плоскостью (или, эквивалентно, с первой общей высотой) аудио сцены на основе первого канального аудио сигнала и третьего канального аудио сигнала и одного или большего количества параметров расширения диапазона. Кроме того, аудио декодер предпочтительно конфигурируется для выполнения второго многоканального расширения диапазона для обеспечения двух или большего количества канальных аудио сигналов с расширенным диапазоном, связанных со второй общей горизонтальной плоскостью (или, эквивалентно, со второй общей высотой) аудио сцены на основе второго канального аудио сигнала и четвертого канального аудио сигнала и одного или большего количества параметров расширения диапазона. Было обнаружено, что такие схемы декодирования приводят к хорошему качеству аудио, так как многоканальное расширение диапазона может рассматривать стерео особенности, которые важны для впечатления от прослушивания, в такой структуре.

В предпочтительном варианте осуществления совместно кодированное представление первого разностного сигнала и второго разностного сигнала содержит элемент пары каналов, содержащий сигнал понижающего микширования первого и второго разностного сигнала и общий разностный сигнал первого и второго разностного сигнала. Было обнаружено, что кодирование сигнала понижающего микширования первого и второго разностного сигнала и общего разностного сигнала первого и второго разностного сигнала, используя элемент пары каналов, является выгодным, так как сигнал понижающего микширования первого и второго разностного сигнала и общий разностный сигнал первого и второго разностного сигнала обычно совместно использует много характеристик. Соответственно, использование элемента пары каналов обычно уменьшает служебную информацию сигнализации и, следовательно, предоставляет возможность эффективного кодирования.

В другом предпочтительном варианте осуществления аудио декодер конфигурируется для обеспечения первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное декодирование, причем совместно кодированное представление первого сигнала понижающего микширования и второго сигнала понижающего микширования содержит элемент пары каналов. Элемент пары каналов содержит сигнал понижающего микширования первого и второго сигнала понижающего микширования и общий разностный сигнал первого и второго сигнала понижающего микширования. Этот вариант осуществления основан на тех же самых рассмотрениях, как ранее описанный вариант осуществления.

Другой вариант осуществления согласно изобретению создает аудио кодер для обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов. Аудио кодер конфигурируется для совместного кодирования по меньшей мере первого канального аудио сигнала и второго канального аудио сигнала, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения первого сигнала понижающего микширования и первого разностного сигнала. Аудио кодер конфигурируется для совместного кодирования по меньшей мере третьего канального аудио сигнала и четвертого канального аудио сигнала, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения второго сигнала понижающего микширования и второго разностного сигнала. Кроме того, аудио кодер конфигурируется для совместного кодирования первого разностного сигнала и второго разностного сигнала, используя многоканальное кодирование, для получения совместно кодированного представления разностных сигналов. Этот аудио кодер основан на тех же самых рассмотрениях, как вышеописанный аудио декодер.

Кроме того, опциональные усовершенствования этого аудио кодера и предпочтительные конфигурации этого аудио кодера являются по существу параллельными с усовершенствованиями и предпочтительными конфигурациями аудио декодера, обсуждаемого выше. Соответственно, делается ссылка на приведенное выше обсуждение.

Другой вариант осуществления согласно изобретению создает способ обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления, который по существу выполняет функциональные возможности аудио кодера, описанного выше, и который может дополняться с помощью любой из особенностей и функциональных возможностей, обсуждаемых выше.

Другой вариант осуществления согласно изобретению создает способ обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов, который по существу выполняет функциональные возможности аудио декодера, описанного выше.

Другой вариант осуществления согласно изобретению создает компьютерную программу для выполнения упомянутых выше способов.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Варианты осуществления согласно настоящему изобретению будут впоследствии описаны, ссылаясь на прилагаемые чертежи, на которых:

фиг. 1 показывает структурную схему аудио кодера согласно варианту осуществления настоящего изобретения;

фиг. 2 показывает структурную схему аудио декодера согласно варианту осуществления настоящего изобретения;

фиг. 3 показывает структурную схему аудио декодера согласно другому варианту осуществления настоящего изобретения;

фиг. 4 показывает структурную схему аудио кодера согласно варианту осуществления настоящего изобретения;

фиг. 5 показывает структурную схему аудио декодера согласно варианту осуществления настоящего изобретения;

фиг. 6 показывает структурную схему аудио декодера согласно другому варианту осуществления настоящего изобретения;

фиг. 7 показывает последовательность операций способа обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов согласно варианту осуществления настоящего изобретения;

фиг. 8 показывает последовательность операций способа обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления согласно варианту осуществления изобретения;

фиг. 9 показывает последовательность операций способа обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов согласно варианту осуществления изобретения; и

фиг. 10 показывает последовательность операций способа обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления согласно варианту осуществления изобретения;

фиг. 11 показывает структурную схему аудио кодера согласно варианту осуществления изобретения;

фиг. 12 показывает структурную схему аудио кодера согласно другому варианту осуществления изобретения;

фиг. 13 показывает структурную схему аудио декодера согласно варианту осуществления изобретения;

фиг. 14a показывает синтаксическое представление битового потока, который может использоваться со аудио кодером согласно фиг. 13;

фиг. 14b показывает табличное представление различных значений параметра qceIndex;

фиг. 15 показывает структурную схему трехмерного аудио кодера, в котором могут использоваться концепции согласно настоящему изобретению;

фиг. 16 показывает структурную схему трехмерного аудио декодера, в котором могут использоваться концепции согласно настоящему изобретению; и

фиг. 17 показывает структурную схему конвертера формата.

фиг. 18 показывает графическое представление топологической структуры элемента четырех каналов (QCE) согласно варианту осуществления настоящего изобретения;

фиг. 19 показывает структурную схему аудио декодера согласно варианту осуществления настоящего изобретения;

фиг. 20 показывает подробную структурную схему декодера QCE согласно варианту осуществления настоящего изобретения; и

фиг. 21 показывает подробную структурную схему кодера четырех каналов согласно варианту осуществления настоящего изобретения.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

1. Аудио кодер согласно фиг. 1

Фиг. 1 показывает структурную схему аудио кодера, который определяется полностью с помощью 100. Аудио кодер 100 конфигурируется для обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов. Аудио кодер 100 конфигурируется для приема первого канального аудио сигнала 110, второго канального аудио сигнала 112, третьего канального аудио сигнала 114 и четвертого канального аудио сигнала 116. Кроме того, аудио кодер 100 конфигурируется для обеспечения кодированного представления первого сигнала 120 понижающего микширования и второго сигнала 122 понижающего микширования, а так же совместно кодированного представления 130 разностных сигналов. Аудио кодер 100 содержит выполняемый с помощью разностного сигнала многоканальный кодер 140, который конфигурируется для совместного кодирования первого канального аудио сигнала 110 и второго канального аудио сигнала 112, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения первого сигнала 120 понижающего микширования и первого разностного сигнала 142. Кодер 100 аудио сигнала также содержит выполняемый с помощью разностного сигнала многоканальный кодер 150, который конфигурируется для совместного кодирования по меньшей мере третьего канального аудио сигнала 114 и четвертого канального аудио сигнала 116, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения второго сигнала 122 понижающего микширования и второго разностного сигнала 152. Аудио декодер 100 также содержит многоканальный кодер 160, который конфигурируется для совместного кодирования первого разностного сигнала 142 и второго разностного сигнала 152, используя многоканальное кодирование, для получения совместно кодированного представления 130 из разностных сигналов 142, 152.

Что касается функциональных возможностей аудио кодера 100, нужно отметить, что аудио кодер 100 выполняет иерархическое кодирование, причем первый канальный аудио сигнал 110 и второй канальный аудио сигнал 112 совместно кодируются, используя выполняемое с помощью разностного сигнала многоканальное кодирование 140, причем обеспечиваются и первый сигнал 120 понижающего микширования, и первый разностный сигнал 142. Первый разностный сигнал 142 может, например, описывать различия между первым канальным аудио сигналом 110 и вторым канальным аудио сигналом 112, и/или может описывать некоторые или любые особенности сигнала, которые не могут быть представлены с помощью первого сигнала 120 понижающего микширования, и опциональные параметры, которые могут обеспечиваться с помощью выполняемого с помощью разностного сигнала многоканального кодера 140. Другими словами, первый разностный сигнал 142 может быть разностным сигналом, который предусматривает улучшение результата декодирования, который может быть получен на основе первого сигнала 120 понижающего микширования, и любые возможные параметры, которые могут обеспечиваться с помощью выполняемого с помощью разностного сигнала многоканального кодера 140. Например, первый разностный сигнал 142 может учитывать по меньшей мере частичное восстановление формы колебательного сигнала для первого канального аудио сигнала 110 и второго канального аудио сигнала 112 на стороне аудио декодера по сравнению с простым восстановлением высокоуровневых характеристик сигнала (как, например, характеристик корреляции, характеристик ковариации, характеристик различия уровней и т.п.). Точно так же выполняемый с помощью разностного сигнала многоканальный кодер 150 обеспечивает и второй сигнал 122 понижающего микширования, и второй разностный сигнал 152 на основе третьего канального аудио сигнала 114 и четвертого канального аудио сигнала 116, так что второй разностный сигнал предусматривает улучшение восстановления третьего канального аудио сигнала 114 и четвертого канального аудио сигнала 116 на стороне аудио декодера. Второй разностный сигнал 152 может, следовательно, выполнять те же самые функциональные возможности, как первый разностный сигнал 142. Однако, если канальные аудио сигналы 110, 112, 114, 116 содержат некоторую корреляцию, то первый разностный сигнал 142 и второй разностный сигнал 152 обычно также коррелируются до некоторой степени. Соответственно, совместное кодирование первого разностного сигнала 142 и второго разностного сигнала 152, используя многоканальный кодер 160, обычно содержит высокую эффективность, поскольку многоканальное кодирование коррелированных сигналов обычно уменьшает скорость передачи битов с помощью применения взаимозависимостей. Следовательно, первый разностный сигнал 142 и второй разностный сигнал 152 могут кодироваться с хорошей точностью, сохраняя скорость передачи битов совместно кодированного представления 130 разностных сигналов довольно небольшой.

Подводя итог, вариант осуществления согласно фиг. 1 обеспечивает иерархическое многоканальное кодирование, причем хорошее качество воспроизведения может быть достигнуто при использовании выполняемых с помощью разностного сигнала многоканальных кодеров 140, 150, и причем требование к скорости передачи битов может сохраняться умеренным с помощью совместного кодирования первого разностного сигнала 142 и второго разностного сигнала 152.

Возможно дополнительное опциональное усовершенствование аудио кодера 100. Некоторые из этих усовершенствований будут описаны, ссылаясь на фиг. 4, 11 и 12. Однако, нужно отметить, что аудио кодер 100 может также настраиваться параллельно с аудио декодерами, описанными в данной работе, причем функциональные возможности аудио кодера являются обычно обратными к функциональным возможностям аудио декодера.

2. Аудио декодер согласно фиг. 2

Фиг. 2 показывает структурную схему аудио декодера, который определяется полностью с помощью 200.

Аудио декодер 200 конфигурируется для приема кодированного представления, которое содержит совместно кодированное представление 210 первого разностного сигнала и второго разностного сигнала. Аудио декодер 200 также принимает представление первого сигнала 212 понижающего микширования и второго сигнала 214 понижающего микширования. Аудио декодер 200 конфигурируется для обеспечения первого канального аудио сигнала 220, второго канального аудио сигнала 222, третьего канального аудио сигнала 224 и четвертого канального аудио сигнала 226.

Аудио декодер 200 содержит многоканальный декодер 230, который конфигурируется для обеспечения первого разностного сигнала 232 и второго разностного сигнала 234 на основе совместно кодированного представления 210 первого разностного сигнала 232 и второго разностного сигнала 234. Аудио декодер 200 также содержит (первый) выполняемый с помощью разностного сигнала многоканальный декодер 240, который конфигурируется для обеспечения первого канального аудио сигнала 220 и второго канального аудио сигнала 222 на основе первого сигнала 212 понижающего микширования и первого разностного сигнала 232, используя многоканальное декодирование. Аудио декодер 200 также содержит (второй) выполняемый с помощью разностного сигнала многоканальный декодер 250, который конфигурируется для обеспечения третьего канального аудио сигнала 224 и четвертого канального аудио сигнала 226 на основе второго сигнала 214 понижающего микширования и второго разностного сигнала 234.

Что касается функциональных возможностей аудио декодера 200, нужно отметить, что декодер 200 аудио сигнала обеспечивает первый канальный аудио сигнал 220 и второй канальный аудио сигнал 222 на основе (первого) обычного выполняемого с помощью разностного сигнала многоканального декодирования 240, причем качество многоканального декодирования повышается с помощью первого разностного сигнала 232 (по сравнению с декодированием, выполняемым без помощи разностного сигнала). Другими словами, первый сигнал 212 понижающего микширования предоставляет «грубую» информацию о первом канальном аудио сигнале 220 и втором канальном аудио сигнале 222, причем, например, различия между первым канальным аудио сигналом 220 и вторым канальным аудио сигналом 222 могут описываться с помощью (опциональных) параметров, которые могут приниматься с помощью выполняемого с помощью разностного сигнала многоканального декодера 240 и с помощью первого разностного сигнала 232. Следовательно, первый разностный сигнал 232 может, например, предусматривать частичное восстановление формы колебательного сигнала для первого канального аудио сигнала 220 и второго канального аудио сигнала 222.

Точно так же (второй) выполняемый с помощью разностного сигнала многоканальный декодер 250 обеспечивает третий канальный аудио сигнал 224 в четвертом канальном аудио сигнале 226 на основе второго сигнала 214 понижающего микширования, причем второй сигнал 214 понижающего микширования может, например, «грубо» описывать третий канальный аудио сигнал 224 и четвертый канальный аудио сигнал 226. Кроме того, различия между третьим канальным аудио сигналом 224 и четвертым канальным аудио сигналом 226 могут, например, описываться с помощью (опциональных) параметров, которые могут приниматься с помощью (второго) выполняемого с помощью разностного сигнала многоканального декодера 250 и с помощью второго разностного сигнала 234. Соответственно, оценка второго разностного сигнала 234 может, например, предусматривать частичное восстановление формы колебательного сигнала для третьего канального аудио сигнала 224 и четвертого канального аудио сигнала 226. Соответственно, второй разностный сигнал 234 может предусматривать улучшение качества восстановления третьего канального аудио сигнала 224 и четвертого канального аудио сигнала 226.

Однако, первый разностный сигнал 232 и второй разностный сигнал 234 извлекаются из совместно кодированного представления 210 первого разностного сигнала и второго разностного сигнала. Такое многоканальное декодирование, которое выполняется с помощью многоканального декодера 230, предоставляет возможность высоко эффективного декодирования, поскольку первый канальный аудио сигнал 220, второй канальный аудио сигнал 222, третий канальный аудио сигнал 224 и четвертый канальный аудио сигнал 226 являются обычно аналогичными или «коррелированными». Соответственно, первый разностный сигнал 232 и второй разностный сигнал 234 обычно также являются аналогичными или «коррелированными», что может применяться с помощью извлечения первого разностного сигнала 232 и второго разностного сигнала 234 из совместно кодированного представления 210, используя многоканальное декодирование.

Следовательно, возможно получать высокое качество декодирования с умеренной скоростью передачи битов с помощью декодирования разностных сигналов 232, 234 на основе их совместно кодированного представления 210, и с помощью использования каждого из разностных сигналов для декодирования двух или большего количества канальных аудио сигналов.

Завершая, аудио декодер 200 предусматривает высоко эффективное кодирование, обеспечивая высококачественные канальные аудио сигналы 220, 222, 224, 226.

Нужно отметить, что дополнительные особенности и функциональные возможности, которые могут воплощаться опционально в аудио декодере 200, будут описаны впоследствии, ссылаясь на фиг. 3, 5, 6 и 13. Однако, нужно отметить, что аудио кодер 200 может содержать вышеупомянутые преимущества без какой-либо дополнительной модификации.

3. Аудио декодер согласно фиг. 3

Фиг. 3 показывает структурную схему аудио декодера согласно другому варианту осуществления настоящего изобретения. Аудио декодер на фиг. 3 определяется полностью с помощью 300. Аудио декодер 300 аналогичен аудио декодеру 200 согласно фиг. 2, так что приведенные выше объяснения также применяются. Однако, аудио декодер 300 дополнен дополнительными особенностями и функциональными возможностями по сравнению со аудио декодером 200, как будет объяснено в последующем.

Аудио декодер 300 конфигурируется для приема совместно кодированного представления 310 первого разностного сигнала и второго разностного сигнала. Кроме того, аудио декодер 300 конфигурируется для приема совместно кодированного представления 360 первого сигнала понижающего микширования и второго сигнала понижающего микширования. Кроме того, аудио декодер 300 конфигурируется для обеспечения первого канального аудио сигнала 320, второго канального аудио сигнала 322, третьего канального аудио сигнала 324 и четвертого канального аудио сигнала 326. Аудио декодер 300 содержит многоканальный декодер 330, который конфигурируется для приема совместно кодированного представления 310 первого разностного сигнала и второго разностного сигнала и обеспечения, на основе этого, первого разностного сигнала 332 и второго разностного сигнала 334. Аудио декодер 300 также содержит (первое) выполняемое с помощью разностного сигнала многоканальное декодирование 340, которое принимает первый разностный сигнал 332 и первый сигнал 312 понижающего микширования и обеспечивает первый канальный аудио сигнал 320 и второй канальный аудио сигнал 322. Аудио декодер 300 также содержит (второе) выполняемое с помощью разностного сигнала многоканальное декодирование 350, которое конфигурируется для приема второго разностного сигнала 334 и второго сигнала 314 понижающего микширования и обеспечения третьего канального аудио сигнала 324 и четвертого канального аудио сигнала 326.

Аудио декодер 300 также содержит другой многоканальный декодер 370, который конфигурируется для приема совместно кодированного представления 360 первого сигнала понижающего микширования и второго сигнала понижающего микширования, и обеспечения, на основе этого, первого сигнала 312 понижающего микширования и второго сигнала 314 понижающего микширования.

В последующем будут описаны некоторые конкретные дополнительные подробности аудио декодера 300. Однако, нужно отметить, что фактический аудио декодер не должен воплощать комбинацию всех этих дополнительных особенностей и функциональных возможностей. Вместо этого особенности и функциональные возможности, описанные в последующем, могут отдельно добавляться к аудио декодеру 200 (или к любому другому аудио декодеру) для постепенного улучшения аудио декодера 200 (или любого другого аудио декодера).

В предпочтительном варианте осуществления аудио декодер 300 принимает совместно кодированное представление 310 первого разностного сигнала и второго разностного сигнала, причем это совместно кодированное представление 310 может содержать сигнал понижающего микширования первого разностного сигнала 332 и второго разностного сигнала 334, и общий разностный сигнал первого разностного сигнала 332 и второго разностного сигнала 334. Кроме того, совместно кодированное представление 310 может, например, содержать один или большее количество параметров предсказания. Соответственно, многоканальный декодер 330 может быть основанным на предсказании, выполняемым с помощью разностного сигнала многоканальным декодером. Например, многоканальный декодер 330 может быть декодером USAC с комплексным стерео предсказанием, как описано, например, в разделе «Complex Stereo Prediction» международного стандарта 23003-3:2012 ISO/IEC. Например, многоканальный декодер 330 может конфигурироваться для оценки параметра предсказания, описывающего вклад компоненты сигнала, которая извлекается, используя компоненту сигнала из предыдущего кадра, для обеспечения первого разностного сигнала 332 и второго разностного сигнала 334 для текущего кадра. Кроме того, многоканальный декодер 330 может конфигурироваться для применения общего разностного сигнала (который включает в себя совместно кодированное представление 310) с первым знаком для получения первого разностного сигнала 332, и применения общего разностного сигнала (который включает в себя совместно кодированное представление 310) со вторым знаком, который является обратным к первому знаку, для получения второго разностного сигнала 334. Таким образом, общий разностный сигнал может, по меньшей мере частично, описывать различия между первым разностным сигналом 332 и вторым разностным сигналом 334. Однако, многоканальный декодер 330 может оценивать сигнал понижающего микширования, общий разностный сигнал и один или большее количество параметров предсказания, которые все включает в себя совместно кодированное представление 310, для получения первого разностного сигнала 332 и второго разностного сигнала 334, как описано в вышеупомянутом международном стандарте 23003-3:2012 ISO/IEC. Кроме того, нужно отметить, что первый разностный сигнал 332 может быть связан с первым горизонтальным положением (или с азимутальным положением), например, с левым горизонтальным положением, и что второй разностный сигнал 334 может быть связан со вторым горизонтальным положением (или с азимутальным положением), например, с правым горизонтальным положением, аудио сцены.

Совместно кодированное представление 360 первого сигнала понижающего микширования и второго сигнала понижающего микширования предпочтительно содержит сигнал понижающего микширования первого сигнала понижающего микширования и второго сигнала понижающего микширования, общий разностный сигнал первого сигнала понижающего микширования и второго сигнала понижающего микширования, и один или большее количество параметров предсказания. Другими словами, есть «общий» сигнал понижающего микширования, в который понижающе микшируют первый сигнал 312 понижающего микширования и второй сигнал 314 понижающего микширования, и есть «общий» разностный сигнал, который может описывать, по меньшей мере частично, различия между первым сигналом 312 понижающего микширования и вторым сигналом 314 понижающего микширования. Многоканальный декодер 370 является предпочтительно основанным на предсказании выполняемым с помощью разностного сигнала многоканальным декодером, например, декодером USAC с комплексным стерео предсказанием. Другими словами, многоканальный декодер 370, который обеспечивает первый сигнал 312 понижающего микширования и второй сигнал 314 понижающего микширования, может быть по существу идентичным многоканальному декодеру 330, который обеспечивает первый разностный сигнал 332 и второй разностный сигнал 334, так что приведенные выше объяснения и ссылки также применяются. Кроме того, нужно отметить, что первый сигнал 312 понижающего микширования предпочтительно связан с первым горизонтальным положением или азимутальным положением (например, с левым горизонтальным положением или азимутальным положением) аудио сцены, и что второй сигнал 314 понижающего микширования предпочтительно связан со вторым горизонтальным положением или азимутальным положением (например, с правым горизонтальным положением или азимутальным положением) аудио сцены. Соответственно, первый сигнал 312 понижающего микширования и первый разностный сигнал 332 могут быть связаны с одним и тем же первым горизонтальным положением или азимутальным положением (например, с левым горизонтальным положением), а второй сигнал 314 понижающего микширования и второй разностный сигнал 334 могут быть связаны с одним и тем же вторым горизонтальным положением или азимутальным положением (например, с правым горизонтальным положением). Соответственно, и многоканальный декодер 370, и многоканальный декодер 330 могут выполнять горизонтальное разбиение (или горизонтальное разделение, или горизонтальное распределение).

Выполняемый с помощью разностного сигнала многоканальный декодер 340 может предпочтительно быть основан на параметре, и может, следовательно, принимать один или большее количество параметров 342, описывающих желательную корреляцию между двумя каналами (например, между первым канальным аудио сигналом 320 и вторым канальным аудио сигналом 322), и/или различия уровней между указанными двумя каналами. Например, выполняемое с помощью разностного сигнала многоканальное декодирование 340 может быть основано на кодировании MPEG surround (как описано, например, в ISO/IEC 23003-1:2007) с расширенным разностным сигналом или на декодере «унифицированного стерео декодирования» (как описано, например, в ISO/IEC 23003-3, глава 7.11 ((Decoder) & Annex B.21 (Description of the Encoder & Definition of the Term «Unified Stereo»)). Соответственно, выполняемый с помощью разностного сигнала многоканальный декодер 340 может обеспечивать первый канальный аудио сигнал 320 и второй канальный аудио сигнал 322, причем первый канальный аудио сигнал 320 и второй канальный аудио сигнал 322 связаны с соседними по вертикали положениями аудио сцены. Например, первый канальный аудио сигнал может быть связан с нижним левым положением аудио сцены, а второй канальный аудио сигнал может быть связан с верхним левым положением аудио сцены (таким образом, чтобы первый канальный аудио сигнал 320 и второй канальный аудио сигнал 322 были, например, связаны с идентичными горизонтальными положениями или азимутальными положениями аудио сцены, или с азимутальными положениями, отделенными не больше, чем на 30 градусов). Другими словами, выполняемый с помощью разностного сигнала многоканальный декодер 340 может выполнять вертикальное разбиение (или распределение, или разделение).

Функциональные возможности выполняемого с помощью разностного сигнала многоканального декодера 350 могут быть идентичными функциональным возможностям выполняемого с помощью разностного сигнала многоканального декодера 340, причем третий канальный аудио сигнал может, например, быть связан с нижним правым положением аудио сцены, и причем четвертый канальный аудио сигнал может, например, быть связан с верхним правым положением аудио сцены. Другими словами, третий канальный аудио сигнал и четвертый канальный аудио сигнал могут быть связаны с соседними по вертикали положениями аудио сцены, и могут быть связаны с одним и тем же горизонтальным положением или азимутальным положением аудио сцены, причем выполняемый с помощью разностного сигнала многоканальный декодер 350 выполняет вертикальное разбиение (или разделение, или распределение).

Подводя итог, аудио декодер 300 согласно фиг. 3 выполняет иерархическое аудио декодирование, причем разбиение «лево/право» выполняется на первых стадиях (многоканальный декодер 330, многоканальный декодер 370), и причем разбиение «верх/низ» выполняется на второй стадии (выполняемые с помощью разностного сигнала многоканальные декодеры 340, 350). Кроме того, разностные сигналы 332, 334 также кодируются, используя совместно кодированное представление 310, а так же сигналы 312, 314 понижающего микширования (совместно кодированное представление 360). Таким образом, корреляция между различными каналами применяется и для кодирования (и для декодирования) сигналов 312, 314 понижающего микширования, и для кодирования (и для декодирования) разностных сигналов 332, 334. Соответственно, достигается высокая эффективность кодирования, и корреляция между сигналами хорошо применяется.

4. Аудио кодер согласно фиг. 4

Фиг. 4 показывает структурную схему аудио кодера согласно другому варианту осуществления настоящего изобретения. Аудио кодер согласно фиг. 4 определяется полностью с помощью 400. Аудио кодер 400 конфигурируется для приема четырех канальных аудио сигналов, а именно, первого канального аудио сигнала 410, второго канального аудио сигнала 412, третьего канального аудио сигнала 414 и четвертого канального аудио сигнала 416. Кроме того, аудио кодер 400 конфигурируется для обеспечения кодированного представления на основе канальных аудио сигналов 410, 412, 414 и 416, причем указанное кодированное представление содержит совместно кодированное представление 420 двух сигналов понижающего микширования, а так же кодированное представление первого набора 422 общих параметров расширения диапазона и второго набора 424 общих параметров расширения диапазона. Аудио кодер 400 содержит первое средство 430 извлечения параметра расширения диапазона, которое конфигурируется для получения первого набора 422 общих параметров извлечения диапазона на основе первого канального аудио сигнала 410 и третьего канального аудио сигнала 414. Аудио кодер 400 также содержит второе средство 440 извлечения параметра расширения диапазона, которое конфигурируется для получения второго набора 424 общих параметров расширения диапазона на основе второго канального аудио сигнала 412 и четвертого канального аудио сигнала 416.

Кроме того, аудио кодер 400 содержит (первый) многоканальный кодер 450, который конфигурируется для совместного кодирования по меньшей мере первого канального аудио сигнала 410 и второго канального аудио сигнала 412, используя многоканальное кодирование, для получения первого сигнала 452 понижающего микширования. Дополнительно, аудио кодер 400 также содержит (второй) многоканальный кодер 460, который конфигурируется для совместного кодирования по меньшей мере третьего канального аудио сигнала 414 и четвертого канального аудио сигнала 416, используя многоканальное кодирование, для получения второго сигнала 462 понижающего микширования. Дополнительно, аудио кодер 400 также содержит (третий) многоканальный кодер 470, который конфигурируется для совместного кодирования первого сигнала 452 понижающего микширования и второго сигнала 462 понижающего микширования, используя многоканальное кодирование, для получения совместно кодированного представления 420 сигналов понижающего микширования.

Что касается функциональных возможностей аудио кодера 400, нужно отметить, что аудио кодер 400 выполняет иерархическое многоканальное кодирование, причем первый канальный аудио сигнал 410 и второй канальный аудио сигнал 412 объединяются на первой стадии, и причем третий канальный аудио сигнал 414 и четвертый канальный аудио сигнал 416 также объединяются на первой стадии, чтобы таким образом получить первый сигнал 452 понижающего микширования и второй сигнал 462 понижающего микширования. Первый сигнал 452 понижающего микширования и второй сигнал 462 понижающего микширования затем совместно кодируются на второй стадии. Однако, нужно отметить, что первое средство 430 извлечения параметра расширения диапазона обеспечивает первый набор 422 общих параметров извлечения диапазона на основе канальных аудио сигналов 410, 414, которые обрабатываются с помощью различных многоканальных кодеров 450, 460 на первой стадии иерархического многоканального кодирования. Точно так же второе средство 440 извлечения параметра расширения диапазона обеспечивает второй набор 424 общих параметров извлечения диапазона на основе различных канальных аудио сигналов 412, 416, которые обрабатываются с помощью различных многоканальных кодеров 450, 460 на первой стадии обработки. Этот конкретный порядок обработки приводит к такому преимуществу, что наборы 422, 424 параметров расширения диапазона основываются на каналах, которые объединяются только на второй стадии иерархического кодирования (то есть, в многоканальном кодере 470). Это выгодно, так как желательно объединять на первой стадии иерархического кодирования такие аудио каналы, соотношение которых не имеет очень большого значения по отношению к восприятию расположения источника аудио. Вместо этого рекомендуется, чтобы соотношение между первым сигналом понижающего микширования и вторым сигналом понижающего микширования главным образом определяло восприятие расположения источника аудио, потому что соотношение между первым сигналом 452 понижающего микширования и вторым сигналом 462 понижающего микширования может поддерживаться лучше, чем соотношение между отдельными канальными аудио сигналами 410, 412, 414, 416. Формулируя по-другому, было обнаружено, что желательно, чтобы первый набор 422 общих параметров расширения диапазона был основан на двух аудио каналах (канальных аудио сигналах), которые вносят вклад в другой из сигналов 452, 462 понижающего микширования, и чтобы второй набор 424 общих параметров расширения диапазона обеспечивался на основе канальных аудио сигналов 412, 416, которые также вносят вклад в другой из сигналов 452, 462 понижающего микширования, что достигается с помощью вышеописанной обработки канальных аудио сигналов в иерархическом многоканальном кодировании. Следовательно, первый набор 422 общих параметров расширения диапазона основывается на аналогичном соотношении каналов по сравнению с соотношением каналов между первым сигналом 452 понижающего микширования и вторым сигналом 462 понижающего микширования, причем последний обычно доминирует в пространственном впечатлении, генерируемым на стороне аудио декодера. Соответственно, обеспечение первого набора 422 параметров расширения диапазона и также обеспечение второго набора 424 параметров расширения диапазона хорошо настраивается к пространственному впечатлению от прослушивания, которое генерируется на стороне аудио декодера.

5. Аудио декодер согласно фиг. 5

Фиг. 5 показывает структурную схему аудио декодера согласно другому варианту осуществления настоящего изобретения. Аудио декодер согласно фиг. 5 определяется полностью с помощью 500.

Аудио декодер 500 конфигурируется для приема совместно кодированного представления 510 первого сигнала понижающего микширования и второго сигнала понижающего микширования. Кроме того, аудио декодер 500 конфигурируется для обеспечения первого канального сигнала 520 с расширенным диапазоном, второго канального сигнала 522 с расширенным диапазоном, третьего канального сигнала 524 с расширенным диапазоном и четвертого канального сигнала 526 с расширенным диапазоном.

Аудио декодер 500 содержит (первый) многоканальный декодер 530, который конфигурируется для обеспечения первого сигнала 532 понижающего микширования и второго сигнала 534 понижающего микширования на основе совместно кодированного представления 510 первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное декодирование. Аудио декодер 500 также содержит (второй) многоканальный декодер 540, который конфигурируется для обеспечения по меньшей мере первого канального аудио сигнала 542 и второго канального аудио сигнала 544 на основе первого сигнала 532 понижающего микширования, используя многоканальное декодирование. Аудио декодер 500 также содержит (третий) многоканальный декодер 550, который конфигурируется для обеспечения по меньшей мере третьего канального аудио сигнала 556 и четвертого канального аудио сигнала 558 на основе второго сигнала 544 понижающего микширования, используя многоканальное декодирование. Кроме того, аудио декодер 500 содержит (первое) многоканальное расширение 560 диапазона, которое конфигурируется для выполнения многоканального расширения диапазона на основе первого канального аудио сигнала 542 и третьего канального аудио сигнала 556, для получения первого канального сигнала 520 с расширенным диапазоном и третьего канального сигнала 524 с расширенным диапазоном. Кроме того, аудио декодер содержит (второе) многоканальное расширение 570 диапазона, которое конфигурируется для выполнения многоканального расширения диапазона на основе второго канального аудио сигнала 544 и четвертого канального аудио сигнала 558, для получения второго канального сигнала 522 с расширенным диапазоном и четвертого канального сигнала 526 с расширенным диапазоном.

Что касается функциональных возможностей аудио декодера 500, нужно отметить, что аудио декодер 500 выполняет иерархическое многоканальное декодирование, причем разбиение между первым сигналом 532 понижающего микширования и вторым сигналом 534 понижающего микширования выполняется на первой стадии иерархического декодирования, и причем первый канальный аудио сигнал 542 и второй канальный аудио сигнал 544 извлекаются из первого сигнала 532 понижающего микширования на второй стадии иерархического декодирования, и причем третий канальный аудио сигнал 556 и четвертый канальный аудио сигнал 558 извлекаются из второго сигнала 550 понижающего микширования на второй стадии иерархического декодирования. Однако, и первое многоканальное расширение 560 диапазона, и второе многоканальное расширение 570 диапазона принимает один канальный аудио сигнал, который извлекается из первого сигнала 532 понижающего микширования, и один канальный аудио сигнал, который извлекается из второго сигнала 534 понижающего микширования. Так как лучшее разделение каналов обычно достигается с помощью (первого) многоканального декодирования 530, которое выполняется в качестве первой стадии иерархического многоканального декодирования, по сравнению со второй стадией иерархического декодирования, можно заметить, что каждое многоканальное расширение 560, 570 диапазона принимает входные сигналы, которые четко разделены (потому что они создаются из первого сигнала 532 понижающего микширования и второго сигнала 534 понижающего микширования, каналы которых четко разделены). Таким образом, многоканальное расширение 560, 570 диапазона может рассматривать стерео характеристики, которые важны для впечатления от прослушивания, и которые хорошо представлены с помощью соотношения между первым сигналом 532 понижающего микширования и вторым сигналом 534 понижающего микширования, и могут поэтому обеспечивать хорошее впечатление от прослушивания.

Другими словами, «перекрестная» структура аудио декодера, в которой каждая из стадий 560, 570 многоканального расширения диапазона принимает входные сигналы от обоих (вторая стадия) многоканальных декодеров 540, 550, предусматривает хорошее многоканальное расширение диапазона, которое учитывает стерео соотношение между каналами.

Однако, нужно отметить, что аудио декодер 500 может дополняться любой из особенностей и функциональных возможностей, описанных в данной работе по отношению к аудио декодерам согласно фиг. 2, 3, 6 и 13, причем возможно вводить отдельные особенности в аудио декодер 500 для постепенного улучшения эксплуатационных характеристик аудио декодера.

6. Аудио декодер согласно фиг. 6

Фиг. 6 показывает структурную схему аудио декодера согласно другому варианту осуществления настоящего изобретения. Аудио декодер согласно фиг. 6 определяется полностью с помощью 600. Аудио декодер 600 согласно фиг. 6 аналогичен аудио декодеру 500 согласно фиг. 5, так что приведенные выше объяснения также применяются. Однако, аудио декодер 600 дополнен некоторыми особенностями и функциональными возможностями, которые могут также внедряться, отдельно или в комбинации, в аудио декодер 500 для усовершенствования.

Аудио декодер 600 конфигурируется для приема совместно кодированного представления 610 первого сигнала понижающего микширования и второго сигнала понижающего микширования и обеспечения первого сигнала 620 с расширенным диапазоном, второго сигнала 622 с расширенным диапазоном, третьего сигнала 624 с расширенным диапазоном и четвертого сигнала 626 с расширенным диапазоном. Аудио декодер 600 содержит многоканальный декодер 630, который конфигурируется для приема совместно кодированного представления 610 первого сигнала понижающего микширования и второго сигнала понижающего микширования, и обеспечения, на основе этого, первого сигнала 632 понижающего микширования и второго сигнала 634 понижающего микширования. Аудио декодер 600 дополнительно содержит многоканальный декодер 640, который конфигурируется для приема первого сигнала 632 понижающего микширования и обеспечения, на основе этого, первого канального аудио сигнала 542 и второго канального аудио сигнала 544. Аудио декодер 600 также содержит многоканальный декодер 650, который конфигурируется для приема второго сигнала 634 понижающего микширования и обеспечения третьего канального аудио сигнала 656 и четвертого канального аудио сигнала 658. Аудио декодер 600 также содержит (первое) многоканальное расширение 660 диапазона, которое конфигурируется для приема первого канального аудио сигнала 642 и третьего канального аудио сигнала 656 и обеспечения, на основе этого, первого канального сигнала 620 с расширенным диапазоном и третьего канального сигнала 624 с расширенным диапазоном. Кроме того, (второе) многоканальное расширение 670 диапазона принимает второй канальный аудио сигнал 644 и четвертый канальный аудио сигнал 658 и обеспечивает, на основе этого, второй канальный сигнал 622 с расширенным диапазоном и четвертый канальный сигнал 626 с расширенным диапазоном.

Аудио декодер 600 также содержит дополнительный многоканальный декодер 680, который конфигурируется для приема совместно кодированного представления 682 первого разностного сигнала и второго разностного сигнала и который обеспечивает, на основе этого, первый разностный сигнал 684 для использования с помощью многоканального декодера 640 и второй разностный сигнал 686 для использования с помощью многоканального декодера 650.

Многоканальный декодер 630 является предпочтительно основанным на предсказании выполняемым с помощью разностного сигнала многоканальным декодером. Например, многоканальный декодер 630 может быть по существу идентичным многоканальному декодеру 370, описанному выше. Например, многоканальный декодер 630 может быть декодером USAC с комплексным стерео предсказанием, как упомянуто выше, и как описано в стандарте USAC, на который ссылаются выше. Соответственно, совместно кодированное представление 610 первого сигнала понижающего микширования и второго сигнала понижающего микширования может, например, содержать (общий) сигнал понижающего микширования первого сигнала понижающего микширования и второго сигнала понижающего микширования, (общий) разностный сигнал первого сигнала понижающего микширования и второго сигнала понижающего микширования, и один или большее количество параметров предсказания, которые оцениваются с помощью многоканального декодера 630.

Кроме того, нужно отметить, что первый сигнал 632 понижающего микширования может, например, быть связан с первым горизонтальным положением или азимутальным положением (например, левым горизонтальным положением) аудио сцены и что второй сигнал 634 понижающего микширования может, например, быть связан со вторым горизонтальным положением или азимутальным положением (например, с правым горизонтальным положением) аудио сцены.

Кроме того, многоканальный декодер 680 может, например, быть основанным на предсказании связанным с разностным сигналом многоканальным декодером. Многоканальный декодер 680 может быть по существу идентичным многоканальному декодеру 330, описанному выше. Например, многоканальный декодер 680 может быть декодером USAC с комплексным стерео предсказанием, как упомянуто выше. Следовательно, совместно кодированное представление 682 первого разностного сигнала и второго разностного сигнала могут содержать (общий) сигнал понижающего микширования первого разностного сигнала и второго разностного сигнала, (общий) разностный сигнал первого разностного сигнала и второго разностного сигнала, и один или большее количество параметров предсказания, которые оцениваются с помощью многоканального декодера 680. Кроме того, нужно отметить, что первый разностный сигнал 684 может быть связан с первым горизонтальным положением или азимутальным положением (например, с левым горизонтальным положением) аудио сцены, и что второй разностный сигнал 686 может быть связан со вторым горизонтальным положением или азимутальным положением (например, с правым горизонтальным положением) аудио сцены.

Многоканальный декодер 640 может, например, быть основанным на параметре многоканальным декодированием как, например, многоканальное декодирование MPEG surround, которое описано выше и в стандарте, на который ссылаются. Однако, в присутствии (опционального) многоканального декодера 680 и (опционального) первого разностного сигнала 684, многоканальный декодер 640 может быть основанным на параметре выполняемым с помощью разностного сигнала многоканальным декодером, как, например, унифицированный стерео декодер. Таким образом, многоканальный декодер 640 может быть по существу идентичным многоканальному декодеру 340, описанному выше, и многоканальный декодер 640 может, например, принимать параметры 342, описанные выше.

Точно так же многоканальный декодер 650 может быть по существу идентичным многоканальному декодеру 640. Соответственно, многоканальный декодер 650 может, например, основываться на параметре и может опционально выполняться с помощью разностного сигнала (в присутствии опционального многоканального декодера 680).

Кроме того, нужно отметить, что первый канальный аудио сигнал 642 и второй канальный аудио сигнал 644 предпочтительно связаны со смежными по вертикали пространственными положениями аудио сцены. Например, первый канальный аудио сигнал 642 связан с нижним левым положением аудио сцены, а второй канальный аудио сигнал 644 связан с верхним левым положением аудио сцены. Соответственно, многоканальный декодер 640 выполняет вертикальное разбиение (или разделение, или распределение) аудио контента, описанного с помощью первого сигнала 632 понижающего микширования (и, опционально, с помощью первого разностного сигнала 684). Точно так же третий канальный аудио сигнал 656 и четвертый канальный аудио сигнал 658 связаны с смежными по вертикали положениями аудио сцены, и предпочтительно связаны с одним и тем же горизонтальным положением или азимутальным положением аудио сцены. Например, третий канальный аудио сигнал 656 предпочтительно связан с нижним правым положением аудио сцены, а четвертый канальный аудио сигнал 658 предпочтительно связан с верхним правым положением аудио сцены. Таким образом, многоканальный декодер 650 выполняет вертикальное разбиение (или разделение, или распределение) аудио контента, описанного с помощью второго сигнала 634 понижающего микширования (и, опционально, с помощью второго разностного сигнала 686).

Однако, первое многоканальное расширение 660 диапазона принимает первый канальный аудио сигнал 642 и третий аудио канал 656, которые связаны с нижним левым положением и нижним правым положением аудио сцены. Соответственно, первое многоканальное расширение 660 диапазона выполняет многоканальное расширение диапазона на основе двух канальных аудио сигналов, которые связаны с одной и той же горизонтальной плоскостью (например, с нижней горизонтальной плоскостью) или с высотой аудио сцены и с различными сторонами (левой/правой) аудио сцены. Соответственно, многоканальное расширение диапазона может учитывать стерео характеристики (например, человеческое восприятие стерео), когда выполняют расширение диапазона. Точно так же второе многоканальное расширение 670 диапазона может также учитывать стерео характеристики, так как второе многоканальное расширение диапазона работает с канальными аудио сигналами одной и той же горизонтальной плоскости (например, верхней горизонтальной плоскости) или высоты, но в разных горизонтальных положениях (на разных сторонах) (левая/правая) аудио сцены.

Дополнительно для завершения, иерархический аудио декодер 600 содержит структуру, в которой разбиение (или разделение, или распределение) «лево/право» выполняется на первой стадии (многоканальное декодирование 630, 680), причем вертикальное разбиение (разделение или распределение) выполняется на второй стадии (многоканальное декодирование 640, 650), и причем многоканальное расширение диапазона воздействует на пару левого/правого сигналов (многоканальное расширение 660, 670 диапазона). Это «пересечение» маршрутов декодирования предоставляет возможность, чтобы разделение «лево/право», которое особенно важно для впечатления от прослушивания (например, более важно, чем разбиение «верх/низ»), могло выполняться на первой стадии обработки иерархического аудио декодера и чтобы многоканальное расширение диапазона могло также выполняться на паре из левого/правого канальных аудио сигналов, что снова приводит к особенно хорошему впечатлению от прослушивания. Разбиение «верх/низ» выполняется в качестве промежуточной стадии между разделением «лево/право» и многоканальным расширением диапазона, что предоставляет возможность извлекать четыре канальных аудио сигнала (или канальных сигнала с расширенным диапазоном) без значительно ухудшения впечатления от прослушания.

7. Способ согласно фиг. 7

Фиг. 7 показывает последовательность операций способа 700 обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов.

Способ 700 содержит совместное кодирование 710 по меньшей мере первого канального аудио сигнала и второго канального аудио сигнала, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения первого сигнала понижающего микширования и первого разностного сигнала. Способ также содержит совместное кодирование 720 по меньшей мере третьего канального аудио сигнала и четвертого канального аудио сигнала, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения второго сигнала понижающего микширования и второго разностного сигнала. Способ дополнительно содержит совместное кодирование 730 первого разностного сигнала и второго разностного сигнала, используя многоканальное кодирование, для получения кодированного представления разностных сигналов. Однако, нужно отметить, что способ 700 может быть дополнен любой из особенностей и функциональных возможностей, описанных в данной работе по отношению к аудио кодерам и аудио декодерам.

8. Способ согласно фиг. 8

Фиг. 8 показывает последовательность операций способа 800 обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления.

Способ 800 содержит обеспечение 810 первого разностного сигнала и второго разностного сигнала на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя многоканальное декодирование. Способ 800 также содержит обеспечение 820 первого канального аудио сигнала и второго канального аудио сигнала на основе первого сигнала понижающего микширования и первого разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование. Способ также содержит обеспечение 830 третьего канального аудио сигнала и четвертого канального аудио сигнала на основе второго сигнала понижающего микширования и второго разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование.

Кроме того, нужно отметить, что способ 800 может дополняться любой из особенностей и функциональных возможностей, описанных в данной работе по отношению к аудио декодерам и аудио кодерам.

9. Способ согласно фиг. 9

Фиг. 9 показывает последовательность операций способа 900 обеспечения кодированного представления на основе по меньшей мере четырех канальных аудио сигналов.

Способ 900 содержит получение 910 первого набора общих параметров расширения диапазона на основе первого канального аудио сигнала и третьего канального аудио сигнала. Способ 900 также содержит получение 920 второго набора общих параметров расширения диапазона на основе второго канального аудио сигнала и четвертого канального аудио сигнала. Способ также содержит совместное кодирование по меньшей мере первого канального аудио сигнала и второго канального аудио сигнала, используя многоканальное кодирование, для получения первого сигнала понижающего микширования, и совместное кодирование 940 по меньшей мере третьего канального аудио сигнала и четвертого канального аудио сигнал, используя многоканальное кодирование, для получения второго сигнала понижающего микширования. Способ также содержит совместное кодирование 950 первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное кодирование, для получения кодированного представления сигналов понижающего микширования.

Нужно отметить, что некоторые из этапов способа 900, которые не содержат конкретных взаимозависимостей, могут выполняться в произвольном порядке или параллельно. Кроме того, нужно отметить, что способ 900 может дополняться любой из особенностей и функциональных возможностей, описанных в данной работе по отношению к аудио кодерам и аудио декодерам.

10. Способ согласно фиг. 10

Фиг. 10 показывает последовательность операций способа 1000 обеспечения по меньшей мере четырех канальных аудио сигналов на основе кодированного представления.

Способ 1000 содержит обеспечение 1010 первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное декодирование, обеспечение 1020 по меньшей мере первого канального аудио сигнала и второго канального аудио сигнала на основе первого сигнала понижающего микширования, используя многоканальное декодирование, обеспечение 1030 по меньшей мере третьего канального аудио сигнала и четвертого канального аудио сигнала на основе второго сигнала понижающего микширования, используя многоканальное декодирование, выполнение 1040 многоканального расширения диапазона на основе первого канального аудио сигнала и третьего канального аудио сигнала, для обеспечения первого канального сигнала с расширенным диапазоном и третьего канального сигнала с расширенным диапазоном, и выполнение 1050 многоканального расширения диапазона на основе второго канального аудио сигнала и четвертого канального аудио сигнала, для обеспечения второго канального сигнала с расширенным диапазоном и четвертого канального сигнала с расширенным диапазоном.

Нужно отметить, что некоторые из этапов способа 1000 могут выполняться параллельно или в другом порядке. Кроме того, нужно отметить, что способ 1000 может дополняться любой из особенностей и функциональных возможностей, описанных в данной работе по отношению к аудио кодеру и аудио декодеру.

11. Варианты осуществления согласно фиг. 11, 12 и 13

В последующем будут описаны некоторые дополнительные варианты осуществления согласно настоящему изобретению и основным рассмотрениям.

Фиг. 11 показывает структурную схему аудио кодера 1100 согласно варианту осуществления изобретения. Аудио кодер 1100 конфигурируется для приема левого нижнего канального сигнала 1110, левого верхнего канального сигнала 1112, правого нижнего канального сигнала 1114 и правого верхнего канального сигнала 1116.

Аудио кодер 1100 содержит первый многоканальный аудио кодер (или кодирование) 1120, который является аудио кодером (или кодированием) MPEG surround 2-1-2 или унифицированным аудио стерео кодером (или кодированием) и который принимает левый нижний канальный сигнал 1110 и левый верхний канальный сигнал 1112. Первый многоканальный аудио кодер 1120 обеспечивает левый сигнал 1122 понижающего микширования и, опционально, левый разностный сигнал 1124. Кроме того, аудио кодер 1100 содержит второй многоканальный кодер (или кодирование) 1130, который является кодером (или кодированием) MPEG surround 2-1-2 или унифицированным стерео кодером (или кодированием), который принимает правый нижний канальный сигнал 1114 и правый верхний канальный сигнал 1116. Второй многоканальный аудио кодер 1130 обеспечивает правый сигнал 1132 понижающего микширования и, опционально, правый разностный сигнал 1134. Аудио 1100 кодер также содержит стерео кодер (или кодирование) 1140, который принимает левый сигнал 1122 понижающего микширования и правый сигнал 1132 понижающего микширования. Кроме того, первое стерео кодирование 1140, которое является кодированием с комплексным стерео предсказанием, принимает информацию 1142 психо-акустической модели из психо-акустической модели. Например, информация 1142 психо-акустической модели может описывать психо-акустическую значимость различных диапазонов частот или частотных поддиапазонов, эффекты психо-акустической маскировки и т.п. Стерео кодирование 1140 обеспечивает элемент пары каналов (CPE) «понижающего микширования», который определяется с помощью 1144 и который описывает левый сигнал 1122 понижающего микширования и правый сигнал 1132 понижающего микширования в совместно кодированной форме. Кроме того, аудио кодер 1100 опционально содержит второй стерео кодер (или кодирование) 1150, который конфигурируется для приема опционального левого разностного сигнала 1124 и опционального правого разностного сигнала 1134, а так же информации 1142 психо-акустической модели. Второе стерео кодирование 1150, которое является кодированием с комплексным стерео предсказанием, конфигурируется для обеспечения «разностного» элемента пары каналов (CPE), который представляет левый разностный сигнал 1124 и правый разностный сигнал 1134 в совместно кодированной форме.

Кодер 1100 (так же как другие аудио кодеры, описанные в данной работе), основан на идее, что взаимозависимости горизонтального и вертикального сигналов применяются с помощью иерархического объединения доступных стерео средств USAC (то есть, концепций кодирования, которые доступны в USAC-кодировании). Соседние по вертикали пары каналов объединяются, используя кодирование MPEG surround 2-1-2 или унифицированное стерео кодирование (определяемые с помощью 1120 и 1130), с разностным сигналом с ограниченным диапазоном или разностным сигналом с полным диапазоном (определяемыми с помощью 1124 и 1134). Выходным сигналом каждой вертикальной пары каналов является сигнал 1122, 1132 понижающего микширования, а для унифицированного стерео кодирования - разностный сигнал 1124, 1134. Для удовлетворения перцепционных требований для бинаурального демаскирования, оба сигнала 1122, 1132 понижающего микширования объединяются по горизонтали и совместно кодируются при помощи комплексного предсказания (кодера 1140) в области MDCT, что включает в себя возможность кодирования «лево/право» и «середина/сторона». Тот же самый способ может применяться к объединенным по горизонтали разностным сигналам 1124, 1134. Эта концепция показана на фиг. 11.

Иерархическая структура, объясняемая со ссылкой на фиг. 11, может достигаться с помощью включения обоих стерео средств (например, обоих стерео средств USAC) и повторной сортировки между собой каналов. Таким образом дополнительный этап предварительной/последующей обработки не является необходимым, и синтаксис битового потока для передачи полезных нагрузок данного средства остается неизменным (например, по существу неизменным по сравнению со стандартом USAC). Эта идея приводит к структуре кодера, показанной на фиг. 12.

Фиг. 12 показывает структурную схему аудио кодера 1200 согласно варианту осуществления изобретения. Аудио кодер 1200 конфигурируется для приема первого канального сигнала 1210, второго канального сигнала 1212, третьего канального сигнала 1214 и четвертого канального сигнала 1216. Аудио кодер 1200 конфигурируется для обеспечения битового потока 1220 первого элемента пары каналов и битового потока 1222 второго элемента пары каналов.

Аудио кодер 1200 содержит первый многоканальный кодер 1230, который является кодером MPEG surround 2-1-2 или унифицированным стерео кодером, и который принимает первый канальный сигнал 1210 и второй канальный сигнал 1212. Кроме того, первый многоканальный кодер 1230 обеспечивает первый сигнал 1232 понижающего микширования, полезную нагрузку 1236 MPEG surround и, опционально, первый разностный сигнал 1234. Аудио кодер 1200 также содержит второй многоканальный кодер 1240, который является кодером MPEG surround 2-1-2 или унифицированным стерео кодером, и который принимает третий канальный сигнал 1214 и четвертый канальный сигнал 1216. Второй многоканальный кодер 1240 обеспечивает первый сигнал 1242 понижающего микширования, полезную нагрузку 1246 MPEG surround и, опционально, второй разностный сигнал 1244.

Аудио 1200 кодер также содержит первое стерео кодирование 1250, которое является кодированием с комплексным стерео предсказанием. Первое стерео кодирование 1250 принимает первый сигнал 1232 понижающего микширования и второй сигнал 1242 понижающего микширования. Первое стерео кодирование 1250 обеспечивает совместно кодированное представление 1252 первого сигнала 1232 понижающего микширования и второго сигнала 1242 понижающего микширования, причем совместно кодированное представление 1252 может содержать представление (общего) сигнала понижающего микширования (первого сигнала 1232 понижающего микширования и второго сигнала 1242 понижающего микширования) и общего разностного сигнала (первого сигнала 1232 понижающего микширования и второго сигнала 1242 понижающего микширования). Кроме того, (первое) кодирование 1250 с комплексным стерео предсказанием обеспечивает полезную нагрузку 1254 комплексного предсказания, которая обычно содержит один или большее количество коэффициентов комплексного предсказания. Кроме того, аудио кодер 1200 также содержит второе стерео кодирование 1260, которое является кодированием с комплексным стерео предсказанием. Второе стерео кодирование 1260 принимает первый разностный сигнал 1234 и второй разностный сигнал 1244 (или нулевые входные значения, если нет никакого разностного сигнала, обеспеченного с помощью многоканальных кодеров 1230, 1240). Второе стерео кодирование 1260 обеспечивает совместно кодированное представление 1262 первого разностного сигнала 1234 и второго разностного сигнала 1244, которое может, например, содержать (общий) сигнал понижающего микширования (первого разностного сигнала 1234 и второго разностного сигнала 1244) и общий разностный сигнал (первого разностного сигнала 1234 и второго разностного сигнала 1244). Кроме того, кодирование 1260 с комплексным стерео предсказанием обеспечивает полезную нагрузку 1264 комплексного предсказания, которая обычно содержит один или большее количество коэффициентов предсказания.

Кроме того, аудио кодер 1200 содержит психо-акустическую модель 1270, которая предоставляет информацию, которая управляет первым кодированием 1250 с комплексным стерео предсказанием и вторым кодированием 1260 с комплексным стерео предсказанием. Например, информация, предоставленная психо-акустической моделью 1270, может описывать, какие диапазоны частот или частотные элементы имеют высокую психо- акустическую значимость и должны кодироваться с высокой точностью. Однако, нужно отметить, что использование информации, предоставленной психо-акустической моделью 1270, является опциональным.

Кроме того, аудио кодер 1200 содержит первый кодер и мультиплексор 1280, который принимает совместно кодированное представление 1252 от первого кодирования 1250 с комплексным стерео предсказанием, полезную нагрузку 1254 комплексного предсказания - от первого кодирования 1250 с комплексным стерео предсказанием, и полезную нагрузку 1236 MPEG surround - от первого многоканального аудио кодера 1230. Кроме того, первое кодирование и мультиплексирование 1280 может принимать информацию от психо-акустической модели 1270, которая описывает, например, какая точность кодирования должна применяться к каким частотным диапазонам или частотным поддиапазонам, принимая во внимание эффекты психо-акустической маскировки и т.п. Соответственно, первое кодирование и мультиплексирование 1280 обеспечивает первый битовый поток 1220 элементов пары каналов.

Кроме того, аудио кодер 1200 содержит второе кодирование и мультиплексирование 1290, которое конфигурируется для приема совместно кодированного представления 1262, обеспеченного с помощью второго кодирования 1260 с комплексным стерео предсказанием, полезной нагрузки 1264 комплексного предсказания, обеспеченной с помощью второго кодирования 1260 с комплексным стерео предсказанием, и полезной нагрузки 1246 MPEG surround, обеспеченной с помощью второго многоканального аудио кодера 1240. Кроме того, второе кодирование и мультиплексирование 1290 может принимать информацию из психо-акустической модели 1270. Соответственно, второе кодирование и мультиплексирование 1290 обеспечивает второй битовый поток 1222 элементов пары каналов.

Что касается функциональных возможностей аудио кодера 1200, ссылка делается на приведенные выше объяснения, а также на объяснения по отношению к аудио кодерам согласно фиг. 2, 3, 5 и 6.

Кроме того, нужно отметить, что эта концепция может расширяться для использования множества блоков MPEG surround для унифицированного кодирования горизонтально, вертикально или иным образом геометрически связанных каналов и объединения сигналов понижающего микширования и разностных сигналов в пары комплексного стерео предсказания, учитывая их геометрические и перцепционные свойства. Это приводит к обобщенной структуре декодера.

В последующем будет описано воплощение элемента четырех каналов. В системе трехмерного аудио кодирования используется иерархическая комбинация четырех каналов для формирования элемента четырех каналов (QCE). QCE состоит из двух элементов пары каналов (CPE) USAC (или обеспечивает два элемента пары каналов USAC, или принимает два элемента пары каналов USAC). Вертикальные пары каналов объединяются, используя MPS 2-1-2 или унифицированное стерео кодирование. Каналы понижающего микширования совместно кодируются в первом элементе пары каналов CPE. Если разностное кодирование применяется, то разностные сигналы совместно кодируются во втором элементе пары каналов CPE, иначе сигнал во втором CPE устанавливается в ноль. Оба элемента пары каналов CPE используют комплексное предсказание для совместного стерео кодирования, которое включает в себя возможность кодирования «лево/право» и «середина/сторона». Для сохранения перцепционных стерео свойств высокочастотной части сигнала, стерео SBR (репликация спектрального диапазона) применяется между парой из верхнего левого/правого каналов и парой из нижнего левого/правого каналов с помощью дополнительного этапа повторной сортировки перед применением SBR.

Возможная структура декодера будет описана, ссылаясь на фиг. 13, которая показывает структурную схему аудио декодера согласно варианту осуществления изобретения. Аудио декодер 1300 конфигурируется для приема первого битового потока 1310, представляющего первый элемент пары каналов, и второго битового потока 1312, представляющего второй элемент пары каналов. Однако, первый битовый поток 1310 и второй битовый поток 1312 может включать в себя общий полный битовый поток.

Аудио декодер 1300 конфигурируется для обеспечения первого канального сигнала 1320 с расширенным диапазоном, который может, например, представлять нижнее левое положение аудио сцены, второго канального сигнала 1322 с расширенным диапазоном, который может, например, представлять верхнее левое положение аудио сцены, третьего канального сигнала 1324 с расширенным диапазоном, который может, например, быть связан с нижним правым положением аудио сцены, и четвертого канального сигнала 1326 с расширенным диапазоном, который может, например, быть связан с верхним правым положением аудио сцены.

Аудио декодер 1300 содержит первое декодирование 1330 битового потока, которое конфигурируется для приема битового потока 1310 для первого элемента пары каналов и обеспечения, на основе этого, совместно кодированного представления двух сигналов понижающего микширования, полезной нагрузки 1334 комплексного предсказания, полезной нагрузки 1336 MPEG surround и полезной нагрузки 1338 репликации спектрального диапазона. Аудио декодер 1300 также содержит первое стерео декодирование 1340 с комплексным предсказанием, которое конфигурируется для приема совместно кодированного представления 1332 и полезной нагрузки 1334 комплексного предсказания и обеспечения, на основе этого, первого сигнала 1342 понижающего микширования и второго сигнала 1344 понижающего микширования. Точно так же аудио декодер 1300 содержит второе декодирование 1350 битового потока, которое конфигурируется для приема битового потока 1312 для второго канального элемента и обеспечения, на основе этого, совместно кодированного представления 1352 двух разностных сигналов, полезной нагрузки 1354 комплексного предсказания, полезной нагрузки 1356 MPEG surround и битовой нагрузки 1358 репликации спектрального диапазона. Аудио декодер также содержит второе декодирование 1360 с комплексным стерео предсказанием, которое обеспечивает первый разностный сигнал 1362 и второй разностный сигнал 1364 на основе совместно кодированного представления 1352 и полезной нагрузки 1354 комплексного предсказания.

Кроме того, аудио декодер 1300 содержит первое многоканальное декодирование 1370 типа MPEG Surround, которое является декодированием MPEG surround 2-1-2 или унифицированным стерео декодированием. Первое многоканальное декодирование 1370 типа MPEG Surround принимает первый сигнал 1342 понижающего микширования, первый разностный сигнал 1362 (опционально) и полезную нагрузку 1336 MPEG surround, и обеспечивает, на основе этого, первый канальный аудио сигнал 1372 и второй канальный аудио сигнал 1374. Аудио декодер 1300 также содержит второе многоканальное декодирование 1380 типа MPEG Surround, которое является многоканальным декодированием MPEG surround 2-1-2 или унифицированным многоканальным стерео декодированием. Второе многоканальное декодирование 1380 типа MPEG Surround принимает второй сигнал 1344 понижающего микширования и второй разностный сигнал 1364 (опционально), а так же полезную нагрузку 1356 MPEG surround, и обеспечивает, на основе этого, третий канальный аудио сигнал 1382 и четвертый канальный аудио сигнал 1384. Аудио декодер 1300 также содержит первую стерео репликацию 1390 спектрального диапазона, которая конфигурируется для приема первого канального аудио сигнала 1372 и третьего канального аудио сигнала 1382, а так же полезной нагрузки 1338 репликации спектрального диапазона, и обеспечения, на основе этого, первого канального сигнала 1320 с расширенным диапазоном и третьего канального сигнала 1324 с расширенным диапазоном. Кроме того, аудио декодер содержит вторую стерео репликацию 1394 спектрального диапазона, которая конфигурируется для приема второго канального аудио сигнала 1374 и четвертого канального аудио сигнала 1384, а так же полезной нагрузки 1358 репликации спектрального диапазона, и обеспечения, на основе этого, второго канального сигнала 1322 с расширенным диапазоном и четвертого канального сигнала 1326 с расширенным диапазоном.

Что касается функциональных возможностей аудио декодера 1300, ссылка делается на приведенное выше обсуждение, а также на обсуждение аудио декодера согласно фиг. 2, 3, 5 и 6.

В последующем пример битового потока, который может использоваться для аудио кодирования/декодирования, описанного в данной работе, будет описан, ссылаясь на фиг. 14a и 14b. Нужно отметить, что битовый поток может, например, быть расширением битового потока, используемого в унифицированном кодировании речи и аудио (USAC), который описан в вышеупомянутом стандарте (23003-3:2012 ISO/IEC). Например, полезные нагрузки 1236, 1246, 1336, 1356 MPEG surround и полезные нагрузки 1254, 1264, 1334, 1354 комплексного предсказания могут передаваться как унаследованные элементы пары каналов (то есть как элементы пары каналов согласно стандарту USAC). Для того, чтобы сигнализировать об использовании элемента четырех каналов QCE, конфигурация пары каналов USAC может расширяться на два бита, как показано на фиг. 14a. Другими словами, два бита, определяемые с помощью «qceIndex», могут добавляться к элементу «UsacChannelPairElementConfig ()» битового потока USAC. Значение параметра, представленного битами «qceIndex», может определяться, например, как показано в таблице на фиг. 14b.

Например, два элемента пары каналов, которые формируют QCE, могут передаваться как последовательные элементы, первый CPE содержит каналы понижающего микширования и полезную нагрузку MPS для первого блока MPS, второй CPE содержит разностный сигнал (или нулевой аудио сигнал для кодирования MPS 2-1-2) и полезную нагрузку MPS для второго блока MPS.

Другими словами, существует только небольшая служебная информация сигнализации по сравнению с обычным битовым потоком USAC для передачи элемента четырех каналов QCE.

Однако, другие форматы битового потока могут, естественно, также использоваться.

12. Среда кодирования/декодирования

В последующем будет описана среда аудио кодирования/декодирования, в которой могут применяться концепции согласно настоящему изобретению.

Трехмерная система аудио кодека, в которой могут использоваться концепции согласно настоящему изобретению, основана на кодеке MPEG-D USAC для декодирования сигналов канала и объекта. Для увеличения эффективности кодирования большого количества объектов настраивалась технология MPEG SAOC. Три типа интерпретаторов выполняют задания интерпретации объектов на каналы, интерпретации каналов на головные телефоны или интерпретации каналов на различные установки громкоговорителей. Когда сигналы объектов явно передаются или параметрически кодируются, используя SAOC, соответствующая информация метаданных объектов сжимается и мультиплексируется в битовый поток трехмерного аудио.

Фиг. 15 показывает структурную схему такого аудио кодера, и фиг. 16 показывает структурную схему такого аудио декодера. Другими словами, фиг. 15 и 16 показывают различные алгоритмические блоки трехмерной аудио системы.

Ссылаясь теперь на фиг. 15, которая показывает структурную схему трехмерного аудио кодера 1500, будут объяснены некоторые подробности. Кодер 1500 содержит опциональный предварительный интерпретатор/микшер 1510, который принимает один или большее количество канальных сигналов 1512 и один или большее количество сигналов 1514 объекта и обеспечивает, на основе этого, один или большее количество канальных сигналов 1516, а так же один или большее количество сигналов 1518, 1520 объекта. Аудио кодер также содержит кодер 1530 USAC и, опционально, кодер 1540 SAOC. Кодер 1540 SAOC конфигурируется для обеспечения одного или большего количества каналов 1542 транспорта SAOC и дополнительной информации 1544 SAOC на основе одного или большего количества объектов 1520, обеспеченных на кодер SAOC. Кроме того, кодер 1530 USAC конфигурируется для приема канальных сигналов 1516, содержащих каналы и предварительно интерпретированные объекты, от предварительного интерпретатора/микшера, для приема одного или большего количества сигналов 1518 объекта от предварительного интерпретатора/микшера и приема одного или большего количества каналов 1542 транспорта SAOC и дополнительной информации 1544 SAOC, и обеспечивает, на основе этого, кодированное представление 1532. Кроме того, аудио кодер 1500 также содержит кодер 1550 метаданных объекта, который конфигурируется для приема метаданных 1552 объекта (которые могут оцениваться с помощью предварительного интерпретатора/микшера 1510), и кодирования метаданных объекта для получения кодированных метаданных 1554 объекта. Кодированные метаданные также принимаются с помощью кодера 1530 USAC и используются для обеспечения кодированного представления 1532.

Некоторые подробности относительно отдельных компонент аудио кодера 1500 будут описаны ниже.

Ссылаясь теперь на фиг. 16, будет описан аудио декодер 1600. Аудио декодер 1600 конфигурируется для приема кодированного представления 1610 и обеспечения, на основе этого, многоканальных сигналов 1612 громкоговорителей, сигналов 1614 головного телефона и/или сигналов 1616 громкоговорителей в альтернативном формате (например, в формате 5.1).

Аудио декодер 1600 содержит декодер 1620 USAC и обеспечивает один или большее количество канальных сигналов 1622, один или большее количество предварительно интерпретированных сигналов 1624 объектов, один или большее количество сигналов 1626 объектов, один или большее количество каналов 1628 транспорта SAOC, дополнительную информацию 1630 SAOC и сжатую информацию 1632 метаданных объекта на основе кодированного представления 1610. Аудио декодер 1600 также содержит интерпретатор 1640 объекта, который конфигурируется для обеспечения одного или большего количества интерпретированных сигналов 1642 объекта на основе сигнала 1626 объекта и информации 1644 метаданных объекта, причем информация 1644 метаданных объекта обеспечивается с помощью декодера 1650 метаданных объекта на основе сжатой информации 1632 метаданных объекта. Аудио декодер 1600 также опционально содержит декодер 1660 SAOC, который конфигурируется для приема канала 1628 транспорта SAOC и дополнительной информации 1630 SAOC, и обеспечения, на основе этого, одного или большего количества интерпретированных сигналов 1662 объекта. Аудио декодер 1600 также содержит микшер 1670, который конфигурируется для приема канальных сигналов 1622, предварительно интерпретированных сигналов 1624 объекта, интерпретированных сигналов 1642 объекта и интерпретированных сигналов 1662 объекта, и обеспечения, на основе этого, множества микшированных канальных сигналов 1672, которые могут, например, составлять многоканальные сигналы 1612 громкоговорителей. Аудио декодер 1600 может, например, также содержать бинауральную интерпретацию 1680, которая конфигурируется для приема микшированных канальных сигналов 1672 и обеспечения, на основе этого, сигналов 1614 головного телефона. Кроме того, аудио декодер 1600 может содержать конвертирование 1690 формата, которое конфигурируется для приема микшированных канальных сигналов 1672 и информации 1692 о схеме размещения воспроизведения и обеспечения, на основе этого, сигнала 1616 громкоговорителя для альтернативной установки громкоговорителей.

В последующем будут описаны некоторые подробности относительно компонент аудио кодера 1500 и аудио декодера 1600.

Предварительный интерпретатор/микшер

Предварительный интерпретатор/микшер 1510 может опционально использоваться для конвертирования входной сцены канала плюс объекта в сцену канала перед кодированием. Функционально, он может, например, быть идентичен интерпретатору/микшеру объекта, описанному ниже. Предварительная интерпретация объектов может, например, обеспечивать детерминированную энтропию сигнала на входе кодера, которая в основном не зависит от количества одновременно активных сигналов объекта. При предварительной интерпретации объектов не требуется никакая передача метаданных объектов. Дискретные сигналы объектов интерпретируются в схему размещения каналов, которую кодер конфигурирует для использования. Веса объектов для каждого канала получаются из связанных с объектом метаданных (OAM) 1552.

Базовый кодек USAC

Базовый кодек 1530, 1620 для канальных сигналов громкоговорителей, сигналов дискретных объектов, сигналов понижающего микширования и предварительно интерпретированных сигналов объектов основан на технологии MPEG-D USAC. Он обрабатывает кодирование множества сигналов с помощью создания информации сопоставления канала и объекта, основываясь на геометрической и семантической информации вводимого назначения канала и объекта. Эта информация сопоставления описывает, как входные каналы и объекты сопоставляются с элементами канала USAC (CPE, SCE, LFE), и соответствующая информация передается на декодер. Все дополнительные полезные нагрузки, как данные SAOC или метаданные объекта, передаются через дополнительные элементы и учитываются при управлении скоростью кодеров.

Кодирование объектов возможно по-разному, в зависимости от требований скорости/искажения и требований по взаимодействию для интерпретатора. Возможны следующие варианты кодирования объекта:

1. Предварительно интерпретированные объекты: сигналы объекта предварительно интерпретируются и микшируются с канальными сигналами 22.2 перед кодированием. Последующая цепь кодирования видит канальные сигналы 22.2.

2. Дискретные колебательные сигнала объекта: объекты поставляются в качестве монофонических форм сигнала к кодеру. Кодер использует элементы единственного канала SCE для перемещения объектов в дополнение к канальным сигналам. Декодированные объекты интерпретируются и микшируются на стороне приемника. Сжатая информация метаданных объекта передается на приемник/интерпретатор параллельно.

3. Параметрические колебательные сигналы объекта: свойства объекта и их соотношение друг с другом описываются посредством параметров SAOC. Кодирование понижающего микширования сигналов объекта выполняется с помощью USAC. Параметрическая информация передается параллельно. Количество каналов понижающего микширования выбирается в зависимости от количества объектов и полной скорости передачи данных. Сжатая информация метаданных объекта передается к интерпретатору SAOC.

SAOC

Кодер 1540 SAOC и декодер 1660 SAOC для сигналов объектов основаны на технологии MPEG SAOC. Система имеет возможность повторного создания, изменения и интерпретации множества аудио объектов, основываясь на меньшем количестве переданных каналов и дополнительных параметрических данных (различия уровней объектов OLD, корреляции между объектами IOC, усиления понижающего микширования DMG). Дополнительные параметрические данные показывают значительно более низкую скорость передачи данных, чем необходимо для передачи всех объектов отдельно, делая кодирование очень эффективным. Кодер SAOC использует в качестве вводимой информации сигналы объекта/канала в качестве монофонических колебательных сигналов и выводит параметрическую информацию (которая упакована в битовый поток 1532, 1610 трехмерного аудио), и каналы транспорта SAOC (которые кодируются, используя элементы единственного канала, и передаются).

Декодер 1600 SAOC восстанавливает сигналы объекта/канала из декодированных каналов 1628 транспорта SAOC и параметрической информации 1630 и генерирует выходную аудио сцену, основываясь на схеме размещения воспроизведения, распакованной информации метаданных объекта, и опционально - на информации взаимодействия с пользователем.

Кодек метаданных объекта

Для каждого объекта связанные с ним метаданные, которые определяют геометрическое расположение и громкость объекта в трехмерном пространстве, эффективно кодируются с помощью квантования свойств объекта во времени и пространстве. Сжатые метаданные объекта cOAM 1554, 1632 передаются на приемник в качестве дополнительной информации.

Интерпретатор/микшер объекта

Интерпретатор объекта использует сжатые метаданные объекта для генерации колебательных сигналов объектов согласно заданному формату воспроизведения. Каждый объект интерпретируется на определенные выходные каналы согласно его метаданным. Выход этого блока является результатом суммирования частичных результатов. Если основанный на обоих каналах контент, а так же дискретные/параметрические объекты декодируются, то основанные на канале колебательные сигналы и колебательные сигналы интерпретированного объекта микшируются перед выводом результирующих колебательных сигналов (или перед подачей их к модулю постобработки, такому как модуль бинаурального интерпретатора или интерпретатора громкоговорителя).

Бинауральный интерпретатор

Модуль 1680 бинаурального интерпретатора производит бинауральное понижающее микширование многоканального аудио материала так, что каждый входной канал представлен виртуальным источником аудио. Обработка проводится по кадрам в области QMF. Бинаурализация основана на измеренных реакциях на импульс в бинауральном пространстве.

Интерпретатор громкоговорителя/конвертер формата

Интерпретатор 1690 громкоговорителя выполняет конвертирование между переданной конфигурацией канала и желательным форматом воспроизведения. Его таким образом называют «конвертером формата» в последующем. Конвертер формата выполняет конвертирование для снижения количества выходных каналов, то есть он создает понижающее микширование. Система автоматически генерирует оптимизированные матрицы понижающего микширования для заданной комбинации входных и выходных форматов и применяет эти матрицы в процессе понижающего микширования. Конвертер формата предусматривает стандартные конфигурации громкоговорителей, а так же произвольные конфигурации с нестандартными расположениями громкоговорителей.

Фиг. 17 показывает структурную схему конвертера формата. Как можно заметить, конвертер 1700 формата принимает выходные сигналы 1710 микшера, например, микшированные канальные сигналы 1672, и обеспечивает сигналы 1712 громкоговорителей, например, сигналы 1616 динамиков. Конвертер формата содержит процесс 1720 понижающего микширования в области QMF и конфигуратор 1730 понижающего микширования, причем конфигуратор понижающего микширования обеспечивает информацию о конфигурации процесса 1720 понижающего микширования на основе информации 1732 о схеме размещения выходов микшера и информации 1734 о схеме размещения воспроизведения.

Кроме того, нужно отметить, что концепции, описанные выше, например, аудио кодер 100, аудио декодер 200 или 300, аудио кодер 400, аудио декодер 500 или 600, способы 700, 800, 900 или 1000, аудио кодер 1100 или 1200 и аудио декодер 1300, могут использоваться в пределах аудио кодера 1500 и/или в пределах аудио декодера 1600. Например, аудио кодеры/декодеры, упомянутые прежде, могут использоваться для кодирования или декодирования канальных сигналов, которые связаны с различными пространственными положениями.

13. Альтернативные варианты осуществления

В последующем будут описаны некоторые дополнительные варианты осуществления.

Ссылаясь теперь на фиг. 18-21, будут объясняться дополнительные варианты осуществления согласно изобретению.

Нужно отметить, что так называемый «элемент четырех каналов» (QCE) можно рассматривать в качестве средства аудио декодера, который может использоваться, например, для декодирования 3-мерного аудио контента.

Другими словами, элемент четырех каналов (QCE) является способом совместного кодирования четырех каналов для более эффективного кодирования горизонтально и вертикально распределенных каналов. QCE состоит из двух последовательных CPE и формируется с помощью иерархического объединения средства совместного стерео кодирования с возможностью средства комплексного стерео предсказания в горизонтальном направлении, и основанного на MPEG surround стерео средства в вертикальном направлении. Это достигается с помощью включения обоих стерео средств и перестановки выходных каналов между применением данных средств. Стерео SBR выполняется в горизонтальном направлении для сохранения соотношения «лево/право» для высоких частот.

Фиг. 18 показывает топологическую структуру QCE. Нужно отметить, что QCE на фиг. 18 очень похож на QCE на фиг. 11, так что ссылка делается на приведенные выше объяснения. Однако, нужно отметить, что в QCE на фиг. 18 не требуется использовать психо-акустическую модель, выполняя комплексное стерео предсказание (хотя такое использование, естественно, возможно опционально). Кроме того, можно заметить, что первая стерео репликация спектрального диапазона (стерео SBR) выполняется на основе левого нижнего канала и правого нижнего канала, и что вторая стерео репликация спектрального диапазона (стерео SBR) выполняется на основе левого верхнего канала и правого верхнего канала.

В последующем будут обеспечены некоторые термины и определения, которые могут применяться в некоторых вариантах осуществления.

Элемент данных qceIndex указывает режим QCE CPE. Что касается значения переменной qceIndex битового потока, выполняется ссылка на фиг. 14b. Нужно отметить, что qceIndex описывает, обрабатываются или нет два последующих элемента типа UsacChannelPairElement() как элемент четырех каналов (QCE). Различные режимы QCE приведены на фиг. 14b. QceIndex должен быть одинаковым для двух последующих элементов, формирующих один QCE.

В последующем будут определены некоторые вспомогательные элементы, которые могут использоваться в некоторых вариантах осуществления согласно изобретению:

cplx_out_dmx_L[] - первый канал первого CPE после стерео декодирования с комплексным предсказанием

cplx_out_dmx_R[] - второй канал первого CPE после стерео декодирования с комплексным предсказанием

cplx_out_res_L[] - второй CPE после стерео декодирования с комплексным предсказанием (обнуляют, если qceIndex=1),

cplx_out_res_R[] - второй канал второго CPE после стерео декодирования с комплексным предсказанием (обнуляют, если qceIndex=1),

mps_out_L_1[] - первый выходной канал первого блока MPS

mps_out_L_2[] - второй выходной канал первого блока MPS

mps_out_R_1[] - первый выходной канал второго блока MPS

mps_out_R_2[] - второй выходной канал второго блока MPS

sbr_out_L_1[] - первый выходной канал первого блока стерео SBR

sbr_out_R_1[] - второй выходной канал первого блока стерео SBR

sbr_out_L_2[] - первый выходной канал второго блока стерео SBR

sbr_out_R_2[] - второй выходной канал второго блока стерео SBR

В последующем будет объяснен процесс декодирования, который выполняется в варианте осуществления согласно изобретению.

Синтаксический элемент (или элемент битового потока, или элемент данных) qceIndex в UsacChannelPairElementConfig() указывает, принадлежит или нет CPE QCE и используется или нет разностное кодирование. В случае, если qceIndex не равен 0, то текущий CPE формирует QCE вместе с его последующим элементом, который должен быть CPE, имеющий тот же самый qceIndex. Стерео SBR всегда используется для QCE, таким образом синтаксический элемент stereoConfigIndex должен быть равен 3, и bsStereoSbr должен быть равен 1.

В случае, когда qceIndex == 1, во втором CPE содержатся только полезные нагрузки для MPEG surround и SBR, и никакие соответствующие данные аудио сигнала не содержатся во втором CPE, и синтаксический элемент bsResidualCoding устанавливаются в 0.

Присутствие разностного сигнала во втором CPE обозначается с помощью qceIndex == 2. В этом случае синтаксический элемент bsResidualCoding устанавливается в 1.

Однако, некоторые отличающиеся и, возможно, упрощенные схемы сигнализации могут также использоваться.

Совместное стерео декодирование с возможностью комплексного стерео предсказания выполняется, как описано в ISO/IEC 23003-3, подпункт 7.7. Результирующими выходными сигналами первого CPE являются сигналы понижающего микширования MPS cplx_out_dmx_L[] и cplx_out_dmx_R[]. Если разностное кодирование используется (то есть qceIndex == 2), то выходом второго CPE являются разностные сигналы MPS cplx_out_res_L[], cplx_out_res_R[], если никакой разностный сигнал не был передан (то есть qceIndex == 1), то вставляются нулевые сигналы.

Перед применением декодирования MPEG surround второй канал первого элемента (cplx_out_dmx_R[]) и первый канал второго элемента (cplx_out_res_L[]) меняются местами.

Декодирование MPEG surround выполняется, как описано в ISO/IEC 23003-3, подпункт 7.11. Если разностное кодирование используется, то декодирование может, однако, изменяться, по сравнению с обычным декодированием MPEG surround в некоторых вариантах осуществления. Декодирование MPEG surround без разностного сигнала, используя SBR, как определено в ISO/IEC 23003-3, подпункт 7.11.2.7 (фиг. 23), изменяется так, чтобы стерео SBR также использовалась для bsResidualCoding == 1, что приводит к декодеру, схематически показанному на фиг. 19. Фиг. 19 показывает структурную схему аудио кодера для bsResidualCoding == 0 и bsStereoSbr == 1.

Как можно заметить на фиг. 19, базовый декодер 2010 USAC обеспечивает сигнал понижающего микширования (DMX) 2012 к декодеру 2020 MPS (MPEG surround), который обеспечивает первый декодированный аудио сигнал 2022 и второй декодированный аудио сигнал 2024. Декодер 2030 стерео SBR принимает первый декодированный аудио сигнал 2022 и второй декодированный аудио сигнал 2024 и обеспечивает, на основе этого, левый аудио сигнал 2032 с расширенным диапазоном и правый аудио сигнал 2034 с расширенным диапазоном.

Перед применением SBR стерео второй канал первого элемента (mps_out_L_2[]) и первый канал второго элемента (mps_out_R_1[]) меняются местами для предоставления возможности стерео SBR «лево/право». После применения стерео SBR второй выходной канал первого элемента (sbr_out_R_1[]) и первый канал второго элемента (sbr_out_L_2[])снова меняются местами для восстановления входного порядка каналов.

Структура декодера QCE показана на фиг. 20, которая схематически показывает декодер QCE.

Нужно отметить, что структурная схема на фиг. 20 очень похожа на структурную схему на фиг. 13, так что ссылка также делается на приведенные выше объяснения. Кроме того, нужно отметить, что некоторое маркирование сигналов было добавлено на фиг. 20, причем ссылка делается на определения в этом разделе. Кроме того, показана окончательная повторная сортировка каналов, которая выполняется после стерео SBR.

Фиг. 21 показывает структурную схему кодера 2200 четырех каналов согласно варианту осуществления настоящего изобретения. Другими словами, кодер четырех каналов (элемент четырех каналов), который можно рассматривать в качестве базового кодирующего средства, показан на фиг. 21.

Кодер 2200 четырех каналов содержит первую стерео SBR 2210, которая принимает первый входной левый канальный сигнал 2212 и второй входной левый канальный сигнал 2214, и которая обеспечивает, на основе этого, первую полезную нагрузку 2215 SBR, первый выходной левый канальный сигнал 2216 SBR и первый выходной правый канальный сигнал 2218 SBR. Кроме того, кодер 2200 четырех каналов содержит вторую стерео SBR, которая принимает второй входной левый канальный сигнал 2222 и второй входной правый канальный сигнал 2224, и которая обеспечивает, на основе этого, первую полезную нагрузку 2225 SBR, первый выходной левый канальный сигнал 2226 SBR и первый выходной правый канальный сигнал 2228 SBR.

Кодер 2200 четырех каналов содержит первый многоканальный кодер 2230 типа MPEG-Surround (MPS 2-1-2 или унифицированное стерео), который принимает первый выходной левый канальный сигнал 2216 SBR и второй выходной левый канальный сигнал 2226 SBR, и который обеспечивает, на основе этого, первую полезную нагрузка 2232 MPS, левый канальный сигнал 2234 понижающего микширования MPEG Surround и, опционально, левый канальный разностный сигнал 2236 MPEG Surround. Кодер 2200 четырех каналов также содержит второй многоканальный кодер 2240 типа MPEG-Surround (MPS 2-1-2 или унифицированное стерео), который принимает первый выходной правый канальный сигнал 2218 SBR и второй выходной правый канальный сигнал 2228 SBR, и который обеспечивает, на основе этого, первую полезную нагрузку 2242 MPS, правый канальный сигнал 2244 понижающего микширования MPEG Surround и, опционально, правый канальный разностный сигнал 2246 MPEG Surround.

Кодер 2200 четырех каналов содержит первое кодирование 2250 с комплексным стерео предсказанием, которое принимает левый канальный сигнал 2234 понижающего микширования MPEG Surround и правый канальный сигнал 2244 понижающего микширования MPEG Surround, и который обеспечивает, на основе этого, полезную нагрузку 2252 комплексного предсказания и совместно кодированное представление 2254 левого канального сигнала 2234 понижающего микширования MPEG Surround и правого канального сигнала 2244 понижающего микширования MPEG Surround. Кодер 2200 четырех каналов содержит второе кодирование 2260 с комплексным стерео предсказанием, которое принимает левый канальный разностный сигнал 2236 MPEG Surround и правый канальный разностный сигнал 2246 MPEG Surround, и которое обеспечивает, на основе этого, полезную нагрузку 2262 комплексного предсказания и совместно кодированное представление 2264 левого канального сигнала 2236 понижающего микширования MPEG Surround и правого канального сигнала 2246 понижающего микширования MPEG Surround.

Кодер четырех каналов также содержит первое кодирование 2270 битового потока, которое принимает совместно кодированное представление 2254, полезную нагрузку 2252 комплексного предсказания, полезную нагрузку 2232 MPS и полезную нагрузку 2215 SBR и обеспечивает, на основе этого, часть битового потока, представляющую первый элемент пары каналов. Кодер четырех каналов также содержит второе кодирование 2280 битового потока, которое принимает совместно кодированное представление 2264, полезную нагрузку 2262 комплексного предсказания, полезную нагрузку 2242 MPS и полезную нагрузку 2225 SBR и обеспечивает, на основе этого, часть битового потока, представляющую первый элемент пары каналов.

14. Альтернативные воплощения

Хотя некоторые аспекты описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствуют этапу способа или особенности этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или особенности соответствующего устройства. Некоторые или все этапы способа могут выполняться (или использоваться) с помощью аппаратного устройства, как например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах осуществления некоторые из одного или большего количества самых важных этапов способа могут выполняться с помощью такого устройства.

Изобретенный кодированный аудио сигнал может сохраняться на цифровом носителе данных или может передаваться по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, такая как Интернет.

В зависимости от конкретных требований воплощения варианты осуществления изобретения могут воплощаться в оборудовании или в программном обеспечении. Воплощение может выполняться, используя цифровой носитель данных, например, гибкий диск, DVD (цифровой видеодиск), диск Blu-Ray, CD (компакт-диск), ПЗУ (постоянное запоминающее устройство), ППЗУ (программируемое ПЗУ), СППЗУ (стираемое программируемое ПЗУ), ЭСППЗУ (электронно-стираемое программируемое ПЗУ) или флэш-память, которое имеет сохраненные на нем считываемые с помощью электроники управляющие сигналы, которые взаимодействуют (или имеют возможность взаимодействия) с программируемой компьютерной системой таким образом, чтобы выполнялся соответствующий способ. Поэтому, цифровой носитель данных может считываться с помощью компьютера.

Некоторые варианты осуществления согласно изобретению содержат носитель информации, имеющий считываемые с помощью электроники управляющие сигналы, которые имеют возможность взаимодействовать с программируемой компьютерной системой, так что выполняется один из способов, описанных в данной работе.

В общем случае варианты осуществления настоящего изобретения могут воплощаться в качестве компьютерного программного продукта с кодом программы, данный код программы функционирует для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Код программы может, например, сохраняться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в данной работе, сохраненную на машиночитаемом носителе.

Другими словами, вариантом осуществления изобретенного способа поэтому является компьютерная программа, имеющая код программы для выполнения одного из способов, описанных в данной работе, когда данная компьютерная программа выполняется на компьютере.

Дополнительным вариантом осуществления изобретенных способов поэтому является носитель информации (или цифровой носитель данных, или считываемый компьютером носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в данной работе. Носитель информации, цифровой носитель данных или записанный носитель обычно являются материальными и/или не временными.

Дополнительным вариантом осуществления изобретенного способа поэтому является поток данных или последовательность сигналов, представляющие компьютерную программу для выполнения одного из способов, описанных в данной работе. Поток данных или последовательность сигналов могут, например, конфигурироваться для перемещения через соединение передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, конфигурируемое или настроенное для выполнения одного из способов, описанных в данной работе.

Дополнительный вариант осуществления содержит компьютер, установленную на нем компьютерную программу для выполнения одного из способов, описанных в данной работе.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, конфигурируемую для перемещения (например, с помощью электроники или оптически) компьютерной программы для выполнения одного из способов, описанных в данной работе, на приемник. Приемник может, например, быть компьютером, мобильным устройством, запоминающим устройством или подобным устройством. Устройство или система могут, например, содержать файловый сервер для передачи компьютерной программы к приемнику.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в данной работе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в данной работе. В общем случае способы предпочтительно выполняются с помощью какого-либо аппаратного устройства.

Вышеописанные варианты осуществления являются просто иллюстративными для принципов настоящего изобретения. Подразумевается, что модификации и разновидности структур и подробностей, описанных в данной работе, будут очевидны другим специалистам. Поэтому намерением является ограничение только с помощью приведенной далее формулы изобретения, а не с помощью конкретных подробностей, представленных посредством описания и объяснения вариантов осуществления в данной работе.

15. Выводы

В последующем будут обеспечены некоторые выводы.

Варианты осуществления согласно изобретению основаны на рассмотрении, что для учета взаимозависимостей сигналов между вертикально и горизонтально распределенными каналами, четыре канала могут совместно кодироваться с помощью иерархического объединения средств совместного стерео кодирования. Например, вертикальные пары каналов объединяются, используя MPS 2-1-2 и/или унифицированное разностное стерео кодирование с ограниченным диапазоном или с полным диапазоном. Для удовлетворения перцепционных требований к бинауральному демаскированию, выходной сигнал понижающего микширования, например, совместно кодируются при помощи комплексного предсказания в области MDCT, что включает в себя возможность кодирования «лево/право» и «середина/сторона». Если разностные сигналы присутствуют, то они объединяются по горизонтали, используя тот же самый способ.

Кроме того, нужно отметить, что варианты осуществления согласно изобретению преодолевают некоторые или все недостатки предшествующего уровня техники. Варианты осуществления согласно изобретению настраиваются для трехмерной аудио обстановки, причем каналы громкоговорителей распределяются по нескольким уровням высоты, что приводит к парам из горизонтального и вертикального каналов. Было обнаружено, что совместное кодирование только двух каналов, которое определено в USAC, не достаточно для учета пространственных и перцепционных соотношений между каналами. Однако, эта проблема преодолена с помощью вариантов осуществления согласно изобретению.

Кроме того, обычное кодирование MPEG Surround применяется на дополнительном этапе предварительной/последующей обработки, так что разностные сигналы передаются отдельно без возможности совместного стерео кодирования, например, для исследования взаимозависимости между левым и правым основными разностными сигналами. Напротив, варианты осуществления согласно изобретению предусматривают эффективное кодирование/декодирование с помощью использования таких взаимозависимостей.

Делая последующий вывод, варианты осуществления согласно изобретению создают устройство, способ или компьютерную программу для кодирования и декодирования, которые описаны в данной работе.

Ссылки:

[1] ISO/IEC 23003-3: 2012 - Information Technology – MPEG Audio Technologies, Part 3: Unified Speech and Audio Coding;

[2] ISO/IEC 23003-1: 2007 - Information Technology – MPEG Audio Technologies, Part 1: MPEG Surround

1. Аудиодекодер (200; 300; 600; 1300; 1600; 2000) для обеспечения по меньшей мере четырех канальных аудиосигналов (220, 222, 224, 226; 320, 322, 324, 326; 620, 622, 624, 626; 1320, 1322, 1324, 1326) на основе кодированного представления (210; 310, 360; 610, 682; 1310, 1312; 1610),

причем аудиодекодер выполнен с возможностью обеспечения первого разностного сигнала (232; 332; 684; 1362) и второго разностного сигнала (234; 334; 686; 1364) на основе совместно кодированного представления (210; 310; 682; 1312) первого разностного сигнала и второго разностного сигнала, используя многоканальное декодирование (230; 330; 680; 1360), которое применяет совпадения и/или взаимозависимости между разностными сигналами;

причем аудиодекодер выполнен с возможностью обеспечения первого канального аудиосигнала (220; 320; 642; 1372) и второго канального аудиосигнала (222; 322; 644; 1374) на основе первого сигнала (212; 312; 632; 1342) понижающего микширования и первого разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование (240; 340; 640; 1370); и

причем аудиодекодер выполнен с возможностью обеспечения третьего канального аудиосигнала (224; 324; 656; 1382) и четвертого канального аудиосигнала (226; 326; 658; 1384) на основе второго сигнала (214; 314; 634; 1344) понижающего микширования и второго разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование (250; 350; 650; 1380).

2. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью обеспечения первого сигнала (212; 312; 632; 1342) понижающего микширования и второго сигнала (214; 314; 634; 1344) понижающего микширования на основе совместно кодированного представления (360; 610; 1310) первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное декодирование (370; 630; 1340).

3. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью обеспечения первого разностного сигнала и второго разностного сигнала на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя основанное на предсказании многоканальное декодирование.

4. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью обеспечения первого разностного сигнала и второго разностного сигнала на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование.

5. Аудиодекодер по п. 3, в котором основанное на предсказании многоканальное декодирование сконфигурировано для оценки параметра предсказания, описывающего вклад компоненты сигнала, которая извлекается, используя компоненту сигнала из предыдущего кадра, для обеспечения разностных сигналов текущего кадра.

6. Аудиодекодер по п. 3, в котором основанное на предсказании многоканальное декодирование сконфигурировано для получения первого разностного сигнала и второго разностного сигнала на основе сигнала понижающего микширования первого разностного сигнала и второго разностного сигнала и на основе общего разностного сигнала первого разностного сигнала и второго разностного сигнала.

7. Аудиодекодер по п. 6, в котором основанное на предсказании многоканальное декодирование сконфигурировано для применения общего разностного сигнала с первым знаком для получения первого разностного сигнала и применения общего разностного сигнала со вторым знаком, который является обратным к первому знаку, для получения второго разностного сигнала.

8. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью обеспечения первого разностного сигнала и второго разностного сигнала на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя многоканальное декодирование, которое функционирует в области MDCT.

9. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью обеспечения первого разностного сигнала и второго разностного сигнала на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя комплексное стереопредсказание USAC.

10. Аудиодекодер по п. 1,

причем аудиодекодер выполнен с возможностью обеспечения первого канального аудиосигнала и второго канального аудиосигнала на основе первого сигнала понижающего микширования и первого разностного сигнала, используя основанное на параметре выполняемое с помощью разностного сигнала многоканальное декодирование; и

причем аудиодекодер выполнен с возможностью обеспечения третьего канального аудиосигнала и четвертого канального аудиосигнала на основе второго сигнала понижающего микширования и второго разностного сигнала, используя основанное на параметре выполняемое с помощью разностного сигнала многоканальное декодирование.

11. Аудиодекодер по п. 10, в котором основанное на параметре выполняемое с помощью разностного сигнала многоканальное декодирование сконфигурировано для оценки одного или большего количества параметров, описывающих желательную корреляцию между двумя каналами и/или различия уровней между двумя каналами, для обеспечения двух или большего количества канальных аудиосигналов на основе соответствующего из сигналов понижающего микширования и соответствующего из разностных сигналов.

12. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью обеспечения первого канального аудиосигнала и второго канального аудиосигнала на основе первого сигнала понижающего микширования и первого разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование, которое функционирует в области QMF; и

причем аудиодекодер выполнен с возможностью обеспечения третьего канального аудиосигнала и четвертого канального аудиосигнала на основе второго сигнала понижающего микширования и второго разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование, которое функционирует в области QMF.

13. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью обеспечения первого канального аудиосигнала и второго канального аудиосигнала на основе первого сигнала понижающего микширования и первого разностного сигнала, используя декодирование MPEG Surround 2-1-2 или унифицированное стереодекодирование; и

причем аудиодекодер выполнен с возможностью обеспечения третьего канального аудиосигнала и четвертого канального аудиосигнала на основе второго сигнала понижающего микширования и второго разностного сигнала, используя декодирование MPEG Surround 2-1-2 или унифицированное стереодекодирование.

14. Аудиодекодер по п. 1, в котором первый разностный сигнал и второй разностный сигнал связаны с различными горизонтальными положениями аудиосцены или с различными азимутальными положениями аудиосцены.

15. Аудиодекодер по п. 1, в котором первый канальный аудиосигнал и второй канальный аудиосигнал связаны с соседними по вертикали положениями аудиосцены, и

в котором третий канальный аудиосигнал и четвертый канальный аудиосигнал связаны с соседними по вертикали положениями аудиосцены.

16. Аудиодекодер по п. 1, в котором первый канальный аудиосигнал и второй канальный аудиосигнал связаны с первым горизонтальным положением или азимутальным положением аудиосцены, и

в котором третий канальный аудиосигнал и четвертый канальный аудиосигнал связаны со вторым горизонтальным положением или азимутальным положением аудиосцены, которое отличается от первого горизонтального положения или первого азимутального положения.

17. Аудиодекодер по п. 1, в котором первый разностный сигнал связан с левой стороной аудиосцены и в котором второй разностный сигнал связан с правой стороной аудиосцены.

18. Аудиокодер по п. 17,

в котором первый канальный аудиосигнал и второй канальный аудиосигнал связаны с левой стороной аудиосцены, и

в котором третий канальный аудиосигнал и четвертый канальный аудиосигнал связаны с правой стороной аудиосцены.

19. Аудиодекодер по п. 18, в котором первый канальный аудиосигнал связан с нижним левым положением аудиосцены,

в котором второй канальный аудиосигнал связан с верхним левым положением аудиосцены,

в котором третий канальный аудиосигнал связан с нижним правым положением аудиосцены, и

в котором четвертый канальный аудиосигнал связан с верхним правым положением аудиосцены.

20. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью обеспечения первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное декодирование, причем первый сигнал понижающего микширования связан с левой стороной аудиосцены, а второй сигнал понижающего микширования связан с правой стороной аудиосцены.

21. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью обеспечения первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя основанное на предсказании многоканальное декодирование.

22. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью обеспечения первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя выполняемое с помощью разностного сигнала основанное на предсказании многоканальное декодирование.

23. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью осуществления первого многоканального расширения (660; 1390) полосы пропускания на основе первого канального аудиосигнала и третьего канального аудиосигнала, и

причем аудиодекодер выполнен с возможностью осуществления второго многоканального расширения (670; 1394) полосы пропускания на основе второго канального аудиосигнала и четвертого канального аудиосигнала.

24. Аудиодекодер по п. 23, причем аудиодекодер выполнен с возможностью осуществления первого многоканального расширения полосы пропускания для обеспечения двух или большего количества канальных аудиосигналов (620, 624; 1320, 1324) с расширенной полосой пропускания, связанных с первой общей горизонтальной плоскостью или первой общей высотой аудиосцены, на основе первого канального аудиосигнала и третьего канального аудиосигнала и одного или большего количества параметров (1338) расширения полосы пропускания, и

причем аудиодекодер выполнен с возможностью осуществления второго многоканального расширения полосы пропускания для обеспечения двух или большего количества канальных аудиосигналов (622, 626; 1322, 1326) с расширенной полосой пропускания, связанных со второй общей горизонтальной плоскостью или второй общей высотой аудиосцены, на основе второго канального аудиосигнала и четвертого канального аудиосигнала и одного или большего количества параметров (1358) расширения полосы пропускания.

25. Аудиодекодер по п. 1, в котором совместно кодированное представление первого разностного сигнала и второго разностного сигнала содержит элемент пары каналов, содержащий сигнал понижающего микширования первого и второго разностных сигналов и общий разностный сигнал первого и второго разностных сигналов.

26. Аудиодекодер по п. 1, причем аудиодекодер выполнен с возможностью обеспечения первого сигнала понижающего микширования и второго сигнала понижающего микширования на основе совместно кодированного представления первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное декодирование,

причем совместно кодированное представление первого сигнала понижающего микширования и второго сигнала понижающего микширования содержит элемент пары каналов, содержащий сигнал понижающего микширования первого и второго сигналов понижающего микширования и общий разностный сигнал первого и второго сигналов понижающего микширования.

27. Аудиокодер (100; 1100; 1200; 1500; 2100) для обеспечения кодированного представления (130; 1144, 1154; 1220, 1222; 2272, 2282) на основе по меньшей мере четырех канальных аудиосигналов (110, 112, 114, 116; 1110, 1112, 1114, 1116; 1210, 1212, 1214, 1216; 2216, 2226, 2218, 2228),

причем аудиокодер выполнен с возможностью совместного кодирования по меньшей мере первого канального аудиосигнала и второго канального аудиосигнала, используя выполняемое с помощью разностного сигнала многоканальное кодирование (140; 1120; 1230; 2230), для получения первого сигнала (120; 1122; 1232; 2234) понижающего микширования и первого разностного сигнала (142; 1124; 1234; 2236); и

причем аудиокодер выполнен с возможностью совместного кодирования по меньшей мере третьего канального аудиосигнала и четвертого канального аудиосигнала, используя выполняемое с помощью разностного сигнала многоканальное кодирование (150; 1130; 1240; 2240), для получения второго сигнала (122; 1132; 1242; 2244) понижающего микширования и второго разностного сигнала (152; 1134; 1244; 2246); и

причем аудиокодер выполнен с возможностью совместного кодирования первого разностного сигнала и второго разностного сигнала, используя многоканальное кодирование (160; 1150; 1260; 2260), которое применяет совпадения и/или взаимозависимости между разностными сигналами, для получения совместно кодированного представления (130; 1154; 1262; 2264) разностных сигналов.

28. Аудиокодер по п. 27, причем аудиокодер выполнен с возможностью совместного кодирования первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное кодирование (1140; 1250; 2250), для получения совместно кодированного представления (1144; 1252; 2254) сигналов понижающего микширования.

29. Аудиокодер по п. 28, причем аудиокодер выполнен с возможностью совместного кодирования первого разностного сигнала и второго разностного сигнала, используя основанное на предсказании многоканальное кодирование, и

причем аудиокодер выполнен с возможностью совместного кодирования первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя основанное на предсказании многоканальное кодирование.

30. Аудиокодер по п. 27, причем аудиокодер выполнен с возможностью совместного кодирования по меньшей мере первого канального аудиосигнала и второго канального аудиосигнала, используя основанное на параметре выполняемое с помощью разностного сигнала многоканальное кодирование, и

причем аудиокодер выполнен с возможностью совместного кодирования по меньшей мере третьего канального аудиосигнала и четвертого канального аудиосигнала, используя основанное на параметре выполняемое с помощью разностного сигнала многоканальное кодирование.

31. Аудиокодер по п. 27, в котором первый канальный аудиосигнал и второй канальный аудиосигнал связаны с соседними по вертикали положениями аудиосцены, и

в котором третий канальный аудиосигнал и четвертый канальный аудиосигнал связаны с соседними по вертикали положениями аудиосцены.

32. Аудиокодер по п. 27, в котором первый канальный аудиосигнал и второй канальный аудиосигнал связаны с первым горизонтальным положением или азимутальным положением аудиосцены, и

в котором третий канальный аудиосигнал и четвертый канальный аудиосигнал связаны со вторым горизонтальным положением или азимутальным положением аудиосцены, которое отличается от первого горизонтального положения или азимутального положения.

33. Аудиокодер по п. 27, в котором первый разностный сигнал связан с левой стороной аудиосцены и в котором второй разностный сигнал связан с правой стороной аудиосцены.

34. Аудиокодер по п. 33,

в котором первый канальный аудиосигнал и второй канальный аудиосигнал связаны с левой стороной аудиосцены, и

в котором третий канальный аудиосигнал и четвертый канальный аудиосигнал связаны с правой стороной аудиосцены.

35. Аудиодекодер по п. 34, в котором первый канальный аудиосигнал связан с нижним левым положением аудиосцены,

в котором второй канальный аудиосигнал связан с верхним левым положением аудиосцены,

в котором третий канальный аудиосигнал связан с нижним правым положением аудиосцены, и

в котором четвертый канальный аудиосигнал связан с верхним правым положением аудиосцены.

36. Аудиокодер по п. 27, причем аудиокодер выполнен с возможностью совместного кодирования первого сигнала понижающего микширования и второго сигнала понижающего микширования, используя многоканальное кодирование, для получения совместно кодированного представления сигналов понижающего микширования, причем первый сигнал понижающего микширования связан с левой стороной аудиосцены, а второй сигнал понижающего микширования связан с правой стороной аудиосцены.

37. Способ (800) обеспечения по меньшей мере четырех канальных аудиосигналов на основе кодированного представления, причем способ содержит этапы, на которых:

обеспечивают (810) первый разностный сигнал и второй разностный сигнал на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя многоканальное декодирование, которое применяет совпадения и/или взаимозависимости между разностными сигналами;

обеспечивают (820) первый канальный аудиосигнал и второй канальный аудиосигнал на основе первого сигнала понижающего микширования и первого разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование; и

обеспечивают (830) третий канальный аудиосигнал и четвертый канальный аудиосигнал на основе второго сигнала понижающего микширования и второго разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование.

38. Способ (700) обеспечения кодированного представления на основе по меньшей мере четырех канальных аудиосигналов, причем способ содержит этапы, на которых:

совместно кодируют (710) по меньшей мере первый канальный аудиосигнал и второй канальный аудиосигнал, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения первого сигнала понижающего микширования и первого разностного сигнала;

совместно кодируют (720) по меньшей мере третий канальный аудиосигнал и четвертый канальный аудиосигнал, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения второго сигнала понижающего микширования и второго разностного сигнала; и

совместно кодируют (730) первый разностный сигнал и второй разностный сигнал, используя многоканальное кодирование, которое применяет совпадения и/или взаимозависимости между разностными сигналами, для получения кодированного представления разностных сигналов.

39. Носитель данных, содержащий компьютерная программу, которая, при выполнении ее на компьютере, побуждает компьютер выполнять этапы способа по п. 37.

40. Носитель данных, содержащий компьютерная программу, которая, при выполнении ее на компьютере, побуждает компьютер выполнять этапы способа по п. 38.

41. Аудиодекодер (200; 300; 600; 1300; 1600; 2000) для обеспечения по меньшей мере четырех канальных аудиосигналов (220, 222, 224, 226; 320, 322, 324, 326; 620, 622, 624, 626; 1320, 1322, 1324, 1326) на основе кодированного представления (210; 310, 360; 610, 682; 1310, 1312; 1610),

причем аудиодекодер выполнен с возможностью обеспечения первого разностного сигнала (232; 332; 684; 1362) и второго разностного сигнала (234; 334; 686; 1364) на основе совместно кодированного представления (210; 310; 682; 1312) первого разностного сигнала и второго разностного сигнала, используя многоканальное декодирование (230; 330; 680; 1360);

причем аудиодекодер выполнен с возможностью обеспечения первого канального аудиосигнала (220; 320; 642; 1372) и второго канального аудиосигнала (222; 322; 644; 1374) на основе первого сигнала (212; 312; 632; 1342) понижающего микширования и первого разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование (240; 340; 640; 1370); и

причем аудиодекодер выполнен с возможностью обеспечения третьего канального аудиосигнала (224; 324; 656; 1382) и четвертого канального аудиосигнала (226; 326; 658; 1384) на основе второго сигнала (214; 314; 634; 1344) понижающего микширования и второго разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование (250; 350; 650; 1380);

причем аудиодекодер выполнен с возможностью осуществления первого многоканального расширения (660; 1390) полосы пропускания на основе первого канального аудиосигнала и третьего канального аудиосигнала, и

причем аудиодекодер выполнен с возможностью осуществления второго многоканального расширения (670; 1394) полосы пропускания на основе второго канального аудиосигнала и четвертого канального аудиосигнала;

причем аудиодекодер выполнен с возможностью осуществления первого многоканального расширения полосы пропускания для получения двух или большего количества канальных аудиосигналов (620, 624; 1320, 1324) с расширенной полосой пропускания, связанных с первой общей горизонтальной плоскостью или первой общей высотой аудиосцены, на основе первого канального аудиосигнала и третьего канального аудиосигнала и одного или большего количества параметров (1338) расширения полосы пропускания, и

причем аудиодекодер выполнен с возможностью осуществления второго многоканального расширения полосы пропускания для получения двух или большего количества канальных аудиосигналов (622, 626; 1322, 1326) с расширенной полосой пропускания, связанных со второй общей горизонтальной плоскостью или второй общей высотой аудиосцены на основе второго канального аудиосигнала и четвертого канального аудиосигнала и одного или большего количества параметров (1358) расширения полосы пропускания.

42. Способ (800) обеспечения по меньшей мере четырех канальных аудиосигналов на основе кодированного представления, причем способ содержит этапы, на которых:

обеспечивают (810) первый разностный сигнал и второй разностный сигнал на основе совместно кодированного представления первого разностного сигнала и второго разностного сигнала, используя многоканальное декодирование;

обеспечивают (820) первый канальный аудиосигнал и второй канальный аудиосигнал на основе первого сигнала понижающего микширования и первого разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование; и

обеспечивают (830) третий канальный аудиосигнал и четвертый канальный аудиосигнал на основе второго сигнала понижающего микширования и второго разностного сигнала, используя выполняемое с помощью разностного сигнала многоканальное декодирование;

причем способ содержит этап, на котором выполняют первое многоканальное расширение (660; 1390) полосы пропускания на основе первого канального аудиосигнала и третьего канального аудиосигнала, и

причем способ содержит этап, на котором выполняют второе многоканальное расширение (670; 1394) полосы пропускания на основе второго канального аудиосигнала и четвертого канального аудиосигнала;

причем первое многоканальное расширение полосы пропускания выполняют для получения двух или большего количества канальных аудиосигналов (620, 624; 1320, 1324) с расширенной полосой пропускания, связанных с первой общей горизонтальной плоскостью или первой общей высотой аудиосцены, на основе первого канального аудиосигнала и третьего канального аудиосигнала и одного или большего количества параметров (1338) расширения полосы пропускания, и

причем второе многоканальное расширение полосы пропускания выполняют для получения двух или большего количества канальных аудиосигналов (622, 626; 1322, 1326) с расширенной полосой пропускания, связанных со второй общей горизонтальной плоскостью или второй общей высотой аудиосцены на основе второго канального аудиосигнала и четвертого канального аудиосигнала и одного или большего количества параметров (1358) расширения полосы пропускания.

43. Носитель данных, содержащий компьютерную программу, которая, при выполнении ее на компьютере, побуждает компьютер выполнять этапы способа по п. 42.



 

Похожие патенты:

Изобретение относится к средствам для кодирования и декодирования аудиосигнала. Технический результат заключается в создании усовершенствованной концепции кодирования/декодирования аудиоданных, позволяющей уменьшить скорость передачи дополнительной информации для схемы направленного декодирования.

Изобретение относится к средствам для обработки аудиосигнала с использованием горизонтальной фазовой коррекции. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к средствам для обработки аудиосигнала с использованием вертикальной фазовой коррекции. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к средствам для кодирования аудиосигнала. Технический результат заключается в повышении эффективности кодирования аудиоданных.
Изобретение относится к средствам для разборчивости речи. Технический результат заключается в повышение разборчивости речи.

Изобретение относится к средствам для кодирования и декодирования речи. Технический результат заключается в уменьшении опережающего и запаздывающего эха.

Изобретение относится к средствам для обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале. Технический результат заключается в повышении эффективности усиления речевого компонента в многоканальном звуковом сигнале.

Изобретение относится к области обработки сигналов. Технический результат заключается в повышении эффективности обработки сигналов.

Изобретение относится к кодированию и декодированию аудиосигнала. Технический результат – повышение качества аудиосигнала.

Изобретение относится к системам кодирования источников звукового сигнала. Технический результат – воспроизведение звукового сигнала с высокой точностью при условии снижения вычислительных затрат.

Изобретение относится к средствам для линейного прогнозирующего кодирования и декодирования звуковых сигналов после перехода между кадрами, имеющими различные частоты дискретизации.

Изобретение относится к обработке звука, в частности, к обработке звука с перекрывающимися окнами для анализа или синтеза в цепочке обработки звукового сигнала. Технический результат – повышение качества обработки звукового сигнала.

Изобретение относится к средствам для генерации множества звуковых каналов. Технический результат заключается в повышении гибкости схемы расположения громкоговорителей.

Изобретение относится к средствам для кодирования и декодирования аудиосигнала. Технический результат заключается в создании усовершенствованной концепции кодирования/декодирования аудиоданных, позволяющей уменьшить скорость передачи дополнительной информации для схемы направленного декодирования.

Изобретение относится к средствам для кодирования и декодирования кодированного звукового сигнала. Технический результат заключается в повышении эффективности кодирования звукового сигнала.

Настоящее изобретение относится к обработке аудиосигналов, в частности к способу воспроизведения многоканального аудиосигнала, включающего в себя звуковой сигнал с возвышением в окружении с горизонтальной схемой расположения, тем самым получая параметр рендеринга в соответствии с типом рендеринга и конфигурируя матрицу понижающего микширования.

Изобретение относится к средствам для кодирования аудиосигнала. Технический результат заключается в повышении эффективности кодирования аудиоданных.

Изобретение относится к многоканальным аудиокодеру и аудиодекодеру для формирования кодированного представления многоканального аудиосигнала и двух выходных аудиосигналов на основании кодированного представления.

Изобретение относится к средствам аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования аудиоданных.

Изобретение относится к акустике, в частности к декодерам звукового сигнала. Устройство содержит средство приема звукового сигнала, которое выполнено с возможностью приема кадров, содержащих звуковую информацию.

Изобретение относится к средствам кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования аудио. Генерируют таблицу порядка, показывающую порядок компоновки коэффициентов микширования, определенный на основании расстояний между множеством громкоговорителей ввода и множеством громкоговорителей вывода. Коэффициенты микширования являются коэффициентами микширования аудиосигналов множества громкоговорителей ввода, подготовленных для множества соответствующих громкоговорителей вывода, и используются в процессе микширования для преобразования аудиосигналов множества каналов, соответствующих расположению множества громкоговорителей ввода, в аудиосигналы множества каналов, соответствующих расположению множества громкоговорителей вывода. Переупорядочивают множество коэффициентов микширования в порядок, указанный в таблице порядка. Вычисляют разностную величину между двумя последовательными коэффициентами микширования из коэффициентов микширования, переупорядоченных в порядок. Кодируют разностную величину, вычисленную для каждого из коэффициентов микширования. 6 н. и 9 з.п. ф-лы, 21 ил.

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования. Совместно кодируют по меньшей мере первый канальный аудиосигнал и второй канальный аудиосигнал, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения первого сигнала понижающего микширования и первого разностного сигнала. Совместно кодируют по меньшей мере третий канальный аудиосигнал и четвертый канальный аудиосигнал, используя выполняемое с помощью разностного сигнала многоканальное кодирование, для получения второго сигнала понижающего микширования и второго разностного сигнала. Совместно кодируют первый разностный сигнал и второй разностный сигнал, используя многоканальное кодирование, которое применяет совпадения иили взаимозависимости между разностными сигналами, для получения кодированного представления разностных сигналов. 8 н. и 35 з.п. ф-лы, 23 ил.

Наверх