Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов

Авторы патента:

ЛИМ Дзае Хиун (KR)

ЙООН Сунг Йонг (KR)

ПАНГ Хее Сук (KR)

КИМ Донг Соо (KR)

ЛИ Хиун Коок (KR)

G10L19 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2406165:

ЭлДжи ЭЛЕКТРОНИКС ИНК. (KR)

Изобретение относится к способам и устройствам кодирования и декодирования многоканального аудио, в которых операции кодирования и декодирования производятся над объектно-базированными аудиосигналами. Техническим результатом является создание способа и устройства кодирования и декодирования аудио для эффективной обработки объектно-базированных аудиосигналов. Указанный технический результат достигается тем, что способ декодирования аудио включает прием сигнала понижающего смешивания, который получается посредством выполнения понижающего смешивания множества сигналов объекта, и дополнительной информации объекта, включающей объектно-базированную дополнительную информацию и управляющую информацию, извлечение метаданных, включающих описание сигнала объекта, из объектно-базированной дополнительной информации, осуществление предварительной обработки положения или уровня сигнала объекта и генерацию многоканального аудиосигнала путем использования предварительного обработанного сигнала понижающего смешивания, информации пространственного параметра и управляющей информации. 6 н. и 5 з.п. ф-лы, 33 ил.

Область техники, к которой относится изобретение

Настоящее изобретение относится к способу и устройству кодирования аудио и способу и устройству декодирования аудио, в которых объектно-базированные аудиосигналы могут эффективно обрабатываться посредством выполнения операций кодирования и декодирования.

Уровень техники

В общем, в методах кодирования и декодирования многоканального аудио некоторое количество сигналов канала многоканального сигнала смешиваются с понижением в меньшее число сигналов канала, передается дополнительная информация относительно исходных сигналов канала, и восстанавливается многоканальный сигнал, имеющий столько каналов, сколько имеет исходный многоканальный сигнал.

Методы объектно-базированного кодирования и декодирования аудио, в основном, аналогичны методам кодирования и декодирования многоканального аудио в терминах понижающего смешивания нескольких источников звука в меньшее количество сигналов источников звука и передачи дополнительной информации относительно исходных источников звука. Однако в методах объектно-базированного кодирования и декодирования аудиосигналы объекта, которые представляют собой базовые элементы (например, звук музыкального инструмента или голос человека) сигнала канала рассматриваются так же, как сигналы канала в методах кодирования и декодирования многоканального аудио, и могут, таким образом, кодироваться.

Другими словами, в методах объектно-базированного кодирования и декодирования аудио, считается, что сигналы объекта представляют собой сущности, подлежащие кодированию. В этом отношении методы объектно-базированного кодирования и декодирования аудио отличаются от методов многоканального кодирования и декодирования аудио, в которых операция многоканального кодирования аудио выполняется, просто основываясь на межканальной информации, независимо от количества элементов сигнала канала, подлежащего кодированию.

Описание изобретения

Техническая задача

Настоящее изобретение обеспечивает способ и устройство кодирования аудио и способ и устройство декодирования аудио, в которых аудиосигналы могут кодироваться или декодироваться, так что аудиосигналы могут применяться к различным окружающим средам.

Техническое решение

Согласно аспекту настоящего изобретения обеспечивается способ декодирования аудио, включающий в себя прием сигнала понижающего смешивания и объектно-базированной дополнительной информации, причем сигнал понижающего смешивания получается посредством выполнения понижающего смешивания множества сигналов объекта; извлечение метаданных из объектно-базированной дополнительной информации и отображение относящейся к объекту информации относительно сигналов объекта на основе метаданных. Согласно другому аспекту настоящего изобретения обеспечивается способ кодирования аудио, включающий в себя генерирование сигнала понижающего смешивания посредством выполнения понижающего смешивания множества сигналов объекта; генерирование объектно-базированной дополнительной информации посредством извлечения относящейся к объекту информации из сигналов объекта, и вставление метаданных для рендеринга относящейся к объекту информации в объектно-базированную дополнительную информацию.

Согласно другому аспекту настоящего изобретения обеспечивается устройство декодирования аудио, включающее в себя: демультиплексор, выполненный с возможностью извлечения сигнала понижающего смешивания и объектно-базированной дополнительной информации из входного аудиосигнала, причем сигнал понижающего смешивания получается посредством выполнения понижающего смешивания множества сигналов объекта; транскодер, выполненный с возможностью извлечения метаданных из объектно-базированной дополнительной информации; и рендерер, который отображает относящуюся к объекту информацию относительно сигналов объекта на основе метаданных.

Согласно другому аспекту настоящего изобретения обеспечивается считываемая компьютером среда записи, имеющая записанную на ней компьютерную программу для выполнения способа декодирования аудио, причем способ декодирования аудио включает в себя: прием сигнала понижающего смешивания и объектно-базированной дополнительной информации, при этом сигнал понижающего смешивания получается посредством выполнения понижающего смешивания множества сигналов объекта; извлечение метаданных из объектно-базированной дополнительной информации; и отображение относящейся к объекту информации относительно сигналов объекта на основе метаданных.

Согласно другому аспекту настоящего изобретения обеспечивается считываемая компьютером среда записи, имеющая записанную на ней компьютерную программу для выполнения способа кодирования аудио, причем способ кодирования аудио включает в себя: генерирование сигнала понижающего смешивания посредством выполнения понижающего смешивания множества сигналов объекта; генерирование объектно-базированной дополнительной информации посредством извлечения относящейся к объекту информации из сигналов объекта; и вставление метаданных в объектно-базированную дополнительную информацию, причем метаданные представляют относящуюся к объекту информацию.

Краткое описание чертежей

Фиг.1 иллюстрирует блок-схему типовой системы объектно-базированного кодирования/декодирования аудио;

фиг.2 иллюстрирует блок-схему устройства декодирования аудио согласно первому варианту осуществления настоящего изобретения;

фиг.3 иллюстрирует блок-схему устройства декодирования аудио согласно второму варианту осуществления настоящего изобретения;

фиг.4 иллюстрирует блок-схему устройства декодирования аудио согласно третьему варианту осуществления настоящего изобретения;

фиг.5 иллюстрирует блок-схему модуля произвольного коэффициента усиления понижающего смешивания (ADG), который может использоваться в устройстве декодирования аудио, изображенном на фиг.4;

фиг.6 иллюстрирует блок-схему устройства декодирования аудио согласно четвертому варианту осуществления настоящего изобретения;

фиг.7 иллюстрирует блок-схему устройства декодирования аудио согласно пятому варианту осуществления настоящего изобретения;

фиг.8 иллюстрирует блок-схему устройства декодирования аудио согласно шестому варианту осуществления настоящего изобретения;

фиг.9 иллюстрирует блок-схему устройства декодирования аудио согласно седьмому варианту осуществления настоящего изобретения;

фиг.10 иллюстрирует блок-схему устройства декодирования аудио согласно восьмому варианту осуществления настоящего изобретения;

фиг.11 и 12 иллюстрируют схемы для объяснения работы транскодера;

фиг.13-16 иллюстрируют схемы для объяснения конфигурации объектно-базированной дополнительной информации;

фиг.17-22 иллюстрируют схемы для объяснения объединения множества порций объектно-базированной дополнительной информации в одну порцию дополнительной информации;

фиг.23-27 иллюстрируют схемы для объяснения операции предварительной обработки; и

фиг.28-33 представляют собой схемы, иллюстрирующие случай комбинирования множества декодируемых битовых потоков с объектно-базированными сигналами в один битовый поток.

Лучший вариант осуществления изобретения

Настоящее изобретение ниже в данном документе подробно описывается со ссылкой на прилагаемые чертежи, в которых показаны примерные варианты осуществления изобретения.

Способ и устройство кодирования аудио и способ и устройство декодирования аудио согласно настоящему изобретению могут применяться к операциям объектно-базированной обработки аудио, но настоящее изобретение не ограничивается этим. Другими словами, способ и устройство кодирования аудио и способ и устройство декодирования аудио могут применяться в различных операциях по обработке сигналов, кроме операций объектно-базированной обработки аудио.

Фиг.1 иллюстрирует блок-схему типовой системы объектно-базированного кодирования/декодирования аудио. Как правило, аудиосигналы, вводимые в устройство объектно-базированного кодирования аудио, не соответствуют каналам многоканального сигнала, но являются независимыми сигналами объекта. В этом отношении устройство объектно-базированного кодирования аудио отличается от устройства многоканального кодирования аудио, в который вводятся сигналы канала многоканального сигнала.

Например, сигналы канала, такие как сигнал переднего левого канала и сигнал переднего правого канала 5.1-канального сигнала, могут вводиться в многоканальный аудиосигнал, тогда как сигналы объекта, такие как голос человека или звук музыкального инструмента (например, звук скрипки или фортепьяно), которые представляют собой меньшие сущности, чем сигналы канала, могут вводиться в устройство объектно-базированного кодирования аудио.

Ссылаясь на фиг.1, система объектно-базированного кодирования/декодирования аудио включает в себя устройство объектно-базированного кодирования аудио и устройство объектно-базированного декодирования аудио. Устройство объектно-базированного кодирования аудио включает в себя кодер 100 объектов, и устройство объектно-базированного декодирования аудио включает в себя декодер 111 объектов и смеситель/рендерер 113.

Кодер 100 объектов принимает N сигналов объекта и генерирует объектно-базированный сигнал понижающего смешивания с одним или несколькими каналами и дополнительной информацией, включающей в себя некоторое количество порций информации, извлеченных из N сигналов объекта, такой как информация о разности энергий, информация о разности фаз и информация о корреляции. Дополнительная информация и объектно-базированный сигнал понижающего смешивания объединяются в единственный битовый поток, и битовый поток передается на устройство объектно-базированного декодирования.

Дополнительная информация может включать в себя флаг, указывающий, выполнять ли канало-базированное кодирование аудио или объектно-базированное кодирование аудио, и, таким образом, может определяться, выполнять ли канало-базированное кодирование аудио или объектно-базированное кодирование аудио, основываясь на флаге дополнительной информации. Дополнительная информация также может включать в себя информацию об энергии, информацию о группировании, информацию о периоде молчания, информацию о коэффициенте усиления понижающего смешивания и информацию о задержке относительно сигналов объекта.

Дополнительная информация и объектно-базированный сигнал понижающего смешивания могут быть объединены в единственный битовый поток, и единственный битовый поток может передаваться на устройство объектно-базированного декодирования аудио.

Декодер 111 объектов принимает объектно-базированный сигнал понижающего смешивания и дополнительную информацию от устройства объектно-базированного кодирования аудио и восстанавливает сигналы объекта, имеющие свойства, подобные свойствам N сигналов объекта, на основе объектно-базированного сигнала понижающего смешивания и дополнительной информации. Сигналам объекта, генерируемым декодером 111 объектов, не было еще распределено никакое положение в многоканальном пространстве. Таким образом, смеситель/рендерер 113 распределяет каждый сигнал объекта, генерируемый декодером 111 объектов, в предварительно определенное положение в многоканальном пространстве и определяет уровни сигналов объекта, так что сигналы объекта могут воспроизводиться из, соответственно, соответствующих положений, обозначаемых смесителем/рендерером 113, соответственно, с соответствующими уровнями, определенными смесителем/рендерером 113. Управляющая информация, касающаяся каждого сигнала объекта, генерируемого декодером 111 объектов, может изменяться во времени, и, таким образом, пространственные положения и уровни сигналов объекта, генерируемых декодером 111 объектов, могут изменяться в соответствии с управляющей информацией.

Фиг.2 иллюстрирует блок-схему устройства 120 декодирования аудио согласно первому варианту осуществления настоящего изобретения. Как показано на фиг.2, устройство 120 декодирования аудио может иметь возможность выполнения адаптивного декодирования посредством анализа управляющей информации.

Как показано на фиг.2, устройство 120 декодирования аудио включает в себя декодер 121 объектов, смеситель/рендерер 123 и преобразователь 125 параметров. Устройство 120 декодирования аудио также может включать в себя демультиплексор (не показан), который извлекает сигнал понижающего смешивания и дополнительную информацию из введенного в него битового потока, и он будет применяться ко всем устройствам декодирования аудио согласно другим вариантам осуществления настоящего изобретения.

Декодер 121 объектов генерирует некоторое количество сигналов объекта на основе сигнала понижающего смешивания и модифицированной дополнительной информации, предоставляемой преобразователем 125 параметров. Смеситель/рендерер 123 распределяет каждый сигнал объекта, генерируемый декодером 121 объектов, в предварительно определенное положение в многоканальном пространстве и определяет уровни сигналов объекта, генерируемых декодером 121 объектов в соответствии с управляющей информацией. Преобразователь 125 параметров генерирует модифицированную дополнительную информацию посредством комбинирования дополнительной информации и управляющей информации. Затем преобразователь 125 параметров передает модифицированную дополнительную информацию на декодер 121 объектов.

Декодер 121 объектов может иметь возможность выполнять адаптивное декодирование посредством анализа управляющей информации в модифицированной дополнительной информации.

Например, если управляющая информация указывает, что первый сигнал объекта и второй сигнал объекта распределяются в одно и то же положение в многоканальном пространстве и имеют одинаковый уровень, типовое устройство декодирования аудио может декодировать первый и второй сигналы объекта отдельно и затем размещать их в многоканальном пространстве при помощи операции смешивания/рендеринга.

С другой стороны, декодер 121 объектов устройства 120 декодирования аудио узнает из управляющей информации в модифицированной дополнительной информации, что первый и второй сигналы объекта распределяются в одно и то же положение в многоканальном пространстве и имеют одинаковый уровень, как если бы они были единственным источником звука. Следовательно, декодер 121 объектов декодирует первый и второй сигналы объекта, рассматривая их как единственный источник звука без декодирования их отдельно. В результате уменьшается сложность декодирования. Кроме того, вследствие уменьшения числа источников звука, которые необходимо обрабатывать, также уменьшается сложность смешивания/рендеринга.

Устройство 120 декодирования аудио может эффективно использоваться, когда количество сигналов объекта больше, чем количество выходных каналов, так как существует большая вероятность, что множество сигналов объекта будут распределяться в одно и то же пространственное положение.

Альтернативно, устройство 120 декодирования аудио может использоваться, когда первый сигнал объекта и второй сигнал объекта распределяются в одно и то же положение в многоканальном пространстве, но имеют различные уровни. В данном случае устройство 120 декодирования аудио декодирует первый и второй сигналы объекта, рассматривая первый и второй сигналы объекта как единственный сигнал, вместо декодирования первого и второго сигналов объекта отдельно и передачи декодированных первого и второго сигналов объекта на смеситель/рендерер 123. Более конкретно, декодер 121 объектов может получать информацию, касающуюся разности между уровнями первого и второго сигналов объекта из управляющей информации в модифицированной дополнительной информации, и декодировать первый и второй сигналы объекта, основываясь на полученной информации. В результате, даже если первый и второй сигналы объекта имеют различные уровни, первый и второй сигналы объекта могут декодироваться, как если бы они были единственным источником звука.

Еще в качестве альтернативы, декодер 121 объектов может регулировать уровни сигналов объекта, генерируемых декодером 121 объектов в соответствии с управляющей информацией. Затем декодер 121 объектов может декодировать сигналы объекта, уровни которых регулируются. Следовательно, смесителю/рендереру 123 нет необходимости регулировать уровни декодированных сигналов объекта, предоставленных декодером 121 объектов, но он просто расставляет декодированные сигналы объекта, представленные декодером 121 объектов, в многоканальном пространстве. Вкратце, так как декодер 121 объектов регулирует уровни сигналов объекта, генерируемых декодером 121 объектов в соответствии с управляющей информацией, смеситель/рендерер 123 легко может расставить сигналы объекта, генерируемые декодером 121 объектов, в многоканальном пространстве без необходимости дополнительной регулировки уровней сигналов объекта, генерируемых декодером 121 объектов. Поэтому можно уменьшить сложность смешивания/рендеринга.

Согласно варианту осуществления по фиг.2 декодер объектов устройства 120 декодирования аудио может адаптивно выполнять операцию декодирования при помощи анализа управляющей информации, тем самым уменьшая сложность декодирования и сложность смешивания/рендеринга. Может использоваться комбинация вышеописанных способов, выполняемых устройством 120 декодирования аудио.

Фиг.3 иллюстрирует блок-схему устройства 130 декодирования аудио согласно второму варианту осуществления настоящего изобретения. Как показано на фиг.3, устройство 130 декодирования аудио включает в себя декодер 131 объектов и смеситель/рендерер 133. Устройство 130 декодирования аудио характеризуется предоставлением дополнительной информации не только декодеру 131 объектов, но также смесителю/рендереру 133.

Устройство 130 декодирования аудио может эффективно выполнять операцию декодирования даже тогда, когда имеется сигнал объекта, соответствующий периоду молчания. Например, второй-четвертый сигналы объекта могут соответствовать периоду проигрывания музыки, во время которого проигрывается музыкальный инструмент, и первый сигнал объекта может соответствовать периоду приглушения, во время которого проигрывается только фоновая музыка, и первый сигнал объекта может соответствовать периоду молчания, во время которого проигрывается аккомпанемент. В данном случае информация, указывающая, какой из множества сигналов объекта соответствует периоду молчания, может быть включена в дополнительную информацию, и дополнительная информация может предоставляться на смеситель/рендерер 133, а также на декодер 131 объектов.

Декодер 131 объектов может минимизировать сложность декодирования посредством недекодирования сигнала объекта, соответствующего периоду молчания. Декодер 131 объектов устанавливает сигнал объекта, соответствующий значению 0, и передает уровень сигнала объекта на смеситель/рендерер 133. В основном, сигналы объекта, имеющие значение 0, рассматриваются так же, как сигналы объекта, имеющие значение, отличное от 0, и, таким образом, подвергаются операции смешивания/рендеринга.

С другой стороны, устройство 130 декодирования аудио передает дополнительную информацию, включающую в себя информацию, указывающую, какой из множества сигналов объекта соответствует периоду молчания, на смеситель/рендерер 133 и может, таким образом, предотвращать то, что сигнал объекта, соответствующий периоду молчания, подвергается операции смешивания/рендеринга, выполняемой смесителем/рендерером 133. Поэтому устройство 130 декодирования аудио может предотвращать нежелательное повышение сложности смешивания/рендеринга.

Фиг.4 иллюстрирует блок-схему устройства 140 декодирования аудио согласно третьему варианту осуществления настоящего изобретения. Как показано на фиг.4, устройство 140 декодирования аудио использует многоканальный декодер 141 вместо декодера объектов и смесителя/рендерера и декодирует некоторое количество сигналов объекта, после того как сигналы объекта будут расставлены надлежащим образом в многоканальном пространстве.

Более конкретно, устройство 140 декодирования аудио включает в себя многоканальный декодер 141 и преобразователь 145 параметров. Многоканальный декодер 141 генерирует многоканальный сигнал, сигналы объекта которого уже были расставлены в многоканальном пространстве, на основе сигнала понижающего смешивания и информации о пространственных параметрах, которая представляет собой информацию о канало-базированных параметрах, представляемую преобразователем 145 параметров. Преобразователь 145 параметров анализирует дополнительную информацию и управляющую информацию, переданную устройством кодирования аудио (не показано), и генерирует информацию о пространственных параметрах на основе результата анализа. Более конкретно, преобразователь 145 параметров генерирует информацию о пространственных параметрах посредством комбинирования дополнительной информации и управляющей информации, которая включает в себя информацию об установке проигрывания и информацию о смешивании. Т.е. преобразователь 145 параметров выполняет преобразование комбинации дополнительной информации и управляющей информации в пространственные данные, соответствующие блоку один-в-два (OTT) или блоку два-в-три (TTT).

Устройство 140 декодирования аудио может выполнять операцию многоканального декодирования, в которую встроена операция объектно-базированного декодирования и операция смешивания/рендеринга, и может, таким образом пропускать декодирование каждого сигнала объекта. Поэтому можно снизить сложность декодирования и/или смешивания/рендеринга.

Например, когда имеется 10 сигналов объекта и многоканальный сигнал, полученный на основе 10 сигналов объекта, должен воспроизводиться 5.1-канальной системой громкоговорителей, типовое устройство объектно-базированного декодирования аудио генерирует декодированные сигналы, соответствующие, соответственно, 10 сигналам объекта, на основе сигнала понижающего смешивания и дополнительной информации, и затем генерирует 5.1-канальный сигнал посредством расстановки соответствующим образом 10 сигналов объекта в многоканальном пространстве, так что сигналы объекта могут становиться пригодными для 5.1-канального окружения громкоговорителей. Однако неэффективно генерировать 10 сигналов объекта во время генерирования 5.1-канального сигнала, и эта проблема становится более серьезной, когда увеличивается разность между количеством сигналов объекта и количеством каналов многоканального сигнала, подлежащего генерированию.

С другой стороны, в варианте осуществления по фиг.4 устройство 140 декодирования аудио генерирует информацию о пространственных параметрах, пригодную для 5.1-канального сигнала, основанного на дополнительной информации и управляющей информации, и предоставляет информацию о пространственных параметрах и сигнал понижающего смешивания на многоканальный декодер 141. Затем многоканальный декодер 141 генерирует 5.1-канальный сигнал, основанный на информации о пространственных параметрах и сигнале понижающего смешивания. Другими словами, когда количество каналов, подлежащих выводу, равно 5.1 каналам, устройство 140 декодирования аудио легко может генерировать 5.1-канальный сигнал, основанный на сигнале понижающего смешивания, без необходимости генерирования 10 сигналов объекта, и, таким образом, является более эффективным, чем обычное устройство декодирования аудио с точки зрения сложности.

Устройство 140 декодирования аудио считается эффективным, когда количество вычислений, необходимых для вычисления информации о пространственных параметрах, соответствующей каждому блоку ОТТ и блоку ТТТ, посредством анализа дополнительной информации и управляющей информации, переданной устройством кодирования аудио, меньше количества вычислений, необходимых для выполнения операции смешивания/рендеринга после декодирования каждого сигнала объекта.

Устройство 140 декодирования аудио может быть получено просто добавлением модуля для генерирования информации о пространственных параметрах посредством анализа дополнительной информации и управляющей информации к типовому устройству многоканального декодирования аудио и, таким образом, может сохранять совместимость с типовым устройством многоканального декодирования аудио. Также устройство 140 декодирования аудио может улучшать качество звука, используя существующие инструментальные средства типового устройства многоканального декодирования аудио, такие как формирователь огибающей, инструментальное средство субполосной временной обработки (STP) и декоррелятор. При наличии всего этого делается вывод, что все преимущества типового способа многоканального декодирования аудио легко могут быть применены к способу декодирования объектного аудио.

Информация о пространственных параметрах, переданная на многоканальный декодер 141 преобразователем 145 параметров, может быть сжата, чтобы она была подходящей для передачи. Альтернативно, информация о пространственных параметрах может иметь такой же формат, что и формат данных, передаваемых типовым устройством многоканального кодирования. Т.е. информация о пространственных параметрах возможно подвергалась операции декодирования методом Хаффмана или операции декодирования по пилот-сигналу и, таким образом, может передаваться на каждый модуль в качестве несжатых данных пространственных меток. Первый подходит для передачи информации о пространственных параметрах на устройство многоканального декодирования аудио в удаленном месте, и второе является удобным, так как нет необходимости в устройстве многоканального декодирования аудио для преобразования сжатых данных пространственных меток в несжатые данные пространственных меток, которые легко могут использоваться в операции декодирования.

Конфигурирование информации о пространственных параметрах, основанное на анализе дополнительной информации и управляющей информации, может вызвать задержку. Чтобы компенсировать такую задержку, может быть предусмотрен дополнительный буфер для сигнала понижающего смешивания, так что может компенсироваться задержка между сигналом понижающего смешивания и битовым потоком. Альтернативно, дополнительный буфер может быть предусмотрен для информации о пространственных параметрах, полученной из управляющей информации, так что может компенсироваться задержка между информацией о пространственных параметрах и битовым потоком. Эти способы, однако, являются неудобными из-за необходимости обеспечения дополнительного буфера. Альтернативно, дополнительная информация может передаваться перед сигналом понижающего смешивания, учитывая возможность появления задержки между сигналом понижающего смешивания и информацией о пространственных параметрах. В этом случае нет необходимости регулировать информацию о пространственных параметрах, полученную посредством комбинирования дополнительной информации и управляющей информации, но она легко может использоваться.

Если множество сигналов объекта сигнала понижающего смешивания имеют различные уровни, модуль произвольного коэффициента усиления понижающего смешивания (ADG), который может непосредственно компенсировать сигнал понижающего смешивания, может определять относительные уровни сигналов объекта, и каждый из сигналов объекта может расставляться в предварительно определенное положение в многоканальном пространстве, используя данные пространственных меток, такие как информация о разности уровней каналов (CLD), информация о межканальной корреляции (ICC) и информация о коэффициенте предсказания канала (CPC).

Например, если управляющая информация указывает, что предварительно определенный сигнал объекта должен быть распределен в предварительно определенное положение в многоканальном пространстве и имеет более высокий уровень, чем другие сигналы объекта, типовой многоканальный декодер может вычислить разность между энергиями каналов сигнала понижающего смешивания, и разделить сигнал понижающего смешивания на некоторое количество выходных каналов, основываясь на результатах вычисления. Однако типовой многоканальный декодер не может увеличить или уменьшить громкость некоторого звука в сигнале понижающего смешивания. Другими словами, типовой многоканальный декодер просто распределяет сигнал понижающего смешивания по некоторому количеству выходных каналов и, таким образом, не может увеличить или уменьшить громкость звука в сигнале понижающего смешивания.

Относительно легко распределить каждый из некоторого количества сигналов объекта сигнала понижающего смешивания, генерируемого кодером объектов, в предварительно определенное положение в многоканальном пространстве в соответствии с управляющей информацией. Однако необходимы специальные методы для увеличения или уменьшения амплитуды предварительно определенного сигнала объекта. Другими словами, если сигнал понижающего смешивания, генерируемый кодером объектов, используется как есть, то трудно уменьшить амплитуду каждого сигнала объекта сигнала понижающего смешивания.

Поэтому согласно варианту осуществления настоящего изобретения относительные амплитуды сигналов объекта могут изменяться в соответствии с управляющей информацией посредством использования модуля 147 ADG, изображенного на фиг.5. Модуль 147 ADG может быть установлен в многоканальном декодере 141 или может быть отдельным от многоканального декодера 141.

Если относительные амплитуды сигналов объекта сигнала понижающего смешивания регулируются соответствующим образом с использованием модуля 147 ADG, то можно выполнять декодирование объекта, используя типовой многоканальный декодер. Если сигнал понижающего смешивания, генерируемый кодером объекта, является монофоническим или стереофоническим сигналом или многоканальным сигналом с тремя или более каналами, сигнал понижающего смешивания может обрабатываться модулем 147 ADG. Если сигнал понижающего смешивания, генерируемый кодером объекта, имеет два или более каналов и предварительно определенный сигнал объекта, который требует регулировки модулем 147 ADG, существует только в одном из каналов сигнала понижающего смешивания, модуль 147 ADG может применяться только к каналу, включающему в себя предварительно определенный сигнал объекта, вместо применения ко всем каналам сигнала понижающего смешивания. Сигнал понижающего смешивания, обработанный модулем 147 ADG вышеописанным образом, легко может обрабатываться с использованием типового многоканального декодера без необходимости модифицирования конструкции многоканального декодера.

Даже если окончательный выходной сигнал не является многоканальным сигналом, который может воспроизводиться многоканальным громкоговорителем, но является бинауральным сигналом, модуль 147 ADG может использоваться для регулировки относительных амплитуд сигналов объекта окончательного выходного сигнала.

Альтернативно использованию модуля 147 ADG, информация о коэффициенте усиления, задающая значение коэффициента усиления, подлежащего применению для каждого сигнала объекта, может включаться в управляющую информацию во время генерирования некоторого количества сигналов объекта. Для этого может модифицироваться конструкция типового многоканального декодера. Даже если требуя модифицирование конструкции существующего многоканального декодера, этот способ является удобным в смысле снижения сложности декодирования посредством применения значения коэффициента усиления к каждому сигналу объекта во время операции декодирования без необходимости вычисления ADG и компенсирования каждого сигнала объекта.

Модуль 147 ADG может использоваться не только для регулировки уровней сигналов объекта, но также для модифицирования спектральной информации некоторого сигнала объекта. Более конкретно, модуль 147 ADG может использоваться не только для увеличения или уменьшения уровня некоторого сигнала объекта, но также для модифицирования спектральной информации некоторого сигнала объекта, например, усиления части с высоким или низким тоном некоторого сигнала объекта. Нельзя модифицировать спектральную информацию без использования модуля 147 ADG.

Фиг.6 иллюстрирует блок-схему устройства 150 декодирования аудио согласно четвертому варианту осуществления настоящего изобретения. Как показано на фиг.6, устройство 150 декодирования аудио включает в себя многоканальный бинауральный декодер 151, первый преобразователь 157 параметров и второй преобразователь 159 параметров.

Второй преобразователь 159 параметров анализирует дополнительную информацию и управляющую информацию, которая предоставляется устройством кодирования аудио, и конфигурирует информацию о пространственных параметрах, основанную на результате анализа. Первый преобразователь 157 параметров конфигурирует информацию о виртуальных трехмерных (3D) параметрах, которая может использоваться многоканальным бинауральным декодером 151, посредством добавления трехмерной (3D) информации, такой как параметры функции моделирования восприятия звука (HRTF), к информации о пространственных параметрах. Многоканальный бинауральный декодер 151 генерирует бинауральный сигнал посредством применения информации о бинауральных параметрах к сигналу понижающего смешивания.

Первый преобразователь 157 параметров и второй преобразователь 159 параметров могут быть заменены одним модулем, т.е. модулем 155 преобразования параметров, который принимает дополнительную информацию, управляющую информацию и трехмерную информацию и конфигурирует информацию о бинауральных параметрах, основанную на дополнительной информации, управляющей информации и параметрах HRTF.

Обычно, чтобы генерировать бинауральный сигнал для проигрывания сигнала понижающего смешивания, включающего в себя 10 сигналов объекта, при помощи головного телефона, сигнал объекта должен генерировать 10 декодированных сигналов, соответствующих, соответственно, 10 сигналам объекта, основанным на сигнале понижающего смешивания и дополнительной информации. После этого смеситель/рендерер распределяет каждый из 10 сигналов объекта в предварительно определенное положение в многоканальном пространстве со ссылкой на управляющую информацию, чтобы удовлетворять требованиям окружения 5-канального громкоговорителя. После этого смеситель/рендерер генерирует 5-канальный сигнал, который может воспроизводиться 5-канальным громкоговорителем. После этого смеситель/рендерер применяет трехмерную информацию к 5-канальному сигналу, таким образом генерируя 2-канальный сигнал. Вкратце, вышеупомянутый обычный способ декодирования аудио включает в себя воспроизведение 10 сигналов объекта, преобразование 10 сигналов объекта в 5-канальный сигнал и генерирование 2-канального сигнала на основе 5-канального сигнала и, таким образом, является неэффективным.

С другой стороны, устройство 150 декодирования аудио может легко генерировать бинауральный сигнал, который может воспроизводиться с использованием головных телефонов, основываясь на сигналах объекта. Кроме того, устройство 150 декодирования аудио конфигурирует информацию о пространственных параметрах посредством анализа дополнительной информации и управляющей информации и может, таким образом, генерировать бинауральный сигнал, используя типовой многоканальный бинауральный декодер. Кроме того, устройство 150 декодирования аудио все же может использовать типовой многоканальный бинауральный декодер даже тогда, когда он оснащен встроенным преобразователем параметров, который принимает дополнительную информацию, управляющую информацию и параметры HRTF и конфигурирует информацию о бинауральных параметрах, основанную на дополнительной информации, управляющей информации и параметрах HRTF.

Фиг.7 иллюстрирует блок-схему устройства 160 декодирования аудио согласно пятому варианту осуществления настоящего изобретения. Как показано на фиг.7, устройство 160 декодирования аудио включает в себя препроцессор 161, многоканальный декодер 163 и преобразователь 165 параметров.

Преобразователь 165 параметров генерирует информацию о пространственных параметрах, которая может использоваться многоканальным декодером 163, и информацию о параметрах, которая может использоваться препроцессором 161. Препроцессор 161 выполняет операцию предварительной обработки над сигналом понижающего смешивания и передает сигнал понижающего смешивания, являющийся результатом операции предварительной обработки, на многоканальный декодер 163. Многоканальный декодер 163 выполняет операцию декодирования над сигналом понижающего смешивания, переданным препроцессором 161, таким образом выводя стереофонический сигнал, бинауральный стереофонический сигнал или многоканальный сигнал. Примеры операции предварительной обработки, выполняемой препроцессором 161, включают в себя модифицирование или преобразование сигнала понижающего смешивания во временной области или частотной области, используя фильтрацию.

Если сигнал понижающего смешивания, введенный в устройство 160 декодирования аудио, представляет собой стереофонический сигнал, сигнал понижающего смешивания возможно подвергался предварительной обработке понижающего смешивания, выполняемой препроцессором 161, перед вводом в многоканальный декодер 163, так как многоканальный декодер 163 не может отображать сигнал объекта, соответствующий левому каналу стереофонического сигнала понижающего смешивания, на правый канал многоканального сигнала посредством декодирования. Поэтому, чтобы сдвинуть сигнал объекта, принадлежащий левому каналу стереофонического сигнала понижающего смешивания, в правый канал, возможно, что необходимо выполнение предварительной обработки стереофонического сигнала понижающего смешивания препроцессором 161, и сигнал понижающего смешивания с выполненной предварительной обработкой может вводиться в многоканальный декодер 163.

Предварительная обработка стереофонического сигнала понижающего смешивания может выполняться на основе информации о предварительной обработке, полученной из дополнительной информации и из управляющей информации.

Фиг.8 иллюстрирует блок-схему устройства 170 декодирования аудио согласно шестому варианту осуществления настоящего изобретения. Как показано на фиг.8, устройство 170 декодирования аудио включает в себя многоканальный декодер 171, постпроцессор 173 и преобразователь 175 параметров.

Преобразователь 175 параметров генерирует информацию о пространственных параметрах, которая может использоваться многоканальным декодером 163, и информацию о параметрах, которая может использоваться постпроцессором 173. Постпроцессор 173 выполняет операцию пост-обработки над сигналом, выводимым многоканальным декодером 173. Примеры сигнала, выводимого многоканальным декодером 173, включают в себя стереофонический сигнал, бинауральный стереофонический сигнал и многоканальный сигнал.

Примеры операции постобработки, выполняемой постпроцессором 173, включают в себя модифицирование и преобразование каждого канала или всех каналов выходного сигнала. Например, если дополнительная информация включает в себя информацию об основной частоте, касающуюся предварительно определенного сигнала объекта, постпроцессор 173 может удалять гармонические составляющие из предварительно определенного сигнала объекта со ссылкой на информацию об основной частоте. Способ многоканального декодирования аудио не может быть достаточно эффективным для использования в системе караоке. Однако, если информация об основной частоте, касающаяся сигналов голосового объекта, включена в дополнительную информацию и гармонические составляющие сигналов голосового объекта удаляются во время операции постобработки, можно реализовать высококачественную систему караоке посредством использования варианта осуществления по фиг.8. Вариант осуществления по фиг.8 также может применяться к сигналам объекта, кроме сигналов голосового объекта. Например, можно удалить звук предварительно определенного музыкального инструмента посредством использования варианта осуществления по фиг.8. Также можно усилить предварительно определенные гармонические составляющие, используя информацию об основной частоте, касающуюся сигналов объекта, посредством использования варианта осуществления по фиг.8. Вкратце, параметры постобработки могут сделать возможным применение различных эффектов, таких как вставка эффекта реверберации, добавление шума и усиление части с низким тоном, которые не могут выполняться многоканальным декодером 171.

Постпроцессор 173 может непосредственно применять дополнительный эффект к сигналу понижающего смешивания или добавлять сигнал понижающего смешивания, к которому эффект уже был применен, к выходному сигналу многоканального декодера 171. Постпроцессор 173 может изменять спектр объекта или модифицировать сигнал понижающего смешивания, когда это необходимо. Если не является подходящим непосредственное выполнение операции обработки эффекта, такой как реверберация по сигналу понижающего смешивания, и передача сигнала, полученного операцией обработки эффекта на многоканальный декодер 171, препроцессор 173 может просто добавить сигнал, получаемый операцией обработки эффекта к выходному сигналу многоканального декодера 171, вместо непосредственного выполнения обработки эффекта по сигналу понижающего смешивания и передачи результата обработки эффекта на многоканальный декодер 171.

Фиг.9 иллюстрирует блок-схему устройства 180 декодирования аудио согласно седьмому варианту осуществления настоящего изобретения. Как показано на фиг.9, устройство 180 декодирования аудио включает в себя препроцессор 181, многоканальный декодер 183, постпроцессор 185 и преобразователь 187 параметров.

Описание препроцессора 161 непосредственно применяется к препроцессору 181. Постпроцессор 185 может использоваться для добавления к выходному сигналу препроцессора 181 и выходному сигналу многоканального декодера 185 и, таким образом, обеспечения окончательного сигнала. В данном случае постпроцессор 185 служит просто в качестве сумматора для добавления сигналов. Параметр эффекта может предоставляться на тот, который из препроцессора 181 и постпроцессора 185 выполняет применение эффекта. Кроме того, добавление сигнала, полученного посредством применения эффекта к сигналу понижающего смешивания, к выходному сигналу многоканального декодера 183 и применение эффекта к выходному сигналу многоканального декодера 185 может выполняться одновременно.

Препроцессоры 161 и 181 по фиг.7 и 9 могут выполнять рендеринг над сигналом понижающего смешивания в соответствии с управляющей информацией, представленной пользователем. Кроме того, препроцессоры 161 и 181 по фиг.7 и 9 могут увеличивать или уменьшать уровни сигналов объекта и изменять спектры сигналов объекта. В данном случае препроцессоры 161 и 181 по фиг.7 и 9 могут выполнять функции модуля ADG.

Рендеринг сигнала объекта в соответствии с информацией о направлении сигнала объекта, регулировка уровня сигнала объекта и изменение спектра сигнала объекта могут выполняться одновременно. Кроме того, некоторые из рендеринга сигнала объекта в соответствии с информацией о направлении сигнала объекта, регулировки уровня сигнала объекта и изменения спектра сигнала объекта могут выполняться посредством использования препроцессоров 161 или 181, и то, что из рендеринга сигнала объекта в соответствии с информацией о направлении сигнала объекта, регулировки уровня сигнала объекта и изменения спектра сигнала объекта не выполняется препроцессором 161 или 181, может выполняться посредством использования модуля ADG. Например, неэффективно изменять спектр сигнала объекта посредством использования модуля ADG, который использует интервал уровня квантования и интервал полосы параметров. В данном случае препроцессор 161 или 181 может использоваться для точного изменения спектра сигнала объекта на почастотной основе, и модуль ADG может использоваться для регулировки уровня сигнала объекта.

Фиг.10 иллюстрирует блок-схему устройства декодирования аудио согласно восьмому варианту осуществления настоящего изобретения. Как показано на фиг.10, устройство 200 декодирования аудио включает в себя генератор 201 матрицы рендеринга, транскодер 203, многоканальный декодер 205, препроцессор 207, процессор 208 эффектов и сумматор 209.

Генератор 201 матрицы рендеринга генерирует матрицу рендеринга, которая представляет информацию о положении объекта, касающуюся положений сигналов объекта, и информацию о конфигурировании проигрывания, касающуюся уровней сигналов объекта, и предоставляет матрицу рендеринга на транскодер 203. Генератор 201 матрицы рендеринга генерирует трехмерную информацию, такую как коэффициент HRTF, основанную на информации о положении объекта. HRTF представляет собой передаточную функцию, которая описывает передачу звуковых волн между источником звука в произвольном положении и барабанной перепонки, и возвращает значение, которое изменяется в соответствии с направлением и высотой источника звука. Если сигнал без направленности фильтруется с использованием HRTF, сигнал может быть слышен, как если бы он воспроизводился с некоторого направления.

Информация о положении объекта и информация о конфигурировании проигрывания, которая принимается генератором 201 матрицы рендеринга, может изменяться во времени и может предоставляться конечным пользователем.

Транскодер 203 генерирует канало-базированную дополнительную информацию, основанную на объектно-базированной дополнительной информации, матрице рендеринга и трехмерной информации, и предоставляет многоканальному декодеру 209 канало-базированную дополнительную информацию и трехмерную информацию, необходимые для многоканального декодера 209. Т.е. транскодер 203 передает канало-базированную дополнительную информацию, касающуюся М каналов, которая получается из информации об объектно-базированных параметрах, касающейся N сигналов объекта, и трехмерную информацию каждого из N сигналов объекта на многоканальный декодер 205.

Многоканальный декодер 205 генерирует многоканальный аудиосигнал, основанный на сигнале понижающего смешивания и канало-базированной дополнительной информации, предусмотренной транскодером 203, и выполняет трехмерный рендеринг многоканального аудиосигнала в соответствии с трехмерной информацией, таким образом генерируя трехмерный многоканальный сигнал. Генератор 201 матрицы рендеринга может включать в себя базу данных трехмерной информации (не показана).

Если есть необходимость в предварительной обработке сигнала понижающего смешивания перед вводом сигнала понижающего смешивания в многоканальный декодер 205, транскодер 203 передает информацию, касающуюся предварительной обработки, на препроцессор 207. Объектно-базированная дополнительная информация включает в себя информацию, касающуюся всех сигналов объекта, и матрица рендеринга включает в себя информацию о положении объекта и информацию о конфигурировании проигрывания. Транскодер 203 может генерировать канало-базированную дополнительную информацию, основанную на объектно-базированной дополнительной информации и матрице рендеринга, и затем генерирует канало-базированную дополнительную информацию, необходимую для смешивания и воспроизведения сигналов объекта в соответствии с информацией о канале. После этого транскодер 203 передает канало-базированную дополнительную информацию на многоканальный декодер 205.

Канало-базированная дополнительная информация и трехмерная информация, представленная транскодером 205, могут включать в себя индексы кадра. Таким образом, многоканальный декодер 205 может синхронизировать канало-базированную дополнительную информацию и трехмерную информацию посредством использования индексов кадра и, таким образом, может иметь возможность применять трехмерную информацию только к некоторым кадрам битового потока. Кроме того, даже если трехмерная информация обновляется, можно легко синхронизировать канало-базированную дополнительную информацию и обновленную трехмерную информацию посредством использования индексов кадра. Т.е. индексы кадра могут включаться в канало-базированную дополнительную информацию и трехмерную информацию, соответственно, чтобы многоканальный декодер 205 синхронизировал канало-базированную дополнительную информацию и трехмерную информацию.

Препроцессор 207 может выполнять предварительную обработку введенного сигнала понижающего смешивания, если необходимо, перед тем как введенный сигнал понижающего смешивания будет введен в многоканальный декодер 205. Как описано выше, если введенный сигнал понижающего смешивания представляет собой стереофонический сигнал и существует необходимость проигрывания сигнала объекта, принадлежащего левому каналу из правого канала, сигнал понижающего смешивания может подвергаться предварительной обработке, выполняемой препроцессором 207 перед вводом в многоканальный декодер 205, так как многоканальный декодер 205 не может переместить сигнал объекта из одного канала в другой. Информация, необходимая для предварительной обработки входного сигнала понижающего смешивания, может предоставляться на препроцессор 207 транскодером 205. Сигнал понижающего смешивания, полученный при помощи предварительной обработки, выполняемой препроцессором 207, может передаваться на многоканальный декодер 205.

Процессор 208 эффектов и сумматор 209 могут непосредственно применять дополнительный эффект к сигналу понижающего смешивания или добавлять сигнал понижающего смешивания, в котором эффект уже был применен, к выходному сигналу многоканального декодера 205. Процессор 208 эффектов может изменять спектр объекта или модифицировать сигнал понижающего смешивания, когда необходимо. Если не является подходящим непосредственное выполнение операции обработки эффекта, такой как реверберация, над сигналом понижающего смешивания и передача сигнала, полученного операцией обработки эффекта, на многоканальный декодер 205, процессор 208 эффектов может просто добавить сигнал, полученный операцией обработки эффекта, к выходному сигналу многоканального декодера 205 вместо непосредственного выполнения обработки эффекта над сигналом понижающего смешивания и передачи результата обработки эффекта на многоканальный декодер 205.

Ниже в данном документе подробно описывается матрица рендеринга, генерируемая генератором 201 матрицы рендеринга.

Матрица рендеринга представляет собой матрицу, которая представляет положения и конфигурирование проигрывания сигналов объекта. Т.е. если имеется N сигналов объекта и М каналов, то матрица рендеринга может указывать, как N сигналов объекта отображаются на М каналов различным образом.

Более конкретно, когда N сигналов объекта отображаются на М каналов, может быть установлена матрица рендеринга размера N×M. В данном случае матрица рендеринга включает в себя N строк, которые представляют соответственно N сигналов объекта и М столбцов, которые представляют соответственно М каналов. Каждый из М коэффициентов в каждой из N строк может представлять собой действительное число или целое число, указывающее отношение части сигнала объекта, распределенной соответствующему каналу, ко всему сигналу объекта.

Более конкретно, М коэффициентов в каждой из N строк матрицы рендеринга размера N×M могут представлять собой действительные числа. Тогда, если сумма M коэффициентов в строке матрицы рендеринга размера N×M равна предварительно определенному эталонному значению, например 1, может быть определено, что уровень сигнала объекта не изменялся. Если сумма М коэффициентов меньше 1, определяется, что уровень сигнала объекта был уменьшен. Если сумма М коэффициентов больше 1, определяется, что уровень сигнала объекта увеличился. Предварительно определенное эталонное значение может представлять собой числовое значение, отличное от 1. Величина, на которую изменяется уровень сигнала объекта, может ограничиваться диапазоном 12 дБ. Например, если предварительно определенное эталонное значение равно 1 и сумма М коэффициентов равна 1,5, то может быть определено, что уровень сигнала объекта увеличился на 12 дБ. Если предварительно определенное эталонное значение равно 1 и сумма М коэффициентов равна 0,5, то определяется, что уровень сигнала объекта уменьшился на 12 дБ. Если предварительно определенное эталонное значение равно 1 и сумма М коэффициентов равна 0,5-1,5, определяется, что сигнал объекта изменился на предварительно определенную величину от -12 дБ до +12 дБ, и предварительно определенная величина может линейно определяться в соответствии с суммой М коэффициентов.

М коэффициенты в каждой из N строк матрицы рендеринга размера N×M могут представлять собой целые числа. Тогда, если сумма М коэффициентов в строке матрицы рендеринга размера N×M равна предварительно определенному эталонному значению, например 10, 20, 30 или 100, может быть определено, что уровень сигнала объекта не был изменен. Если сумма М коэффициентов меньше, чем предварительно определенное эталонное значение, то может быть определено, что уровень сигнала объекта не был уменьшен. Если сумма М коэффициентов больше, чем предварительно определенное эталонное значение, может быть определенно, что уровень сигнала объекта не был увеличен. Величина, на которую изменяется уровень сигнала объекта, может ограничиваться диапазоном, например, 12 дБ. Величина, на которую отличается сумма М коэффициентов от предварительно определенного эталонного значения, может представлять величину (единица измерения: дБ), на которую изменился уровень сигнала объекта. Например, если сумма М коэффициентов представляет собой сумму, которая больше, чем предварительно определенное эталонное значение, то может быть определено, что уровень сигнала объекта был увеличен на 2 дБ. Поэтому, если предварительно определенное эталонное значение равно 20 и сумма М коэффициентов равна 23, то может быть определено, что уровень сигнала объекта был увеличен на 6 дБ. Если предварительно определенное эталонное значение равно 20 и сумма М коэффициентов равна 15, то может быть определено, что уровень сигнала объекта был уменьшен на 10 дБ.

Например, если имеется шесть сигналов объекта и пять каналов (т.е. передний левый (FL), передний правый (FR), центральный С, задний левый (RL) и задний правый (RR) каналы), может быть установлена матрица рендеринга размера 6×5, имеющая шесть строк, соответствующих соответственно шести сигналам объекта, и пять столбцов, соответствующих соответственно пяти каналам. Коэффициенты матрицы рендеринга размера 6×5 могут представлять собой целые числа, указывающие соотношение, с которым каждый из шести сигналов объекта распределяется по пяти каналам. Матрица рендеринга размера 6×5 может иметь эталонное значение 10. Таким образом, если сумма пяти коэффициентов в любой одной из шести строк матрицы рендеринга размера 6×5 равна 10, то может быть определено, что уровень соответствующего сигнала объекта не изменился. Величина, на которую сумма пяти коэффициентов в любой одной из шести строк матрицы рендеринга размера 6×5 отличается от эталонного значения, представляет величину, на которую изменился уровень соответствующего сигнала объекта. Например, если сумма пяти коэффициентов в любой одной из шести строк матрицы рендеринга размера 6×5 отличается от эталонного значения на 1, то может быть определено, что уровень соответствующего сигнала объекта изменился на 2 дБ. Матрица рендеринга размера 6×5 может быть представлена уравнением (1):

[Уравнение 1]

Ссылаясь на матрицу рендеринга размера 6×5 уравнения (1), первая строка соответствует первому сигналу объекта и представляет соотношение, с которым первый сигнал объекта распределяется по FL-, FR-, C-, RL- и RR-каналам. Так как первый коэффициент первой строки имеет наибольше целочисленное значение 3 и сумма коэффициентов первой строки равна 10, то определяется, что первый сигнал объекта распределяется, главным образом, на FL-канал и что уровень первого сигнала объекта не изменился. Так как второй коэффициент второй строки, которая соответствует второму сигналу объекта, имеет наибольшее целочисленное значение 4 и сумма коэффициентов второй строки равна 12, то определяется, что второй сигнал объекта распределяется, главным образом, на FR-канал и что уровень второго сигнала объекта был увеличен на 4 дБ. Так как третий коэффициент третьей строки, которая соответствует третьему сигналу объекта, имеет наибольшее целочисленное значение 12 и сумма коэффициентов третьей строки равна 12, то определяется, что третий сигнал объекта распределяется только на C-канал и что уровень третьего сигнала объекта был увеличен на 4 дБ. Так как все коэффициенты пятой строки, которая соответствует пятому сигналу, имеет одинаковое целочисленное значение 2, и сумма коэффициентов пятой строки равна 10, то определяется, что пятый сигнал объекта равномерно распределяется по FL-, FR-, C-, RL- и RR-каналам и что уровень пятого сигнала объекта не изменился.

Альтернативно, когда N сигналов объекта отображаются на М каналов, может быть установлена матрица рендеринга размера N×(M+1). Матрица рендеринга размера N×(M+1) очень подобна матрице рендеринга размера N×M. Более конкретно, в матрице рендеринга размера N×(M+1), подобно матрице рендеринга размера N×M, коэффициенты с первого по М-й в каждой из N строк представляют соотношение, с которым соответствующий сигнал объекта распределяется по FL-, FR-, C-, RL- и RR-каналам. Однако матрица рендеринга размера N×(M+1), в отличие от матрицы рендеринга размера N×M, имеет дополнительный столбец (т.е. (М+1)-й столбец) для представления уровней сигналов объекта.

Матрица рендеринга размера N×(M+1), в отличие от матрицы рендеринга размера N×M, указывает, как сигнал объекта распределяется по М каналам и изменился ли отдельно уровень сигнала объекта. Таким образом, посредством использования матрицы рендеринга размера N×(M+1) можно легко получить информацию, касающуюся изменения, если есть какие-либо, уровня сигнала объекта без необходимости дополнительных вычислений. Так как матрица рендеринга размера N×(M+1) представляет собой почти то же самое, что и матрица рендеринга размера N×M, матрица рендеринга размера N×(M+1) легко может быть преобразована в матрицу рендеринга размера N×M, или наоборот, без необходимости дополнительной информации.

Также альтернативно, когда N сигналов объекта отображаются на М каналов, может быть установлена матрица рендеринга размера N×2. Матрица рендеринга размера N×2 имеет первый столбец, указывающий угловые положения сигналов объекта, и второй столбец, указывающий изменение, если есть какие-либо, уровня каждого сигнала объекта. Матрица рендеринга размера N×2 может представлять угловые положения сигналов объекта с регулярными интервалами в 1 или 3 градуса в диапазоне 0-360 градусов. Сигнал объекта, который равномерно распределяется по всем направлениям, может представляться предварительно определенным значением, а не углом.

Матрица рендеринга размера N×2 может быть преобразована в матрицу рендеринга размера N×3, которая может указывать не только двумерные направления сигналов объекта, но также трехмерные направления сигналов объекта. Более конкретно, второй столбец матрицы рендеринга размера N×3 может использоваться для указания трехмерных направлений сигналов объекта. Третий столбец матрицы рендеринга размера N×3 указывает изменение, если есть какие-либо, уровня каждого сигнала объекта, используя тот же способ, который используется матрицей рендеринга размера N×M. Если окончательным режимом проигрывания декодера объектов является бинауральное стерео, генератор 201 матрицы рендеринга может передавать трехмерную информацию, указывающую положение каждого сигнала объекта или индекс, соответствующий трехмерной информации. В последнем случае транскодеру 203 может необходимо иметь трехмерную информацию, соответствующую индексу, переданному генератором 201 матрицы рендеринга. Кроме того, если трехмерная информация, указывающая положение каждого сигнала объекта принимается от генератора 201 матрицы рендеринга, транскодер 203 может иметь возможность вычислять трехмерную информацию, которая может использоваться многоканальным декодером 205, основанную на принимаемой трехмерной информации, матрице рендеринга и объектно-базированной дополнительной информации.

Матрица рендеринга и трехмерная информация могут адаптивно изменяться в реальном времени в соответствии с модификацией, выполненной для информации о положении объекта и информации о конфигурировании проигрывания конечным пользователем. Поэтому информация, касающаяся того, обновляется ли матрица рендеринга и трехмерная информация, и обновления, если есть какие-либо, матрицы рендеринга и трехмерной информации могут передаваться на транскодер 203 с регулярными интервалами времени, например, с интервалами 0,5 с. Тогда, если обнаруживаются обновления матрицы рендеринга и трехмерной информации, транскодер 203 может выполнять линейное преобразование принятых обновлений и существующей матрицы рендеринга и существующей трехмерной информации, предполагая, что матрица рендеринга и трехмерная информация линейно изменяются во времени.

Если информация о положении объекта и информация о конфигурировании проигрывания не были модифицированы конечным пользователем после передачи матрицы рендеринга и трехмерной информации на транскодер 203, информация, указывающая, что матрица рендеринга и трехмерная информация не были изменены, может передаваться на транскодер 203. С другой стороны, если информация о положении объекта и информация о конфигурировании проигрывания были модифицированы конечным пользователем после передачи матрицы рендеринга и трехмерной информации на транскодер 203, информация, указывающая, что матрица рендеринга и трехмерная информация были изменены, и обновления матрицы рендеринга и трехмерной информации могут передаваться на транскодер 203. Более конкретно, обновления матрицы рендеринга и обновления трехмерной информации могут передаваться отдельно на транскодер 203. Альтернативно, обновления матрицы рендеринга и/или обновления трехмерной информации могут совместно представляться предварительно определенным представительным значением. Тогда предварительно определенное представительное значение может передаваться на транскодер 203 вместе с информацией, указывающей, что предварительно определенное представительное значение соответствует обновлениям матрицы рендеринга или обновлениям трехмерной информации. Таким образом можно легко уведомлять транскодер 203, были ли обновлены или нет матрица рендеринга и трехмерная информация.

Матрица рендеринга размера N×M, подобно матрице, указанной уравнением (1), также может включать в себя дополнительный столбец для представления информации о трехмерном направлении сигналов объекта. В данном случае дополнительный столбец может представлять информацию о трехмерном направлении сигналов объекта в качестве углов в диапазоне от -90 до +90 градусов. Дополнительный столбец может обеспечиваться не только для матрицы размера N+M, но также для матрицы рендеринга размера N×(M+1) и матрицы размера N×2. Информация о трехмерном направлении сигналов объекта может быть необязательной для использования в режиме нормального декодирования многоканального декодера. Вместо этого информация о трехмерном направлении сигналов объекта может быть необходимой для использования в бинауральном режиме многоканального декодера. Информация о трехмерном направлении сигналов объекта может передаваться вместе с матрицей рендеринга. Альтернативно, информация о трехмерном направлении сигналов объекта может передаваться вместе с трехмерной информацией. Информация о трехмерном направлении сигналов объекта не оказывает влияние на канало-базированную дополнительную информацию, но оказывает влияние на трехмерную информацию во время операции декодирования бинаурального режима.

Информация, касающаяся пространственных положений и уровней сигналов объекта, может обеспечиваться в качестве матрицы рендеринга. Альтернативно, информация, касающаяся пространственных положений и уровней сигналов объекта, может представляться как модификации спектра сигнала объекта, такие как усиление частей с низким тоном или частей с высоким тоном сигналов объекта. В данном случае информация, касающаяся модификаций спектра сигналов объекта, может передаваться как изменения уровня в каждой полосе параметров, которая используется в многоканальном кодеке. Если конечный пользователь управляет модификациями спектра сигналов объекта, информация, касающаяся модификаций спектра сигналов объекта, может передаваться в качестве матрицы спектра отдельно от матрицы рендеринга. Матрица спектра может иметь столько же строк, сколько имеется сигналов объекта, и иметь столько столбцов, сколько имеется параметров. Каждый коэффициент матрицы спектра указывает информацию, касающуюся регулировки уровня каждой полосы параметров.

Ниже в данном документе подробно описывается принцип действия транскодера 203. Транскодер 203 генерирует канало-базированную дополнительную информацию для многоканального декодера 205, основываясь на объектно-базированной дополнительной информации, информации о матрице рендеринга и трехмерной информации, и передает канало-базированную дополнительную информацию на многоканальный декодер 205. Кроме того, транскодер 203 генерирует трехмерную информацию для многоканального декодера 205 и передает трехмерную информацию на многоканальный декодер 205. Если входному сигналу понижающего смешивания необходима предварительная обработка перед вводом в многоканальный декодер 205, транскодер 203 может передавать информацию, касающуюся входного сигнала понижающего смешивания.

Транскодер 203 может принимать объектно-базированную дополнительную информацию, указывающую, как множество сигналов объекта включены во входной сигнал понижающего смешивания. Объектно-базированная дополнительная информация может указывать, как множество сигналов объекта включены во входной сигнал понижающего смешивания посредством использования блока ОТТ и блока ТТТ и использования информации о CLD, ICC и CPC. Объектно-базированная дополнительная информация может обеспечивать описания различных способов, которые могут выполняться кодером объектов для указания информации, касающейся каждого из множества сигналов объекта, и может, таким образом, иметь возможность указывать, как сигналы объекта включены в дополнительную информацию.

В случае блока ТТТ многоканального кодека может выполняться понижающее смешивание или повышающее смешивание L-, C- и R-сигналов в L- и R-сигналы. В данном случае С-сигнал может совместно использовать немного как L-, так и R-сигналы. Однако это редко происходит в случае понижающего смешивания или повышающего смешивания сигналов объектов. Поэтому блок ОТТ широко используется для выполнения повышающего смешивания или понижающего смешивания для кодирования объекта. Даже если С-сигнал включает в себя независимую составляющую сигнала, а не части L- и R-сигналов, блок ТТТ может использоваться для выполнения повышающего смешивания или понижающего смешивания для кодирования объекта.

Например, если имеется шесть сигналов объекта, шесть сигналов объекта могут преобразовываться в сигнал понижающего смешивания блоком ОТТ, и информация, касающаяся каждого сигнала объекта, может быть получена посредством использования блока ОТТ, как изображено на фиг.11.

Как показано на фиг.11, шесть сигналов объекта могут представляться одним сигналом понижающего смешивания и информацией (такой как информация о CLD и ICC), представляемой в сумме пятью блоками 211, 213, 215, 217 и 219 ОТТ. Конструкция, изображенная на фиг.11, может быть изменена многочисленным образом. Т.е., как показано на фиг.11, первый блок 211 ОТТ может принимать два из шести сигналов объекта. Кроме того, может свободно изменяться то, каким образом иерархически соединяются блоки 211, 213, 215, 217 и 219 ОТТ. Поэтому дополнительная информация может включать в себя информацию об иерархической структуре, указывающую то, как иерархически соединяются блоки 211, 213, 215, 217 и 219 ОТТ, и информацию о положении ввода, указывающую, в какой блок ОТТ вводится каждый сигнал объекта. Если блоки 211, 213, 215, 217 и 219 ОТТ образуют произвольную древовидную структуру, способ, используемый в многоканальном кодеке для представления произвольной древовидной структуры, может использоваться для указания такой информации о иерархической структуре. Кроме того, такая информация о положении ввода может указываться многочисленным образом.

Дополнительная информация также может включать в себя информацию, касающуюся периода приглушения каждого сигнала объекта. В данном случае древовидная структура блоков 211, 213, 215, 217 и 219 ОТТ может адаптивно изменяться по времени. Например, как показано на фиг.11, когда приглушен первый сигнал OBJECT1 объекта, информация, касающаяся первого блока 211 ОТТ, не является необходимой, и только второй сигнал OBJECT2 объекта может вводиться на четвертый блок 217 ОТТ. Тогда древовидная структура блоков 211, 213, 215, 217 и 219 ОТТ может изменяться соответствующим образом. Таким образом, информация, касающаяся изменения, если есть какое-либо, в древовидной структуре блоков 211, 213, 215, 217 и 219 ОТТ может быть включена в дополнительную информацию.

Если приглушен предварительно определенный сигнал объекта, информация, указывающая, что блок ОТТ, соответствующий предварительно определенному сигналу объекта, не находится в использовании и может быть предоставлена информация, указывающая, что недоступны метки от блока ОТТ. Таким образом, можно уменьшить размер дополнительной информации посредством того, что не включается информация, касающаяся блоков ОТТ или блоков ТТТ, которые не находятся в использовании в дополнительной информации. Даже если модифицируется древовидная структура множества блоков ОТТ или ТТТ, можно легко определить, какие из блоков ОТТ или ТТТ включены или выключены, основываясь на информации, указывающей, какие сигналы объекта приглушены. Поэтому нет необходимости часто передавать информацию, касающуюся модификаций, если есть какие-либо, древовидной структуры блоков ОТТ или ТТТ. Вместо этого может передаваться информация, указывающая, какой сигнал объекта является приглушенным. Затем декодер может легко определить, какая часть древовидной структуры блоков ОТТ или ТТТ требует модифицирования. Поэтому можно минимизировать размер информации, которая необходима для передачи на декодер. Кроме того, можно легко передавать метки, касающиеся сигналов объекта, на декодер.

Фиг.12 иллюстрирует схему для объяснения того, как множество сигналов объекта включается в сигнал понижающего смешивания. В варианте осуществления по фиг.11 структура блоков ОТТ многоканального кодирования принимается в том виде, в каком она есть. Однако в варианте осуществления по фиг.12 используется изменение структуры блоков ОТТ многоканального кодирования. Т.е., ссылаясь на фиг.12, множество сигналов объекта вводится в каждый блок, и в конце генерируется только один сигнал понижающего смешивания. Как показано на фиг.12, информация, касающаяся каждого из множества сигналов объекта, может представляться отношением уровня энергии каждого сигнала объекта к уровню полной энергии сигналов объекта. Однако, когда количество сигналов объекта увеличивается, отношение уровня энергии каждого сигнала объекта к уровню полной энергии сигналов объекта уменьшается. Чтобы решить этот вопрос, выполняется поиск одного из множества сигналов объекта (ниже в данном документе упоминаемый как сигнал объекта с наибольшей энергией), имеющего наибольший уровень энергии в предварительно определенной полосе параметров, и отношения уровней энергии других сигналов объекта (ниже в данном документе упоминаемых как сигналы объекта с ненаибольшей энергией) к уровню энергии сигнала объекта с наибольшей энергией могут обеспечиваться в качестве информации, касающейся каждого из сигналов объекта. В данном случае, если дана информация, указывающая сигнал объекта с наибольшей энергией и абсолютное значение уровня энергии сигнала объекта с наибольшей энергией, то легко могут быть определены уровни энергии других сигналов объекта с ненаибольшей энергией.

Уровень энергии сигнала объекта с наибольшей энергией необходим для объединения множества битовых потоков в единственный битовый поток, как выполняется в устройстве управления многосторонней связью (MCU). Однако в большинстве случаев уровень энергии сигнала объекта с наибольшей энергией не является обязательным, так как абсолютное значение уровня энергии сигнала объекта с наибольшей энергией легко может быть получено из отношений уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией.

Например, предположим, что имеется четыре сигнала А, В, С и D объекта, принадлежащие предварительно определенной полосе параметров, и что сигнал А объекта представляет собой сигнал объекта с наибольшей энергией. Тогда энергия Е_Р предварительно определенной полосы параметров и абсолютное значение Е_А уровня энергии сигнала А объекта удовлетворяют уравнению (2):

[Уравнение 2]

где a, b и c соответственно указывают отношения уровня энергии сигналов B, C и D объекта к уровню энергии сигнала объекта. Ссылаясь на уравнение (2), можно вычислить абсолютное значение Е_А уровня энергии сигнала А объекта на основе отношений a, b и c и энергии Е_Р предварительно определенной полосы параметров. Поэтому, если нет необходимости объединять множество битовых потоков в единственный битовый поток с использованием MCU, то может быть не требуется включать в битовый поток абсолютное значение Е_А уровня энергии сигнала А объекта. Информация, указывающая, включено ли абсолютное значение Е_А уровня энергии сигнала А объекта в битовый поток, может включаться в заголовок битового потока, таким образом уменьшая размер битового потока.

С другой стороны, если есть необходимость объединения множества битовых потоков в единственный битовый поток с использованием MCU, необходим уровень энергии сигнала объекта с наибольшей энергией. В данном случае сумма уровней энергии, вычисленная на основе отношений уровней энергии сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией, может не быть такой же, что и уровень энергии сигнала понижающего смешивания, полученного посредством понижающего смешивания всех сигналов объекта. Например, когда уровень энергии сигнала понижающего смешивания равен 100, сумма вычисленных уровней энергии может быть равна 98 или 103, например, из-за ошибок, вызванных во время операций квантования и деквантования. Чтобы решить этот вопрос, разность между уровнем энергии сигнала понижающего смешивания и суммой вычисленных уровней энергии может соответствующим образом компенсироваться посредством умножения каждого вычисленного уровня энергии на предварительно определенный коэффициент. Если уровень энергии сигнала понижающего смешивания равен Х и сумма вычисленных уровней энергии равна Y, каждый вычисленный уровень энергии может умножаться на X/Y. Если разность между уровнем энергии сигнала понижающего смешивания и суммой вычисленных уровней энергии не компенсируется, такие ошибки квантования могут включаться в полосы параметров и кадры, таким образом вызывая искажения сигнала.

Поэтому является необходимой информация, указывающая, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительной определенной полосе параметров. Такая информация может представляться некоторым количеством битов. Количество битов, необходимых для указания, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительно определенной полосе параметров, изменяется в соответствии с количеством сигналов объекта. Когда увеличивается количество сигналов объекта, увеличивается количество битов, необходимых для указания, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительно определенной полосе параметров. С другой стороны, когда уменьшается количество сигналов объекта, уменьшается количество битов, необходимых для указания, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительно определенной полосе параметров. Предварительно определенное количество битов может распределяться заранее для указания, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительно определенной полосе параметров. Альтернативно, количество битов для указания, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительно определенной полосе параметров, может определяться на основе определенной информации.

Размер информации, указывающей, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в каждой полосе параметров, может уменьшаться посредством использования этого же способа, используемого для уменьшения размера информации о CLD, ICC и CPC для использования в блоках ОТТ и/или ТТТ многоканального кодека, например, посредством использования временно-дифференциального способа, частотно-дифференциального способа или способа кодирования пилот-сигнала.

Чтобы указать, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в каждой полосе параметров, может использоваться оптимизированная таблица Хаффмана. В данном случае может потребоваться информация, указывающая, в каком порядке уровни энергии сигналов объекта сравниваются с уровнем энергии того сигнала объекта, который имеет наибольшую абсолютную энергию. Например, если имеется пять сигналов объекта (т.е. первый-пятый сигналы объекта) и третий сигнал объекта является сигналом объекта с наибольшей энергией, может обеспечиваться информация, касающаяся третьего сигнала объекта. Тогда отношения уровней энергии первого, второго, четвертого и пятого сигналов объекта к уровню энергии третьего сигнала объекта могут обеспечиваться различным образом, и это ниже в данном документе описывается более подробно.

Отношения уровней энергии первого, второго, четвертого и пятого сигналов объекта к уровню энергии третьего сигнала объекта могут обеспечиваться последовательно. Альтернативно, отношения уровней энергии четвертого, пятого, первого и второго сигналов объекта к уровню энергии третьего сигнала объекта могут последовательно обеспечиваться циклическим образом. Тогда информация, указывающая порядок, в котором обеспечиваются отношения уровней энергии первого, второго, четвертого и пятого сигналов объекта к уровню энергии третьего сигнала объекта, может включаться в заголовок файла или может передаваться с интервалами некоторого количества кадров. Многоканальный кодек может определять информацию о CLD и ICC на основе порядковых номеров блоков ОТТ. Аналогичным образом, является необходимой информация, указывающая то, как каждый сигнал объекта отображается на битовой поток.

В случае многоканального кодека информация, касающаяся сигналов, соответствующих каждому каналу, может идентифицироваться порядковыми номерами блоков ОТТ или ТТТ. Согласно способу объектно-базированного кодирования аудио, если имеется N сигналов объекта, то может требоваться нумерация N сигналов объекта соответствующим образом. Однако иногда необходимо, чтобы конечный пользователь управлял N сигналами объекта, используя декодер объектов. В данном случае конечному пользователю могут потребоваться не только порядковые номера N сигналов объекта, но также описания N сигналов объекта, такие как описания, указывающие, что первый сигнал объекта соответствует голосу женщины и что второй сигнал объекта соответствует звуку фортепиано. Описания N сигналов объекта могут включаться в заголовок битового потока в качестве метаданных и затем передаваться вместе с битовым потоком. Более конкретно, описания N сигналов объекта могут обеспечиваться в качестве текста или могут обеспечиваться посредством использования кодовой таблицы или кодовых слов.

Иногда является необходимой информация о корреляции, касающаяся корреляции между сигналами объекта. Для этого может вычисляться корреляция между сигналом объекта с наибольшей энергией и другими сигналами объекта с ненаибольшей энергией. В данном случае единственное значение корреляции может назначаться для всех сигналов объекта, которое сравнимо с использованием единственного значения ICC во всех блоках ОТТ.

Если сигналы объекта представляют собой стереофонические сигналы, являются необходимыми отношения энергии левого канала к энергии правого канала сигналов объекта и информация о ICC. Отношения энергии левого канала к энергии правого канала сигналов объекта могут вычисляться с использованием того же способа, что и используемый для вычисления уровней энергии множества сигналов объекта, основанных на абсолютном значении уровня энергии того сигнала объекта, который является сигналом объекта с наибольшей энергией, и отношениях уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией. Например, если абсолютные значения уровней энергии левого и правого каналов сигнала объекта с наибольшей энергией равны А и В соответственно, отношение уровня энергии левого канала сигнала объекта с ненаибольшей энергией к А и отношение уровня энергии правого канала сигнала объекта с ненаибольшей энергией к В равны x и y соответственно, уровни энергии левого и правого каналов сигнала объекта с ненаибольшей энергией могут вычисляться как A*x и B*y. Таким образом может вычисляться отношение энергии левого канала к энергии правого канала стереофонического сигнала объекта.

Абсолютное значение уровня энергии сигнала объекта с наибольшей энергией и отношения уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией также могут использоваться, когда сигналы объекта представляют собой монофонические сигналы, сигнал понижающего смешивания, полученный посредством монофонических сигналов объекта, представляет собой стереофонический сигнал, и монофонические сигналы объекта включаются в оба канала стереофонического сигнала понижающего смешивания. В данном случае необходимо отношение энергии части каждого монофонического сигнала объекта, включенного в левый канал стереофонического сигнала понижающего смешивания, и энергии части соответствующего монофонического сигнала объекта, включенного в правый канал стереофонического сигнала понижающего смешивания, и информация о корреляции, и оно непосредственно применяется к стереофоническим сигналам объекта. Если монофонический сигнал объекта включается в оба L- и R-канала стереофонического сигнала понижающего смешивания, составляющие L- и R-канала монофонического сигнала объекта могут иметь только разность уровней, и монофонический сигнал объекта может иметь значение корреляции 1 по всем полосам параметров. В данном случае, чтобы уменьшить количество данных, может дополнительно обеспечиваться информация, указывающая то, что монофонический сигнал объекта имеет значение корреляции 1 по всем полосам параметров. Тогда нет необходимости указывать значение корреляции 1 для каждой полосы параметров. Вместо этого значение корреляции 1 может указываться для всех полос параметров.

Во время генерирования сигнала понижающего смешивания посредством суммирования множества сигналов объекта может иметь место ограничение. Чтобы решить этот вопрос, сигнал понижающего смешивания может умножаться на предварительно определенный коэффициент усиления, так что максимальный уровень сигнала понижающего смешивания может превышать порог ограничения. Предварительно определенный коэффициент усиления может изменяться во времени. Поэтому является необходимой информация, касающаяся предварительно определенного коэффициента усиления. Если сигнал понижающего смешивания представляет собой стереофонический сигнал, различные значения коэффициента усиления могут обеспечиваться для L- и R-каналов сигнала понижающего смешивания, чтобы предотвратить ограничение. Чтобы уменьшить количество передач данных, различные значения коэффициента усиления могут не передаваться отдельно. Вместо этого может передаваться сумма различных значений коэффициента усиления и отношение различных значений коэффициента усиления. Тогда можно уменьшить динамический диапазон и уменьшить количество передач данных по сравнению со случаем передачи различных значений коэффициента усиления отдельно.

Чтобы дополнительно уменьшить количество передач данных, может быть предусмотрен бит, указывающий, имело ли место ограничение во время генерирования сигнала понижающего смешивания посредством суммирования множества сигналов объекта. Тогда, если только определяется, что имело место ограничение, могут передаваться значения коэффициента усиления. Такая информация об ограничении может быть необходимой для предотвращения ограничения во время суммирования множества сигналов понижающего смешивания, чтобы объединить множество битовых потоков. Чтобы предотвратить ограничение, сумма множества сигналов понижающего смешивания может умножаться на обратное число предварительно определенного значения коэффициента усиления для предотвращения ограничения.

Фиг.13-16 иллюстрируют схемы для объяснения различных способов конфигурирования объектно-базированной дополнительной информации. Варианты осуществления по фиг.13-16 могут применяться не только к монофоническим или стереофоническим сигналам объекта, но также к многоканальным сигналам объекта.

Как показано на фиг.13, многоканальный сигнал (OBJECT A(CH1) - OBJECT A(CHn)) объекта вводится в кодер 221 объекта. Затем кодер 221 объекта генерирует сигнал понижающего смешивания и дополнительную информацию, основанную на многоканальном сигнале (OBJECT A(CH1) - OBJECT A(CHn)) объекта. Кодер 223 объектов принимает множество сигналов OBJECT1-OBJECTn объекта и сигнал понижающего смешивания, генерируемый кодером 221 объектов, и генерирует другой сигнал понижающего смешивания и другую дополнительную формацию, основанные на сигналах OBJ.1-OBJ.N объекта и принятом сигнале понижающего смешивания. Мультиплексор 225 объединяет дополнительную информацию, генерируемую кодером 221 объектов, и дополнительную информацию, генерируемую кодером 223 объектов.

Как показано на фиг.14, кодер 233 объектов генерирует первый битовый поток, основанный на многоканальном сигнале (OBJECT A(CH1) - OBJECT A(CHn)) объекта. Затем кодер 231 объектов генерирует второй битовый поток, основанный на множестве немногоканальных сигналов OBJECT1-OBJECTn объекта. Затем кодер 235 объекта комбинирует первый и второй битовые потоки в единственный битовый поток посредством использования почти того же способа, что и используемый для объединения множества битовых потоков в единственный битовый поток при помощи MCU.

Как показано на фиг.15, многоканальный кодер 241 генерирует сигнал понижающего смешивания и канало-базированную дополнительную информацию, основанную на многоканальном сигнале (OBJECT A(CH1) - OBJECT A(CHn)) объекта. Кодер 243 объектов принимает сигнал понижающего смешивания, генерируемый многоканальным кодером 241, и множество немногоканальных сигналов OBJECT1-OBJECTn объекта и генерирует битовый поток объекта и дополнительную информацию, основанную на принятом сигнале понижающего смешивания и сигналах OBJECT1-OBJECTn объекта. Мультиплексор 245 комбинирует канало-базированную дополнительную информацию, генерируемую многоканальным кодером 241, и дополнительную информацию, генерируемую кодером 243 объектов, и выводит результат комбинирования.

Как показано на фиг.16, многоканальный кодер 253 генерирует сигнал понижающего смешивания и канало-базированную дополнительную информацию, основанную на многоканальном сигнале (OBJECT A(CH1) - OBJECT A(CHn)) объекта. Кодер 251 объектов генерирует сигнал понижающего смешивания и дополнительную информацию, основанную на множестве немногоканальных сигналов объекта OBJECT1-OBJECTn. Кодер 255 объектов принимает сигнал понижающего смешивания, генерируемый многоканальным кодером 253, и сигнал понижающего смешивания, генерируемый кодером 251 объектов, и комбинирует принимаемые сигналы понижающего смешивания. Мультиплексор 257 комбинирует дополнительную информацию, генерируемую кодером 251 объектов, и канало-базированную дополнительную информацию, генерируемую многоканальным кодером 253, и выводит результат комбинирования.

В случае использования объектно-базированного кодирования аудио в телеконференции иногда является необходимым объединять множество битовых потоков объекта в единственный битовый поток. Ниже в данном документе подробно описывается объединение множества битовых потоков объекта в единственный битовый поток объекта.

Фиг.17 иллюстрирует схему для объяснения объединения двух битовых потоков объекта. Как показано на фиг.17, когда два битовых потока объекта объединяются в единственный битовый поток объекта, дополнительная информация, такая как информация о CLD и ICC, присутствующая в двух битовых потоках объекта, соответственно, должна модифицироваться. Два битовых потока объекта могут объединяться в единственный битовый поток объекта просто посредством использования дополнительного блока ОТТ, т.е. одиннадцатого блока ОТТ, и использования дополнительной информации, такой как информация о CLD и ICC, обеспечиваемой одиннадцатым блоком ОТТ.

Информация о древовидной конфигурации каждого из двух битовых потоков объекта должна объединяться в интегрированную информацию о древовидной конфигурации, чтобы объединить два битовых потока в единственный битовый поток объекта. Для этого может модифицироваться дополнительная конфигурационная информация, если есть какая-либо, генерируемая посредством объединения двух битовых потоков объекта, могут модифицироваться индексы некоторого количества блоков ОТТ, используемых для генерирования двух битовых потоков объекта, и могут выполняться только несколько дополнительных процессов, таких как процесс вычисления, выполняемый одиннадцатым блоком ОТТ, и понижающее смешивание двух сигналов понижающего смешивания двух битовых потоков объекта. Таким образом легко могут объединяться два битовых потока объекта в единственный битовый поток объекта без необходимости модифицирования информации, касающейся каждого из множества сигналов объекта, из которых берут начало два сигнала объекта.

Как показано на фиг.17, одиннадцатый блок ОТТ может быть необязательным. В данном случае могут использоваться два сигнала понижающего смешивания двух битовых потоков объекта, так как они являются в качестве двухканального сигнала понижающего смешивания. Таким образом, два битовых потока объекта могут объединяться в единственный битовый поток объекта без необходимости дополнительных вычислений.

Фиг.18 иллюстрирует схему для объяснения объединения двух или нескольких независимых битовых потоков объекта в единственный битовый поток объекта, имеющий стереофонический сигнал понижающего смешивания. Как показано на фиг.18, если два или более независимых битовых потоков объекта имеют различное количество полос параметров, отображение полос параметров может выполняться на битовые потоки объекта, так что количество полос параметров одного из битовых потоков объекта, имеющего меньшее количество полос параметров, может быть увеличено, чтобы оно было таким же, что и количество полос параметров другого битового потока объекта.

Более конкретно, отображение полос параметров может выполняться с использованием предварительно определенной таблицы отображения. В данном случае отображение полос параметров может выполняться с использованием простой линейной формулы.

Если имеются перекрывающиеся полосы параметров, значения параметров могут смешиваться соответствующим образом, принимая во внимание величину, на которую перекрывающиеся полосы параметров перекрывают друг друга. В тех ситуациях, когда отдается предпочтение малой сложности, отображение полос параметров может выполняться на два битовых потока объекта, так что количество полос параметров одного из двух битовых потоков объекта, имеющего больше полос параметров, может уменьшаться так, чтобы оно было таким же, что и количество полос параметров другого битового потока объекта.

В вариантах осуществления по фиг.17 и 18 два или более независимых битовых потока объекта могут объединяться в интегрированный битовый поток объекта без необходимости вычисления существующих параметров независимых битовых потоков объекта. Однако в случае объединения множества сигналов понижающего смешивания параметры, касающиеся сигналов понижающего смешивания, могут требовать вычисления снова при помощи квадратурного зеркального фильтра (QMF)/гибридного анализа. Однако это вычисление требует большого количества вычислений, таким образом компрометируя преимущества вариантов осуществления по фиг.17 и 18. Поэтому необходимо предложить способы извлечения параметров без необходимости QMF/гибридного анализа или синтеза, даже когда выполняется понижающее смешивание сигналов понижающего смешивания. Для этого информация об энергии, касающаяся энергии каждой полосы параметров каждого сигнала понижающего смешивания, может включаться в битовый поток объекта. Тогда, когда выполняется понижающее смешивание сигналов понижающего смешивания, информация, такая как информации о CLD, легко может вычисляться на основе такой информации об энергии без необходимости QMF/гибридного анализа или синтеза. Такая информация об энергии может представлять наибольший уровень энергии для каждой полосы параметров или абсолютное значение уровня энергии сигнала объекта с наибольшей энергией для каждой полосы параметров. Количество вычислений может дополнительно уменьшаться посредством использования значений ICC, полученных из временной области для всей полосы параметров.

Во время понижающего смешивания множества сигналов понижающего смешивания может иметь место ограничение. Чтобы решить этот вопрос, могут быть уменьшены уровни сигналов понижающего смешивания. Если уменьшаются уровни сигналов понижающего смешивания, может потребоваться включение информации об уровне, касающейся уменьшенных уровней сигналов понижающего смешивания, в битовый поток объекта. Информация об уровне для предотвращения ограничения может применяться к каждому кадру битового потока объекта или может применяться только к некоторым кадрам, в которых имеет место ограничение. Уровни исходных сигналов понижающего смешивания могут вычисляться посредством обратного применения информации об уровне для предотвращения ограничения во время операции декодирования. Информация об уровне для предотвращения ограничения может вычисляться во временной области, и, таким образом, ее не нужно подвергать QMF/гибридному синтезу или анализу. Объединение множества сигналов объекта в единственный битовый поток объекта может выполняться с использованием структуры, изображенной на фиг.12, и это подробно описывается в данном документе со ссылкой на фиг.19.

Фиг.19 иллюстрирует схему для объяснения объединения двух независимых битовых потока объекта в единственный битовый поток объекта. Как показано на фиг.19, первый блок 261 генерирует первый битовый поток объекта и второй блок 263 генерирует второй битовый поток объекта. Тогда третий блок 265 генерирует третий битовый поток объекта посредством комбинирования первого и второго битовых потоков. В данном случае, если первый и второй битовые потоки объекта включают в себя информацию об абсолютном значении уровня энергии сигнала объекта с наибольшей энергией для каждой полосы параметров и отношения уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией и информацию о коэффициенте усиления, касающуюся значений коэффициента усиления, которые умножаются на сигналы понижающего смешивания первым и вторым блоками 261 и 263, третий блок 265 может генерировать третий битовый поток объекта просто посредством объединения первого и второго битовых потоков без необходимости дополнительного вычисления или извлечения параметров.

Третий блок 265 принимает множество сигналов DOWNMIX_A и DOWNMIX_B понижающего смешивания. Третий блок 265 преобразует сигналы DOWNMIX_A и DOWNMIX_B понижающего смешивания в сигналы импульсно-кодовой модуляции (ИКМ) и добавляет ИКМ-сигналы, таким образом генерируя единственный сигнал понижающего смешивания. Во время этого процесса, однако, может иметь место ограничение. Чтобы решить этот вопрос, сигналы DOWNMIX_A и DOWNMIX_B понижающего смешивания могут умножаться на предварительно определенное значение коэффициента усиления. Информация, касающаяся предварительно определенного значения коэффициента усиления, может включаться в третий битовый поток объекта и передаваться вместе с третьим битовым потоком объекта.

Объединение множества битовых потоков объекта в единственный битовый поток объекта ниже в данном документе описывается более подробно. Как показано на фиг.19, paramA может включать в себя информацию, касающуюся того, какой из множества сигналов OBJECT1-OBJECTn объекта представляет собой сигнал объекта с наибольшей энергией, и отношения уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией. Аналогично, SIDE INFO может включать в себя информацию, касающуюся того, какой из множества сигналов OBJECT1-OBJECTn объекта представляет собой сигнал объекта с наибольшей энергией и отношения уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией.

SIDE_INFO_A и SIDE_INFO_B могут включаться параллельно в один битовый поток, как изображено на фиг.20. В данном случае может дополнительно предусматриваться бит, указывающий, существует ли более одного битового потока параллельно.

Как показано на фиг.20, чтобы указать, является ли или нет предварительно определенный битовый поток интегрированным битовым потоком, включающим в себя более одного битового потока, информация, указывающая, является ли предварительно определенный битовый поток интегрированным битовым потоком, информация, касающаяся количества битовых потоков, если есть какие-либо, включенных в предварительно определенный битовый поток, и информация, касающаяся исходного положения битовых потоков, если есть какие-либо, включенных в предварительно определенный битовый поток, могут предусматриваться в головной части предварительно определенного битового потока и за которым следуют более одного битового потока, если есть какие-либо, в предварительно определенном битовом потоке. В данном случае декодер может определить, является ли предварительно определенный битовый поток интегрированным битовым потоком, включающим в себя более одного битового потока, посредством анализа информации в головной части предварительно определенного битового потока. Этот тип способа объединения битовых потоков не требует дополнительных процессов, за исключением добавления нескольких идентификаторов к битовому потоку. Однако такие идентификаторы должны быть предусмотрены с интервалами некоторого количества кадров. Кроме того, данный тип способа объединения битовых потоков требует декодер для определения, является ли или нет каждый битовый поток, который принимает декодер, интегрированным битовым потоком.

В качестве альтернативы вышеупомянутому способу объединения битовых потоков множество битовых потоков могут объединяться в единственный битовый поток таким образом, что декодер не может распознать, что единственный битовый поток представляет собой или нет интегрированный битовый поток. Ниже в данном документе это подробно описывается со ссылкой на фиг.21.

Как показано на фиг.21, сравнивается уровень энергии сигнала объекта с наибольшей энергией, представленного SIDE_INFO_A, и уровень энергии сигнала объекта с наибольшей энергией, представленного SIDE_INFO_B. Затем определяется тот, который из двух сигналов объекта имеет более высокий уровень энергии, который является сигналом объекта с наибольшей энергией интегрированного битового потока. Например, если уровень энергии сигнала объекта с наибольшей энергией, представленного SIDE_INFO_A, больше, чем уровень энергии сигнала объекта с наибольшей энергией, представленного SIDE_INFO_B, сигнал объекта с наибольшей энергией, представленный SIDE_INFO_А, может стать сигналом объекта с наибольшей энергией интегрированного битового потока. Затем информация об отношении энергий SIDE_INFO_A может использоваться в интегрированном битовом потоке в том виде, в каком она есть, тогда как информация об отношении энергий SIDE_INFO_B может умножаться на отношение уровней энергий

Тогда информация об отношении энергий того, какой из SIDE_INFO_A и SIDE_INFO_B включает в себя информацию, касающуюся сигнала объекта с наибольшей энергией интегрированного битового потока, может использоваться в интегрированном битовом потоке, и информацию об отношении энергий сигнала объекта с наибольшей энергией, представленного param A, и сигнала объекта с наибольшей энергией, представленного SIDE_INFO_B. Этот способ включает в себя повторное вычисление информации об отношении энергий SIDE_INFO_B. Однако повторное вычисление информации об отношении энергий SIDE_INFO_B является относительно несложным. В данном способе декодер не может иметь возможности определять, является ли или нет битовый поток, который он принимает, интегрированным битовым потоком, включающим в себя более одного битового потока, и, таким образом, может использоваться типовой способ декодирования.

Два битовых потока объекта, включающие в себя стереофонические сигналы понижающего смешивания, легко могут быть объединены в единственный битовый поток объекта без необходимости повторного вычисления информации, касающейся сигналов объекта, посредством использования почти такого же способа, что и используемый для объединения битовых потоков, включающих в себя монофонические сигналы понижающего смешивания. В битовом потоке объекта за информацией, касающейся древовидной структуры, которая выполняет понижающее смешивание сигналов объекта, следует информация о сигнале объекта, полученная от каждой ветви (т.е. каждого блока) древовидной структуры.

Выше были описаны битовые потоки объекта, предполагая, что некоторый объект распределяется только на левый канал или правый канал стереофонического сигнала понижающего смешивания. Однако сигналы объекта, как правило, распределяются между обоими каналами стереофонического сигнала понижающего смешивания. Поэтому ниже в данном документе подробно описывается то, как генерировать битовый поток объекта, основанный на битовых потоках объекта, которые распределяются между двумя каналами стереофонического сигнала понижающего смешивания.

Фиг.22 иллюстрирует схему для объяснения способа генерирования стереофонического сигнала понижающего смешивания посредством смешивания множества сигналов объекта и более конкретно способ выполнения понижающего смешивания четырех сигналов OBJECT1-OBJECT4 объекта в L- и R-стереофонические сигналы. Как показано на фиг.22, некоторые из четырех сигналов OBJECT1-OBJECT4 объекта принадлежат обоим L- и R-каналам сигнала понижающего смешивания. Например, первый сигнал OBJECT1 объекта распределяется между L- и R-каналами в отношении a:b, как указано уравнением (3):

[Уравнение 3]

Если сигнал объекта распределяется между L- и R-каналами стереофонического сигнала понижающего смешивания, может дополнительно потребоваться информация об отношении распределения каналов, касающаяся отношения (a:b), при котором сигнал объекта распределяется между L- и R-каналами. Тогда информация, касающаяся сигналов объекта, такая как информация о CLD и ICC, может вычисляться посредством выполнения понижающего смешивания, используя блоки ОТТ для L- и R-каналов стереофонического сигнала понижающего смешивания, и ниже в данном документе это описывается более подробно со ссылкой на фиг.23.

Как показано на фиг.23, если обеспечена информация о CLD и ICC, полученная от множества блоков ОТТ во время операции понижающего смешивания, и информация об отношении распределения каналов каждого из множества сигналов объекта, то можно вычислить многоканальный битовый поток, который изменяется адаптивно к любой модификации, сделанной в информации о положении объекта и информации о конфигурировании проигрывания конечным пользователем. Кроме того, если стереофонический сигнал понижающего смешивания должен быть обработан посредством предварительной обработки понижающего смешивания, то можно получить информацию, касающуюся того, как стереофонический сигнал понижающего смешивания обрабатывается посредством предварительной обработки понижающего смешивания, и передать полученную информацию на препроцессор. Т.е., если нет информации об отношении распределения каналов каждого из множества сигналов объекта, нет возможности для вычисления многоканального битового потока и получения информации, необходимой для работы препроцессора. Информация об отношении распределения каналов сигнала объекта может представляться как отношение двух целых чисел или скалярных величин (единица измерения: дБ).

Как описано выше, если сигнал объекта распределяется между двумя каналами стереофонического сигнала понижающего смешивания, может потребоваться информация об отношении распределения каналов сигнала объекта. Информация об отношении распределения каналов может иметь фиксированное значение, указывающее отношение, с которым сигнал объекта распределяется между двумя каналами стереофонического сигнала понижающего смешивания. Альтернативно, информация об отношении распределения каналов сигнала объекта может изменяться от одной полосы частот до другой полосы частот сигнала объекта, особенно когда информация об отношении распределения каналов используется в качестве информации о ICC. Если стереофонический сигнал понижающего смешивания получается посредством сложной операции понижающего смешивания, т.е. если сигнал объекта принадлежит двум каналам стереофонического сигнала понижающего смешивания и выполняется понижающее смешивание посредством изменения информации о ICC от одной полосы частот до другой полосы частот сигнала объекта, может дополнительно потребоваться подробное описание понижающего смешивания сигнала объекта, чтобы декодировать сигнал объекта, рендеринг которого выполняется в конечном счете. Данный вариант осуществления может применяться ко всем возможным структурам объекта, которые уже были описаны.

Ниже в данном документе после этого подробно описывается предварительная обработка со ссылкой на фиг.24-27. Если сигналом понижающего смешивания, введенным в декодер объектов, является стереофонический сигнал, введенный сигнал понижающего смешивания, возможно, требует выполнения предварительной обработки перед вводом в многоканальный декодер декодера объектов, так как многоканальный декодер не может отобразить сигнал, принадлежащий левому каналу введенного сигнала понижающего смешивания, на правый канал. Поэтому, чтобы конечный пользователь переместил положение сигнала объекта, принадлежащего левому каналу введенного сигнала понижающего смешивания, в правый канал, введенный сигнал понижающего смешивания может требовать выполнения предварительной обработки, и предварительно обработанный сигнал понижающего смешивания может вводиться в многоканальный декодер.

Предварительная обработка стереофонического сигнала понижающего смешивания может выполняться посредством получения информации о предварительной обработке из битового потока объекта и из матрицы рендеринга и соответствующей обработки стереофонического сигнала понижающего смешивания в соответствии с информацией о предварительной обработке, и ниже в данном документе это описывается подробно.

Фиг.24 иллюстрирует схему для объяснения того, как сконфигурировать стереофонический сигнал понижающего смешивания, основанный на четырех сигналах OBJECT1-OBJECT4 объекта. Как показано на фиг.24, первый сигнал OBJECT1 объекта распределяется между L- и R-каналами с отношением a:b, второй сигнал OBJECT2 объекта распределяется между L- и R-каналами с отношением c:d, третий сигнал OBJECT3 объекта распределяется только на L-канал, и четвертый сигнал OBJECT4 объекта распределяется только на R-канал. Информация, такая как CLD и ICC, может генерироваться пропусканием каждого из первого-четвертого сигналов OBJECT1-OBJECT4 объекта через некоторое количество ОТТ, и сигнал понижающего смешивания может генерироваться на основе сгенерированной информации.

Предположим, что конечный пользователь получает матрицу рендеринга посредством соответствующей установки положений и уровней первого-четвертого сигналов OBJECT1-OBJECT4 объекта и что имеется пять каналов. Матрица рендеринга может быть представлена уравнением (4):

[Уравнение 4]

Как показано в уравнении (4), когда сумма пяти коэффициентов в каждой из четырех строк равна предварительно определенному эталонному значению, т.е. 100, определяется, что уровень соответствующего сигнала объекта не изменился. Величина, на которую сумма пяти коэффициентов в каждой из четырех строк отличается от предварительно определенного эталонного значения, может представлять собой величину (единица измерения: дБ), на которую изменился уровень соответствующего сигнала объекта. Первый, второй, третий, четвертый и пятый столбцы матрицы рендеринга уравнения (4) представляют FL-, FR-, C-, RL- и RR-каналы соответственно.

Первая строка матрицы рендеринга уравнения (4) соответствует первому сигналу OBJECT1 объекта и имеет в сумме пять коэффициентов, т.е. 30, 10, 20, 30 и 10. Так как сумма пяти коэффициентов первой строки равна 100, определяется, что уровень первого сигнала OBJECT1 объекта не изменился и что изменилось только пространственное положение первого сигнала OBJECT1 объекта. Даже если пять коэффициентов первой строки представляют различные направления каналов, они могут, главным образом, классифицироваться по двум каналам: L- и R-каналам. Тогда отношение, с которым первый сигнал OBJECT1 объекта распределяется между L- и R-каналами может вычисляться как 70% (=(30+30+20)*0,5):30%(=10+10+20)*0,5). Поэтому матрица рендеринга уравнения (4) указывает, что уровень первого сигнала OBJECT1 объекта не изменился и что первый сигнал OBJECT1 объекта распределяется между L- и R-каналами с отношением 70%:30%. Если сумма пяти коэффициентов любой одной из строк матрицы рендеринга уравнения (4) меньше или больше 100, может быть определено, что изменился уровень соответствующего сигнала объекта, и тогда соответствующий сигнал объекта может обрабатываться посредством предварительной обработки или может преобразовываться и передаваться как ADG.

Чтобы выполнить предварительную обработку сигналов понижающего смешивания, может вычисляться отношение, с которым сигналы понижающего смешивания распределяются между полосами параметров, из которых параметры извлекаются из сигналов, получаемых посредством выполнения QMF/гибридного преобразования сигналов понижающего смешивания, и сигналы понижающего смешивания могут перераспределяться между полосами параметров в соответствии с установкой матрицы рендеринга. Ниже в данном документе подробно описываются различные способы перераспределения сигналов понижающего смешивания между полосами параметров.

В первом способе перераспределения сигналы понижающего смешивания L- и R-каналов декодируются отдельно с использованием их соответствующей дополнительной информации (такой как информация о CLD и ICC) и использованием почти такого же способа, что и используемый многоканальным кодеком. Затем восстанавливаются сигналы объекта, распределяемые между сигналами понижающего смешивания L- и R-каналов. Чтобы уменьшить количество вычислений, сигналы понижающего смешивания L- и R-каналов могут декодироваться с использованием только информации о CLD. Отношение, с которым каждый из восстановленных сигналов объекта распределяется между сигналами понижающего смешивания L- и R-каналов, может определяться на основе дополнительной информации.

Каждый из восстановленных сигналов объекта может перераспределяться между сигналами понижающего смешивания L- и R-каналов в соответствии с матрицей рендеринга. Затем выполняется понижающее смешивание перераспределенных сигналов объекта на поканальной основе посредством блоков ОТТ, таким образом завершая предварительную обработку. Вкратце, первый способ перераспределения перенимает тот же способ, что и используемый многоканальным кодеком. Однако первый способ перераспределения требует столько процессов декодирования, сколько имеется сигналов объекта для каждого канала, и требует процесс перераспределения и канало-базированный процесс понижающего смешивания.

Во втором способе перераспределения, в отличие от первого способа перераспределения, сигналы объекта не восстанавливаются из L- и R-сигналов понижающего смешивания. Вместо этого каждый из L- и R-сигналов понижающего смешивания делится на две части: одна часть L_L или R_R, которая должна быть оставлена в соответствующем канале, и другая часть L_R или R_L, которая должна быть перераспределена, как изображено на фиг.25. Как показано на фиг.25, L_L указывает часть сигнала понижающего смешивания L-канала, которая должна быть оставлена в L-канале, и L_R указывает часть сигнала понижающего смешивания L-канала, которая должна быть добавлена к R-каналу. Аналогично, R_R указывает часть сигнала понижающего смешивания R-канала, которая должна быть оставлена в R-канале, и R_L указывает часть сигнала понижающего смешивания R-канала, которая должна быть добавлена к L-каналу. Каждый из сигналов понижающего смешивания L- и R-каналов может быть разделен на две части (L_L и L_R или R_R и R_L) в соответствии с отношением, с которым каждый сигнал объекта распределяется между L- и R-сигналами понижающего смешивания, как определяется уравнением (2), и отношением, с которым каждый сигнал объекта должен распределяться между предварительно обработанными L- и R-каналами L и R, как определено уравнением (3). Поэтому может быть определено, как сигналы понижающего смешивания L- и R-каналов должны перераспределяться между предварительно обработанными L- и R-каналами L и R посредством сравнения отношения, с которым каждый сигнал объекта распределяется между L- и R-сигналами понижающего смешивания, и отношения, с которым каждый сигнал объекта должен распределяться между предварительно обработанными L- и R-каналами L и R.

Деление сигнала L-канала на сигналы L_L и L_R в соответствии с предварительно определенным отношением энергии было описано выше. Если сигнал L-канала делится на сигналы L_L и L_R, может потребоваться определение ICC между сигналами L_L и L_R. ICC между сигналами L_L и L_R легко может определяться на основе информации о ICC, касающейся сигналов объекта. Т.е. ICC между сигналами L_L и L_R может определяться на основе отношения, с которым каждый сигнал объекта распределяется между сигналами L_L и L_R.

Ниже в данном документе описывается более подробно второй способ перераспределения понижающего смешивания. Предположим, что сигналы L и R понижающего смешивания L- и R-каналов получаются способом, изображенным на фиг.24, и что первый, второй, третий и четвертый сигналы OBJECT1, OBJECT2, OBJECT3 и OBJECT4 объекта распределяются между сигналами L и R понижающего смешивания L- и R-каналов с отношениями 1:2, 2:3, 1:0 и 0:1 соответственно. Может быть выполнено понижающее смешивание множества сигналов объекта посредством некоторого количества блоков ОТТ, и информация, такая как информация о CLD и ICC, может быть получена от понижающего смешивания сигналов объекта.

Пример матрицы рендеринга, установленной для первого-четвертого сигналов OBJECT1-OBJECT4 объекта, представляет собой ту, которая представлена уравнением (4). Матрица рендеринга включает в себя информацию о положении первого-четвертого сигналов OBJECT1-OBJECT4 объекта. Таким образом, предварительно обработанные сигналы L и R понижающего смешивания L- и R-каналов могут быть получены посредством выполнения предварительной обработки с использованием матрицы рендеринга. Как установить и интерпретировать матрицу рендеринга уже было описано выше со ссылкой на уравнение (3).

Отношение, с которым каждый из первого-четвертого сигналов OBJECT1-OBJECT4 объекта распределяется между предварительно обработанными сигналами L и R понижающего смешивания L- и R-каналов, может вычисляться так, как указано уравнением (5):

[Уравнение 5]

Отношение, с которым каждый из первого-четвертого сигналов OBJECT1-OBJECT4 объекта распределяется между сигналами L и R понижающего смешивания L- и R-каналов, может вычисляться так, как указано уравнением (6):

[Уравнение 6]

Как показано в уравнении (5), сумма части третьего сигнала OBJECT3 объекта, распределенной предварительно обработанному сигналу L понижающего смешивания L-канала, и части третьего сигнала OBJECT3 объекта, распределенной сигналу R понижающего смешивания R-канала, равна 110, и, таким образом, определяется, что уровень третьего сигнала OBJECT3 объекта увеличился на 10. С другой стороны, сумма части четвертого сигнала OBJECT4 объекта, распределенной предварительно обработанному сигналу L понижающего смешивания L-канала, и части четвертого сигнала OBJECT4 объекта, распределенной сигналу R понижающего смешивания R-канала, равна 95, и, таким образом, определяется, что уровень четвертого сигнала OBJECT4 объекта уменьшился на 5. Если матрица рендеринга для первого-четвертого сигналов OBJECT1-OBJECT4 объекта имеет эталонное значение 100, и величина, на которую сумма коэффициентов в каждой строке матрицы рендеринга отличается от эталонного значения 100, представляет величину (единица измерения: дБ), на которую изменился уровень соответствующего сигнала объекта, может быть определено, что уровень третьего сигнала OBJECT3 объекта увеличился на 10 дБ и что уровень четвертого сигнала OBJECT4 объекта уменьшился на 5 дБ.

Уравнения (5) и (6) могут быть преобразованы в уравнение (7):

[Уравнение 7]

Уравнение (7) сравнивает отношение, с которым каждый из первого-четвертого сигналов OBJECT1-OBJECT4 объекта распределяется между сигналами понижающего смешивания L- и R-каналов перед предварительной обработкой, и отношение, с которым каждый из первого-четвертого сигналов OBJECT1-OBJECT4 объекта распределяется между сигналами понижающего смешивания L- и R-каналов после предварительной обработки. Поэтому посредством использования уравнения (7) легко можно определить, какая часть каждого из первого-четвертого сигналов OBJECT1-OBJECT4 объекта должна перераспределяться посредством предварительной обработки. Например, ссылаясь на уравнение (7), отношение, с которым второй сигнал OBJECT2 объекта распределяется между сигналами понижающего смешивания L- и R-каналов, изменяется с 40:60 на 30:70, и, таким образом, может быть определено, что одна четвертая (25%) от части второго сигнала OBJECT2 объекта, ранее распределенной сигналу понижающего смешивания L-канала, должна быть перемещена в сигнал понижающего смешивания R-канала. Это может стать более очевидным при ссылке на уравнение (8):

[Уравнение 8]

OBJECT1: 55% части OBJECT1, ранее распределенной R, необходимо переместить в L

OBJECT2: 25% части OBJECT1, ранее распределенной L, необходимо переместить в R

OBJECT3: 50% части OBJECT1, ранее распределенной L, необходимо переместить в R

OBJECT4: 50% части OBJECT1, ранее распределенной R, необходимо переместить в L

Посредством использования уравнения (8) сигналы L_L, L_R, R_L и R_R фиг.25 могут быть представлены так, как указано уравнением (9):

[Уравнение 9]

Значение каждого сигнала объекта в уравнении (9) может представляться как отношение, с которым соответствующий сигнал объекта распределяется между L- и R-каналами посредством использования информации о деквантованной CLD, предоставляемой блоком ОТТ, как указано уравнением (10):

[Уравнение 10]

Информация о CLD, используемая в каждом блоке синтаксического анализа на фиг.25, может определяться так, как указано уравнением (11):

[Уравнение 11]

ε: где 1 - постоянная, чтобы избежать деления на нуль, например, 96 дБ ниже максимального входного сигнала

Таким образом может определяться информация о CLD и ICC, используемая в блоке синтаксического анализа для генерирования сигналов L_L и L_R, основанных на сигнале понижающего смешивания L-канала, и также может определяться информация о CLD и ICC, используемая в блоке синтаксического анализа для генерирования сигналов R_L и R_R, основанных на сигнале понижающего смешивания R-канала. Если получены сигналы L_L, L_R, R_L и R_R, как показано на фиг.25, могут быть добавлены сигналы L_R и R_R, таким образом получая предварительно обработанный стереофонический сигнал понижающего смешивания. Если окончательным каналом является стереофонический канал, могут выводиться сигналы понижающего смешивания L- и R-каналов, полученные посредством предварительной обработки. В данном случае изменение, если есть какое-либо, уровня каждого сигнала объекта еще должно регулироваться. Для этого может дополнительно предусматриваться предварительно определенный модуль, который выполняет функции модуля ADG. Информация для регулировки уровня каждого сигнала объекта может вычисляться с использованием этого же способа, что и используемый для вычисления информации о ADG, и это более подробно описывается ниже. Альтернативно, уровень каждого сигнала объекта может регулироваться во время операции предварительной обработки. В данном случае регулировка уровня каждого сигнала объекта может выполняться с использованием этого же способа, что и используемый для обработки ADG. Альтернативно варианту осуществления по фиг.25 операция декорреляции может выполняться декоррелятором и смесителем, а не модулями PARSING1 и PARSING2 синтаксического анализа, как изображено на фиг.26, чтобы регулировать корреляцию между сигналами L и R, полученными посредством смешивания. Как показано на фиг.26, Pre_L и Pre_R обозначают сигналы L- и R-каналов, полученные посредством регулировки уровня. Один из сигналов Pre_L и Pre_R может вводиться в декоррелятор и затем подвергаться операции смешивания, выполняемой смесителем, таким образом, получая сигнал с отрегулированной корреляцией.

Предварительно обработанный стереофонический сигнал понижающего смешивания может вводиться в многоканальный декодер. Чтобы обеспечить многоканальный выходной сигнал, совместимый с информацией о положении объекта и информацией о конфигурировании проигрывания, установленными конечным пользователем, необходим не только предварительно обработанный сигнал понижающего смешивания, но также канало-базированная дополнительная информация для выполнения многоканального декодирования. Ниже в данном документе подробно описывается то, как получить канало-базированную дополнительную информацию, снова рассматривая вышеупомянутый пример. Предварительно обработанные сигналы L и R понижающего смешивания, которые вводятся в многоканальный декодер, могут определяться на основе уравнения (5), как указано уравнением (12):

[Уравнение 12]

Отношение, с которым каждый из первого-четвертого сигналов OBJECT1-OBJECT4 объекта распределяется по FL-, RL-, C-, FR- и RR-каналам, может определяться так, как указано уравнением (13):

[Уравнение 13]

Предварительно обработанные сигналы L и R понижающего смешивания могут быть расширены до 5.1 каналов посредством MPS (MPEG Surround), как изображено на фиг.27. Как показано на фиг.27, параметры блока ТТТ0 ТТТ и блоков ОТТА, ОТТВ и ОТТС ОТТ могут потребовать вычисления в единицах полос параметров, даже если полосы параметров не изображены для удобства.

Блок ТТТ0 ТТТ может использоваться в двух различных режимах: основанном на энергии режиме и режиме предсказания. Когда он используется в основанном на энергии режиме, блок ТТТ0 ТТТ требует две порции информации о CLD. Когда он используется в режиме предсказания, блок ТТТ0 ТТТ требует две порции информации о CPC и порцию информации о ICC.

Чтобы вычислить информацию о CLD в основанном на энергии режиме, отношение энергий сигналов L", R" и С на фиг.27 может вычисляться с использованием уравнений (6), (10) и (13). Уровень энергии сигнала L" может вычисляться так, как указано уравнением (14):

[Уравнение 14]

Уравнение (14) также может использоваться для вычисления уровня энергии R" или C. После этого информация о CLD, используемая в блоке ТТТ0 ТТТ, может вычисляться на основе уровней энергии сигналов L", R" и С, как указано уравнением (15):

[Уравнение 15]

Уравнение (14) может быть установлено на основе уравнения (10). Даже если уравнение (10) определяет только то, как вычислять значения энергии для L-канала, значения энергии для R-канала могут вычисляться с использованием уравнения (10). Таким образом могут вычисляться значения CLD и ICC третьего и четвертого блоков ОТТ на основе значений CLD и ICC первого и второго блоков ОТТ. Это, однако, не может обязательно применяться ко всем древовидным структурам, но только к некоторым древовидным структурам для декодирования сигналов объекта. Информация, включенная в битовый поток объекта, может передаваться на каждый блок ОТТ. Альтернативно, информация, включенная в битовый поток объекта, может передаваться только на некоторые блоки ОТТ, и информация, указывающая блоки ОТТ, которые не приняли информацию, могут быть получены посредством вычисления.

Параметры, такие как информация о CLD и ICC, может вычисляться для блоков ОТТА, ОТТВ и ОТТС ОТТ посредством использования вышеупомянутого способа. Такие многоканальные параметры могут вводиться в многоканальный декодер и затем подвергаться многоканальному декодированию, таким образом получая многоканальный сигнал, рендеринг которого выполняется надлежащим образом в соответствии с информацией о положении объекта и информации о конфигурировании проигрывания, требуемой конечным пользователем.

Многоканальные параметры могут включать в себя параметр ADG, если уровень сигналов объекта не был еще отрегулирован посредством предварительной обработки. Вычисление параметра ADG ниже в данном документе подробно описывается посредством рассматривания снова вышеупомянутого примера.

Когда матрица рендеринга устанавливается так, что уровень третьего сигнала объекта может увеличиваться на 10 дБ, уровень четвертого сигнала объекта может уменьшаться на 5 дБ, уровень составляющей третьего сигнала объекта в L может увеличиваться на 10 дБ и уровень составляющей четвертого сигнала объекта в L может уменьшаться на 5 дБ, отношение RatioADG,L уровней энергии перед и после регулировки уровней третьего и четвертого сигналов объекта может быть вычислено с использованием уравнения (16):

[Уравнение 16]

Отношение Ratio _ADG,L может определяться подстановкой уравнения (10) в уравнение (16). Отношение Ratio _ADG,R для R-канала также может вычисляться с использованием уравнения (16). Каждое из отношений Ratio _ADG,L и Ratio _ADG,R представляет изменение энергии соответствующей полосы параметров из-за регулировки уровней сигналов объекта. Таким образом, значения ADG(L) и ADG(R) ADG могут вычисляться с использованием отношений Ratio _ADG,L и Ratio _ADG,R, как указано уравнением (17):

[Уравнение 17]

Если определены параметры ADG(L) и ADG(R) ADG, параметры ADG(L) и ADG(R) ADG квантуются посредством использования таблицы квантования ADG, и квантованные значения ADG передаются. Если существует необходимость в дальнейшей точной регулировке значений ADG(L) и ADG(R) ADG, регулировка значений ADG(L) и ADG(R) ADG может выполняться препроцессором, а не декодером MPS.

Количество и интервал полос параметров для представления сигналов объекта в битовом потоке объекта могут быть отличными от количества и интервала полос параметров, используемых в многоканальном декодере. В данном случае полосы параметров битового потока объекта могут линейно отображаться на полосы параметров многоканального декодера. Более конкретно, если некоторая полоса параметров битового потока объекта распределяется по двум полосам параметров многоканального декодера, может выполняться линейное отображение, так что некоторая полоса параметров битового потока объекта может быть разделена в соответствии с отношением, с которым соответствующая полоса параметров распределяется между двумя полосами параметров многоканального декодера. С другой стороны, если более одной полосы параметров битового потока объекта включено в некоторую полосу параметров многоканального декодера, могут усредняться значения параметров битового потока объекта. Альтернативно, отображение полосы параметров может выполняться с использованием существующей таблицы отображения полосы параметров многоканального стандарта.

Когда кодирование объекта используется для телеконференции, голоса различных людей соответствуют сигналам объекта. Декодер объектов выводит голоса, соответственно, соответствующие сигналам объекта, на определенные громкоговорители. Однако, когда более одного человека говорят одновременно, то трудно декодеру объектов распределять надлежащим образом голоса людей по различным громкоговорителям при помощи декодирования, и рендеринг голосов людей может вызывать искажения звука и снижение качества звука. Чтобы принять меры по этому поводу, информация, указывающая, говорит ли более одного человека одновременно, может включаться в битовый поток. Тогда, если определяется, основываясь на информации, что более одного человека разговаривают одновременно, канало-базированный битовый поток может модифицироваться, так что с трудом декодируемые сигналы, почти подобные сигналам понижающего смешивания, могут выводиться на каждый громкоговоритель.

Например, предположим, что имеется три человека a, b и c, и голоса трех человек a, b и с необходимо декодировать и, таким образом, выводить на громкоговорители А, В и С соответственно. Когда три человека a, b и с одновременно разговаривают, голоса трех людей a, b и с все могут быть включены в сигнал понижающего смешивания, который получается посредством выполнения понижающего смешивания сигналов объекта, представляющих соответственно голоса трех людей a, b и с. В данном случае информация, касающаяся частей сигнала понижающего смешивания, соответствующих соответственно голосам трех людей a, b и с, может конфигурироваться как многоканальный битовый поток. Тогда сигнал понижающего смешивания может декодироваться с использованием обычного способа декодирования объектов, так что голоса трех человек a, b и с могут выводиться на громкоговорители А, В и С соответственно. Выходные сигналы каждого громкоговорителя А, В и С, однако, могут искажаться и могут, таким образом, иметь более низкий процент правильного распознавания, чем исходный сигнал понижающего смешивания. Кроме того, голоса трех человек a, b и с не могут быть надлежащим образом изолированы друг от друга. Чтобы решить этот вопрос, информация, указывающая, что проговариваются одновременные произнесения трех человек a, b и с, может включаться в битовый поток. Тогда транскодер может генерировать многоканальный битовый поток, так что сигнал понижающего смешивания, полученный посредством понижающего смешивания сигналов объекта, соответствующих соответственно голосам трех человек a, b и с, может выводиться на каждый громкоговоритель А, В и С в том виде, в каком он есть. Таким образом можно предотвратить искажения сигнала.

В действительности, когда более одного человека разговаривают одновременно, трудно изолировать голос каждого человека. Поэтому качество звука может быть более высоким, когда сигнал понижающего смешивания выводится как есть, чем тогда, когда выполняется рендеринг сигнала понижающего смешивания, так что голоса различных людей могут изолироваться друг от друга и могут выводиться на различные громкоговорители. Для этого транскодер может генерировать многоканальный битовый поток, так что сигнал понижающего смешивания, полученный от одновременных произнесений более одного человека, может выводиться на все громкоговорители или что сигнал понижающего смешивания может усиливаться и затем выводиться на громкоговорители.

Чтобы указать, происходит ли сигнал понижающего смешивания битового потока объекта из одновременных произнесений одного или нескольких человек, кодер объектов может модифицировать соответствующим образом битовый поток объекта вместо обеспечения добавочной информации, как описано выше. В данном случае декодер объектов может выполнять обычную операцию декодирования битового потока объекта, так что сигнал понижающего смешивания может выводиться на громкоговорители в том виде, в каком он есть, или что сигнал понижающего смешивания может усиливаться, но не до такой степени, что имеют место искажения сигнала, и затем выводиться на громкоговорители.

Ниже в данном документе подробно описывается трехмерная информация, такая как HRTF, которая предоставляется многоканальному декодеру.

Когда декодер объектов работает в бинауральном режиме, многоканальный декодер в декодере объектов также работает в бинауральном режиме. Конечный пользователь может передавать трехмерную информацию, такую как HRTF, которая оптимизируется на основе пространственных положений сигналов объекта, на многоканальный декодер.

Более конкретно, когда имеется два сигнала объекта, т.е. OBJECT1 и OBJECT2, и два сигнала OBJECT1 и OBJECT2 объекта располагаются в положениях 1 и 2 соответственно, генератор матрицы рендеринга или транскодер могут иметь трехмерную информацию, указывающую положения сигналов OBJECT1 и OBJECT2 объекта. Если генератор матрицы рендеринга имеет трехмерную информацию, указывающую положения сигналов OBJECT1 и OBJECT2 объекта, генератор матрицы рендеринга может передавать трехмерную информацию, указывающую положения сигналов OBJECT1 и OBJECT2 объекта, на транскодер. С другой стороны, если транскодер имеет трехмерную информацию, указывающую положения сигналов OBJECT1 и OBJECT2 объекта, генератор матрицы рендеринга может передавать только индексную информацию, соответствующую трехмерной информации, на транскодер.

В данном случае бинауральный сигнал может генерироваться на основе трехмерной информации, задающей положения 1 и 2, как указано уравнением (18):

[Уравнение 18]

Многоканальный бинауральный декодер получает бинауральный звук посредством выполнения декодирования с предположением, что 5.1-канальная система громкоговорителей будет использоваться для воспроизведения звука, и бинауральный звук может быть представлен уравнением (19):

[Уравнение 19]

Составляющая L-канала сигнала OBJECT1 объекта может быть представлена уравнением (20):

[Уравнение 20]

Составляющая R-канала сигнала OBJECT1 объекта и составляющие L- и R-каналов сигнала OBJECT2 объекта все могут определяться посредством использования уравнения (20).

Например, если отношения уровней энергии сигналов OBJECT1 и OBJECT2 объекта к суммарному уровню энергии равны a и b соответственно, отношение части сигнала OBJECT1 объекта, распределенной FL-каналу, ко всему сигналу OBJECT1 объекта равно с и отношение части сигнала OBJECT2 объекта, распределенной FL-каналу, ко всему сигналу OBJECT2 объекта равно d, отношение, с которым сигналы OBJECT1 и OBJECT2 объекта распределяются FL-каналу, равно ac:bd. В данном случае HRTF FL-канала может определяться так, как указано уравнением (21):

[Уравнение 21]

Таким образом может быть получена трехмерная информация для использования в многоканальном бинауральном декодере. Так как трехмерная информация для использования в многоканальном бинауральном декодере лучше представляет фактические положения сигналов объекта, то можно более живо воспроизводить бинауральные сигналы посредством бинаурального декодирования, использующего трехмерную информацию для использования в многоканальном бинауральном декодере, чем при выполнении многоканального декодирования, использующего трехмерную информацию, соответствующую положениям пяти громкоговорителей.

Как описано выше, трехмерная информация для использования в многоканальном бинауральном декодере может вычисляться на основе трехмерной информации, представляющей пространственные положения сигналов объекта, и информации об отношении энергий. Альтернативно, трехмерная информация для использования в многоканальном бинауральном декодере может генерироваться посредством соответствующего выполнения декорреляции при добавлении трехмерной информации, представляющей пространственные положения сигналов объекта, основанные на информации о ICC сигналов объекта.

Обработка эффектов может выполняться как часть предварительной обработки. Альтернативно, результат обработки эффектов может просто добавляться к выходному сигналу многоканального декодера. В первом случае, чтобы выполнить обработку эффектов над сигналом объекта, может потребоваться выполнение извлечения сигнала объекта в дополнение к разделению сигнала L-канала на L_L и L_R и разделению сигнала R-канала на R_R и R_L.

Более конкретно, сначала может извлекаться сигнал объекта из сигналов L- и R-каналов. Затем сигнал L-канала может разделяться на L_L и L_R, и сигнал R-канала может разделяться на R_R и R_L. Обработка эффектов может выполняться над сигналом объекта. Затем сигнал объекта с обработанными эффектами может разделяться на составляющие L- и R-каналов в соответствии с матрицей рендеринга. После этого составляющая L-канала сигнала объекта с обработанными эффектами может добавляться к L_L и R_L, и составляющая R-канала сигнала объекта с обработанными эффектами может добавляться к R_R и L_R.

Альтернативно, сначала могут генерироваться предварительно обработанные сигналы L и R L- и R-каналов. После этого сигнал объекта может извлекаться из предварительно обработанных сигналов L и R L- и R-каналов. После этого может выполняться обработка эффектов над сигналом объекта, и результат обработки эффектов может добавляться обратно к предварительно обработанным сигналам L- и R-каналов.

Спектр сигнала объекта может модифицироваться при помощи обработки эффектов. Например, может селективно увеличиваться уровень части с высоким тоном или части с низким тоном сигнала объекта. Для этого может модифицироваться только часть спектра, соответствующая части с высоким тоном или части с низким тоном сигнала объекта. В данном случае относящаяся к объекту информация, включенная в битовый поток объекта, может потребовать модифицирования соответствующим образом. Например, если уровень части с низким тоном некоторого сигнала объекта увеличивается, энергия части с низким тоном некоторого сигнала объекта также может увеличиваться. Таким образом, информация об энергии, включенная в битовый поток объекта, не представляет больше надлежащим образом энергию некоторого сигнала объекта. Чтобы решить этот вопрос, информация об энергии, включенная в битовый поток объекта, может непосредственно модифицироваться в соответствии с изменением энергии некоторого сигнала объекта. Альтернативно, информация об изменении спектра, обеспечиваемая транскодером, может применяться к образованию многоканального битового потока, так что изменение энергии некоторого сигнала объекта может отражаться в многоканальный битовый поток.

Фиг.28-33 иллюстрируют схемы для объяснения включения множества порций объектно-базированной дополнительной информации и множества сигналов понижающего смешивания в порцию дополнительной информации и сигнал понижающего смешивания. В случае телеконференции иногда необходимо комбинировать множество порций объектно-базированной дополнительной информации и множество сигналов понижающего смешивания в дополнительную информацию и сигнал понижающего смешивания. В данном случае необходимо рассмотреть некоторое количество факторов.

Фиг.28 иллюстрирует схему объектно-кодированного битового потока. Как показано на фиг.28, объектно-кодированный битовый поток включает в себя сигнал понижающего смешивания и дополнительную информацию. Сигнал понижающего смешивания синхронизируется с дополнительной информацией. Поэтому объектно-кодированный битовый поток легко может декодироваться без учета дополнительных факторов. Однако в случае объединения множества битовых потоков в единственный битовый поток необходимо убедиться, что сигнал понижающего смешивания единственного битового потока синхронизирован с дополнительной информацией единственного битового потока.

Фиг.29 иллюстрирует схему для объяснения объединения множества объектно-кодированных битовых потоков BS1 и BS2. Как показано на фиг.29, позиции 1, 2 и 3 указывают номера кадров. Чтобы объединить множество сигналов понижающего смешивания в единственный сигнал понижающего смешивания, сигналы понижающего смешивания могут преобразовываться в сигналы импульсно-кодовой модуляции (ИКМ), может выполняться понижающее смешивание ИКМ-сигналов во временной области, и ИКМ-сигнал с пониженным смешиванием может преобразовываться в формат кодека сжатия. Во время этих процессов может генерироваться задержка d, как изображено на фиг.29(b). Поэтому, когда подлежащий декодированию битовый поток получается посредством объединения множества битовых потоков, необходимо убедиться, что сигнал понижающего смешивания подлежащего декодированию битового потока надлежащим образом синхронизирован с дополнительной информацией подлежащего декодированию битового потока.

Если задана задержка между сигналом понижающего смешивания и дополнительной информацией битового потока, битовый поток может компенсироваться предварительно определенной величиной, соответствующей задержке. Задержка между сигналом понижающего смешивания и дополнительной информацией битового потока может изменяться в соответствии с типом кодека сжатия, используемого для генерирования сигнала понижающего смешивания. Поэтому бит, указывающий задержку, если есть какая-либо, между сигналом понижающего смешивания и дополнительной информацией битового потока, может включаться в дополнительную информацию.

Фиг.30 иллюстрирует объединение двух битовых потоков BS1 и BS2 в единственный битовый поток, когда сигналы понижающего смешивания битовых потоков BS1 и BS2 генерируются различными типами кодеков или конфигурация дополнительной информации битового потока BS1 отличается от конфигурации дополнительной информации битового потока BS2. Как показано на фиг.30, когда сигналы понижающего смешивания битовых потоков BS1 и BS2 генерируются различными типами кодеков или конфигурация дополнительной информации битового потока BS1 отличается от конфигурации дополнительной информации битового потока BS2, может быть определено, что битовые потоки BS1 и BS2 имеют различные задержки d1 и d2 сигнала, возникающие в результате преобразования сигналов понижающего смешивания в сигналы временной области и преобразования сигналов временной области с использованием единственного кодека сжатия. В данном случае, если битовые потоки BS1 и BS2 просто суммируются без учета различных задержек сигнала, сигнал понижающего смешивания битового потока BS1 может быть неправильно выровнен с сигналом понижающего смешивания BS2 и дополнительная информация битового потока BS1 может быть неправильно выровнена с дополнительной информацией битового потока BS2. Чтобы решить этот вопрос, сигнал понижающего смешивания битового потока BS1, который задерживается на d1, может дополнительно задерживаться так, чтобы он синхронизировался с сигналом понижающего смешивания битового потока BS2, который задержан на d2. Тогда битовые потоки BS1 и BS2 могут комбинироваться с использованием одного и того же способа варианта осуществления по фиг.30. Если имеется более одного битового потока для объединения, тот битовый поток, который имеет наибольшую задержку, может использоваться в качестве эталонного битового потока, и тогда другие битовые потоки могут дополнительно задерживаться так, чтобы они синхронизировались с эталонным битовым потоком. Бит, указывающий задержку между сигналом понижающего смешивания и дополнительной информацией, может включаться в битовый поток объекта.

Может обеспечиваться бит, указывающий, имеется ли задержка сигнала в битовом потоке. Если только информация о бите указывает, что имеется задержка сигнала в битовом потоке, то может дополнительно обеспечиваться информация, определяющая задержку сигнала. Таким образом можно минимизировать количество информации, необходимое для указания задержки сигнала, если есть какая-либо, в битовом потоке.

Фиг.32 иллюстрирует схему для объяснения того, как компенсировать один или два битовых потока BS1 и BS2, имеющих различные задержки сигнала, посредством разности между различными задержками сигнала, и в частности, как компенсировать битовый поток BS2, который имеет более длительную задержку сигнала, чем битовый поток BS1. Как показано на фиг.32, первый-третий кадры дополнительной информации битового потока BS1 все могут использоваться в том виде, в каком они есть. С другой стороны, первый-третий кадры дополнительной информации битового потока BS2 не могут использоваться в том виде, в каком они есть, так как первый-третий кадры дополнительной информации битового потока BS2 не синхронизируются соответствующим образом с первым-третьим кадрами дополнительной информации битового потока BS1. Например, второй кадр дополнительной информации битового потока BS1 соответствует не только части первого кадра дополнительной информации битового потока BS2, но также части второго кадра дополнительной информации битового потока BS2. Может быть вычислено соотношение части второго кадра дополнительной информации битового потока BS2, соответствующей второму кадру дополнительной информации битового потока BS1, со всем вторым кадром дополнительной информации битового потока BS2, и соотношение части первого кадра дополнительной информации битового потока BS2, соответствующей второму кадру дополнительной информации битового потока BS1, со всем первым кадром дополнительной информации битового потока BS2, и первый и второй кадры дополнительной информации битового потока BS2 могут усредняться или интерполироваться на основе результатов вычисления. Таким образом первый-третий кадры дополнительной информации битового потока BS2 могут синхронизироваться соответствующим образом с первым-третьим кадрами дополнительной информации битового потока BS1, как изображено на фиг.32(b). Тогда дополнительная информация битового потока BS1 и дополнительная информация битового потока BS2 могут объединяться с использованием способа варианта осуществления по фиг.29. Сигналы понижающего смешивания битовых потоков BS1 и BS2 могут объединяться в единственный сигнал понижающего смешивания без необходимости компенсации задержки. В данном случае информация о задержке, соответствующая задержке d1 сигнала, может сохраняться в объединенном битовом потоке, полученном посредством объединения битовых потоков BS1 и BS2.

Фиг.33 иллюстрирует схему для объяснения того, как компенсировать тот битовый поток из двух битовых потоков, имеющих различные задержки сигнала, который имеет более короткую задержку сигнала. Как показано на фиг.33, первый-третий кадры дополнительной информации битового потока BS2 все могут использоваться в том виде, в каком они есть. С другой стороны, первый-третий кадры дополнительной информации битового потока BS1 не могут использоваться в том виде, в каком они есть, так как первый-третий кадры дополнительной информации битового потока BS1 не синхронизируются соответствующим образом с первым-третьим кадрами дополнительной информации битового потока BS2. Например, первый кадр дополнительной информации битового потока BS2 соответствует не только части первого кадра дополнительной информации битового потока BS1, но также части второго кадра дополнительной информации битового потока BS1. Может вычисляться соотношение части первого кадра дополнительной информации битового потока BS1, соответствующей первому кадру дополнительной информации битового потока BS2, со всем первым кадром дополнительной информации битового потока BS1, и соотношение части второго кадра дополнительной информации битового потока BS1, соответствующей первому кадру дополнительной информации битового потока BS2, со всем вторым кадром дополнительной информации битового потока BS1, и первый и второй кадры дополнительной информации битового потока BS1 могут усредняться или интерполироваться на основе результатов вычисления. Таким образом, первый-третий кадры дополнительной информации битового потока BS1 могут синхронизироваться соответствующим образом с первым-третьим кадрами дополнительной информации битового потока BS2, как изображено на фиг.33(b). Тогда дополнительная информация битового потока BS1 и дополнительная информация битового потока BS2 могут объединяться с использованием способа варианта осуществления по фиг.29. Сигналы понижающего смешивания битовых потоков BS1 и BS2 могут объединяться в единственный сигнал понижающего смешивания без необходимости компенсации задержки, даже если сигналы понижающего смешивания имеют различные задержки сигнала. В данном случае информация о задержке, соответствующая задержке d2 сигнала, может сохраняться в объединенном битовом потоке, полученном посредством объединения битовых потоков BS1 и BS2.

Если множество объектно-кодированных битовых потоков объединяются в единственный битовый поток, сигналы понижающего смешивания объектно-кодированных битовых потоков могут потребовать объединения в единственный сигнал понижающего смешивания. Чтобы объединить множество сигналов понижающего смешивания, соответствующих различным кодекам сжатия в единственные сигналы понижающего смешивания, сигналы понижающего смешивания могут преобразовываться в ИКМ-сигналы или сигналы частотной области и ИКМ-сигналы или сигналы частотной области могут суммироваться в соответствующей области. После этого результат суммирования может преобразовываться с использованием предварительно определенного кодека сжатия. Могут иметь место различные задержки сигнала в соответствии с тем, суммируются ли сигналы понижающего смешивания во время операции ИКМ или суммируются в частотной области и в соответствии с типом кодека сжатия. Так как декодер не может легко распознать различные задержки сигнала из битового потока, подлежащего декодированию, может потребоваться включение в битовый поток информации о задержке, определяющей различные задержки сигнала. Такая информация о задержке может представлять количество отсчетов задержки в ИКМ-сигнале или количество отсчетов задержки в частотной области.

Настоящее изобретение может быть реализовано в качестве считываемого компьютером кода, записанного на считываемой компьютером среде записи. Считываемая компьютером среда записи может представлять собой любой тип устройства записи, в котором данные сохраняются считываемым компьютером образом. Примеры считываемой компьютером среды записи включают в себя постоянное запоминающее устройство (ПЗУ), оперативное запоминающее устройство (ОЗУ), компакт-диск, магнитную ленту, дискету, оптический накопитель данных и несущую волну (например, передача данных по Интернету). Считываемая компьютером среда записи может распределяться по множеству компьютерных систем, соединенных в сети, так что считываемый компьютером код записывается на нее и исполняется с нее децентрализованным образом. Функциональные программы, код и сегменты кода, необходимые для реализации настоящего изобретения, легко могут толковаться специалистом в данной области техники.

Как описано выше, согласно настоящему изобретению звуковые изображения локализуются для каждого сигнала объекта посредством извлечения пользы из преимуществ способов объектно-базированного кодирования и декодирования аудио. Таким образом, можно предложить более реалистичные звуки во время проигрывания сигналов объекта. Кроме того, настоящее изобретение может быть применимо к интерактивным играм и, таким образом, может предоставлять пользователю более реалистичное впечатление виртуальной реальности.

Хотя настоящее изобретение было конкретно показано и описано со ссылкой на его примерные варианты осуществления, для специалиста в данной области техники понятно, что в нем могут быть сделаны различные изменения в форме и деталях без отступления от сущности и объема настоящего изобретения, определяемого нижеследующей формулой изобретения.

1. Способ декодирования аудио, содержащий следующие шаги:
осуществляют прием сигнала понижающего смешивания, объектно-базированную дополнительную информацию и управляющую информацию, причем сигнал понижающего смешивания получают путем понижающего смешивания множества сигналов объекта и управляющей информации, управляющей положением или уровнем указанного сигнала объекта, включенного в понижающий сигнал смешивания:
извлекают метаданные, включающие в себя описание сигнала объекта, из объектно-базированной дополнительной информации;
генерируют информацию параметра и информацию пространственного параметра путем использования управляющей информации и объектно-базированной дополнительной информации, при этом информация параметра используется для предварительной обработки сигнала понижающего смешивания, а информация пространственного параметра используется для генерирования многоканального аудиосигнала:
осуществляют предварительную обработку положения или уровня сигнала объекта, включенного в сигнал понижающего смешивания, путем наложения информации параметра к сигналу понижающего смешивания: и
генерируют многоканальный аудиосигнал путем использования предварительного обработанного сигнала понижающего смешивания, информации пространственного параметра и управляющей информации,
при этом в метаданных используется текстовый формат.

2. Способ декодирования аудио по п.1, в котором метаданные содержат, по меньшей мере, одно из: числа, соответствующего сигналу объекта, и описания сигнала объекта.

3. Способ декодирования аудио по п.1, в котором метаданные включены в заголовок объектно-базированной дополнительной информации.

4. Способ кодирования аудио, содержащий следующие шаги:
генерируют сигнал понижающего смешивания посредством понижающего смешивания множества сигналов объекта;
генерируют объектно-базированную дополнительную информацию из множества сигналов объекта;
осуществляют вставление метаданных, представляющих описание сигнала объекта, в объектно-базированную дополнительную информацию, и
генерируют битовый поток посредством комбинирования сигнала понижающего смешивания и объектно-базированной дополнительной информации, в которую вставлены метаданные.

5. Устройство декодирования аудио, содержащее:
демультиплексор, конфигурированный для извлечения сигнала понижающего смешивания, объектно-базированной дополнительной информации и управляющей информации из введенного аудиосигнала, причем сигнал понижающего смешивания получен путем понижающего смешивания множества сигналов объекта и управляющей информации, управляющей положением или уровнем указанного сигнала объекта, включенного в понижающий сигнал смешивания:
конвертер параметра, конфигурированный для извлечения метаданных, представляющих описание сигнала объекта, из объектно-базированной дополнительной информации, и для генерирования информации параметра и информации пространственного параметра путем использования управляющей информации и объектно-базированной дополнительной информации, при этом информация параметра используется для предварительной обработки сигнала понижающего смешивания, а информация пространственного параметра используется для генерирования многоканального аудиосигнала:
препроцессор, конфигурированный для предварительной обработки положения или уровня сигнала объекта, включенного в сигнал понижающего смешивания, путем наложения информации параметра к сигналу понижающего смешивания: и
многоканальный декодер, конфигурированный для повышающего микширования предварительного обработанного сигнала понижающего смешивания путем использования информации пространственного параметра,
при этом в метаданных используется текстовый формат.

6. Устройство по п.5, в котором метаданные содержат, по меньшей мере, одно из: числа, соответствующего сигналу объекта, и описания сигнала объекта.

7. Устройство по п.5, в котором метаданные включены в заголовок объектно-базированной дополнительной информации.

8. Считываемая процессором среда записи, на которой записана программа для выполнения способа по п.1 в процессоре.

9. Считываемая компьютером среда записи, имеющая записанную на ней компьютерную программу для выполнения способа декодирования аудио, содержащего:
прием сигнала понижающего смешивания, объектно-базированной дополнительной информации и управляющей информации, причем сигнал понижающего смешивания получен путем понижающего смешивания множества сигналов объекта и управляющей информации, управляющей положением или уровнем указанного сигнала объекта, включенного в понижающий сигнал смешивания;
извлечение метаданных, включающих в себя описание сигнала объекта, из объектно-базированной дополнительной информации;
генерирование информации параметра и информации пространственного параметра путем использования управляющей информации и объектно-базированной дополнительной информации, при этом информация параметра используется для предварительной обработки сигнала понижающего смешивания, а информация пространственного параметра используется для генерирования многоканального аудиосигнала;
предварительную обработку положения или уровня сигнала объекта, включенного в сигнал понижающего смешивания, путем наложения информации параметра к сигналу понижающего смешивания; и
повышающее микширование предварительного обработанного сигнала понижающего смешивания путем использования информации пространственного параметра;
при этом в метаданных используется текстовый формат.

10. Считываемая компьютером среда записи по п.9, в которой метаданные включены в заголовок объектно-базированной дополнительной информации.

11. Считываемая компьютером среда записи, имеющая записанную на ней компьютерную программу для выполнения способа кодирования аудио, содержащего:
генерирование сигнала понижающего смешивания посредством понижающего смешивания множества сигналов объекта:
генерирование объектно-базированной дополнительной информации из множества сигналов объекта; и
вставление метаданных, включающих в себя описание сигнала объекта, в объектно-базированную дополнительную информацию;
генерирование битового потока путем объединения сигнала понижающего смешивания и объектно-базированной дополнительной информации, в которую включены метаданные.

Изобретение относится к способу и устройству кодирования/декодирования, более конкретно, к устройству кодирования/декодирования, которое обрабатывает аудиосигналы так, чтобы можно было создавать трехмерные (3D) звуковые эффекты.

Способ встраивания цифрового водяного знака в полезный сигнал // 2405218

Изобретение относится к технике встраивания цифрового «водяного знака» в полезный сигнал, в частности в звуковой сигнал, к технике обнаружения таких встроенных знаков и соответствующих устройств.

Способ взвешенного сложения с перекрытием // 2405217

Изобретение относится к обработке сигналов, в частности к способу взвешенного сложения с перекрытием. .

Способ и устройство для обработки звукового сигнала // 2404507

Изобретение относится к способу и устройству для обработки звукового сигнала. .

Способ формирования сигнала возбуждения в низкоскоростных вокодерах с линейным предсказанием // 2400832

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов.

Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием // 2400831

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для выделения сегментов квазистационарности при анализе речевого сигнала.

Способ сжатия и восстановления речевых сообщений // 2400830

Изобретение относится к области электросвязи, а именно к области, связанной с сокращением избыточности и криптографической защитой передаваемой информации. .

Способ обнаружения пауз в речевых сигналах и устройство его реализующее // 2399103

Изобретение относится к области цифровой обработки речевых данных и может быть использовано в различных приложениях, например в IР-телефонии. .

Способ, устройство, кодирующее устройство, декодирующее устройство и аудиосистема // 2396608

Изобретение относится к обработке стереосигнала, полученного от кодировщика. .

Способ и устройство для обработки медиасигнала // 2395854

Изобретение относится к устройству и способу для обработки медиа-сигнала, в частности для генерации сигнала окружения с использованием пространственной информации медиа-сигнала.

Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов // 2406166

Многоканальное кодирование и декодирование // 2407068

Кодирование и декодирование аудиосигналов с использованием гребенок фильтров с комплексным значением // 2407069

Изобретение относится к кодированию и/или декодированию аудиосигналов и, в частности, к кодированию/декодированию формы аудиосигнала

Способ и устройство кодирования и декодирования объектно-ориентированного звукового сигнала // 2407070

Изобретение относится к способам и устройства, предназначенным для кодирования и декодирования звукового сигнала, и более конкретно, к способам и устройствам для кодирования и декодирования объектно-ориентированного звукового сигнала

Способ генерации кадров маскирования в системе связи // 2407071

Изобретение относится к телекоммуникационным системам, в частности к способу, устройству и конфигурации, которые позволяют компенсировать потери и/или флуктуации времени задержки, и/или расфазировку тактовых сигналов пакетов сигналов

Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов // 2407072

Изобретение относится к способам и устройствам кодирования и декодирования многоканального объектно-ориентированного аудиосигнала

Кодирование многоканального аудио // 2407073

Изобретение относится к устройствам кодирования многоканального аудио

Концепция для объединения множества параметрически кодированных аудиоисточников // 2407227

Изобретение относится к кодированию многоканального аудиосигнала и, в частности, к концепции объединения параметрически кодированных аудиопотоков гибким и эффективным образом

Способ векторного квантования параметров линейного предсказания // 2408088

Изобретение относится к системе электросвязи, а именно к системам низкоскоростного кодирования речевого сигнала, при котором осуществляется векторное квантование с предсказанием параметров линейного предсказания

Декодирование кодированных с предсказанием данных с использованием адаптации буфера // 2408089

Изобретение относится к декодированию сжатой цифровой информации, в частности к декодированию битовых потоков, отражающих контент, который сжат с применением методов кодирования с долговременным предсказанием