Кодирование и декодирование звуковых объектов

Авторы патента:


Кодирование и декодирование звуковых объектов
Кодирование и декодирование звуковых объектов
Кодирование и декодирование звуковых объектов
Кодирование и декодирование звуковых объектов
Кодирование и декодирование звуковых объектов
Кодирование и декодирование звуковых объектов
Кодирование и декодирование звуковых объектов

 


Владельцы патента RU 2460155:

КОНИНКЛЕЙКЕ ФИЛИПС ЭЛЕКТРОНИКС Н.В. (NL)

Изобретение относится к кодированию и декодированию звуковых объектов. Техническим результатом является улучшение кодирования звуковых объектов, улучшение управления характеристиками отдельных звуковых объектов и, в частности, уменьшение ухудшения звукового объекта, вызванное перекрестными помехами, при управлении звуковыми объектами. Аудиосистема содержит кодер (209), который кодирует звуковые объекты в кодирующем модуле (403), который генерирует звуковые сигналы, микшированные с понижением, и параметрические данные, представляющие множество звуковых объектов. Звуковые сигналы, микшированные с понижением, и параметрические данные передаются декодеру (215), который содержит декодирующий модуль (301), генерирующий приблизительные реплики звуковых объектов, и воспроизводящий модуль устройство (303), генерирующий выходной сигнал из звуковых объектов. Декодер (215) к тому же содержит процессор (501) для генерирования модификационных данных кодирования, которые посылаются кодеру (209). Кодер (209) затем модифицирует кодирование звуковых объектов, и, в частности, модифицирует параметрические данные в ответ на модификационные данные кодирования. 12 н. и 9 з.п. ф-лы. 7 ил.

 

ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к кодированию и декодированию звуковых объектов и особенно, но не исключительно, к обработке звуковых объектов микшированного с понижением пространственного сигнала.

УРОВЕНЬ ТЕХНИКИ

Цифровое кодирование различных звуковых сигналов стало важным за последние десятилетия, так как цифровое представление сигнала и связь все в большей степени заменяют аналоговые представление и связь.

В последнее десятилетие был взят курс на многоканальное звуковое и особенно на пространственное звуковое расширение сверх стандартных стереосигналов. Например, традиционные стереозвукозаписи содержат только два канала, тогда как современные усовершенствованные аудиосистемы обычно используют пять или шесть каналов, как в популярных 5.1 системах объемного звучания. Это обеспечивает более сложное впечатление от прослушивания, когда пользователь может быть окружен источниками звука.

Различные способы и стандарты были разработаны для передачи таких многоканальных сигналов. Например, шесть дискретных каналов, представляющих 5.1 систему объемного звучания, могут быть переданы в соответствии со стандартами, такими как стандарты Advanced Audio Coding (ААС) или Dolby Digital.

Однако, чтобы обеспечить полную (обратную) совместимость с предыдущими версиями, известно микширование с понижением более высокого числа каналов до более низкого количества числа каналов, и особенно часто используется микширование с понижением 5.1 сигнала объемного звучания до стереосигнала, позволяя стереосигналу быть воспроизведенным традиционными (стерео) декодерами и 5.1 сигналу - декодерами объемного звучания.

Одним примером является MPEG Surround способ кодирования обратной совместимости, стандартизованный с помощью стандарта Экспертной Группы по Кинематографии (MPEG). В такой системе многоканальный сигнал смикширован с понижением (сведен) в стереосигнал, и дополнительные сигналы закодированы параметрическими данными в части вспомогательных данных, позволяющих многоканальному MPEG Surround декодеру формировать представление многоканального сигнала. Традиционный моно- или стереодекодер будет игнорировать вспомогательные данные и, таким образом, будет только декодировать моно- или стереомикшированный сигнал.

Таким образом, в (параметрических) пространственных звуковых кодерах параметры извлечены из исходного звукового сигнала с тем, чтобы получить звуковой сигнал, имеющий пониженное число каналов, например только единственный канал, плюс набор параметров, описывающих пространственные свойства исходного звукового сигнала. В (параметрических) пространственных звуковых декодерах пространственные свойства, описанные переданными пространственными параметрами, используются, чтобы воссоздать исходный пространственный многоканальный сигнал.

В последнее время был проявлен значительный интерес к способам для распределения отдельных звуковых объектов, которые могут быть обработаны и которыми можно управлять на приемном конце. Например, в рамках стандарта MPEG начата работа над пространственным звуковым кодированием, основанным на объекте. Целью такой работы является исследование новой технологии и повторное использование существующих MPEG Surround компонентов и технологий для эффективного с точки зрения скорости передачи битов кодирования множества звуковых источников или объектов в число микшированных с понижением каналов и соответствующих пространственных параметров. Таким образом, цель состоит в использовании похожих способов, какие используются для микширования с понижением пространственных (окружающих) каналов до меньшего числа каналов, чтобы смикшировать с понижением независимые звуковые объекты в меньшее число каналов.

В объектно-ориентированных звуковых системах декодер может обеспечить дискретное позиционирование этих источников/объектов и адаптацию к различным установкам громкоговорителя, а также бинауральное воспроизведение. Дополнительно взаимодействие пользователя с системой может быть использовано, чтобы управлять перестановкой/панорамированием отдельных источников на стороне воспроизведения.

Другими словами, целью исследования является кодирование множества звуковых объектов в ограниченный набор микшированных с понижением каналов с сопутствующими параметрами. На стороне декодера пользователи могут взаимодействовать с контентом, например, с помощью перестановки отдельных объектов. Как конкретный пример, число отдельных инструментов может быть закодировано и распределено как звуковые объекты, таким образом, позволяя пользователю принимать кодированные данные, чтобы независимо расположить отдельные инструменты на фонограмме.

Фиг.1 иллюстрирует пример звукового объектно-ориентированного кодера и декодера в соответствии с предыдущим уровнем техники. В этом примере набор звуковых объектов (О1 и О2) закодированы в объектно-ориентированном кодере 101, который генерирует микшированный с понижением сигнал и параметры объекта. Они передаются объектно-ориентированному декодеру 103, который генерирует приблизительные копии сигналов звуковых объектов, используя переданные параметры объекта.

Затем воспроизводящий элемент 105 генерирует выходной сигнал, имеющий желательные характеристики. Например, воспроизводящий элемент 105 может располагать объекты на местах источников звука, указанных пользователем, например, используя закон панорамирования. Конфигурация выходного сигнала является гибкой. Например, если выходной сигнал - моносигнал, пользователь может, тем не менее, управлять соответствующей громкостью/силой звука каждого объекта. В конфигурации выходного стереосигнала простой закон панорамирования может быть применен, чтобы расположить каждый объект на требуемом месте. Очевидно, что для многоканального выходного сигнала гибкость конфигурации даже больше.

Однако, хотя система может обеспечить благоприятное функционирование, она также имеет и некоторые недостатки. Например, во многих случаях качество воспроизведения субоптимально, и полностью свободное и независимое управление отдельными звуковыми объектами невозможно. В частности, микширование с понижением кодера является, в основном, не полностью обратимым на декодере, который, следовательно, может только генерировать приближения исходных звуковых объектов. Таким образом, декодер не способен полностью восстановить сигналы отдельных объектов, но может только оценить их в соответствии с критерием восприятия. Это особенно приводит к перекрестным помехам (захлестыванию) между звуковыми объектами, вследствие чего звуковые объекты больше не являются полностью независимыми. Как результат - манипуляции над одним звуковым объектом влияют на характеристики и восприятие другого объекта.

Например, одним из наиболее важных параметров, которые пользователи обычно хотели бы регулировать, является громкость каждого звукового объекта. Однако, если проделаны большие корректировки громкости, то это приведет к значительным ложным сигналам и нежелательному захлестыванию, приводящим к заметному падению качества.

Поэтому была бы полезна усовершенствованная система для кодирования/декодирования звукового объекта, и, в частности, была бы полезна система, допускающая повышенную гибкость, улучшенное качество, облегченное осуществление и/или улучшенное функционирование.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Таким образом, изобретение стремится предпочтительно уменьшить, ослабить или устранить один или более из вышеупомянутых недостатков порознь или в любой комбинации.

В соответствии с первым аспектом изобретения представлен кодер для кодирования звуковых объектов, кодер содержит: средство для приема множества звуковых объектов; кодирующее средство для кодирования множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, параметрические данные содержат набор параметров объекта, по меньшей мере, для одного их разных звуковых объектов; средство для приема модификационных данных кодирования от удаленного модуля; и параметрическое средство для определения параметрических данных в ответ на модификационные данные кодирования.

Изобретение может сделать возможным улучшенное кодирование звуковых объектов и может, в частности, сделать возможным систему звукового распределения, в которой улучшенное впечатление пользователя может быть достигнуто, например, улучшенным управлением отдельным пользователем отдельными звуковыми объектами. Изобретение может сделать возможным улучшенное управление характеристиками отдельных звуковых объектов и может, в частности, уменьшать ухудшение звукового объекта, вызванное перекрестными помехами, при управлении звуковыми объектами. Кодер может разрешить эффективное удаленное контролируемое управление при модифицировании модификационных данных кодирования, так что объектно-ориентированный декодер будет правильно декодировать обрабатываемые звуковые объекты. Изобретение может разрешить улучшенное распределение управления звуковыми объектами между кодером и декодером, таким образом, приводя к улучшенной гибкости, функционированию и/или качеству.

Средство кодирования к тому же может генерировать число звуковых сигналов в ответ на модификационные данные кодирования. Параметры объекта могут быть параметрами интенсивности, например указывающими относительную разницу в интенсивности между разными звуковыми объектами и/или коэффициент преобразования энергии между одним или более звуковыми сигналами и звуковыми объектами. Параметры объекта могут содержать параметры для отдельных частотно-временных блоков.

В соответствии с дополнительным признаком изобретения кодирующее средство приспособлено для генерирования числа звуковых сигналов с помощью микширования с понижением звуковых объектов, и параметрическое средство приспособлено, чтобы модифицировать микшированный с понижением вес, по меньшей мере, одного из звуковых объектов в ответ на модификационные данные кодирования.

Это может дать высокую эффективность и/или высокое качество управления относительной громкостью звукового объекта слушателем при понижении или устранении влияния на другие звуковые объекты. Может быть получена высокая эффективность управления громкостью отдельного звукового объекта.

В соответствии с дополнительным признаком изобретения параметрическое средство приспособлено, чтобы масштабировать, по меньшей мере, первый звуковой объект в ответ на модификационные данные кодирования и модифицировать параметры объекта для первого звукового объекта в ответ на масштабирование.

Это может дать высокую эффективность и/или высокое качество управления соответствующей громкостью звукового объекта слушателем при понижении или устранении влияния на другие звуковые объекты. Может быть получена высокая эффективность управления громкостью отдельного звукового объекта.

В соответствии с дополнительным признаком изобретения, по меньшей мере, некоторые из модификационных данных кодирования являются частотной особенностью, и параметрическое средство приспособлено, чтобы определять, по меньшей мере, один параметр объекта в ответ на частотную характеристику параметра объекта.

Это может позволить улучшить управление впечатлением слушателя и может, в частности, позволить слушателю управлять частотным ответом звукового воспроизведения. Частотные характеристики отдельных объектов могут быть индивидуально и отдельно модифицированы с понижением или устранением влияния на другие звуковые объекты. В частности, может быть достигнуто эффективное и/или высококачественное выравнивание отдельных звуковых объектов.

В соответствии с дополнительным признаком изобретения средство кодирования приспособлено, чтобы модифицировать, по меньшей мере, один звуковой объект в ответ на модификационные данные кодирования прежде микширования с понижением звуковых объектов до числа звуковых сигналов.

Параметрическое средство может быть приспособлено, чтобы определить параметрические данные в ответ на характеристики модифицированного звукового объекта(тов). Это может дать высокую эффективность и/или удобное выполнение.

В соответствии с дополнительным признаком изобретения средство кодирования приспособлено, чтобы генерировать число звуковых сигналов как пространственное микширование с понижением.

Это может дать улучшенную эффективность во многих осуществлениях и может, в частности, дать усовершенствованную функциональность совместно с кодерами, не имеющими или имеющими ограниченную способность воспроизведения. Кодер может, например, быть приспособлен для воспроизведения пространственного многоканального сигнала, содержащего звуковые объекты, и может быть конкретно приспособлен генерировать пространственный бинауральный сигнал.

В соответствии с дополнительным признаком изобретения средство кодирования приспособлено, чтобы модифицировать в ответ на кодирующее модификационные данные, по меньшей мере, одну характеристику, выбранную из группы, состоящей из: пространственного расположения, по меньшей мере, одного из звуковых объектов; характеристики расстояния, по меньшей мере, одного из звуковых объектов; моды пространственного воспроизведения кодера; и частотной характеристики, по меньшей мере, одного из звуковых объектов.

Это может дать улучшенную эффективность, и параметры могут, в частности, позволить слушателю модифицировать значительные параметры восприятия пространственного воспроизведенного сигнала.

В соответствии с дополнительным признаком изобретения каждый звуковой объект связан с набором звуковых источников, которые являются независимыми от звуковых источников других звуковых объектов.

Звуковые объекты могут быть независимыми друг от друга. Звуковые объекты могут соответствовать разным и независимым источникам звука. В частности, звуковые объекты могут быть разными звуковыми объектами, которые сформированы индивидуально и отдельно от других звуковых объектов и без каких-либо особенных взаимоотношений. Например, звуковые объекты могут быть индивидуально записанными/зафиксированными музыкальными инструментами или голосами.

Звуковые объекты могут быть непространственными звуковыми объектами. Звуковые объекты могут быть простыми источниками звука, с несвязанными пространственными характеристиками или информацией, и, в частности, здесь может не быть относительных пространственных взаимоотношений, знаний или связи между звуковыми объектами.

В соответствии с дополнительным признаком изобретения кодер приспособлен для приема первого звукового объекта от удаленного модуля, и средство для приема модификационных данных кодирования приспособлено, чтобы выделять модификационные данные кодирования из данных кодирования, принятых для первого звукового объекта.

Например, модификационные данные кодирования могут быть вставлены в речь, музыку или другой звуковой сигнал. Модификационные данные кодирования могут специально быть вставлены в служебные поля или поля пользовательских данных кодированного звукового сигнала, принятого от удаленного модуля, такого как, например, MPEG 4 битовый поток. Это может дать эффективную, обратно совместимую и с невысокой сложностью передачу управляющих данных и может, в частности, быть полезным в системах, использующих двунаправленные передачи между устройством, содержащим кодер, и удаленным модулем.

В соответствии с дополнительным признаком изобретения кодер приспособлен, чтобы принимать модификационные данные кодирования от множества удаленных модулей и чтобы генерировать разные параметрические данные для разных удаленных модулей в ответ на прием разных модификационных данных кодирования от разных удаленных модулей.

Это может дать улучшенную функциональность и/или дополнительные услуги во многих осуществлениях. Кодирующее средство может к тому же быть приспособлено, чтобы генерировать разные звуковые сигналы для разных удаленных модулей. Таким образом, этот поход может позволить, например, централизованному кодеру звукового объекта подгонять переданные данные под требования и предпочтения отдельных пользователей удаленных модулей.

В соответствии с другим аспектом изобретения предусмотрен декодер для декодирования звуковых объектов, декодер, содержащий: приемник для приема от кодера числа звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из разных звуковых объектов; декодирующее средство для декодирования звуковых объектов из числа звуковых сигналов в ответ на параметрические данные; воспроизводящее средство для генерирования пространственного многоканального выходного сигнала из звуковых объектов; средство для генерирования модификационных данных кодирования для кодера объекта; и средство для передачи модификационных данных кодирования кодеру объекта.

Декодирующее средство и воспроизводящее средство могут в некоторых осуществлениях быть комбинированными, и пространственный многоканальный выходной сигнал может быть сформирован непосредственно из звуковых сигналов без детального генерирования звукового объекта. Например, матричное перемножение может быть применено к значениям сигнала звуковых сигналов, чтобы генерировать значения сигнала звукового объекта. Второе перемножение матриц затем может быть применено к значениям сигнала звукового объекта, чтобы генерировать значения пространственного многоканального звукового сигнала. Альтернативно первое и второе матричное перемножение могут быть объединены в единое матричное перемножение. Таким образом, единое матричное перемножение может быть применено к значениям сигнала звуковых сигналов для непосредственного генерирования значений пространственного многоканального звукового сигнала. Таким образом, декодирование звуковых объектов может быть присуще воспроизведению/матричному перемножению, и нет необходимости в явном/прямом генерировании значений звукового объекта.

В соответствии с другим аспектом изобретения предусмотрен центр телеконференции для поддержания телеконференции между множеством модулей связи, центр телеконференции содержит: средство для приема первого множества речевых сигналов от множества модулей связи; кодирующее средство для кодирования для первого модуля связи первого множества речевых сигналов в число звуковых сигналов и параметрические данные, представляющие множество речевых сигналов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, одного из разных речевых сигналов, средство для приема модификационных данных кодирования от первого модуля связи и параметрическое средство для определения параметрических данных в ответ на модификационные данные; и средство для передачи числа звуковых сигналов и параметрических данных первому модулю связи.

В соответствии с другим аспектом изобретения предусмотрен передатчик для передачи звуковых сигналов, передатчик содержит: средство для приема множества звуковых объектов; кодирующее средство для кодирования множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из разных звуковых объектов; средство для приема модификационных данных кодирования от удаленного модуля; и параметрическое средство для приема параметрических данных в ответ на модификационные данные.

В соответствии с другим аспектом изобретения предусмотрен приемник для приема масштабированного звукового битового потока, приемник содержит: приемный элемент для приема от кодера числа звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, параметрические данные, содержащие набор параметров объекта для, по меньшей мере, одного из различных звуковых объектов; декодирующее средство для декодирования звуковых объектов от числа звуковых сигналов в ответ на параметрические данные; воспроизводящее средство для генерирования пространственного многоканального выходного сигнала из звуковых объектов; средство для генерирования модификационных данных кодирования для кодера объекта; и средство для передачи модификационных данных кодирования кодеру объекта.

В соответствии с другим аспектом изобретения предусмотрена система связи для передачи звуковых сигналов, система связи содержит: передатчик содержит: средство для приема множества звуковых объектов, кодирующее средство для кодирования множества звуковых объектов в число звуковых сигналов и параметрических данных, соответствующих множеству звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из различных звуковых объектов, и средство для передачи числа звуковых сигналов и параметрических данных приемнику; и приемник, содержащий: приемный элемент для приема от передатчика числа звуковых сигналов и параметрических данных, декодирующее средство для декодирования звуковых объектов из числа звуковых сигналов в ответ на параметрические данные, воспроизводящее средство для генерирования пространственного многоканального выходного сигнала из звуковых объектов, средство для генерирования модификационных данных кодирования для кодирующего средства и средство для передачи модификационных данных кодирования передатчику; и где передатчик содержит средство для приема модификационных данных кодирования от приемника, параметрическое средство для определения параметрических данных в ответ на модификационные данные кодирования.

В соответствии с другим аспектом изобретения предусмотрен способ кодирования звуковых сигналов, способ содержит: прием множества звуковых объектов; кодирование множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из различных звуковых объектов; прием модификационных данных кодирования от удаленного модуля; и определение параметрических данных в ответ на модификационные данные.

В соответствии с другим аспектом изобретения предусмотрен способ декодирования звуковых сигналов, способ содержит: прием от кодера числа звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов, и параметрических данных, отражающих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из разных звуковых объектов; декодирование звуковых объектов из числа звуковых сигналов в ответ на параметрические данные; генерирование пространственного многоканального выходного сигнала из звуковых объектов; генерирование модификационных данных кодирования для кодера объекта; и передачу модификационных данных кодирования кодеру объекта.

В соответствии с другим аспектом изобретения предусмотрен способ передачи звуковых сигналов способ содержит: прием множества звуковых объектов; кодирование множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объектов для, по меньшей мере, одного из различных звуковых объектов; прием модификационных данных кодирования от удаленного модуля; определение параметрических данных в ответ на модификационные данные, и передачу числа звуковых сигналов и параметрических данных.

В соответствии с другим аспектом изобретения предусмотрен способ приема звуковых сигналов, способ содержит: прием от кодера числа звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов, и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объектов для, по меньшей мере, одного из звуковых объектов; декодирование звуковых объектов из числа звуковых сигналов в ответ на параметрические данные; генерирование пространственного многоканального выходного сигнала из звуковых объектов; генерирование модификационных данных кодирования для кодера объекта; и передачу модификационных данных кодирования кодеру объекта.

В соответствии с другим аспектом изобретения предусмотрен способ передачи и приема звуковых сигналов, способ содержит: передатчик (101), выполняющий этапы: прием множества звуковых объектов, кодирование множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта для, по меньшей мере, одного из различных звуковых объектов, и передачу числа звуковых сигналов и параметрических данных приемнику; и приемник, выполняющий этапы: прием от передатчика числа звуковых сигналов и параметрических данных; декодирование звуковых объектов из числа звуковых сигналов в ответ на параметрические данные; генерирование пространственного многоканального выходного сигнала из звуковых объектов; генерирование модификационных данных кодирования для кодирующего средства; и передачу модификационных данных кодирования кодеру объекта, и в котором передатчик далее выполняет этапы: прием модификационных данных кодирования от приемника и определение параметрических данных в ответ на модификационные данные кодирования.

В соответствии с другим аспектом изобретения предусмотрен компьютерный программный продукт для выполнения описанного выше способа.

В соответствии с другим аспектом изобретения предусмотрено звукозаписывающее устройство, содержащее описанный выше кодер.

В соответствии с другим аспектом изобретения предусмотрено звукопроигрывающее устройство, содержащее описанный выше декодер.

Эти и другие аспекты, признаки и преимущества изобретения будут видны из и объяснены со ссылкой на осуществление(я), описанные далее.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Варианты осуществления изобретения будут описаны, только в качестве примера, со ссылкой на чертежи, на которых:

Фиг.1 - это иллюстрация аудиосистемы предыдущего уровня техники;

Фиг.2 иллюстрирует пример системы связи для передачи звукового сигнала в соответствии с некоторыми осуществлениями изобретения;

Фиг.3 иллюстрирует взаимодействие между кодером и декодером в соответствии с некоторыми осуществлениями изобретения;

Фиг.4 иллюстрирует пример кодера в соответствии с некоторыми осуществлениями изобретения;

Фиг.5 иллюстрирует пример декодера в соответствии с некоторыми осуществлениями изобретения;

Фиг.6 иллюстрирует пример способа кодирования звуковых сигналов в соответствии с некоторыми осуществлениями изобретения;

Фиг.7 иллюстрирует пример способа декодирования звуковых объектов в соответствии с некоторыми осуществлениями изобретения.

ПОДРОБНОЕ ОПИСАНИЕ НЕКОТОРЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Следующее описание сфокусировано на осуществлениях изобретения, подходящих для кодирования и/или декодирования звукового объекта для применения при проведении телеконференций. Однако будет понятно, что изобретение не ограничивается этим применением, но может быть применено во многих других применениях, включающих в себя, например, применения музыкального звукового распределения.

Фиг.2 иллюстрирует систему 200 связи для передачи звукового сигнала в соответствии с некоторыми осуществлениями изобретения. Передающая система 200 содержит передатчик 201, который связан с приемником 203 через сеть 205, которая может быть, в частности, Интернетом.

В конкретном примере передатчик 201 является частью центра телеконференции. В применении для проведения телеконференции, речевые сигналы нескольких удаленных абонентов микшируются в центре телеконференции. Затем для каждого участника телеконференции смесь всех сигналов, кроме его/ее собственного, передается всем приемникам. Таким образом, передатчик 201 может принимать речевые сигналы от множества удаленных модулей связи, принимающих участие в телеконференции, и может генерировать и распределять речевые сигналы удаленным модулем связи. В этом примере приемник 203 - это устройство проигрывания сигнала, которое может генерировать выходной речевой сигнал участникам телефонной конференции. В частности, приемник 203 является частью удаленного модуля связи, такого как телефон.

Будет понятно, что в других осуществлениях передатчик и приемник могут быть использованы в других применениях и для других целей. Например, передатчик 201 и/или приемник 203 могут быть частью функциональных средств перекодирования и могут, например, обеспечивать связи с другими источниками сигнала или адресатами.

В конкретном примере передатчик 201 содержит приемник 207, который принимает речевые сигналы от удаленных модулей связи, включенные в сигнал телеконференции. Каждый из сигналов речи обрабатывается как отдельный и независимый звуковой объект.

Приемник 207 соединен с кодером 209 на фиг.2, которому подаются отдельные речевые звуковые объекты и который кодирует звуковые объекты в соответствии с алгоритмом кодирования. Кодер 209 соединен с сетевым передатчиком 211, который принимает кодированный сигнал и связывает с Интернетом 205. Сетевой передатчик может передавать кодированный сигнал приемнику 203 через Интернет 205.

Приемник 203 содержит сетевой приемник 213, который соединяет с Интернетом 205 и который приспособлен, чтобы принимать кодированный сигнал от передатчика 201.

Сетевой приемник 213 объединен с декодером 215. Декодер 215 принимает кодированный сигнал и декодирует его в соответствии с алгоритмом декодирования. В частности, декодер 215 представляет собой объектно-ориентированный декодер, который может декодировать отдельные звуковые объекты и воспроизводить выходной звуковой сигнал, основанный на декодированных звуковых объектах.

В конкретном примере, в котором поддерживается функция проигрывания сигнала, приемник 203 далее содержит проигрыватель 217 сигнала, который принимает декодированный звуковой сигнал от декодера 215 и представляет его пользователю. В частности, проигрыватель 217 сигнала может содержать цифроаналоговый преобразователь, усилитель и громкоговоритель, которые требуются для вывода декодированного звукового сигнала.

Фиг.3 иллюстрирует взаимодействие между кодером 209 и декодером 215 более подробно.

Как показано, объектно-ориентированный кодер 209 принимает множество звуковых объектов от приемника 207. Звуковые объекты представляют собой отдельные звуковые сигналы, которые не зависят друг от друга и которые конкретно соответствуют отдельным и независимым источникам звука. В некоторых осуществлениях звуковые объекты могут быть отдельно записанными звуковыми сигналами. Более того, звуковые сигналы не имеют какого-либо пространственного совмещения, и в частности не существует пространственных взаимоотношений между различными звуковыми объектами.

Однако в противоположность примеру записи звукового окружения, в котором та же самая фонограмма (и источники звука) записаны с разных позиций, чтобы сформировать разные каналы одного и того же пространственного сигнала, звуковые объекты настоящего примера представляют собой отдельные и изолированные источники звука.

В применении проведения телеконференции каждый звуковой объект соответствует речевому сигналу, принятому от одного участника телеконференции. Таким образом, кодер 209 принимает звуковые объекты в форме речевых сигналов, принятых от множества удаленных модулей связи, принимающих участие в телеконференции.

Объектно-ориентированный кодер 209 кодирует звуковые объекты в ограниченное число каналов и дополнительно генерирует параметрические данные, которые позволяют и облегчают восстановление исходных звуковых объектов из генерированных звуковых каналов на стороне декодера. В частности, звуковой кодер 209 может генерировать микширование с понижением звуковых объектов похожим образом, чтобы генерировать микширование с понижением пространственного сигнала объемного звучания для, например, стереосигнала. Например, кодер 209 может генерировать микширование с понижением путем перемножения значений образца звукового объекта с помощью матрицы микширования с понижением, чтобы генерировать значения образца микширования с понижением.

Кодер 209 генерирует битовый поток, содержащий как данные кодирования для ограниченного числа каналов, так и ассоциированные параметрические данные. Эти данные передаются декодеру 215.

Декодер 215 содержит модуль 303 объектно-ориентированного декодера, который генерирует локальные приблизительные реплики исходных звуковых объектов, основанные на принятых звуковых каналах и принятых параметрических данных. В частности, модуль 303 объектно-ориентированного декодера объекта может генерировать звуковые объекты с помощью применения матрицы микширования с повышением для принятых звуковых образцов. Коэффициенты матрицы микширования с повышением определяются в ответ на параметрические данные, принятые от кодера 209.

Декодер 215 к тому же содержит воспроизводящий модуль 305, который приспособлен, чтобы генерировать выходной сигнал, основанный на входных звуковых сигналах. Воспроизводящий модуль 305 может свободно обрабатывать и микшировать принятые звуковые объекты, чтобы генерировать желаемый выходной сигнал. Например, воспроизводящий модуль 305 может генерировать пятиканальный сигнал объемного звучания и может свободно располагать каждый отдельный звуковой объект в генерированной фонограмме. В качестве другого примера воспроизводящий модуль 305 может генерировать бинауральный стереосигнал, который обеспечивает пространственное впечатление через, например, набор наушников.

Во многих существующих системах функциональные возможности декодирующего модуля 303 и воспроизводящего модуля 305 объединены в едином этапе обработки. Например, работа декодирующего модуля 303 обычно соответствует матричному перемножению с помощью матрицы микширования с повышением, и работа воспроизводящего модуля 305 подобным образом соответствует матричному перемножению, выполненному на выходе матричного перемножения микширования с повышением. Таким образом, объединяя микшированную с повышением и воспроизводящую матрицы в единую матрицу, каскадное матричное перемножение может быть объединено в единое матричное перемножение.

В конкретном примере восстанавливающий модуль 305 может расположить каждого отдельного говорящего абонента в телефонной конференции на разных местах в фонограмме с особым положением каждого говорящего абонента, являющимся свободно выбранным, например, пользователем, управляющим воспроизводящим модулем 305. В качестве другого примера, если звуковой объект соответствует разным музыкальным инструментам из фрагмента музыки, пользователь может свободно микшировать, выравнивать и т.д. отдельные инструменты так же, как и свободно располагать их в фонограмме. Таким образом, описанный подход допускает высокую степень свободы отдельного пользователя при управлении разными звуковыми объектами, чтобы генерировать заказанный выходной звуковой сигнал, который может быть независимым от звукового выходного сигнала, генерированного для других пользователей или получателей кодированного сигнала от кодера 209.

Однако несмотря на получение большой степени гибкости путем управления звуковыми объектами в воспроизводящем модуле 305 такое управление может также привести к ухудшению качества генерированного звукового сигнала. В частности, чтобы генерировать точные реплики звуковых объектов в декодере 215, необходимо применять микшированную с повышением матрицу, которая представляет собой инверсию микшированной с понижением матрицы, использованной в кодере 209. Однако это в общем случае невозможно (например, невозможно, когда число генерированных звуковых сигналов меньше, чем число звуковых объектов, так как не существует инверсной матрицы для микшированной с понижением матрицы в этом случае), и, соответственно, могут быть получены только приближения исходных звуковых сигналов. В частности, звуковые объекты, полученные в декодере, будут содержать сумму перекрестных помех от других звуковых объектов. В качестве результата управление одним звуковым объектом будет влиять на восприятие и характеристики другого звукового объекта, что может привести к ухудшенной эффективности и значительным дефектам.

В системе на фиг.3 кодер 215 способен к тому же генерировать данные управления в форме модификационных данных кодирования, которые передаются кодеру 209. Модификационные данные кодирования затем оцениваются кодером 209, который модифицирует процесс кодирования в зависимости от принятой управляющей информации. В частности кодер 209 способен модифицировать микширование с понижением звуковых объектов и пространственные параметры, которые созданы для микширования с понижением. В качестве конкретного примера модификационные данные кодирования могут точно определять, что громкость одного конкретного звукового объекта следует понизить. Таким образом, кодер 209 понижает уровень этого звукового объекта (например, перед или как часть операции микширования с понижением) и модифицирует (прямо или опосредованно) параметрические данные для звукового объекта так, что когда звуковой объект декодируется на декодере, уровень будет понижен соответственным образом, и предпочтительно так, чтобы модифицированные параметрические данные правильно представляли изменение в уровне для соответствующего звукового объекта(ов).

Этот подход допускает, таким образом, для некоторых или всех объектов управления, которое должно быть выполнено на кодирующей стороне. Так как кодер имеет скорее доступ к исходным независимым звуковым объектам, чем прямо к близким репликам, то может быть достигнута улучшенная эффективность, и, в частности, может быть возможно обеспечить улучшенное качество. Например, перекрестные помехи уменьшаются, и поэтому влияние на другие звуковые объекты повышения или понижения громкости одного звукового объекта может быть существенно уменьшено или даже полностью устранено.

Фиг.4 иллюстрирует кодер 209 более подробно. В дальнейшем работа кодера 209 будет описана более подробно со ссылкой на конкретный пример, в котором сторона декодера генерирует модификационные данные кодирования, которые передаются кодеру и используются для управления соответствующими уровнями отдельных звуковых объектов.

Кодер 209 содержит приемный модуль 401, принимающий звуковые объекты, которые в данном случае являются речевыми сигналами, принятыми от удаленных модулей связи, таких как телефоны, принимающие участие в телеконференции. Речевые объекты подаются кодирующему модулю 403, которое микширует с понижением объекты в число звуковых сигналов, которое ниже, чем число речевых звуковых объектов. В частности, кодирующий модуль 403 выполняет матричное перемножение, приведенное ниже:

Y=D×X

где Х обозначает N размерный вектор, содержащий образцы объектов речи (где N - это число речевых объектов), Y - это М размерный вектор, содержащий микшированные с понижением выходные образцы (где М - это число выходных сигналов) и D - это N, M микшированные с понижением матрицы. М может быть значительно ниже, чем N. Например, для телеконференции по шести направлениям пять речевых сигналов могут быть смикшированы с понижением в единый моносигнал, который передается шестому модулю связи.

Кодер 209 к тому же содержит параметрический модуль 405, который генерирует параметрические данные, которые могут быть использованы, чтобы воссоздавать звуковые объекты из микшированных с понижением сигналов. Главным образом, параметрический модуль 405 генерирует набор параметров объекта для каждого речевого объекта, который может быть использован декодером 215 для воссоздания объектов речи. В идеале, параметры объекта могли бы быть определены так, чтобы микшированная с повышением матрица, соответствующая инверсии матрицы, микшированной с понижением, могла бы быть определена, т.е. матрица, микшированная с повышением U=D-1. Однако инверсная матрица не существует для матрицы, микшированной с понижением (где N>M), и поэтому параметрические данные могут быть генерированы только такие, которые позволяют неидеальное воспроизведение исходных объектов речи.

Таким образом, параметрический модуль 405 генерирует параметры, которые представляют характеристики отдельных речевых объектов, соответствующих сигналу, микшированному с понижением. В конкретном примере параметрический модуль сначала трансформирует речевой объект в частотном домене во временных блоках (например, с помощью использования FFT) и затем выполняет перемножение матрицы, микшированной с понижением, для каждого частотно-временного блока (или временного частотного заголовка). Более того, для частотно-временных блоков, соответствующая амплитуда каждого речевого объекта соответствующего результата микширования с понижением определена. Таким образом, параметрический модуль 405 генерирует информацию соответствующего уровня, описанную в отдельных временных/частотных заголовках для различных речевых объектов. В связи с этим вектор уровня сформирован для временных/частотных заголовков с каждым элементом вектора, представляющего сумму энергий во временном/частотном заголовке объекта этого элемента. Этот процесс может привести к набору энергетических параметров σbtn для полосы частот b, временного сегмента t и сигнала n. Эти параметры могут затем быть переданы (желательно в квантованном, логарифмическом домене) на приемный конец. Таким образом, этот подход для генерирования параметрических данных может быть схож с подходом, используемым для MPEG пространственного окружающего кодирования, и многократное использование функциональных возможностей может быть достигнуто во многих осуществлениях.

Параметрический модуль 405 и кодирующий модуль 403 соединены с передающим процессором 407, который генерирует битовый поток, содержащий как кодирующие данные, так и параметрические данные. В частности, битовый поток может быть MPEG совместимым кодированным стереосигналом с параметрическими данными, включенными в части дополнительных данных битового потока. Результирующий битовый поток затем передается соответствующему модулю связи.

Фиг.5 иллюстрирует декодер 215 более подробно. Декодер 215 содержит объектно-ориентированный декодирующий модуль 303, который генерирует приблизительные реплики речевых объектов. В частности, декодирующий модуль 303 может генерировать временные частотные заголовки отдельных речевых объектов с помощью модификации соответствующих временных частотных заголовков принятого микшированного с понижением сигнала, как определяемые соответствующим относительным перепадом уровней для того объекта, который приведен в параметрических данных.

Если отдельный речевой сигнал для объекта n задается функцией x n (t) с присвоенными энергетическими параметрами и микшированным с понижением сигнала m(t), то расширение на стороне декодера речевого сигнала x n (t) для временного/частотного сигнала (b, t) может быть задано с помощью:

Речевые объекты подаются воспроизводящему модулю 305, который может продолжать генерировать выходной сигнал для пользователя. Более того, в этом примере пользователь может быть способен регулировать различные параметры и характеристики, включающие в себя, например, изменение положения одного и более речевых объектов в сформированной фонограмме.

В дополнение, декодер 215 содержит управляющий процессор 501, который может генерировать модификационные данные кодирования в ответ на входной сигнал пользователя. Модификационные данные кодирования подаются на передающий модуль 503, который передает модификационные данные кодирования кодеру 209.

Кодер 209 содержит приемник 409 управляющих данных, который принимает модификационные данные кодирования. Приемник 409 управляющих данных соединен с кодирующим модулем 403 и параметрическим модулем 405, которые приспособлены для модификации кодирования и генерирования параметрических данных в зависимости от принятых модификационных данных кодирования. Таким образом, в дополнение к управлению воспроизведением речевых объектов на декодере пользователь может также управлять операцией кодирования объектно-ориентированного кодирования, выполненной на стороне кодирования.

В качестве конкретного примера пространственной фонограммой и пространственным расположением объектов в генерированном выходном сигнале декодера можно управлять путем модифицирования операции воспроизведения декодера, поскольку регулировки (большие) громкости могут быть выполнены с помощью управления микшированием с понижением на кодере.

Таким образом, пользователь декодера может потребовать, чтобы громкость конкретного речевого объекта повышалась существенно. Если это выполнено с помощью усиления соответствующего речевого объекта на декодере, усилитель будет также усиливать компоненты перекрестных помех от других речевых объектов, что может приводить не только к их высокой громкости, но также к искажению этих объектов и, возможно, к смещению положения этих объектов.

Однако в соответствии с этим примером декодер 215 не изменяет масштабирования генерированных реплик речевых объектов, но скорее генерирует модификационные данные кодирования, которые заставят кодер модифицировать микшированные с понижением веса для желаемых объектов речи.

Таким образом, в этом примере недостатки, связанные с изменением уровней отдельных звуковых объектов на стороне декодера, уменьшены или устранены путем управления соответствующими уровнями на стороне кодера. В частности, модификации желаемого уровня пользователя на стороне декодера передаются кодеру и применяются как веса, микшированные с понижением.

В примере с телеконференцией приемный конец также передает локально полученную речь обратно центру телеконференции. Соответственно, речевой сигнал может быть включен в веса, микшированные с понижением, для всех объектов, которые приняты приемником (или с помощью данных, которые вызывают в приемнике изменение весов, микшированных с понижением, например соответствующее ослабление или усиление, которое должно быть применено к конкретному речевому объекту). Например, если приемный конец производит сигнал «речь 0» и принимает сигнал «речь 1», «речь 2» и «речь 3» от других модулей связи, он может генерировать и передавать веса, микшированные с понижением, для объектов «речь 1», «речь 2» и «речь 3». Эти веса, микшированные с понижением, затем используются центром телеконференции, чтобы генерировать микшированный с понижением сигнал этого приемного конца.

Преимущество этой схемы состоит в том, что пользователь имеет высокую степень свободы при модифицировании, например, громкости или расстояния каждого отдельного речевого сигнала. Более того, веса, микшированные с понижением (и другие параметры), вероятно должны быть довольно постоянны во времени, и к тому же скорость передачи данных, требуемая для модификационных данных кодирования, обычно очень низкая.

В некоторых осуществлениях кодер 209 может быть приспособлен для модификации, по меньшей мере, одного из звуковых объектов, прежде чем выполнено микширование с понижением. Например, кодирующий модуль 403 может масштабировать принятые звуковые сигналы перед выполнением перемножения матриц, микшированных с понижением. Таким образом, если приняты модификационные данные кодирования, которые указывают, какой конкретный речевой объект должен быть понижен, то образцы принятого сигнала для этого объекта могут быть умножены на коэффициент больший, чем единица. Результирующий сигнал затем может быть использован при перемножении матриц, микшированных с понижением, чтобы генерировать сигнал, микшированный с понижением. Этот подход может сделать возможной фиксированную матрицу, микшированную с понижением, которая должна быть использована, и может, в частности, допустить подходящую степень свободы для перемножения коэффициентов, которые должны быть использованы (например, микшированная с понижением матрица может содержать только единичные коэффициенты, таким образом, эффективно понижая перемножение, микшированное с понижением, до числа простых суммирований).

В примере определение параметров объекта может быть определено на основании модифицированных сигналов. Таким образом, масштабированные речевые объекты могут также подаваться на параметрический модуль 405, который может определять соответствующие уровни частотных временных заголовков для модифицированных сигналов. Этот подход приведет к процессу микширования с повышением с помощью декодера, генерирующего речевой объект, имеющий желаемый уровень громкости. Таким образом, в этом подходе модификация параметрических данных в зависимости от модификационных данных кодирования является косвенной, в том смысле, что модификационные данные кодирования сначала используются для модификации речевых объектов и параметрические данные генерируются потом на основании модифицированных речевых объектов.

В других осуществлениях параметрические данные могут быть модифицированы более непосредственно. Например, речевые объекты могут быть поданы прямо параметрическому модулю 405, прежде чем будет выполнена какая-либо модификация. Параметрический модуль 405 может потом определять соответствующие уровни интенсивности для разных частотно-временных заголовков и позже регулировать измеренные уровни в ответ на модификационные данные кодирования. Эта модификация может быть проделана, чтобы согласовать модификацию речевого объекта прежде микширования с понижением кодирования, таким образом, гарантируя правильное генерирование громкости компенсированного речевого объекта на декодере.

В некоторых осуществлениях только параметрические данные изменяются в ответ на модификационные данные кодирования и речевые объекты, и микширование с понижением поддерживается неизменным. В этом примере параметры объекта могут быть изменены так, что декодер будет генерировать требуемые речевые объекты с помощью применения модифицированных параметров объекта. В этом случае, чтобы модифицировать данный речевой объект, может быть необходимо не только изменить параметр объекта для речевого объекта, но также для других речевых объектов.

В некоторых осуществлениях веса, микшированные с понижением (например, коэффициенты матрицы, микшированной с понижением), могут быть изменены в ответ на принятые модификационные данные кодирования. Например, громкость конкретного звукового объекта может быть увеличена путем повышения коэффициента(ов) микшированных с понижением матриц для этого речевого объекта. В этом случае модифицированный сигнал речевого объекта обычно непригоден, и, соответственно, параметры объекта могут быть изменены непосредственно в ответ на модификационные данные кодирования, так чтобы они отражали измененные веса, микшированные с понижением.

Будет также понятно, что в некоторых таких осуществлениях модификация одного речевого объекта может также влиять на другие речевые объекты. Например, при изменении веса, микшированного с понижением, одного речевого объекта, другие веса, микшированные с понижением, могут быть отрегулированы так, что полная энергия сигнала, микшированного с понижением, остается неизменной. Альтернативно или дополнительно, соответствующие энергетические параметры для частотно-временных заголовков других речевых объектов могут быть модифицированы, чтобы отражать измененную энергию генерированного сигнала, микшированного с понижением.

В некоторых осуществлениях модификационные данные кодирования могут быть частотным признаком, так что обеспечиваются разные модификационные данные для разных частот. Например, скорее, чем просто указание модифицированного веса, микшированного с понижением, для данного речевого объекта этот микшированный с понижением вес может быть задан как функция частоты. Таким образом, удаленный пользователь может не только регулировать усиление речевого объекта как единое целое, но может модифицировать частотную характеристику объекта. Это может дать удаленному пользователю возможность эффективно управлять операцией выравнивания для отдельного речевого объекта. Таким образом, в этом примере, по меньшей мере, некоторые из модификационных данных кодирования получены как функция частоты, и параметрический модуль 405, соответственно, продолжает модифицировать параметрические данные в зависимости от частоты.

Будет понятно, что передатчик 201 может быть приспособлен, чтобы генерировать отдельные сигналы для разных декодеров. Например, в приведенном примере применения центра телеконференции передатчик 201 может принимать разные модификационные данные кодирования от разных участников телеконференции и может генерировать отдельные параметрические данные и микширование с понижением для отдельных участников.

В некоторых осуществлениях кодер 209 к тому же содержит функциональные возможности для генерирования выходного сигнала(ов) как пространственное микширование с понижением. Таким образом, в этом примере кодер 209 приспособлен, чтобы воспроизводить речевые объекты как пространственный выходной сигнал, в котором каждый речевой объект воспроизведен как конкретное расположение с конкретным уровнем громкости и частотной характеристикой и т.д. В частности, выходным сигналом кодера 209 может быть стереосигнал, многоканальный сигнал объемного звука и/или бинауральный пространственный объемный сигнал, например, генерированный с использованием Функции Регулирования Восприятия Звука (Head Related Transfer Functions).

В таких осуществлениях модификационные данные кодирования, принятые от декодера 215, могут содержать пространственные параметры восстановления, которые влияют на восстановление речевых объектов в пространственном сигнале.

Пространственные параметры восстановления могут, например, указывать, что положение одного или более звуковых объектов следует изменить в пространственном выходном микшировании. В качестве другого примера, данные выравнивания могут быть получены как данные, которые могут быть применены к отдельному звуковому объекту. В качестве другого примера воспринимаемым расстоянием каждого звукового объекта можно удаленно управлять на конце декодера. Например, если приняты модификационные данные кодирования, которые указывают, что звуковой объект должен быть передвинут дальше в пространственном микшировании с понижением, то воспроизведение этого звукового объекта может быть изменено так, что уровень громкости уменьшается и корреляция между передним и задним каналами увеличивается. Такие модификации известны, чтобы так влиять на восприятие расстояния, чтобы в итоге пользователь, воспринимающий звуковой источник звукового объекта, отодвинулся дальше от слушателя.

В другом примере удаленный пользователь может управлять модой пространственного воспроизведения кодера. Например, для двухканального выходного сигнала пользователь может выбирать, следует ли оптимизировать воспроизведение для громкоговорителей или наушников. В частности, удаленный пользователь может выбирать, следует ли генерировать выходной сигнал как обычный стереосигнал или как бинауральный пространственный объемный сигнал для использования с наушниками.

Такой подход может обеспечить ряд преимуществ. Например, требуемая битовая скорость для передачи пространственных параметров воспроизведения обычно соответственно низкая, так как параметры восстановления определяются только источником звука (т.е. они обычно не зависят от частоты). Более того, эти параметры вероятно должны быть в некоторой степени постоянными во времени. Требуемые параметры для подхода воспроизведения на стороне декодера, с другой стороны, должны быть переданы для каждого источника звука и для каждого временного/частотного заголовка, приводя в итоге к значительным количествам данных, которые должны быть переданы. Таким образом, передвигая некоторые или все из воспроизведений на сторону кодера, может быть получена эффективная звуковая система.

Также может быть достигнута улучшенная совместимость с традиционными декодерами. Центральный кодер может генерировать битовый поток, который оптимизирован для каждого декодера независимо (т.е. моно-, стереодекодеры или декодеры объемного звучания все могут быть приняты во внимание, и генерированный сигнал может быть оптимизирован для конкретного предназначенного декодера).

Подход может допускать предоставление дополнительного или расширенного обслуживания. Например, каждый покупатель может заплатить дополнительную плату за определенные возможности воспроизведения (т.е. регулировки уровня - это первый уровень обслуживания, а пространственное воспроизведение может быть вторым, более дорогим обслуживанием).

К тому же, так как требования к воспроизведению для декодера могут быть понижены, то пониженная сложность предназначенного декодера возможна во многих применениях.

Фиг.6 иллюстрирует пример способа кодирования звуковых сигналов в соответствии с некоторыми осуществлениями изобретения.

Способ иллюстрирует этап 601, на котором принимают множество звуковых объектов.

Этап 601 следует за этапом 603, на котором модификационные данные кодирования получены от удаленного модуля.

Этап 603 следует за этапом 605, на котором множество звуковых объектов кодируют в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов соответствующих числу звуковых сигналов. Параметрические данные содержат набор параметров объекта для каждого из разных звуковых объектов и определяются в ответ на модификационные данные.

Фиг.7 иллюстрирует пример способа декодирования звуковых объектов в соответствии с некоторыми осуществлениями изобретения.

Способ начинается на этапе 701, в котором число звуковых сигналов и параметрических данных, представляющих звуковые объекты, соответствующие числу звуковых сигналов, принимают от кодера. Звуковые сигналы представляют собой микширование с понижением звуковых объектов, и параметрические данные содержат набор параметров объекта для каждого из разных звуковых объектов.

Этап 701 следует за этапом 703, на котором звуковые объекты декодируют из числа звуковых сигналов в ответ на параметрические данные.

Этап 703 следует за этапом 705, на котором пространственный многоканальный выходной сигнал генерируют из звуковых объектов.

Этап 705 следует за этапом 707, на котором модификационные данные кодирования генерируют для кодера объекта.

Этап 707 следует за этапом 709, на котором модификационные данные кодирования передают кодеру объекта.

Будет понятно, что в вышеприведенном описании для пояснения описаны осуществления изобретения в отношении разных функциональных модулей и процессоров. Однако будет видно, что любое подходящее распределение функциональных возможностей между разными функциональными модулями или процессорами может быть использовано без умаления значения изобретения. Например, функциональные возможности, проиллюстрированные, чтобы быть выполненными отдельными процессорами или контроллерами, могут быть выполнены одним и тем же процессором или контроллером. Поэтому отсылки к конкретным функциональным модулям должны рассматриваться скорее только как отсылки к подходящим средствам для получения описанных функциональных возможностей, чем как указание на строго логическую или физическую структуру или организацию.

Изобретение может быть воплощено в любой подходящей форме, включающей в себя аппаратное обеспечение, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Изобретение может дополнительно быть воплощено, по меньшей мере, частично в виде программного компьютерного обеспечения, установленного на одном или более процессоре данных и/или процессоре цифровых сигналов. Элементы и компоненты осуществления изобретения могут быть физически, функционально и логически воплощены любым подходящим образом. В самом деле, функциональные возможности могут быть воплощены в едином модуле, во множестве модулей или как часть других функциональных модулей. По существу изобретение может быть осуществлено в едином устройстве или может быть физически и функционально распределено между разными модулями и процессорами.

Хотя настоящее изобретение было описано в связи с некоторыми осуществлениями, оно не исчерпывается здесь набором конкретных форм. Скорее объем настоящего изобретения ограничивается только сопровождающей формулой. Дополнительно, хотя признак может появиться, чтобы быть описанным в связи с конкретными осуществлениями, специалисту в данной области техники будет понятно, что различные признаки описанных осуществлений могут быть объединены в соответствии с изобретением. В пунктах формулы изобретения содержащиеся термины не исключают наличия других элементов или этапов.

Более того, хотя они отдельно перечислены, множество средств, элементов или этапов способа могут быть осуществлены с помощью единого модуля или процессора. Дополнительно, хотя отдельные признаки могут быть включены в разные пункты формулы, они, возможно, могут быть преимущественно скомбинированы, и включение в разные пункты формулы не предполагает, что комбинирование признаков не возможно и/или не полезно. Также включение признаков в одну категорию пунктов признаков не предполагает ограничение этой категории, но скорее указывает на то, что признак одинаково годится для других категорий формулы, как подходящий. К тому же, порядок признаков в формуле изобретения не предполагает любого конкретного порядка, в котором признаки должны быть выполнены, и в особенности порядок отдельных этапов в пунктах, касающихся способа, не предполагает, что этапы должны выполняться в этом порядке. Скорее, этапы могут быть выполнены в любом подходящем порядке. В дополнение однократные ссылки не исключают множественности. Таким образом, отсылки к “a”, “an”, “первый”, “второй” и т.д. не препятствуют множественности. Знаки отсылок в пунктах формулы предназначены просто в качестве поясняющих примеров, которые не должны ограничивать объем формулы каким-либо образом.

1. Кодер для кодирования звуковых объектов, содержащий:
средство (401) для приема множества звуковых объектов;
кодирующее средство (403) для кодирования множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, для одного их различных звуковых объектов;
средство (409) для приема модификационных данных кодирования от удаленного модуля; и
параметрическое средство (405) для определения параметрических данных в ответ на модификационные данные кодирования.

2. Кодер по п.1, в котором кодирующее средство выполнено с возможностью генерирования числа звуковых сигналов с помощью микширования с понижением звуковых объектов, и параметрическое средство (405) выполнено с возможностью модифицирования микшированного с понижением веса, по меньшей мере, одного из звуковых объектов в ответ на модификационные данные кодирования.

3. Кодер по п.1, в котором параметрическое средство (405) выполнено с возможностью масштабирования, по меньшей мере, первого звукового объекта в ответ на модификационные данные кодирования и модифицирования параметров объекта для первого звукового объекта в ответ на масштабирование.

4. Кодер по п.1, в котором, по меньшей мере, некоторые из модификационных данных кодирования специфичны для частоты и параметрическое средство (405) выполнено с возможностью определения, по меньшей мере, одного параметра объекта в ответ на частотную характеристику параметра объекта.

5. Кодер по п.1, в котором кодирующее средство (403) выполнено с возможностью модифицирования, по меньшей мере, одного звукового объекта в ответ на модификационные данные кодирования перед микшированием с понижением звуковых объектов в число звуковых сигналов.

6. Кодер по п.1, в котором кодирующее средство (403) выполнено с возможностью генерирования числа звуковых сигналов в виде пространственного микширования с понижением.

7. Кодер по п.6, в котором кодирующее средство (403) выполнено с возможностью модифицирования в ответ на модификационные данные кодирования, по меньшей мере, одной характеристики, выбранной из группы, состоящей из:
пространственного расположения, по меньшей мере, одного из звуковых объектов;
характеристики расстояния, по меньшей мере, одного из звуковых объектов;
пространственной моды воспроизведения кодера и
частотной характеристики, по меньшей мере, одного из звуковых объектов.

8. Кодер по п.1, в котором каждый звуковой объект ассоциирован с набором звуковых источников, которые не зависят от звуковых источников других звуковых объектов.

9. Кодер по п.1, в котором кодер выполнен с возможностью приема первого звукового объекта от удаленного модуля, и средство (409) для приема модификационных данных кодирования выполнено с возможностью извлечения модификационных данных кодирования из данных кодирования, принятых для первого звукового объекта.

10. Кодер по п.1, в котором кодер выполнен с возможностью приема модификационных данных кодирования от множества удаленных модулей и генерирования различных параметрических данных для разных удаленных модулей в ответ на прием различных модификационных данных кодирования от разных удаленных модулей.

11. Декодер для декодирования звуковых объектов, содержащий:
приемник (303) для приема от кодера числа звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, для одного из различных звуковых объектов;
декодирующее средство (303) для декодирования звуковых объектов из числа звуковых сигналов в ответ на параметрические данные;
воспроизводящее средство (305) для генерирования пространственного многоканального выходного сигнала из звуковых объектов;
средство для генерирования (501) модификационных данных кодирования для кодера объекта и
средство для передачи (503) модификационных данных кодирования кодеру объекта.

12. Центр телеконференции для поддержки конференц-связи между множеством модулей связи, содержащий:
средство (401) для приема первого множества речевых сигналов от множества модулей связи;
кодирующее средство (403) для кодирования для первого модуля связи первого множества речевых сигналов в число звуковых сигналов и параметрических данных, представляющих множество речевых сигналов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, для одного из различных речевых сигналов;
средство для приема (409) модификационных данных кодирования от первого модуля связи;
параметрическое средство (405) для определения параметрических данных в ответ на модификационные данные и
средство (407) для передачи числа звуковых сигналов и параметрических данных первому модулю связи.

13. Передатчик для передачи звуковых сигналов, содержащий:
средство (401) для приема множества звуковых объектов;
кодирующее средство (403) для кодирования множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, для одного из различных звуковых объектов;
средство для приема (409) модификационных данных кодирования от удаленного модуля и
параметрическое средство (405) для определения параметрических данных в ответ на модификационные данные.

14. Приемник для приема звуковых сигналов, содержащий:
приемный элемент (303) для приема от кодера числа звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, для одного из различных звуковых объектов;
декодирующее средство (303) для декодирования звуковых объектов из числа звуковых сигналов в ответ на параметрические данные;
воспроизводящее средство (305) для генерирования пространственного многоканального выходного сигнала из звуковых объектов; средство (501) для генерирования модификационных данных кодирования для кодера объекта и
средство (503) для передачи модификационных данных кодирования кодеру объекта.

15. Система связи для обмена звуковыми сигналами, содержащая:
передатчик (201), содержащий:
средство (401) для приема множества звуковых объектов;
кодирующее средство (403) для кодирования множества звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, для одного из различных звуковых объектов; и
средство (407) для передачи числа звуковых сигналов и параметрических данных приемнику; и
приемник (203), содержащий:
приемный элемент (303) для приема от передатчика числа звуковых сигналов и параметрических данных,
декодирующее средство (303) для декодирования звуковых объектов из числа звуковых сигналов в ответ на параметрические данные,
воспроизводящее средство (305) для генерирования пространственного многоканального выходного сигнала из звуковых объектов,
средство (501) для генерирования модификационных данных кодирования для кодирующего средства и средство (503) для передачи модификационных данных кодирования передатчику;
и причем передатчик (201) содержит:
средство (409) для приема модификационных данных кодирования от приемника;
параметрическое средство (405) для определения параметрических данных в ответ на модификационные данные кодирования.

16. Способ кодирования звуковых сигналов, содержащий этапы, на которых:
принимают (601) множество звуковых объектов;
кодируют (603) множество звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, для одного из различных звуковых объектов;
принимают (605) модификационные данные кодирования от удаленного модуля и
определяют (603) параметрические данные в ответ на модификационные данные.

17. Способ декодирования звуковых сигналов, содержащий этапы, на которых:
принимают (701) от кодера число звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, для одного из различных звуковых объектов;
декодируют (703) звуковые объекты из числа звуковых сигналов в ответ на параметрические данные;
генерируют (705) пространственный многоканальный выходной сигнал из звуковых объектов;
генерируют (707) модификационные данные кодирования для кодера объекта и
передают (709) модификационные данные кодирования кодеру объекта.

18. Способ передачи звуковых сигналов, содержащий этапы на которых:
принимают (601) множество звуковых объектов;
кодируют (603) множество звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, для одного из различных звуковых объектов;
принимают (605) модификационные данные кодирования от удаленного модуля;
определяют (603) параметрические данные в ответ на модификационные данные и
передают число звуковых сигналов и параметрических данных.

19. Способ приема звуковых сигналов, содержащий этапы, на которых:
принимают (701) от кодера число звуковых сигналов, являющихся микшированием с понижением множества звуковых объектов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, для одного из различных звуковых объектов;
декодируют (703) звуковые объекты из числа звуковых сигналов в ответ на параметрические данные;
генерируют (705) пространственный многоканальный выходной сигнал из звуковых объектов;
генерируют (707) модификационные данные кодирования для кодера объекта и
передают (709) модификационные данные кодирования кодеру объекта.

20. Способ связи для обмена звуковыми сигналами в системе связи, содержащей передатчик и приемник, содержащий:
передатчик (101), выполняющий этапы, на которых:
принимают (601) множество звуковых объектов;
кодируют (603) множество звуковых объектов в число звуковых сигналов и параметрических данных, представляющих множество звуковых объектов, соответствующих числу звуковых сигналов, причем параметрические данные содержат набор параметров объекта, по меньшей мере, для одного из различных звуковых объектов; и
передают число звуковых сигналов и параметрических данных приемнику, и
приемник, выполняющий этапы, на которых:
принимают (701) от передатчика число звуковых сигналов и параметрических данных;
декодируют (703) звуковые объекты из числа звуковых сигналов в ответ на параметрические данные;
генерируют (705) пространственный многоканальный выходной сигнал из звуковых объектов;
генерируют (707) модификационные данные кодирования для кодирующего средства и
передают (709) модификационные данные кодирования кодеру объекта; и
причем передатчик дополнительно выполняет этапы, на которых:
принимают (605) модификационные данные кодирования от приемника и определяют (603) параметрические данные в ответ на модификационные данные кодирования.

21. Звукопроигрывающее устройство (203), содержащее декодер (215) по п.11.



 

Похожие патенты:

Изобретение относится к кодирующему и декодирующему устройствам и их способам, используемым в системе связи с масштабируемой схемой кодирования. .

Изобретение относится к кодерам и декодерам, в частности к эффективному способу кодирования спектра модифицированного дискретного косинусного преобразования (MDCT) как части масштабируемого речевого и аудиокодека.

Изобретение относится к кодерам и декодерам, в частности к эффективному способу кодирования спектра модифицированного дискретного косинусного преобразования (MDCT) как части масштабируемого речевого и аудиокодека.

Изобретение относится к устройству и способу кодирования речи, в частности к устройству и способу кодирования речи для выполнения поиска фиксированной кодовой книги.

Изобретение относится к устройству и способу кодирования речи, в частности к устройству и способу кодирования речи для выполнения поиска фиксированной кодовой книги.

Изобретение относится к устройству поиска в фиксированной таблице кодирования, которое немного сдерживает увеличение объема операций, даже если фильтр, применяемый к импульсу возбуждения, имеет характеристику, которая не может быть представлена посредством нижней треугольной матрицы, и реализует квазиоптимальный поиск в фиксированной таблице кодирования.

Изобретение относится к кодированию аудиосигналов, в частности к кодированию любого аудиосигнала, не ограничиваясь речью, музыкой или их комбинацией. .

Изобретение относится к устройству и способу обработки аудиосигнала для эффективного кодирования и декодирования различных типов аудиосигналов. .

Изобретение относится к способам и устройствам кодирования и декодирования аудиосигнала, в которых звуковые образы могут быть локализованы в любой требуемой позиции для каждого объектного аудиосигнала.

Изобретение относится к способам и средствам для декодирования информации о фоновом шуме в процессе кодирования речевого сигнала. .

Изобретение относится к кодированию и/или декодированию звука с использованием структур иерархического кодирования и/или структур иерархического декодирования

Изобретение относится к индексации входного вектора, содержащегося в наборе векторов, входящем в множество наборов векторов

Изобретение относится к способам и средствам для кодирования информации фонового шума в способе кодирования речевого сигнала

Изобретение относится к области техники связи, в частности к способу и устройству для кодирования и декодирования

Изобретение относится к области техники связи, в частности к способу и устройству для кодирования и декодирования

Изобретение относится к способу цифрового кодирования звукового сигнала, например речевого или аудиосигнала, в частности к способу и устройству кодирования кадров перехода и кадров, следующих за переходом в звуковом сигнале

Изобретение относится к кодированию речевых и аудиосигналов

Изобретение относится к способам обработки цифровых сигналов, в частности к сжатию сигнала и передаче огибающей спектра
Наверх