Компактная дополнительная информация для параметрического кодирования пространственного звука

Изобретение относится к кодированию звуковых сигналов и последующему синтезу слуховых пространств из закодированных звуковых данных. В звуковом кодере коды характеристик формируются для одного или более звуковых каналов, при этом комбинированный код характеристик (например, комбинированный код межканальной корреляции (ICC)) формируется посредством объединения двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более каналов. В звуковом декодере Е передаваемые звуковые каналы декодируются для формирования С воспроизводимых звуковых каналов. Принятые коды характеристик включают в себя комбинированный код характеристик (например, комбинированный код ICC). Один или более передаваемых каналов разводятся для формирования одного или более разведенных каналов. Один или более воспроизводимых каналов синтезируются посредством применения кодов характеристик к одному или более разведенным каналов, при этом два или более получаемых кодов характеристик получаются из комбинированного кода характеристик, и каждый получаемый код характеристик используется для формирования двух или более синтезированных каналов. 8 н. и 20 з.п. ф-лы, 12 ил.

 

Перекрестная ссылка на родственные заявки

Сущность изобретения по настоящей заявке соответствует сущности изобретения по нижеследующим заявкам на патент США, все идеи которых включены в настоящую заявку посредством ссылки:

- Заявка на патент США под порядковым номером 09/848877, поданная 4 мая 2001 года, с кодом реестра поверенного №Faller 5;

- Заявка на патент США под порядковым номером 10/045458, поданная 7 ноября 2001 года, с кодом реестра поверенного № Baumgarte 1-6-8, по которой испрашивается приоритет по дате подачи предварительной заявки на патент США №60/311565, поданной 10 августа 2001 года;

- Заявка на патент США под порядковым номером 10/155437, поданная 24 мая 2002 года, с кодом реестра поверенного № Baumgarte 2-10;

- Заявка на патент США под порядковым номером 10/246570, поданная 18 сентября 2002 года, с кодом в реестре поверенного № Baumgarte 3-11;

- Заявка на патент США под порядковым номером 10/815591, поданная 1 апреля 2004 года, с кодом в реестре поверенного № Baumgarte 7-12;

- Заявка на патент США под порядковым номером 10/936464, поданная 8 сентября 2004 года, с кодом в реестре поверенного № Baumgarte 8-7-15;

- Заявка на патент США под порядковым номером 10/762100, поданная 20 января 2004 года (Faller 13-1);

- Заявка на патент США под порядковым номером 11/006492, поданная 7 декабря 2004 года, с кодом в реестре поверенного № Allamanche 1-2-17-3; и

- Заявка на патент США под порядковым номером 11/006,,______, поданная 7 декабря 2004 года, с кодом в реестре поверенного № Allamanche 2-3-18-4.

Сущность изобретения по настоящей заявке соответствует существу изложения нижеследующих статей, все идеи которых включены в данную заявку посредством ссылки:

- F.Baumgarte and C.Faller, “Binaural Cue Coding - Part I: Psychoacoustic fundamentals and design principles”, IEEE Trans. on Speech and Audio Proc., т.11, N.6, ноябрь 2003;

- C. Faller and F.Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications”, IEEE Trans. on Sheech and Audio Proc., т.11, N.6, ноябрь 2003; и

- C.Faller, “Coding of spatial audio compatible with different playback formats”, Preprint 117th Conv. Aud. Eng. Soc., октябрь 2004 г.

Область техники, к которой относится изобретение

Настоящее изобретение относится к кодированию звуковых сигналов и последующему синтезу слуховых пространств из закодированных звуковых данных.

Описание предшествующего уровня техники

Когда человек слышит звуковой сигнал (т.е. звуки), формируемые конкретным источником звука, звуковой сигнал будет в типичном случае достигать левого и правого уха человека в два различных промежутка времени и с двумя различными уровнями звука (например, в децибелах), где эти различные промежутки времени и уровни являются функциями разниц в траекториях, по которым звуковой сигнал перемещается для достижения левого и правого уха соответственно. Мозг человека интерпретирует эти разницы во времени и уровне, чтобы дать человеку ощущение, что принятый звуковой сигнал формируется звуковым источником, расположенным в конкретном месте (например, направление и расстояние) относительно человека. Слуховое пространство является суммарным воздействием на человека одновременного прослушивания звуковых сигналов, формируемых одним или более различными звуковыми источниками, расположенными в одном или более различных местах относительно человека.

Существование этой обработки мозгом может использоваться для синтеза слуховых пространств, где звуковые сигналы от одного или более различных источников звука целенаправленно модифицируются для формирования левого и правого звуковых сигналов, которые дают ощущение, что различные источники звука располагаются в различных местах относительно слушателя.

Фиг.1 показывает высокоуровневую блок-схему традиционного синтезатора 100 стереосигнала, который конвертирует единственный сигнал источника звука (например, моносигнал) в левый и правый сигналы стереосигнала, где стереосигнал определяется как два сигнала, принятые барабанными перепонками слушателя. В дополнение к сигналу источника звука, синтезатор 100 принимает набор пространственных характеристик, соответствующих желаемому месту источника звука относительно слушателя. В типичных вариантах реализации, набор пространственных характеристик содержит величину межканальной разницы уровней (ICLD) (которая определяет разницу уровней звука между левым и правым звуковыми сигналами, принятыми в левом ухе и правом ухе, соответственно) и величину межканальной разницы во времени (ICTD) (которая определяет разницу во времени прибытия между левым и правым звуковыми сигналами, как принятому в левом ухе и правом ухе соответственно). В дополнение или как альтернатива, некоторые методики синтеза включают в себя моделирование зависящей от направления передаточной функции для звука от источника сигнала к барабанным перепонкам, также упоминаемой как передаточная функция, зависящая от головы человека (HRTF). См., например, J. Blauert, “The Psychophysics of Human Sound Localization”, MIT Press, 1983, идеи которой включены в данную заявку посредством ссылки.

Использование синтезатора 100 бинаурального сигнала по фиг.1, монозвуковой сигнал, формируемый единственным источником звука, может быть обработан так, чтобы, когда идет прослушивание по наушникам, источник звука пространственно располагался посредством использования соответствующего набора пространственных характеристик (например, ICLD, ICTD и/или HRTF) для формирования звукового сигнала для каждого уха. См., например, D.R.Begault, “3-D Sound for Virtual Reality and Multimedia”, Academic Press, Кембридж, Массачусетс, 1994 г.

Синтезатор 100 бинаурального сигнала по фиг.1 формирует самый простейший тип слуховых пространств: они имеют единственный источник звука, расположенный относительно слушателя. Более сложные слуховые пространства, содержащие два или более источников звука, расположенные в различных местах относительно слушателя, могут быть сформированы, используя синтезатор слуховых пространств, который главным образом реализуется, используя множественные копии синтезатора бинаурального сигнала, где каждая копия синтезатора бинаурального сигнала формирует бинауральный сигнал, соответствующий отличающемуся от других источнику звука. Так как каждый отличающийся источник звука имеет отличающееся положение относительно слушателя, отличающийся от других набор пространственных характеристик используется для формирования бинаурального звукового сигнала для каждого отличающегося источника звука.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Согласно одному варианту осуществления настоящее изобретение является способом, устройством и машиночитаемым носителем для кодирования звуковых каналов. Один или более кодов характеристик формируются для двух или более звуковых каналов, при этом по меньшей мере один код характеристик является объединенным кодом характеристик, формируемым объединением двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов.

Согласно другому варианту осуществления настоящее изобретение является устройством для кодирования C входных звуковых каналов для формирования E передаваемых звуковых каналов. Устройство содержит блок оценки кода и блок сведения. Блок оценки кода формирует один или более кодов характеристик для двух или более звуковых каналов, при этом по меньшей мере один код характеристик является объединенным кодом характеристик, формируемым объединением двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов. Блок сведения сводит С входных каналов для формирования E передаваемых каналов, где C>E≥1, при этом устройство выполнено с возможностью передачи информации о кодах характеристик, чтобы дать возможность декодеру выполнить обработку по синтезу во время декодирования E переданных каналов.

Согласно другому варианту осуществления настоящее изобретение является кодированным звуковым битовым потоком, сформированным кодированием звуковых каналов, при этом один или более кодов характеристик сформированы для двух или более звуковых каналов, причем по меньшей мере один код характеристик является объединенным кодом характеристик, сформированным объединением двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов. Упомянутые один или более кодов характеристик и E передаваемых звуковых каналов, соответствующих упомянутым двум или более звуковым каналам, где E≥1, закодированы в упомянутый кодированный звуковой битовый поток.

Согласно другому варианту осуществления настоящее изобретение является кодированным звуковым битовым потоком, содержащим один или более кодов характеристик и E передаваемых звуковых каналов. Упомянутые один или более кодов характеристик сформированы для двух или более звуковых каналов, при этом по меньшей мере один код характеристик является объединенным кодом характеристик, сформированным объединением двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов. E передаваемых звуковых каналов соответствуют упомянутым двум или более звуковым каналам.

Согласно другому варианту осуществления настоящее изобретение является способом, устройством и машиночитаемым носителем для декодирования E переданных звуковых каналов для формирования C воспроизводимых звуковых каналов, где C>E≥1. Коды сигнала, соответствующие E переданным каналам принимаются, при этом по меньшей мере один код характеристик является объединенным кодом характеристик, сформированным объединением двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценен из совокупности двух или более звуковых каналов, соответствующих E переданным каналам. Один или более из E переданных каналов разводятся для формирования одного или более разведенных каналов. Один или более из C воспроизводимых каналов синтезируются посредством применения кодов характеристик к упомянутым одному или более разведенным каналам, при этом два или более получаемых кодов характеристик получаются из объединенного кода характеристик, и каждый получаемый код характеристик применяется для формирования двух или более синтезированных каналов.

ПЕРЕЧЕНЬ ФИГУР ЧЕРТЕЖЕЙ

Другие аспекты, характеристики и преимущества настоящего изобретения станут более полно очевидными из последующего подробного описания, прилагаемой формулы изобретения и сопроводительных чертежей, в которых одинаковые ссылочные номера определяют похожие или идентичные элементы.

Фиг.1 показывает высокоуровневую блок-схему традиционного синтезатора бинаурального сигнала.

Фиг.2 является блок-схемой типичной системы звуковой обработки на основе кодирования бинауральных характеристик (BCC).

Фиг.3 показывает блок-схему блока сведения, который может быть использован в качестве блока сведения по фиг.2.

Фиг.4 показывает блок схему синтезатора ВСС, который может использоваться в качестве декодера по фиг.2.

Фиг.5 показывает блок-схему блока оценки ВСС по фиг.2 согласно одному варианту осуществления настоящего изобретения.

Фиг.6 иллюстрирует формирование данных ICTD и ICLD для пятиканального звука.

Фиг.7 иллюстрирует формирование данных ICC для пятиканального звука.

Фиг.8 показывает блок-схему реализации синтезатора ВСС по фиг.4, который может использоваться в декодере ВСС для формирования стерео или многоканального звукового сигнала, при наличии одного переданного суммарного сигнала s(n) и пространственных характеристик.

Фиг.9 иллюстрирует, как ICTD и ICLD варьируются в пределах поддиапазона как функция частоты.

Фиг.10 показывает блок-схему синтезатора BCC, который может использоваться в качестве декодера по фиг.2 для схемы ВСС 5-в-2.

Фиг.11 показывает блок-схему последовательности операций обработки системы BCC, например такой, которая показана на фиг.2, связанной с одним вариантом осуществления настоящего изобретения.

ПОДРОБНОЕ ОПИСАНИЕ

В кодировании бинауральных характеристик (ВСС) кодер кодирует С входных звуковых каналов для формирования E передаваемых звуковых каналов, где C>E≥1. В частности, два или более из С входных каналов предусмотрены в частотной области и один или более кодов характеристик формируются для каждого из одного или более отличающихся частотных диапазонов в упомянутых двух или более входных каналах в частотной области. Кроме того, С входных каналов сводятся для формирования Е передаваемых каналов. В некоторых вариантах реализации сведения, по меньшей мере, один из Е передаваемых каналов основан на двух или более из С входных каналов, и по меньшей мере один из Е передаваемых каналов основан лишь на единственном из С входных каналов.

В одном варианте осуществления кодер ВСС имеет две или более групп фильтров, блок оценки кода и блок сведения. Эти две или более групп фильтров конвертируют два или более из С входных канала из временной области в частотную область. Блок оценки кода формирует один или более кодов характеристик для каждого из одного или более отличающихся частотных диапазонов в упомянутых двух или более конвертируемых входных каналах. Блок сведения сводит С входных каналов для формирования Е передаваемых каналов, где C>E≥1.

При декодировании ВСС Е передаваемых звуковых каналов декодируются для формирования С воспроизводимых звуковых каналов. В частности, для каждого из одного или более отличающихся частотных диапазонов один или более из Е передаваемых каналов разводятся в частотной области для формирования двух или более из С воспроизводимых каналов в частотной области, где C>E≥1. Один или более кодов характеристик применяются к каждому из упомянутых одного или более отличающихся частотных диапазонов в упомянутых двух или более воспроизводимых каналах в частотной области для формирования двух или более модифицированных каналов, и эти два или более модифицированных каналов конвертируются из частотной области во временную область. В некоторых вариантах осуществления разведения по меньшей мере один из С воспроизводимых каналов основан на по меньшей мере одном из Е передаваемых каналов и по меньшей мере одном коде сигнала, и по меньшей мере один из С воспроизводимых каналов основан лишь на одном из Е передаваемых каналов и независим от каких-либо кодов характеристик.

В одном варианте осуществления декодер ВСС имеет блок разведения, синтезатор и одну или более групп обратных фильтров. Для каждого одного или более отличающихся частотных диапазонов блок разведения разводит один или более из Е передаваемых каналов в частотной области для формирования двух или более из С воспроизводимых каналов в частотной области, где C>E≥1. Синтезатор использует один или более кодов характеристик для каждого из упомянутых одного или более отличающихся частотных диапазонов в упомянутых двух или более воспроизводимых каналах в частотной области для формирования двух или более модифицированных каналов. Одна или более групп обратных фильтров конвертируют эти два или более модифицированных каналов из частотной области во временную область.

В зависимости от конкретного варианта осуществления заданный воспроизводимый канал может быть основан скорее на единственном передаваемом канале, чем на объединении двух или более передаваемых каналов. Например, когда существует лишь один передаваемый канал, каждый из С воспроизводимых каналов основан на этом одном передаваемом канале. В этих ситуациях разведение соответствует копированию соответствующего передаваемого канала.

Как таковой, для вариантов применения, в которых имеется только один передаваемый канал, блок разведения может быть реализован с использованием репликатора, который копирует передаваемый канал для каждого воспроизводимого канала.

Кодеры и/или декодеры ВСС могут быть включены в число систем или приложений, которые включают в себя, например, цифровые видеомагнитофоны/проигрыватели, цифровые магнитофоны/плееры, компьютеры, спутниковые передатчики/приемники, кабельные передатчики/приемники, передатчики/приемники наземного широковещания, системы домашних развлечений и системы домашнего кинотеатра.

Типичная обработка ВСС

Фиг.2 является блок-схемой типичной системы 200 звуковой обработки на основе кодирования бинауральных характеристик (ВСС), которая содержит кодер 202 и декодер 204. Кодер 202 включает в себя блок сведения 206 и блок 208 оценки ВСС.

Блок 206 сведения конвертирует с входных звуковых каналов xi(n) в Е передаваемых звуковых каналов yi(n), где C>E≥1. В этом описании сигналы, выраженные с использованием переменной n, являются сигналами временной области, в то время как сигналы, выраженные с использованием переменной k, являются сигналами частотной области. В зависимости от конкретного варианта осуществления сведение может быть осуществлено либо во временной области, либо в частотной области. Блок 208 оценки ВСС формирует коды ВСС из С входных звуковых каналов и передает эти коды ВСС либо как внутриполосную, либо как внеполосную дополнительную информацию относительно Е передаваемых звуковых каналов. Типичные коды ВСС включают в себя одно или более из данных межканальной разницы во времени (ICTD), данных межканальной разницы уровней (ICLD) и данных межканальной корреляции (ICC), оцениваемые между определенными парами входных каналов как функция частоты и времени. Конкретное осуществление будет диктовать, между какими конкретными парами входных каналов оцениваются коды ВСС.

Данные ICC соответствуют когерентности бинаурального сигнала, которая связана с воспринимаемой шириной источника звука. Чем шире источник звука, тем ниже когерентность между левым и правым каналами результирующего бинаурального сигнала. Например, когерентность бинаурального сигнала, соответствующая оркестру, рассредоточенному по концертному залу, в типичном случае ниже, чем когерентность стереосигнала, соответствующего единственной скрипке, играющей соло. В общем, звуковой сигнал с меньшей когерентностью обычно воспринимается как более разнесенный по пространству. Как таковые, данные ICC в типичном случае связаны с видимой шириной источника и степенью охвата слушателя. См., например, J.Blauert, “The Psychophysics of Human Sound Localization”, MIT Press, 1983.

В зависимости от конкретного варианта применения Е передаваемых звуковых каналов и соответствующие коды ВСС могут передаваться непосредственно к декодеру 204 или сохраняться в некотором подходящем типе запоминающего устройства для последующего доступа со стороны декодера 204. В зависимости от ситуации, термин "передача" может относиться либо к непосредственной передаче в декодер, либо к сохранению для последующего предоставления декодеру. В любом случае декодер 204 принимает передаваемые звуковые каналы и дополнительную информацию и выполняет разведение и синтез ВСС, используя коды ВСС для конвертации Е передаваемых звуковых каналов в более, чем Е (типично, но не обязательно С) звуковых каналов воспроизведения для звукового воспроизведения. В зависимости от конкретного осуществления разведение может выполняться либо во временной области, либо в частотной области.

В дополнение к обработке ВСС, показанной на фиг.2, типичная система звуковой обработки на основе ВСС может включать в себя дополнительные секции кодирования и декодирования для дополнительного уплотнения звуковых сигналов в кодере и затем, соответственно, разуплотнения звуковых сигналов в декодере. Эти звуковые кодеки могут быть основаны на традиционных методиках звукового уплотнения/разуплотнения, как например те, которые основаны на импульсно-кодовой модуляции (PCM), дифференциальной PCM (DPCM) или адаптивной DPCM (ADPCM).

Когда блок 206 сведения формирует единственный суммарный сигнал (т.е. Е=1), то кодирование ВСС обеспечивает возможность представлять многоканальные звуковые сигналы с расходом битов (битрейтом) лишь слегка большим, чем тот, что требуется для представления звукового моносигнала. Это так, потому что оцениваемые данные ICTD, ICLD и ICC между парой каналов содержат примерно на два порядка величины меньше информации, чем звуковая форма сигнала.

Не только низкий расход битов кодирования ВСС, но также его аспект обратной совместимости также представляет интерес. Один передаваемый суммарный сигнал соответствует сведению исходного стерео или многоканального сигнала в моносигнал. Для приемников, которые не поддерживают стерео или многоканальное воспроизведение звука, прослушивание передаваемого суммарного сигнала является действующим способом представления звукового материала на слабооснащенном оборудовании для моновоспроизведения. Кодирование ВСС может, следовательно, также использоваться для улучшения существующих услуг, включая приведение монофонического звукового материала к многоканальному звуку. Например, существующие системы монофонического радиовещания могут быть улучшены для стерео или многоканального воспроизведения, если дополнительная информация ВСС может быть введена в существующий канал передачи. Аналогичные возможности существуют при сведении многоканального звука к двум суммарным сигналам, которые соответствуют стереозвуку.

ВСС обрабатывает звуковые сигналы с определенным временным и частотным разрешением. Используемое частотное разрешение в основном обусловлено частотным разрешением слуховой системы человека. Психоакустика предполагает, что пространственное восприятие наиболее вероятно основано на представлении критического диапазона акустического входного сигнала. Это частотное разрешение рассматривается посредством использования группы обратимых фильтров (например, основанных на быстром преобразовании Фурье, FFT) или квадратурном зеркальном фильтре (QMF)) с поддиапазонами с ширинами, равными или пропорциональными критической ширине диапазона слуховой системы человека.

Традиционное сведение

В предпочтительных вариантах осуществления передаваемый суммарный сигнал(ы) содержит все необходимые сигнальные компоненты входного звукового сигнала. Цель состоит в том, чтобы полностью сохранить каждый компонент сигнала. Простое суммирование звуковых входных каналов часто приводит к усилению или ослаблению компонентов сигнала. Иначе говоря, мощность компонентов сигнала в "простой" сумме часто больше или меньше, чем сумма мощности соответствующего компонента сигнала каждого канала. Может использоваться методика сведения, которая корректирует суммарный сигнал из условия, чтобы мощность компонентов сигнала в этом суммарном сигнале была приблизительно той же самой, что и соответствующая мощность во всех входных каналах.

Фиг.3 показывает блок-схему блока 300 сведения, который может использоваться в качестве блока 206 сведения по фиг.2, согласно определенным вариантам осуществления системы 200 ВСС. Блок 300 сведения имеет группу 302 фильтров (FB) для каждого входного канала xi(n), блок 304 сведения, необязательный блок 306 масштабирования/задержки и обратную FB 308 (IFB) для каждого кодируемого канала yi (n).

Каждая группа 302 фильтров конвертирует каждый кадр (например, 20 мсек) соответствующего цифрового входного канала xi(n) во временной области в набор входных коэффициентов в частотной области. Блок 304 сведения сводит каждый поддиапазон С соответствующих входных коэффициентов в соответствующий поддиапазон Е сведенных коэффициентов частотной области. Уравнение (1) представляет сведение k-го поддиапазона входных коэффициентов , ,...) для формирования k-го поддиапазона сведенных коэффициентов (, ,...,) следующим образом:

где DCE является вещественнозначной матрицей сведения C-в-Е.

Необязательный блок 306 масштабирования/задержки содержит набор перемножителей 310, каждый из которых умножает соответствующий сведенный коэффициент на коэффициент масштабирования ei(k) для формирования соответствующего масштабированного коэффициента . Обоснование для операции масштабирования эквивалентно коррекции, обобщенной для сведения с произвольными весовыми множителями для каждого канала. Если входные каналы независимы, то мощность сведенного сигнала в каждом поддиапазоне задается уравнением (2) следующим образом:

где получается посредством возведения в квадрат каждого элемента матрицы в матрице DCE сведения С-в-Е и является мощностью поддиапазона входного канала i.

Если поддиапазоны не являются независимыми, то значения мощности сведенного сигнала будут больше или меньше, чем та, которая вычислена, используя уравнение (2), из-за усилений или подавлений сигнала, когда компоненты сигнала находятся, синфазны или противофазны соответственно. Для того чтобы это предотвратить, операция сведения по уравнению (1) применяется в поддиапазонах, за которой следует операция масштабирования, выполняемая перемножителями 310. Коэффициенты ei(k) масштабирования (l≤i≤E) могут быть получены, используя уравнение (3) следующим образом:

где является мощностью поддипазона, вычисленной посредством уравнения (2), и , является мощностью соответствующего сведенного сигнала поддиапазона.

В дополнение к или вместо предоставления необязательного масштабирования блок 306 масштабирования/задержки может в необязательном порядке применять задержки к сигналам.

Каждая группа 308 обратных фильтров конвертирует набор соответствующих масштабированных коэффициентов в частотной области в кадр соответствующего цифрового передаваемого канала yi(n).

Хотя фиг.3 показывает все С из входных каналов как сконвертированные в частотную область для последующего сведения, в альтернативных вариантах осуществления один или более (но меньше, чем С-1) из С входных каналов могут обходить некоторую часть или всю обработку, показанную на фиг.3, и передаваться как эквивалентное число немодифицированных звуковых каналов. В зависимости от конкретных вариантов осуществления эти немодифицированные звуковые каналы могут использоваться или могут не использоваться блоком 208 оценки ВСС по фиг.2 при формировании передаваемых кодов ВСС.

В варианте реализации блока 300 сведения, который формирует один суммарный сигнал y(n), E=l и сигналы каждого поддиапазона каждого входного канала с добавляются и затем умножаются на коэффициент e(k) согласно уравнению (4) следующим образом:

причем коэффициент e(k) задается уравнением (5) следующим образом:

где является кратковременной оценкой мощности во временной индекс k и является кратковременной оценкой мощности Скорректированные поддиапазоны передаются обратно во временную область, что имеет результатом суммарный сигнал y(n), который передается в декодер ВСС.

Типичный синтез ВСС

Фиг.4 показывает блок-схему блока 400 синтеза ВСС, который может использоваться для декодера 204 по фиг.2, согласно определенным вариантам осуществления системы 200 ВСС. Синтезатор 400 ВСС имеет группу 402 фильтров для каждого передаваемого канала yi(n), блок 404 разведения, задержки 406, перемножители 408, блок 410 корреляции и группу 412 обратных фильтров для каждого канала воспроизведения .

Каждая группа 402 фильтров конвертирует каждый кадр соответствующего цифрового передаваемого канала во временной области в набор входных коэффициентов в частотной области. Блок 404 разведения разводит каждый поддиапазон Е соответствующих коэффициентов передаваемых каналов в соответствующий поддиапазон С разведенных коэффициентов частотной области. Уравнение (4) представляет разведение k-го поддиапазона коэффициентов передаваемых каналов (,,...,) для формирования k-го поддиапазона разведенных коэффициентов ((,,...,) следующим образом:

где UEC является вещественнозначной матрицей разведения Е-на-С. Выполнение разведения в частотной области обеспечивает возможность применения разведения на индивидуальной основе в каждом отличающемся поддиапазоне.

Каждая задержка 406 применяет величину задержки di(k) на основе соответствующего кода ВСС для данных ICTD, чтобы гарантировать, что желаемые значения ICTD появятся между определенными парами воспроизводимых каналов. Каждый перемножитель 408 применяет коэффициент ai(k) масштабирования на основе соответствующего кода ВСС для данных ICLD, чтобы гарантировать, что желаемые значения ICLD появятся между определенными парами проигрываемых каналов. Блок 410 корреляции выполняет операцию А декорреляции на основе соответствующих кодов ВСС для данных ICC, чтобы гарантировать, что желаемые значения ICC появятся между определенными парами воспроизводимых каналов. Дополнительное описание операций блока 410 корреляции может быть найдено в заявке на патент США №10/155437, поданной 24 мая 2002 года (Baumgarte 2-10).

Синтез значений ICLD может быть менее проблематичным, чем синтез значений ICTD или ICC, так как синтез ICLD включает в себя просто масштабирование сигналов поддиапазона. Так как характеристики ICLD являются наиболее часто используемыми характеристиками направленности сигналами, обычно более важным является то, что значения ICLD аппроксимируют таковые исходного звукового сигнала. Как таковые, данные ICLD могут быть оценены между всеми парами каналов. Коэффициенты ai(k) масштабирования (l≤i≤C) для каждого поддиапазона предпочтительно выбираются так, чтобы мощность поддиапазона каждого канала воспроизведения аппроксимировала соответствующую мощность исходного входного звукового канала.

Одной целью может являться использование относительно небольшого количества модификаций сигнала для синтезирования значений ICTD и ICC. Как таковые, данные ВСС могут не включать в себя значения ICTD и ICC для всех пар каналов. В этом случае синтезатор 400 ВСС синтезировал бы значения ICTD и ICC лишь между определенными парами каналов.

Каждая группа 412 обратных фильтров конвертирует набор соответствующих синтезированных коэффициентов в частотной области в кадр соответствующего цифрового канала воспроизведения .

Хотя фиг.4 показывает, что все Е передаваемых каналов преобразованы в частотную область для последовательного разведения и обработки ВСС, в альтернативных вариантах реализации один или более (но не все) Е передаваемых каналов могут обойти некоторую часть или всю обработку, показанную на фиг.4. Например, один или более из передаваемых каналов могут являться немодифированными каналами, которые не подвергнуты какому-либо разведению. Кроме того, являясь одним или более из С воспроизводимых каналов, эти немодифицированные каналы, в свою очередь, могут, но необязательно, использоваться как опорные каналы, к которым применяется обработка ВСС для синтезирования одного или более из других воспроизводимых каналов. В любом случае, такие немодифицированные каналы могут быть подвергнуты задержкам, чтобы ввести поправку на время обработки, задействуемое при разведении и/или обработке ВСС, используемой для формирования оставшихся воспроизводимых каналов.

Следует заметить, что хотя фиг.4 показывает, что С воспроизводимых каналов синтезированы из Е передаваемых каналов, где С являлось также количеством исходных входных каналов, синтез ВСС не ограничивается этим количеством воспроизводимых каналов. В общем, количество воспроизводимых каналов может являться любым количеством каналов, включая количества, большие или меньшие чем С и, возможно, даже ситуации, где количество воспроизводимых каналов равно или меньше чем количество передаваемых каналов.

"Значимые разницы для восприятия" между звуковыми каналами

Предполагая единственный суммарный сигнал ВСС синтезирует стерео или многоканальный звуковой сигнал так, что ICTD, ICLD, и ICC аппроксимируют соответствующие характеристики исходного звукового сигнала. В последующем обсуждается роль ICTD, ICLD, and ICC в связи с характеристиками слухового пространственного образа.

Знание о слышимости в пространстве подразумевает, что для одного слухового события ICTD и ICLD относятся к воспринимаемому направлению. При рассмотрении бинауральных импульсных характеристик помещения (BRIR), соответствующих одному источнику, существует взаимосвязь между шириной слухового события и степенью охвата слушателя и данными ICC, оцениваемыми для ранних и поздних частей BRIR. Тем не менее, взаимосвязь между ICC и этими свойствами для общих сигналов (а не только для BRIR) не является прямой.

Стерео и многоканальные звуковые сигналы обычно содержат сложное сочетание параллельных сигналов активных источников, на которые наложены отраженные компоненты сигнала, которые получаются в результате записи в закрытых пространствах или добавляются звукорежиссером для искусственного создания пространственного впечатления. Сигналы различных источников и их отражения занимают различные области в плоскости время-частота. Это выражается с помощью ICTD, ICLD и ICC, которые варьируются как функции времени и частоты. В этом случае связь между мгновенными значениями ICTD, ICLD и ICC и направлениями слухового события и пространственного впечатления не очевидна. Стратегией определенных вариантов осуществления ВСС является машинальный синтез этих характеристик из условия, чтобы они аппроксимировали соответствующие характеристики исходного звукового сигнала.

Используются группы фильтров с поддиапазонами с шириной, равной удвоенной ширине эквивалентной прямоугольной полосы частот (ERB). Обычное прослушивание показывает, что звуковое качество ВСС не заметно улучшается при выборе более высокого частотного разрешения. Более низкое частотное разрешение может оказаться желательным, так как оно приводит к меньшим значениям ICTD, ICLD и ICC, которые необходимо передать в декодер, и таким образом, к меньшему расходу битов.

Принимая во внимание временное разрешение ICTD, ICLD и ICC в типичном случае рассматриваются через регулярные интервалы времени. Высокая эффективность достигается, когда ICTD, ICLD и ICC рассматриваются примерно через каждые от 4 до 16 мсек. Следует заметить, что если характеристики не рассматриваются через очень короткие временные интервалы, эффект предшествования не рассматривается непосредственно. Предполагая классическую пару опережение/задержка воздействия звука, если опережение и задержка попадают во временной интервал, где синтезируется лишь один набор характеристик, то преобладание опережения при определении местонахождения не рассматривается. Несмотря на это, ВСС достигает звукового качества, отражаемого в средней оценке MUSHRA около 87 (т.е. "отличное" звуковое качество) в среднем и до почти 100 для некоторых звуковых сигналов.

Часто достигаемая небольшая с точки зрения восприятия разница между опорным сигналом и синтезированным сигналом подразумевает, что характеристики, относящиеся к широкому спектру атрибутов слухового пространственного образа, неявно учитываются посредством синтеза ICTD, ICLD и ICC через регулярные интервалы времени. В последующем некоторые аргументы проводятся в отношении того, как ICTD, ICLD и ICC могут относиться к спектру атрибутов слухового пространственного образа.

Оценка пространственных характеристик

В последующем описывается, как оцениваются ICTD, ICLD и ICC. Расход битов для передачи этих (квантованных и закодированных) пространственных характеристик может быть лишь несколько кбит/с и таким образом с помощью ВСС можно передавать стерео и многоканальные звуковые сигналы при расходах битов, близких к тем, которые требуются для одного звукового канала.

Фиг.5 показывает блок-схему блока 208 оценки ВСС по фиг.2 согласно одному варианту осуществления настоящего изобретения. Блок 208 оценки ВСС содержит группы 502 фильтров (FB), которые могут быть теми же самыми, что и группы 302 фильтров по фиг.3, и блок 504 оценки, который формирует пространственные характеристики ICTD, ICLD и ICC для каждого отличающегося частотного поддиапазона, формируемого посредством групп 502 фильтров.

Оценка ICTD, ICLD и ICC для стереосигналов

Следующие измерения используются для ICTD, ICLD и ICC для соответствующих сигналов и поддиапазонов двух (например, стерео) звуковых каналов:

- ICTD [выборки]:

с краткосрочной оценкой нормированной функции взаимной корреляции, заданной уравнением (8) следующим образом:

где

и - краткосрочная оценка среднего

- ICLD [дБ]:

- ICC:

Следует заметить, что абсолютное значение нормированной взаимной корреляции принимается во внимание и значения c12(k) принадлежат отрезку [0,1].

Оценка ICTD, ICLD и ICC для многоканальных звуковых сигналов

Когда существует более, чем два входных канала, обычно достаточно задать ICTD и ICLD между опорным каналом (например, каналом номер 1) и другими каналами, как проиллюстрировано на фиг.6 для случая С=5 каналам, где τ1c(k) и ΔL1c(k) обозначают ICTD и ICLD соответственно между опорным каналом 1 и каналом с.

В отличие от ICTD и ICLD, ICC в основном имеет больше степеней свободы. ICC, как определено, может иметь различные значения между всеми возможными парами входных каналов. Для С каналов существует C(C-l)/2 возможных пар каналов; например, для 5 каналов существует 10 пар каналов, как проиллюстрировано на фиг.7(а). Тем не менее, такая схема требует, чтобы для каждого поддиапазона в каждый временной индекс C(C-l)/2 значений ICC оценивались и передавались, приводя к высокой вычислительной сложности и высокому расходу битов.

Альтернативно для каждого поддиапазона ICTD и ICLD определяют направление, по которому имеет место слуховое событие соответствующего компонента сигнала в поддиапазоне. Один единственный параметр ICC на поддиапазон может затем быть использован для описания общей когерентности между всеми звуковыми каналами. Хорошие результаты могут быть достигнуты посредством оценки и передачи сигналов ICC только между двумя каналами с наибольшей энергией в каждом поддиапазоне в каждый временной индекс. Это проиллюстрировано на фиг.7(b), где для моментов времени k-1 и k пары (3,4) и (1,2) каналов являются соответственно наиболее сильными. Для определения ICC между другими парами каналов может использоваться эвристическое правило.

Синтез пространственных сигналов

Фиг.8 показывает блок-схему варианта осуществления блока 400 синтеза ВСС по фиг.4, который может использоваться в декодере ВСС для формирования стерео или многоканального звукового сигнала при наличии одного передаваемого суммарного сигнала s(n), и пространственных характеристик. Суммарный сигнал s(n) разлагается на поддиапазоны, где обозначает один такой поддиапазон. Для формирования соответствующих поддиапазонов каждого из выходных каналов к соответствующему поддиапазону суммарного сигнала применяются задержки dc, коэффициенты ac масштабирования и фильтры hc. (Для простоты обозначения временной индекс k не учитывается в задержках, коэффициентах масштабирования и фильтрах.) ICTD синтезируются посредством наложения задержек, ICLD - посредством масштабирования и ICC - посредством использования фильтров декорреляции. Обработка, показанная на фиг.8, используется независимо для каждого поддиапазона.

Синтез ICTD

Задержки dc определяются из ICTD согласно уравнению (12) следующим образом:

Задержка для опорного канала d1 вычисляется из условия, чтобы максимальная величина задержек dc была минимизирована. Чем меньше модифицируются сигналы поддиапазона, тем меньше опасность в возникновении искажений. Если частота дискретизации на поддиапазоны не приводит к достаточно высокому временному разрешению для синтеза ICTD, то задержки могут быть наложены более точно посредством использования соответствующих всечастотных фильтров.

Синтез ICLD

Для того чтобы выходные сигналы поддиапазонов имели желаемые ΔL12(k), соответствующие ICLD, между каналом с и опорным каналом 1, коэффициенты усиления ac должны удовлетворять уравнению (13) следующим образом:

Кроме того, выходные поддиапазоны предпочтительно нормируются из условия, чтобы суммарная мощность всех выходных каналов была равна мощности входного суммарного сигнала. Так как общая мощность исходного сигнала в каждом поддиапазоне сохраняется в суммарном сигнале, это нормирование приводит к тому, что абсолютная мощность поддиапазона для каждого выходного канала аппроксимирует соответствующую мощность исходного входного звукового сигнала кодера. Если эти ограничения заданы, то коэффициенты ac масштабирования задаются уравнением (14) следующим образом:

Синтез ICC

В определенных вариантах осуществления целью синтеза ICC является уменьшение корреляции между поддиапазонами после того, как применены задержки и масштабирование, без воздействия на ICTD и ICLD. Это можно достигнуть проектированием фильтров hc на фиг.8 так, чтобы ICTD и ICLD эффективно варьировались как функция частоты из условия, что среднее изменение равно нулю в каждом поддиапазоне (слуховой критический диапазон).

Фиг.9 иллюстрирует, как изменяются ICTD и ICLD внутри поддиапазона как функция частоты. Амплитуда изменения ICTD и ICLD определяет степень декорреляции и управляется как функция ICC. Следует заметить, что ICTD изменяется плавно (как на фиг.9(a)), в то время как ICLD изменяются случайным образом (как на фиг.9(b)). Можно изменять ICLD также плавно, как и ICTD, но это бы привело к большему окрашиванию результирующих звуковых сигналов.

Другой способ для синтеза ICC, особенно подходящий для многоканального синтеза ICC, описывается более подробно у C.Faller, “Parametric multi-channel audio coding: Synthesis of coherence cues”, IEEE Trans. on Speech and Audio Proc., 2003, идеи которого включены в данный документ посредством ссылки. Как функция времени и частоты, определенные величины искусственной поздней реверберации добавляются к каждому из выходных каналов для достижения желаемой ICC. Кроме того, спектральная модификация может применяться из условия, что спектральная огибающая результирующего сигнала приближается к спектральной огибающей исходного звукового сигнала.

Другие связанные и несвязанные методики синтеза ICC для стереосигналов (или пар звуковых каналов) представлены в работах E.Schuijers, W.Oomen, B.den Brinker, and J.Breebaart, “Advances in parametric coding for high-quality audio,” in Preprint 114th Conv. Aud. Eng. Soc., March 2003, and J.Engdegard, H.Purnhagen, J.Roden, and L.Liljeryd, “Synthetic ambience in parametric stereo coding,” in Preprint 117th Conv. Aud. Eng. Soc., май 2004 г., идеи обеих из которых включены в данный документ по ссылке.

С-в-Е ВСС

Как описано ранее, ВСС может быть реализовано с помощью более, чем одного канала передачи. Описана вариация ВСС, которая представляет С звуковых каналов не как один единственный (передаваемый) канал, но как Е каналов, что обозначается ВСС С-в-Е. Существуют (по меньшей мере) два обоснования для ВСС С-в-Е:

- ВСС с одним каналом передачи предоставляет обратно совместимый путь для модернизации существующих моносистем для стерео или многоканального звукового воспроизведения. Модернизированные системы передают сведенный посредством ВСС суммарный сигнал по существующей моноинфраструктуре, в добавок передавая при этом дополнительную информацию ВСС. ВСС С-в-Е применимо к кодированию С-канального звука, обратно совместимому с Е-каналами.

- ВСС С-в-Е ВСС привносит масштабируемость в плане различных степеней сокращения количества передаваемых каналов. Ожидается, что чем больше звуковых каналов, которые передаются, тем лучше будет качество звука. Подробности сигнальной обработки для ВСС С-в-Е, например, как задать характеристики ICTD, ICLD и, ICC описаны в заявке на патент США с номером 10/762100, поданной 20 января 2004 г. (Faller 13-1).

Компактная дополнительная информация

Как описано выше, в типичной схеме ВСС кодер передает в декодер коды ICTD, ICLD и/или ICC, оцениваемые между различными парами или группами звуковых каналов. Эта дополнительная информация передается в дополнение к (например, моно или стерео) сведенному сигналу(ам), чтобы достичь многоканального звукового сигнала после декодирования ВСС. Таким образом, желательно минимизировать объем дополнительной информации, при этом не ухудшая субъективное качество декодируемого звука.

Так как значения ICLD и ICTD в типичном случае относятся к одному опорному каналу, значения C-l ICLD и ICTD достаточны для описания показателей С закодированных каналов. С другой стороны, ICC определяются между произвольными парами каналов. По существу, для С закодированных каналов существуют C(C-1)/2 возможных пар ICC. Для 5 закодированных каналов это соответствовало бы 10 парам ICC. На практике, для того, чтобы ограничить объем передаваемой информации ICC, передается только информация ICC для определенных пар.

Фиг.10 показывает блок-схему синтезатора 1000 ВСС, который может использоваться для декодера 204 по фиг.2 для схемы ВСС 5-в-2. Как показано на фиг.10, синтезатор 1000 ВСС принимает два входных сигнала y1(n) и y2(n) и дополнительную информацию ВСС (не показано) и формирует пять синтезированных выходных сигналов где первый, второй, третий, четвертый и пятый выходные сигналы соответствуют левому, правому, центральному, заднему левому и заднему правому сигналам объемного звучания, показанным, соответственно, на фиг.6 и 7.

Параметры задержки, масштабирования и декорреляции, полученные из передаваемой дополнительной информации ICTD, ICLD и ICC, применяются в элементах 1004, 1006 и 1008, соответственно, чтобы синтезировать пять выходных сигналов из пяти "разведенных" сигналов сформированных элементом 1002 разведения. Как показано на фиг.10, декорреляция выполняется только между левым и левым задним каналами (т.е. каналами 1 и 4) и между правым и правым задним каналами (т.е. каналами 2 и 5). По существу, не более, чем два набора данных ICC необходимо передать в синтезатор 1000 ВСС, где эти два набора характеризуют значения ICC между двумя парами каналов для каждого поддиапазона. Хотя это уже является значительным уменьшением в объеме дополнительной информации ICC, желательно дополнительное уменьшение.

Согласно одному варианту осуществления настоящего изобретения в контексте схемы ВСС 5-в-2 по фиг.10 для каждого поддиапазона соответствующий кодер ВСС объединяет значение ICC, оцениваемое для пары каналов "левый/левый задний", со значением ICC, оцениваемым для пары каналов "правый/правый задний", для формирования единого комбинированного значения ICC, которое эффективно будет отображать общую величину декорреляции между фронтом и тылом и которое передается в декодер ВСС как дополнительная информация ICC. Неофициальные эксперименты указали, что это упрощение не приводит, фактически, к потерям в качестве звука, в то время, как уменьшает передаваемую информацию ICC в два раза.

В общем, варианты осуществления настоящего изобретения направлены на схемы ВСС, в которых две или более различных ICC, оцениваемых между различными парами каналов или группами каналов, объединяются для передачи, как указывается уравнением (15) следующим образом:

ICCtransmitted=f(ICCl, ICC2, …, ICCN), (15)

где f является функцией, которая объединяет N различных ICC.

Для того чтобы получить объединенную величину ICC, которая является репрезентативной для пространственного образа, может быть выгодным использовать взвешенное среднее для функции f, чем принимается во внимание важность отдельных каналов, где важность канала может быть основана на мощностях каналов, как представлено уравнением (16) следующим образом:

где pi является мощностью соответствующей пары каналов в поддиапазоне. В этом случае ICC, оцениваемым из наиболее сильных пар каналов, дается больший вес, чем ICC, оцениваемым из более слабых пар каналов. Комбинированная мощность pi пары каналов может быть вычислена как сумма отдельных мощностей канала для каждого поддиапазона.

В декодере при заданном ICCtransmitted ICC могут быть получены для каждой пары каналов. В одном возможном варианте осуществления, декодер просто использует ICCtransmitted, в качестве полученного кода ICC для каждой пары каналов. Например, в контексте схемы ВСС 5-в-2 по фиг.10 ICCtransmitted может использоваться непосредственно для декорреляции как пары каналов “левый/левый задний”, так и пары каналов “правый/правый задний”.

В другом возможном варианте реализации, если декодер оценивает мощности пары каналов из синтезированных сигналов, тогда взвешивание уравнения (16) может быть оценено и процесс декодирования может в необязательном порядке использовать эту информацию и иные параметры статистики восприятия и сигнальной статистики для формирования правила для получения двух отдельных, оптимизированных для восприятия кодов ICC.

Хотя комбинация значений ICC описана в контексте конкретной схемы ВСС 5-в-2, настоящее изобретение может быть реализовано в контексте любой схемы ВСС С-в-Е, включая те, в которых E=l.

Фиг.11 показывает блок-схему последовательности операций обработки системы BCC, например такой, которая показана на фиг.2, связанной с одним вариантом осуществления настоящего изобретения. Фиг.11 показывает только те этапы, которые ассоциированы с обработкой, относящейся к ICC.

В частности, кодер ВСС оценивает значения ICC между двумя или более группами каналов (этап 1102), объединяет два или более из этих оцениваемых значений ICC, чтобы сформировать одно или более комбинированных значений ICC (этап 1104) и передает комбинированные значения ICC (возможно, совместно с одним или более "некомбинированными" значениями ICC) как дополнительную информацию ВСС в декодер ВСС (этап 1106). Декодер ВСС получает два или более значений ICC из принятых, комбинированных значений ICC (этап 1108) и декоррелирует группы каналов, используя полученные значения ICC (и, возможно, одно или более принятых, некомбинированных значений ICC) (этап 1110).

Дополнительные альтернативные варианты осуществления

Настоящее изобретение описано в контексте схемы ВСС 5-в-2 по фиг.10. В этом примере кодер ВСС (1) оценивает два кода ICC для двух пар каналов, состоящих из четырех различных каналов (т.е. левого/левого заднего и правого/правого заднего) и (2) усредняет эти два кода ICC для формирования комбинированного кода ICC, который передается в декодер ВСС. Декодер ВСС (1) получает два кода ICC из переданного комбинированного кода ICC (следует заметить, что комбинированный код ICC может просто быть использован для обоих получаемых кодов ICC) и (2) применяет каждый из этих двух получаемых кодов ICC и отличающейся паре синтезированных каналов для формирования четырех декоррелированных каналов (т.е. синтезированных левого, левого заднего, правого и правого заднего каналов).

Настоящее изобретение может быть также реализовано в других контекстах. Например, кодер ВСС может оценивать два кода ICC из трех входных каналов A, B и C, где один оцениваемый код ICC соответствует каналам А и В, а другой оцениваемый код ICC соответствует каналам А и С. В этом случае говорят, что кодер оценивает два кода ICC из двух пар входных каналов, где две пары входных каналов совместно используют общий канал (т.е. входной канал А). Кодер может затем формировать и передавать единый комбинированный код ICC, основанный на двух оцениваемых кодах ICC. Декодер ВСС может затем получать два кода ICC из переданного комбинированного кода ICC и использовать эти два получаемых кода ICC для синтеза трех декоррелированных каналов (т.е. синтезированных каналов А, В и С). В этом случае можно сказать, что каждый получаемый код ICC используется для формирования пары декоррелированных каналов, где две пары декоррелированных каналов совместно используют общий канал (т.е. синтезированный канал А).

Хотя настоящее изобретение описано в контексте схем кодирования ВСС, которые используют комбинированные коды ICC, настоящее изобретение может быть также реализовано в контексте схем кодирования ВСС, которые используют комбинированные коды характеристик ВСС, которые формируются объединением двух или более кодов характеристик ВСС, отличных от кодов ICC, например, кодов ICTD и/или кодов ICLD, вместо или в дополнение к использованию комбинированных кодов ICC.

Хотя настоящее изобретение описано в контексте схем кодирования ВСС, включающих в себя коды ICTD, ICLD и ICC, настоящее изобретение может быть также реализовано в контексте других схем кодирования ВСС, включающих в себя только один из двух этих трех типов кодов (например, ICLD и ICC, но не ICTD) и/или один или более дополнительных типов кодов.

В схеме ВСС 5-в-2, представленной на фиг.10, два передаваемых канала y1(n) и y2(n) в типичном случае формируются применением конкретной одностадийной схемы сведения к пяти каналам, показанным на фиг.6 и 7, где канал y1 формируется как взвешенная сумма каналов 1, 3 и 4 и канал y2 формируется как взвешенная сумма каналов 2, 3 и 5, где, например, в каждой взвешенной сумме весовой коэффициент для канала 3 составляет половину от весового коэффициента, используемого для каждого из двух других каналов. В этой одноуровневой схеме ВСС оцениваемые коды характеристик ВСС соответствуют различным парам исходных пяти входных каналов. Например, один набор оцениваемых кодов ICC основан на каналах 1 и 4, а другой набор оцениваемых кодов ICC основан на каналах 2 и 5.

В альтернативной многостадийной схеме ВСС каналы сводятся последовательно с помощью кодов характеристик ВСС, потенциально соответствующих различным группам каналов на каждой стадии в последовательности сведения. Например, для пяти каналов на фиг.6 и 7 в кодере ВСС исходные левый и задний левый каналы могут быть сведены для создания первого сведенного левого канала с первым набором кодов характеристик ВСС, сформированным в соответствии с этими двумя исходными каналами. Аналогично исходные правый и правый задний каналы могут быть сведены для создания первого сведенного правого канала со вторым набором кодов характеристик ВСС, сформированным в соответствии с этими двумя исходными каналами. На второй стадии сведения первый сведенный левый канал может быть сведен с исходным центральным каналом, чтобы создать второй сведенный левый канал с третьим набором кодов характеристик ВСС, сформированным в соответствии с первым сведенным левым каналом и исходным центральным каналом. Аналогично, первый сведенный правый канал может быть сведен с исходным центральным каналом для создания второго сведенного правого канала с четвертым набором кодов характеристик ВСС, сформированным в соответствии с первым сведенным правым каналом и исходным центральным каналом. Вторые сведенные левый и правый каналы могут затем передаваться со всеми четырьмя наборами кодов характеристик ВСС как дополнительная информация. Аналогичным способом соответствующий декодер ВСС может затем последовательно использовать эти четыре набора кодов характеристик ВСС на различных стадиях двухстадийной последовательной схемы разведения для синтеза пяти выходных каналов из двух переданных "стерео" каналов.

Хотя настоящее изобретение описано в контексте схем кодирования ВСС, в которых комбинированные коды характеристик ICC передаются с одним или более звуковыми каналами (т.е. Е передаваемыми каналами) совместно с другими кодами ВСС, в альтернативных вариантах осуществления комбинированные коды характеристик ICC могут передаваться либо по одиночке, либо с другими кодами ВСС в то место (например, декодер или устройство хранения), которое уже имеет переданные каналы и, возможно, другие коды ВСС.

Хотя настоящее изобретение описано в контексте схем кодирования ВСС, настоящее изобретение может также быть реализовано в контексте других систем звуковой обработки, в которых звуковые сигналы декоррелируются, или другой звуковой обработки, при которой необходимо декоррелировать сигналы.

Хотя настоящее изобретение описано в контексте вариантов реализации, в которых кодер принимает входной звуковой сигнал во временной области и формирует передаваемые звуковые сигналы во временной области, а декодер принимает переданные звуковые сигналы во временной области и формирует звуковые сигналы воспроизведения во временной области, настоящее изобретение не ограничено этим. Например, в других вариантах реализации, любой один или более из входных, передаваемых и воспроизводимых звуковых сигналов может быть представлен в частотной области.

Кодеры и/или декодеры ВСС могут использоваться в сочетании с или в составе разнообразия различных приложений или систем, включая системы для телевидения или распространения электронной музыки, домашние кинотеатры, системы широковещания, потоковой передачи данных и/или приема. Они включают в себя системы для кодирования/декодирования, например, наземных, спутниковых, кабельных передач и передач через Интернет, внутренние сети, либо физические носители (например, компакт-диски, цифровые универсальные диски, полупроводниковые интегральные схемы, накопители на жестких дисках, карты памяти и тому подобное). Кодеры и/или декодеры ВСС также могут использоваться в играх и игровых системах, включающих в себя, например, интерактивные программные продукты, которые предназначены для взаимодействия с пользователем для развлечения (сюжетная игра, ролевая игра, стратегия, приключения, симуляторы, гонки, спорт, диалоговая видеоигра, карточные и настольные игры) и/или образования, которые могут быть опубликованы для многочисленных вычислительных машин, платформ или сред. Дополнительно, кодеры и/или декодеры ВСС могут быть включены в устройства записи/воспроизведения звука или системы CD-ROM/DVD (запоминающее устройство на компакт-дисках/на цифровых универсальных дисках). Кодеры ВСС и/или декодеры могут быть также включены в программные приложения ПК, которые включают цифровое декодирование (например, проигрыватель, декодер) и программные приложения, включающие функциональные возможности цифрового кодирования (например, кодер, риппер, устройство для записи и накопитель с автоматической сменой дисков).

Настоящее изобретение может быть реализовано как процессы, основывающиеся на схемах, включая возможную реализацию в качестве единой микросхемы (такой, как ASIC или FPGA), модуля с множеством интегральных схем, единой карты или печатной платы с множеством карт. Как будет очевидно специалистам в данной области техники, различные функции схемных элементов могут быть также реализованы как этапы обработки в компьютерной программе. Такое программное обеспечение может использоваться, например, в процессоре цифровых сигналов, микроконтроллере или компьютере общего назначения.

Настоящее изобретение может быть реализовано в форме способов и устройств для практического применения этих способов. Настоящее изобретение может также быть реализовано в форме программного кода, воплощенного в материальных носителях, например, гибких дискетах, постоянных запоминающих устройствах на компакт-дисках (CD-ROM), накопителях на жестких дисках, или любом другом машиночитаемом носителе данных, при этом, когда в программный код загружается и исполняется вычислительной машиной, такой как компьютер, то эта вычислительная машина становится устройством для практической реализации изобретения. Настоящее изобретение может также быть реализовано в форме программного кода, например, либо хранимого на носителе данных, либо загружаемого в и/или исполняемого вычислительной машиной, либо передаваемого через какую-либо среду передачи или носитель, например, по электрической проводке или кабелю, по оптоволоконному кабелю или через электромагнитные волны, при этом, когда программный код загружается и исполняется вычислительной машиной, такой как компьютер, то эта вычислительная машина становится устройством для практической реализации изобретения. При исполнении в процессоре общего назначения сегменты программного кода объединяются с этим процессором для обеспечения единого устройства, которое функционирует аналогично специфическим логическим схемам.

Дополнительно будет понятно, что различные изменения в деталях, материалах и расположениях частей, которые описаны и проиллюстрированы, чтобы объяснить сущность этого изобретения, могут быть сделаны специалистами в данной области техники без отклонения от объема изобретения, определяемого последующей формулой изобретения.

Хотя этапы в последующих пунктах формулы изобретения, характеризующих способ, если есть такие, приведены в конкретной последовательности с соответствующим присваиванием обозначений, если формулировка таких пунктов формулы изобретения не предполагает в противном случае конкретную последовательность для реализации некоторых или всех из этих этапов, не подразумевая, что эти этапы обязательно ограничены выполнением в этой конкретной последовательности.

1. Способ кодирования звуковых каналов, содержащий этапы, на которых
оценивают один или более кодов характеристик для двух или более звуковых каналов, при этом, по меньшей мере, один код характеристик является комбинированным кодом характеристик, который вычисляется посредством комбинирования двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов; и
передают или сохраняют упомянутые один или более кодов характеристик.

2. Способ по п.1, дополнительно содержащий этап, на котором передают Е передаваемых звуковых каналов, соответствующих упомянутым двум или более звуковым каналам, где Е - целое, большее или равное единице.

3. Способ по п.2, в котором упомянутые два или более звуковых каналов содержат С входных звуковых каналов, где С - целое и С>Е, и эти С входных каналов сводятся для формирования Е передаваемых каналов.

4. Способ по п.1, в котором упомянутые один или более кодов характеристик передаются, чтобы обеспечить декодеру возможность выполнять обработку по синтезу во время декодирования Е передаваемых каналов на основе комбинированного кода характеристик, причем Е передаваемых звуковых каналов соответствуют упомянутым двум или более звуковым каналам, где Е - целое, большее или равное единице.

5. Способ по п.1, в котором упомянутые один или более кодов характеристик содержат одно или более из комбинированного кода межканальной корреляции (ICC), комбинированного кода межканальной разницы уровней (ICLD) и комбинированного кода межканальной разницы во времени (ICTD).

6. Способ по п.1, в котором комбинированный код характеристик вычисляется как среднее от упомянутых двух или более оцениваемых кодов характеристик.

7. Способ по п.6, в котором комбинированный код характеристик вычисляется как взвешенное среднее от упомянутых двух или более оцениваемых кодов характеристик.

8. Способ по п.7, в котором:
каждый оцениваемый код характеристик, используемый для вычисления комбинированного кода характеристик, ассоциирован с весовым коэффициентом, используемым при вычислении упомянутого взвешенного среднего; и
весовой коэффициент для каждого оцениваемого кода характеристик основан на мощности в группе каналов, соответствующих оцениваемому коду характеристик.

9. Способ по п.1, в котором комбинированный код характеристик является комбинированным кодом ICC.

10. Способ по п.9, в котором:
упомянутые два или более звуковых канала содержат левый канал, задний левый канал, правый канал и задний правый канал;
первый оцениваемый код ICC формируется из левого и заднего левого каналов;
второй оцениваемый код ICC формируется из правого и заднего правого каналов; и
комбинированный код ICC вычисляется посредством комбинирования первого и второго оцениваемых кодов ICC.

11. Устройство для кодирования звуковых каналов, содержащее средство для оценивания одного или более кодов характеристик для двух или более звуковых каналов, при этом, по меньшей мере, один код характеристик является комбинированным кодом характеристик, вычисляемым посредством комбинирования двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов; и
средство для передачи или сохранения упомянутых одного или более кодов характеристик.

12. Устройство для кодирования С входных звуковых каналов для формирования Е передаваемых звуковых каналов, где С и Е - целые числа и С>Е≥1, содержащее
блок оценки кода, выполненный с возможностью оценивания одного или более кодов характеристик для двух или более звуковых каналов, при этом, по меньшей мере, один код характеристик является комбинированным кодом характеристик, вычисляемым посредством комбинирования двух или более оцениваемых кодов характеристик; и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов; и
блок сведения, выполненный с возможностью сведения С входных каналов для формирования Е передаваемых каналов, при этом устройство выполнено с возможностью передачи информации о кодах характеристик, чтобы дать возможность декодеру выполнить обработку по синтезу во время декодирования Е передаваемых каналов.

13. Устройство по п.12, которое является системой, выбранной из группы, состоящей из цифрового видеомагнитофона, цифрового магнитофона, компьютера, спутникового передатчика, кабельного передатчика, передатчика наземного широковещания, системы домашних развлечений и системы домашнего кинотеатра, причем система содержит блок оценки кода и блок сведения.

14. Машиночитаемый носитель, на котором сохранен программный код, при этом при исполнении этого программного кода вычислительной машиной вычислительная машина реализует способ кодирования звуковых каналов, содержащий:
оценивание одного или более кодов характеристик для двух или более звуковых каналов, при этом, по меньшей мере, один код характеристик является комбинированным кодом характеристик, вычисляемым посредством комбинирования двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценивается из группы из двух или более звуковых каналов; и
передачу или сохранение упомянутых одного или более кодов характеристик.

15. Способ декодирования Е передаваемых звуковых каналов для формирования С воспроизводимых звуковых каналов, где Е и С целые числа и C>Е≥1, при этом способ содержит этапы, на которых:
принимают коды характеристик, соответствующие Е передаваемым каналам, при этом, по меньшей мере, один код характеристик является комбинированным кодом характеристик, вычисленным посредством комбинирования двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценен из группы из двух или более звуковых каналов, соответствующих Е передаваемым каналам;
разводят один или более из Е передаваемых каналов для формирования одного или более разведенных каналов; и
синтезируют один или более из С воспроизводимых каналов посредством применения кодов характеристик к упомянутым одному или более разведенным каналам, при этом два или более получаемых кодов характеристик получаются из комбинированного кода характеристик и каждый получаемый код характеристик используется для формирования двух или более синтезированных каналов.

16. Способ по п.15, в котором коды характеристик содержат одно или более из комбинированного кода ICC, комбинированного кода ICLD и комбинированного кода ICTD.

17. Способ по п.15, в котором комбинированный код характеристик является средним от упомянутых двух или более оцениваемых кодов характеристик.

18. Способ по п.17, в котором комбинированный код характеристик является взвешенным средним от упомянутых двух или более оцениваемых кодов характеристик.

19. Способ по п.18, в котором:
каждый оцениваемый код характеристик, используемый для вычисления комбинированного кода характеристик, ассоциирован с весовым коэффициентом, используемым при вычислении упомянутого взвешенного среднего; и
весовой коэффициент для каждого оцениваемого кода характеристик основан на мощности в группе каналов, соответствующих оцениваемому коду характеристик.

20. Способ по п.15, в котором упомянутые два или более получаемых кодов характеристик получают посредством
получения весового коэффициента для каждой группы из двух или более каналов, ассоциированных с оцениваемым кодом характеристик; и
получения упомянутых двух или более получаемых кодов характеристик как функции комбинированного кода характеристик и двух или более полученных весовых коэффициентов.

21. Способ по п.20, в котором каждый полученный весовой коэффициент получают посредством
оценки мощности в группе каналов, соответствующей оцениваемому коду характеристик; и
получения весового коэффициента на основе оцененных мощностей для разных групп каналов, соответствующих разным оцениваемым кодам характеристик.

22. Способ по п.15, в котором комбинированный код характеристик является комбинированным кодом ICC.

23. Способ по п.22, в котором:
упомянутые два или более звуковых каналов содержат левый канал, задний левый канал, правый канал и задний правый канал;
первый оцениваемый код ICC формируется из левого и заднего левого каналов;
второй оцениваемый код ICC формируется из правого и заднего правого каналов; и
комбинированный код ICC вычисляется посредством комбинирования первого и второго оцениваемых кодов ICC.

24. Способ по п.23, в котором:
комбинированный код ICC используется для декорреляции синтезированных левого и заднего левого каналов; и
комбинированный код ICC используется для декорреляции синтезированных правого и заднего правого каналов.

25. Устройство для декодирования Е передаваемых звуковых каналов для формирования С воспроизводимых звуковых каналов, где Е и С - целые числа и С>Е≥1, при этом устройство содержит:
средство для приема кодов характеристик, соответствующих Е передаваемым каналам, при этом, по меньшей мере, один код характеристик является комбинированным кодом характеристик, вычисленным посредством комбинирования двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценен из группы из двух или более звуковых каналов, соответствующих Е передаваемым каналам;
средство для разведения одного или более из Е передаваемых каналов для формирования одного или более разведенных каналов и
средство для синтеза одного или более из С воспроизводимых каналов посредством применения кодов характеристик к упомянутым одному или более разведенным каналам, при этом два или более получаемых кода характеристик получаются из комбинированного кода характеристик и каждый получаемый код характеристик используется для формирования двух или более синтезированных каналов.

26. Устройство для декодирования Е передаваемых звуковых каналов для формирования С воспроизводимых звуковых каналов, где Е и С - целые числа и C>Е≥1, при этом устройство содержит:
приемник, выполненный с возможностью принимать коды характеристик, соответствующие Е передаваемым каналам, при этом, по меньшей мере, один код характеристик является комбинированным кодом характеристик, вычисленным посредством комбинирования двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценен из группы из двух или более звуковых каналов, соответствующих Е передаваемым каналам;
блок разведения, выполненный с возможностью разведения одного или более из Е передаваемых каналов для формирования одного или более разведенных каналов; и
синтезатор, выполненный с возможностью синтеза одного или более из С воспроизводимых каналов посредством применения кодов характеристик к упомянутым одному или более разведенным каналам, при этом два или более получаемых кода характеристик получаются из комбинированного кода характеристик и каждый получаемый код характеристик используется для формирования двух или более синтезированных каналов.

27. Устройство по п.26, которое является системой, выбранной из группы, состоящей из цифрового видеопроигрывателя, цифрового звукового плеера, компьютера, спутникового приемника, кабельного приемника, приемника наземного широковещания, системы домашних развлечений и системы домашнего кинотеатра, причем система содержит приемник, блок разведения и синтезатор.

28. Машиночитаемый носитель, на котором сохранен программный код, при этом при исполнении этого программного кода вычислительной машиной вычислительная машина реализует способ декодирования Е передаваемых звуковых каналов для формирования С воспроизводимых звуковых каналов, где Е и С - целые числа и C>Е≥1, при этом способ содержит;
прием кодов характеристик, соответствующих Е передаваемым каналам, при этом, по меньшей мере, один код характеристик является комбинированным кодом характеристик, вычисленным посредством комбинирования двух или более оцениваемых кодов характеристик, и каждый оцениваемый код характеристик оценен из группы из двух или более звуковых каналов, соответствующих Е передаваемым каналам;
разведение одного или более из Е передаваемых каналов для формирования одного или более разведенных каналов и
синтез одного или более из С воспроизводимых каналов посредством применения кодов характеристик к упомянутым одному или более разведенным каналам, при этом два или более получаемых кода характеристик получаются из комбинированного кода характеристик и каждый получаемый код характеристик используется для формирования двух или более синтезированных каналов.



 

Похожие патенты:

Изобретение относится к декодированию звукового сигнала и, более конкретно, к декодированию параметрических закодированных звуковых сигналов. .

Изобретение относится к многоканальным кодерам, например к многоканальным звуковым кодерам, использующим параметрическое описание пространственного звука. .

Изобретение относится к многоканальному аудиокодированию и передаче и, в частности, к способам кодирования многоканального аудиосигнала, полностью обратно совместимого со стереоустройствами и форматами.

Изобретение относится к обработке аудиосигнала и, более конкретно, к способу осуществления эквалайзера в устройстве, предназначенном для обработки аудиосигнала. .

Изобретение относится к кодированию многоканального звука, и в частности к генерированию и использованию параметрического представления многоканального звукового сигнала, которое обратно совместимо со средствами воспроизведения сигнала параметрического стерео.

Изобретение относится к способу и устройству масштабирования сигнала по времени. .

Изобретение относится к обработке аудиосигналов, более конкретно к способу и устройству для декодирования аудиосигнала. .

Изобретение относится к кодированию и декодированию аудиосигналов и, в частности, к эффективному высококачественному кодированию пары аудиоканалов. .

Изобретение относится к области техники связи и может быть использовано для компрессии речевого сигнала в системах хранения и передачи цифровой информации. .

Изобретение относится к обработке аудиосигнала и, более конкретно, к способу и устройству для кодирования и декодирования аудиосигналов

Изобретение относится к обработке аудиосигналов, а более конкретно к устройству и способу декодирования аудиосигнала

Изобретение относится к аудиокодекам без потерь, более конкретно - к масштабируемому аудиокодеку без потерь и авторскому инструментальному средству

Изобретение относится к аудиокодекам без потерь, более конкретно к многоканальным аудиокодекам без потерь

Изобретение относится к устройству кодирования, устройству декодирования, способу кодирования и способу декодирования

Изобретение относится к обработке речевых сигналов

Изобретение относится к кодированию многоканальных аудиосигналов

Изобретение относится к кодированию речи и более конкретно к проблеме разреженности в кодированных речевых сигналах
Наверх