Индивидуальное формирование каналов для схем всс и т.п.

Изобретение касается кодирования аудиосигналов и последующего синтеза звуковых сцен из кодированных аудиоданных. В аудиокодере создают коды ключевой информации для одного или нескольких аудиоканалов, где код ключевой информации огибающей создают путем характеризации временной огибающей в аудиоканале. В аудиодекодере Е переданных аудиоканалов (аудиоканал) декодируют для создания С аудиоканалов воспроизведения, где С>Е≥1. Полученные коды ключевой информации включают в себя код ключевой информации огибающей, соответствующий охарактеризованной временной огибающей аудиоканала, соответствующего переданному каналу (каналам). Один или несколько переданных каналов смешивают с увеличением числа каналов для создания одного или нескольких каналов, смешанных с увеличением числа каналов. Синтезируют один или несколько каналов воспроизведения путем применения кодов ключевой информации к одному или нескольким каналам, смешанным с увеличением числа каналов, где код ключевой информации огибающей применяют к каналу, смешанному с увеличением числа каналов, или синтезированному сигналу для настройки временной огибающей синтезированного сигнала на основе охарактеризованной временной огибающей, так что настроенная временная огибающая по существу совпадает с охарактеризованной временной огибающей. Технический результат - расширение арсенала средств для кодирования аудиоданных. 10 н. и 32 з.п. ф-лы, 18 ил.

 

Перекрестные ссылки на родственные заявки

Данная заявка претендует на преимущество даты подачи предварительной патентной заявки США №60/620480, поданной 20.10.04 (Дело поверенного № Allamanche 2-3-18-4), основные положения которой включены сюда по ссылке.

Вдобавок, предмет этой заявки относится к предмету следующих патентных заявок США, основные положения которых включены сюда по ссылке:

Патентная заявка США №09/848877, поданная 04.05.2001 (Дело поверенного № Faller 5);

Патентная заявка США №10/045458, поданная 07.11.2001 (Дело поверенного № Baumgarte 1-6-8), которая, в свою очередь, претендовала на преимущество даты подачи предварительной патентной заявки США №60/311565, поданной 10.08.2001;

Патентная заявка США №10/155437, поданная 24.05.2002 (Дело поверенного № Baumgarte 2-10);

Патентная заявка США №10/246570, поданная 18.09.2002 (Дело поверенного № Baumgarte 3-11);

Патентная заявка США №10/815591, поданная 01.04.2004 (Дело поверенного № Baumgarte 7-12);

Патентная заявка США №10/936464, поданная 08.09.2004 (Дело поверенного № Baumgarte 8-7-15);

Патентная заявка США №10/762100, поданная 20.01.2004 (Faller 13-1); и

Патентная заявка США №10/хххххх, поданная с той же датой, что и данная заявка (Дело поверенного № Allamanche 1-2-17-3).

Предмет данной заявки также касается вопросов, описанных в следующих статьях, основные положения которых включены сюда по ссылке:

F. Baumgarte and C. Faller, "Binaural Cue Coding-Part I: Psychoacoustic fundamentals and design principles", IEEE Trans. on Speech and Audio Proc., vol.11, no.6, Nov.2003;

C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003; and

C. Faller, "Coding of spatial audio compatible with different playback formats", Preprint 117th Conv. Aud. Eng. Soc., October 2004.

Область техники, к которой относится изобретение

Настоящее изобретение относится к кодированию аудиосигналов и последующему синтезу звуковых сцен из кодированных аудиоданных.

Уровень техники

Когда человек слышит аудиосигнал (то есть, звуки), созданный конкретным источником звука, этот аудиосигнал поступает в его левое и правое ухо, как правило, в разные моменты времени и с двумя разными уровнями звука (например, в децибелах), причем эти разные моменты времени и уровни зависят от различий в траекториях, по которым распространяется каждый аудиосигнал, достигая левого и правого уха соответственно. Человеческий мозг интерпретирует эти различия во времени и уровне, обеспечивая ощущение того, что принимаемый аудиосигнал создается источником звука, находящимся в конкретном месте (например, по конкретному направлению и на конкретном расстоянии) по отношению к этому человеку. Звуковая сцена представляет собой совокупное воздействие аудиосигналов, одновременно слышимых человеком, которые создаются одним или несколькими разными источниками звука, находящимися в одном или нескольких различных местах по отношению к этому человеку.

Указанную обработку, осуществляемую мозгом, можно использовать для синтеза звуковых сцен, где аудиосигналы от одного или нескольких разных источников звука целенаправленно модифицируются для создания левого и правого аудиосигналов, которые обеспечивают ощущение того, что разные источники звука находятся в разных местах по отношению к слушателю.

На фиг.1 показана обобщенная блок-схема стандартного синтезатора 100 бинаурального сигнала, который преобразует сигнал от одного источника звука (например, монофонический сигнал) в левый и правый аудиосигналы бинаурального сигнала, где бинауральный сигнал определяется как два сигнала, принимаемые на барабанных перепонках слушателя. Вдобавок к сигналу источника звука синтезатор 100 получает набор пространственной ключевой информации, соответствующей желаемому положению источника звука по отношению к слушателю. В типовых реализациях набор пространственной ключевой информации содержит значение разницы уровней сигнала между каналами (ICLD) (которое идентифицирует разницу в уровне между левым и правым аудиосигналами, принимаемыми в левом и правом ухе соответственно) и значение временного сдвига между каналами (ICTD) (которое идентифицирует разницу во времени поступления левого и правого аудиосигналов, принимаемых в левом и правом ухе соответственно). Вдобавок, или как альтернативный вариант, некоторые технологии синтеза включают в себя моделирование передаточной функции, зависящей от направления, для звука от источника звука к барабанным перепонкам, которую также называют передаточной функцией, моделирующей восприятие звука человеком (HRTF). Смотри, например, работу J.Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983, основные положения которой включены сюда по ссылке.

Используя синтезатор 100 бинаурального сигнала по фиг.1, можно обрабатывать монофонический аудиосигнал, создаваемый одним источником звука, так чтобы при прослушивании через наушники создавалось ощущение пространственного расположения источника звука, путем использования подходящего набора пространственной ключевой информации (например, ICLD, ICTD и/или HRTF) для создания аудиосигнала для каждого уха. Смотри, например, работу D.R. Begaut, 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA, 1994.

Синтезатор 100 бинаурального сигнала по фиг.1 создает звуковые сцены простейшего типа, имеющие один источник звука, позиционированный относительно слушателя. Можно создавать более сложные звуковые сцены, содержащие два или более источников звука, находящихся в разных местах по отношению к слушателю, путем использования синтезатора звуковой сцены, который фактически реализуется с использованием множества экземпляров синтезатора бинаурального сигнала, где каждый экземпляр синтезатора бинаурального сигнала создает бинауральный сигнал, соответствующий тому или иному источнику звука. Поскольку каждый из разных источников звука имеет свое собственное местоположение по отношению к слушателю, для создания бинаурального аудиосигнала для каждого из различных источников звука используют свой собственный набор пространственной ключевой информации.

Сущность изобретения

Согласно одному варианту настоящее изобретение представляет собой способ, устройство и считываемый машиной носитель для кодирования аудиоканалов. Создают и передают один или несколько кодов ключевой информации для одного или нескольких аудиоканалов, где по меньшей мере один код ключевой информации является кодом ключевой информации огибающей, созданным путем характеризации временной огибающей в одном из упомянутых одного или нескольких аудиоканалов.

Согласно другому варианту настоящее изобретение представляет собой устройство для кодирования С входных аудиоканалов с целью создания Е передаваемых аудиоканалов (аудиоканала). Устройство содержит анализатор огибающей, блок оценки кода и смеситель, сокращающий число каналов. Анализатор огибающей характеризует входную временную огибающую по меньшей мере одного из С входных каналов. Блок оценки кода создает коды ключевой информации для двух или более из С входных каналов. Смеситель, сокращающий число каналов, смешивает С входных каналов с сокращением числа каналов для создания Е передаваемых каналов (канала), где С>E≥1, причем устройство передает информацию о кодах ключевой информации и охарактеризованную входную временную огибающую, чтобы позволить декодеру выполнить синтез и формирование огибающей во время декодирования Е передаваемых каналов (канала).

Согласно еще одному варианту настоящее изобретение представляет собой поток кодированных аудиобитов, созданный путем кодирования аудиоканалов, в котором для одного или нескольких аудиоканалов создают один или несколько кодов ключевой информации, где по меньшей мере один код ключевой информации является кодом ключевой информации огибающей, созданным путем характеризации временной огибающей в одном из одного или нескольких аудиоканалов. Один или несколько кодов ключевой информации и Е переданных аудиоканалов (аудиоканала), соответствующих одному или нескольким аудиоканалам, где Е≥1, кодируют в поток кодированных аудиобитов.

Согласно следующему варианту настоящее изобретение представляет собой поток кодированных аудиобитов, содержащий один или несколько кодов ключевой информации и Е переданных аудиоканалов (аудиоканал). Один или несколько кодов ключевой информации создают для одного или нескольких аудиоканалов, где по меньшей мере один код ключевой информации является кодом ключевой информации огибающей, созданным путем характеризации временной огибающей в одном из одного или нескольких аудиоканалов. Е переданных аудиоканалов (аудиоканал) соответствуют упомянутым одному или нескольким аудиоканалам.

Согласно еще одному варианту настоящее изобретение представляет собой способ, устройство и считываемый машиной носитель для декодирования Е переданных аудиоканалов (аудиоканала) для создания С аудиоканалов воспроизведения, где С>E≥1. Принимают коды ключевой информации, соответствующие Е переданным каналам (каналу), где коды ключевой информации содержат код ключевой информации огибающей, соответствующий охарактеризованной временной огибающей аудиоканала, соответствующего Е переданным каналам (каналу). Один или несколько из Е переданных каналов (канал) смешивают с увеличением числа каналов для создания одного или нескольких каналов, смешанных с увеличением числа каналов. Синтезируют один или несколько из С каналов воспроизведения путем применения кодов ключевой информации к одному или нескольким каналам, смешанным с увеличением числа каналов, где код ключевой информации огибающей применяют к каналу, смешанному с увеличением числа каналов, или синтезированному сигналу для настройки временной огибающей синтезированного сигнала на основе охарактеризованной временной огибающей, так что настроенная временная огибающая по существу совпадает с охарактеризованной временной огибающей.

Краткое описание чертежей

Другие аспекты, признаки и преимущества настоящего изобретения станут более очевидными из последующего подробного описания, прилагаемой формулы изобретения и сопроводительных чертежей, на которых одинаковые ссылочные позиции идентифицируют подобные или идентичные элементы.

Фиг.1 - обобщенная блок-схема стандартного синтезатора бинаурального сигнала;

фиг.2 - блок-схема системы базовой обработки аудиосигнала на основе бинаурального кодирования с использованием ключевой информации (BCC);

фиг.3 - блок-схема смесителя, сокращающего число каналов, который можно использовать в качестве смесителя, сокращающего число каналов, по фиг.2;

фиг.4 - блок-схема синтезатора BCC, который можно использовать в качестве декодера по фиг.2;

фиг.5 - блок-схема блока оценки BCC по фиг.2 согласно одному варианту настоящего изобретения;

фиг.6 - схема создания данных о временном сдвиге между каналами (ICTD) и данных о разнице уровней между каналами (ICLD) для пятиканальной аудиосистемы;

фиг.7А и 7В - схема создания данных о межканальной корреляции (ICC) для пятиканальной аудиосистемы;

фиг.8 - блок-схема реализации синтезатора BCC по фиг.4, который можно использовать в декодере BCC для создания стерео- или многоканального аудиосигнала, заданного одним переданным суммарным сигналом s(n) плюс пространственной ключевой информации;

фиг.9 - иллюстрация изменений ICTD и ICLD в субполосе в зависимости от частоты;

фиг.10А и 10В - блок-схема обработки во временной области, которая добавляется к кодеру ВСС, например кодеру по фиг.2 согласно одному варианту настоящего изобретения;

фиг.11А и 11В - пример применения обработки TP во временной области в контексте синтезатора BCC по фиг.4;

фиг.12А и 12В - возможные варианты реализации TPA по фиг.10 и TP по фиг.11 соответственно, где формирование огибающей применяется только на частотах, превышающих частоту fTP среза;

фиг.13А и 13В - блок-схема обработки во временной области, которая добавляется к кодеру ВСС, например кодеру по фиг.2 согласно альтернативному варианту настоящего изобретения;

фиг.14А и 14В - пример применения обработки TP в частотной области в контексте синтезатора BCC по фиг.4;

фиг.15 - блок-схема обработки во временной области, которая добавляется к кодеру ВСС, например кодеру по фиг.2 согласно еще одному альтернативному варианту настоящего изобретения;

фиг.16 - еще один пример применения обработки TP в частотной области в контексте синтезатора BCC по фиг.4;

фиг.17А-17С - блок-схемы возможных вариантов реализации TPA по фиг.15 и 16 и ITP и TP по фиг.16; и

фиг.18А и 18В - два примерных режима функционирования блока управления по фиг.16.

Подробное описание изобретения

При бинауральном кодировании с использованием ключевой информации (BCC) кодер кодирует С входных аудиоканалов для создания Е передаваемых аудиоканалов, где С>E≥1. В частности, два или более из С входных каналов обеспечивают в частотной области, а для каждой из одной или нескольких различных частотных полос в двух или более входных каналах в частотной области создают один или несколько кодов ключевой информации. Вдобавок, для создания Е передаваемых каналов выполняют смешение С входных каналов с сокращением числа каналов. В некоторых вариантах реализации смешения с сокращением числа каналов по меньшей мере один из Е переданных каналов базируется на двух или более из С входных каналов, а по меньшей мере один из Е переданных каналов базируется только на одном из С входных каналов.

В одном варианте кодер BCC имеет два или более блоков фильтров, блок оценки кодов и смеситель, сокращающий число каналов. Два или более блоков фильтров преобразуют два или более из С входных каналов из временной области в частотную область. Блок оценки кодов создает один или несколько кодов ключевой информации для каждой из одной или нескольких различных частотных полос в двух или более преобразованных входных каналах. Смеситель, сокращающий число каналов, выполняет смешение С входных каналов с сокращением числа каналов для создания Е передаваемых каналов, где С>E≥1.

При декодировании BCC декодируют Е передаваемых аудиоканалов для создания С аудиоканалов воспроизведения. В частности, для каждой из одной или нескольких различных частотных полос выполняют в частотной области смешение одного или более из Е переданных каналов с увеличением числа каналов для создания двух или более из С каналов воспроизведения в частотной области, где С>E≥1. Для каждой из одной или нескольких различных частотных полос в двух или более каналах воспроизведения в частотной области используют один или несколько кодов ключевой информации для создания двух или более модифицированных каналов, и эти два или более модифицированных каналов преобразуют из частотной области во временную область. В некоторых вариантах реализации смешения с увеличением числа каналов по меньшей мере один из С каналов воспроизведения базируется по меньшей мере на одном из Е переданных каналов и по меньшей мере на одном коде ключевой информации, а по меньшей мере один из С каналов воспроизведения базируется только на одном из Е переданных каналов и не зависит от какого-либо из кодов ключевой информации.

В одном варианте декодер BCC содержит смеситель, увеличивающий число каналов, синтезатор и один или несколько блоков обратных фильтров. Для каждой из одной или нескольких различных частотных полос смеситель, увеличивающий число каналов, выполняет в частотной области смешение одного или нескольких из Е переданных каналов с увеличением числа каналов для создания двух или более из С каналов воспроизведения в частотной области, где С>E≥1. Синтезатор использует один или несколько кодов ключевой информации для каждой из одной или нескольких различных частотных полос в двух или более каналах воспроизведения в частотной области для создания двух или более модифицированных каналов. Один или более блоков обратных фильтров преобразует два или более модифицированных каналов из частотной области во временную область.

В зависимости от конкретной реализации данный канал воспроизведения может базироваться на одном переданном канале, а не на комбинации из двух или более переданных каналов. Например, при наличии только одного переданного канала каждый из С каналов воспроизведения базируется на этом одном переданном канале. В таких ситуациях смешение с увеличением числа каналов соответствует копированию соответствующего переданного канала. По существу, для приложений, в которых имеется только один передаваемый канал, смеситель, увеличивающий число каналов, можно реализовать с использованием репликатора, который копирует этот передаваемый канал для каждого канала воспроизведения.

Кодеры и/или декодеры BCC можно включить в ряд систем или приложений, в том числе, например, в цифровые видеомагнитофоны/плееры, цифровые аудиомагнитофоны/плееры, компьютеры, спутниковые передатчики/приемники, кабельные передатчики/приемники, наземные вещательные передатчики/приемники, системы домашних развлечений и системы домашнего кинотеатра.

Базовая обработка на основе BCC

На фиг.2 представлена блок-схема системы 200 базовой обработки аудиосигнала на основе бинаурального кодирования с использованием ключевой информации (BCC), содержащая кодер 202 и декодер 204. Кодер 202 включает в себя смеситель 206, сокращающий число каналов, и блок 208 оценки BCC.

Смеситель 206, сокращающий число каналов, преобразует C входных аудиоканалов xi(n) в Е передаваемых аудиоканалов yi(n), где С>E≥1. В этом описании сигналы, выраженные с использованием переменной n, являются сигналами временной области, в то время как сигналы, выраженные с использованием переменной k, являются сигналами частотной области. В зависимости от конкретной реализации смешение с сокращением числа каналов можно реализовать либо во временной, либо в частотной области. Блок 208 оценки BCC создает коды BCC из С входных аудиоканалов и передает эти коды BCC в виде либо внутриполосной, либо внеполосной дополнительной информации по отношению к Е передаваемым аудиоканалам. Типовые коды BCC включают в себя одно или несколько из: временной сдвиг между каналами (ICTD), разница уровней между каналами (ICLD) и данные о межканальной корреляции (ICC), оцененные между определенными парами входных каналов в функции частоты и времени. Конкретный вариант реализации определяет, между какими конкретными парами входных каналов выполняется оценка кодов BCC.

Данные ICC соответствуют когерентности бинаурального сигнала, которая относится к воспринимаемому размеру источника звука по горизонтали. Чем больше размер источника звука по горизонтали, тем ниже когерентность между левым и правым каналами результирующего бинаурального сигнала. Например, когерентность бинаурального сигнала, соответствующего оркестру, разбросанному по сцене зала, обычно ниже, чем когерентность бинаурального сигнала, соответствующего одной скрипке, исполняющей сольную партию. В общем случае аудиосигнал с низкой когерентностью обычно воспринимается как развернутый в звуковом пространстве. Данные ICC, как таковые, обычно относятся к кажущемуся размеру источника по горизонтали и степени охвата слушателя. Смотри, например, J.Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983.

В зависимости от конкретного применения Е переданных аудиоканалов и соответствующие коды BCC можно передавать непосредственно в декодер 204 или запоминать в запоминающем устройстве подходящего типа для последующего обращения к ним со стороны декодера 204. В зависимости от ситуации термин «передача» может относиться либо к непосредственной передаче в декодер, либо к запоминанию соответствующих данных для последующего предоставления их декодеру. В любом случае декодер 204 принимает переданные аудиоканалы и дополнительную информацию и выполняет смешение с увеличением числа каналов, а также синтез BCC, используя коды BCC для преобразования Е переданных аудиоканалов в аудиоканалы воспроизведения , число которых превышает Е (как правило, но не обязательно, равно С), для воспроизведения звука. В зависимости от конкретной реализации смешение с увеличением числа каналов можно выполнять либо во временной области, либо в частотной области.

Вдобавок к обработке BCC, показанной на фиг.2, система базовой обработки аудиосигнала на основе BCC может включать в себя дополнительные этапы кодирования и декодирования для дальнейшего сжатия аудиосигналов в кодере с последующей распаковкой аудиосигналов в декодере. Такие аудиокодеки могут базироваться на стандартных технологиях сжатия/распаковки аудиосигналов, например на технологиях, основанных на импульсно-кодовой модуляции (PCM), дифференциальной PCM (DPCM) или адаптивной DPCM (ADPCM).

Когда смеситель 206, сокращающий число каналов, создает один единственный суммарный сигнал (то есть Е=1), кодирование BCC позволяет представить многоканальные аудиосигналы со скоростью передачи битов, лишь слегка превышающей скорость, необходимую для представления монофонического аудиосигнала. Причина этого заключается в том, что оцененные данные ICTD, ICLD и ICC между каналами в паре имеют примерно на два порядка меньший объем информации, чем сам аудиосигнал.

Представляет интерес не только низкая скорость передачи битов при кодировании BCC, но также его свойство обратной совместимости. Один переданный суммарный сигнал соответствует монофоническому смешению с сокращением числа каналов исходного стерео- или многоканального сигнала. Для приемников, которые не поддерживают стерео- или многоканальное воспроизведение звука, прослушивание переданного суммарного сигнала является эффективным способом представления аудиоматериала на низкопрофильном оборудовании для монофонического воспроизведения. Следовательно, кодирование BCC можно также использовать для расширения существующих услуг, включая предоставление монофонического аудиоматериала многоканальной аудиосистеме. Например, существующие монофонические системы радиовещания могут быть модифицированы для стерео- или многоканального воспроизведения, если в существующий канал передачи можно будет встроить дополнительную информацию BCC. Аналогичные возможности существуют при смешении многоканального аудиосигнала с сокращением количества каналов до двух суммарных сигналов, которые соответствуют стереофоническим аудиосистемам.

При использовании BCC аудиосигналы обрабатывают с определенным временным и частотным разрешением. Используемое частотное разрешение в значительной степени определяется частотным разрешением слуховой системы человека. Психоакустика предполагает, что пространственное восприятие основано, скорее всего, на представлении критической полосы слышимых частот в акустическом входном сигнале. Это частотное разрешение учитывается посредством использования блока обратимых фильтров, например, на основе быстрого преобразования Фурье (FFT) или квадратурного зеркального фильтра (QMF), с субполосами, равными или пропорциональными ширине критической полосы слуховой системы человека.

Базовое смешение с сокращением числа каналов

В предпочтительных вариантах реализации переданный суммарный сигнал (сигналы) содержит все сигнальные компоненты входного аудиосигнала. Целью является полное сохранение каждой сигнальной компоненты. Простое суммирование входных аудиоканалов часто приводит к усилению или ослаблению сигнальных компонент. Другими словами, мощность сигнальных компонент в «простой» сумме часто оказывается больше или меньше суммы мощностей соответствующих сигнальных компонент каждого канала. Можно использовать технологию смешения с сокращением числа каналов, которая выравнивает суммарный сигнал, так что мощность сигнальных компонент в суммарном сигнале будет примерно такой же, как соответствующая мощность во всех входных каналах.

На фиг.3 показана блок-схема смесителя 300, сокращающего число каналов, который можно использовать в качестве смесителя 206 по фиг.2, сокращающего число каналов, в соответствии с конкретными вариантами реализации системы BCC 200. Смеситель 300, сокращающий число каналов, содержит блок (302) фильтров (FB) для каждого входного канала xi(n), блок 304 смешения с сокращением числа каналов, необязательный блок 306 масштабирования/задержки и блок 308 обратных фильтров (IFB) для каждого кодированного канала yi(n).

Каждый блок 302 фильтров преобразует каждый кадр (например, 20 мс) соответствующего цифрового входного канала xi(n) во временной области в набор входных коэффициентов в частотной области. Блок 304 смешения с сокращением числа каналов выполняет указанные смешения каждой субполосы из С соответствующих входных коэффициентов в соответствующую субполосу из Е коэффициентов в частотной области, подвергшихся смешению с сокращением числа каналов. Уравнение (1) представляет смешение с сокращением числа каналов для k-й субполосы входных коэффициентов (,...,) для создания k-й субполосы коэффициентов (), подвергшихся смешению с сокращением числа каналов, следующим образом:

где DCE - вещественно-значная матрица смешения с сокращением числа каналов с С до Е.

Необязательный блок 306 масштабирования/задержки содержит набор умножителей 310, каждый из которых умножает соответствующий коэффициент , подвергнутый смешению с сокращением числа каналов, на масштабный коэффициент для создания соответствующего масштабированного коэффициента . Мотивировка выполнения операции масштабирования такая же, как для операции выравнивания, общей для смешения (с сокращением числа каналов) с помощью произвольных весовых коэффициентов для каждого канала. Если входные каналы являются независимыми, то тогда мощность сигнала (после смешения с сокращением числа каналов) в каждой субполосе задается уравнением (2) следующим образом:

где получают путем возведения в квадрат каждого элемента в матрице смешения с сокращением числа каналов с С до Е, а - мощность субполосы k входного канала i.

Если субполосы не являются независимыми, то тогда значения мощности сигнала после смешения с сокращением числа каналов будут больше или меньше значений, вычисленных с использованием уравнения (2), из-за усиления или ослабления сигналов, когда сигнальные компоненты находятся в фазе или не в фазе соответственно. Во избежание этого операция смешения с сокращением числа каналов по уравнению (1) применяется в субполосах, после чего следует операция масштабирования, выполняемая умножителями 310. Масштабные коэффициенты (1·i·E) можно получить, используя уравнение (3) следующим образом:

где - мощность субполосы, вычисленная по уравнению (2), а - мощность соответствующего сигнала субполосы после смешения с сокращением числа каналов.

Вдобавок, или вместо необязательного масштабирования, блок 306 масштабирования/задержки может выполнять задержку этих сигналов.

Каждый блок 308 обратных фильтров преобразует набор соответствующих масштабированных коэффициентов в частотной области в кадр соответствующего переданного цифрового канала .

Хотя на фиг.3 показаны все С входных каналов, преобразуемых в частотную область для последующего смешения с сокращением числа каналов, в альтернативных вариантах реализации для одного или нескольких (но меньше чем С-1) из С входных каналов может не выполняться часть или вся обработка, показанная на фиг.3, и тогда они будут передаваться в виде эквивалентного количества не модифицированных аудиоканалов. В зависимости от конкретной реализации эти не модифицированные аудиоканалы могут быть или не быть использованы блоком 208 оценки BCC по фиг.2 при создании передаваемых кодов BCC.

В варианте реализации смесителя 300, сокращающего число каналов, который создает один суммарный сигнал , число E=1, а сигналы каждой субполосы каждого входного канала с суммируются, а затем умножаются на коэффициент согласно уравнению (4) следующим образом:

где коэффициент задается уравнением (5) следующим образом:

где - кратковременная оценка мощности на временной отметке k, а - кратковременная оценка мощности . Выровненные субполосы преобразуют обратно во временную область, в результате чего получают суммарный сигнал y(n), который передается в декодер BCC.

Базовый синтез BCC

На фиг.4 показана блок-схема синтезатора 400 BCC, который можно использовать для декодера 204 по фиг.2, согласно конкретным вариантам реализации системы 200 BCC. Синтезатор 400 BCC содержит блок 402 фильтров для каждого переданного канала yi(n), блок 404 смешения с увеличением числа каналов, задержки 406, умножители 408, блок 410 корреляции и блок 412 обратных фильтров для каждого канала воспроизведения.

Каждый блок 402 фильтров преобразует каждый кадр соответствующего переданного цифрового канала yi(n) во временной области в набор входных коэффициентов в частотной области. Блок 404 смешения с увеличением числа каналов смешивает каждую субполосу из Е соответствующих переданных канальных коэффициентов в соответствующую субполосу из С коэффициентов частотной области, прошедших операцию смешения с увеличением числа каналов. Уравнение (4) представляет смешение с увеличением числа каналов k-й субполосы переданных канальных коэффициентов () для создания k-й субполосы коэффициентов () после смешения с увеличением числа каналов следующим образом:

где UEC вещественнозначная матрица смешения с увеличением числа каналов с Е до С. Выполнение смешения с увеличением числа каналов в частотной области позволяет использовать такое смешение отдельно в каждой субполосе.

Каждая задержка 406 использует значение di(k) задержки на основе соответствующего кода BCC для данных ICTD, чтобы обеспечить появление желаемых значений ICTD между определенными парами каналов воспроизведения. Каждый умножитель 408 использует масштабный коэффициент ai(k) на основе соответствующего кода BCC для данных ICLD, чтобы обеспечить желаемые значения ICLD между определенными парами каналов воспроизведения. Блок 410 корреляции выполняет операцию A декорреляции на основе соответствующих кодов BCC для данных ICC, чтобы обеспечить желаемые значения ICC между определенными парами каналов воспроизведения. Дополнительное описание операций, выполняемых блоком 410 корреляции, можно найти в патентной заявке США №10/155437, поданной 24.05.2002 (Baumgarte 2-10).

Синтез значений ICLD может оказаться менее проблемным, чем синтез значений ICTD и ICC, поскольку синтез ICLD включает простое масштабирование сигналов субполосы. Поскольку ключевая информация ICLD является наиболее широко используемой ключевой информацией направленности, обычно важнее, чтобы значения ICLD аппроксимировали соответствующие значения исходного аудиосигнала. Данные ICLD, как таковые, могут быть оценены между всеми канальными парами. Масштабные коэффициенты ai(k)(1·i·C) для каждой субполосы предпочтительно выбирать таким образом, чтобы мощность субполосы каждого канала воспроизведения аппроксимировала соответствующую мощность исходного входного аудиоканала.

Одной из целей может быть использование для синтеза значений ICTD и ICC относительно небольших модификаций сигналов. Данные BCC, как таковые, могут не включать значения ICTD и ICC для всех канальных пар. В этом случае синтезатор 400 BCC будет синтезировать значения ICTD и ICC только между некоторыми канальными парами.

Каждый блок 412 обратных фильтров преобразует набор соответствующих синтезированных коэффициентов в частотной области в кадр соответствующего цифрового канала воспроизведения.

Хотя на фиг.4 показаны все Е передаваемых каналов, преобразуемых в частотную область для последующего повышающего микширования и обработки BCC, в альтернативных вариантах реализации для одного или нескольких (но не всех) из Е переданных каналов может не выполняться вся обработка, показанная на фиг.4. Например, один или несколько передаваемых каналов могут представлять собой не модифицированные каналы, которые не подвергаются смешению с увеличением числа каналов. Вдобавок, один или несколько из С каналов воспроизведения могут быть, в свою очередь, не модифицированными каналами, которые можно, но не обязательно использовать в качестве опорных каналов, к которым применяется обработка BCC для синтеза одного или нескольких других каналов воспроизведения. В любом случае указанные не модифицированные каналы могут подвергаться задержкам для компенсации времени обработки, затрачиваемого на смешение с увеличением числа каналов, и/или обработку BCC, используемую для создания остальных каналов воспроизведения.

Заметим, что, хотя на фиг.4 показано С каналов воспроизведения, синтезируемых из Е переданных каналов, где С также является количеством исходных входных каналов, синтез BCC не ограничивается этим количеством каналов воспроизведения. В общем случае количество каналов воспроизведения может быть любым, включая число, большее или меньшее С, и даже возможны ситуации, когда количество каналов воспроизведения меньше или равно количеству переданных каналов.

«Значимые для восприятия различия» между аудиоканалами

Если предположить наличие одного суммарного сигнала, то при выполнении BCC синтезируется стерео- или многоканальный аудиосигнал, так что параметры ICTD, ICLD и ICC аппроксимируют соответствующую ключевую информацию исходного аудиосигнала. Далее обсуждается роль ICTD, ICLD и ICC в отношении атрибутов звуковых пространственных образов.

Знания о пространственной слышимости предполагают, что для одного звукового события параметры ICTD и ICLD относятся к воспринимаемому направлению. При учете бинауральных импульсных характеристик (BRIR) в условиях помещения для одного источника имеет место взаимосвязь между размером звукового события по горизонтали и охватом слушателя и данными ICC, оцененными для начальной и конечной частей характеристик BRIR. Однако взаимосвязь между ICC и этими свойствами для обычных сигналов (а не только для BRIR) не является прямой.

Стерео- и многоканальные аудиосигналы обычно содержат сложную смесь сигналов от одновременно действующих источников, на которые накладываются компоненты отраженного сигнала в результате записи в замкнутых пространствах или добавления со стороны инженера по звукозаписи для искусственного создания пространственного впечатления. Сигналы от разных источников и их отражения занимают различные области на плоскости время-частота. Это отражается с помощью параметров ICTD, ICLD и ICC, которые изменяются в функции времени и частоты. В этом случае взаимосвязь между мгновенными значениями ICTD, ICLD и ICC и направлениями звуковых событий и пространственным впечатлением не очевидна. Стратегия некоторых вариантов BCC состоит в синтезе указанной ключевой информации «вслепую», так чтобы она аппроксимировала соответствующую ключевую информацию исходного аудиосигнала.

Используют блоки фильтров с шириной субполос, равной удвоенной эквивалентной прямоугольной полосе (FRB). Свободное прослушивание обнаруживает, что качество звучания при использовании BCC не улучшается при выборе более высокого разрешения по частоте. Может оказаться желательным более низкое частотное разрешение, поскольку оно приводит к меньшим значениям ICTD, ICLD и ICC, которые потребуется передавать в декодер, что позволит использовать более низкую скорость передачи битов.

Что касается временного разрешения, то параметры ICTD, ICLD и ICC обычно учитывают с регулярными временными интервалами. Высокое качество получается тогда, когда ICTD, ICLD и ICC учитывают примерно каждые 4-16 мс. Заметим, что если ключевую информацию не учитывать с очень короткими временными интервалами, то эффект Хааза непосредственно не учитывается. В предположении использования классической пары опережения-запаздывания звуковых стимулов, если опережение и запаздывание попадают на временной интервал, где синтезируется только один набор ключевой информации, то тогда влияние локализации опережения не учитывается. Несмотря на это кодирование BCC обеспечивает качество звука со средней оценкой порядка 87 баллов по методу тестирования MUSHRA (то есть «отличное качество звучания») и почти до 100 баллов для некоторых аудиосигналов.

Часто достигаемое небольшое различие восприятия между эталонным сигналом и синтезированным сигналом означает, что ключевая информация, относящаяся к широкому диапазону атрибутов звуковых пространственных образов, учитывается в неявном виде путем синтеза ICTD, ICLD и ICC с регулярными временными интервалами. Далее приводится ряд аргументов по поводу того, как можно связать ICTD, ICLD и ICC с диапазоном атрибутов звуковых пространственных изображений.

Оценка пространственной ключевой информации

Далее описывается, каким образом оценивается ICTD, ICLD и ICC. Скорость передачи бит для передачи этих (квантованных и кодированных) пространственных ключевых информаций может составлять как раз несколько кбит/с, и тогда, используя кодирования BCC, можно передавать стерео- и многоканальные аудиосигналы со скоростями передачи битов, близкими той, которая требуется для одного аудиоканала.

На фиг.5 показана блок-схема блока 208 оценки BCC по фиг.2 согласно одному варианту настоящего изобретения. Блок 208 оценки BCC содержит блоки 502 фильтров (FB), которые могут быть такими же, как блоки 302 фильтров по фиг.3, и блок 504 оценки, который создает пространственную ключевую информацию ICTD, ICLD и ICC для каждой отдельной субполосы, созданной блоками 502 фильтров.

Оценка ICTD, ICLD и ICC для стереосигналов

Для меток ICTD, ICLD и ICC для соответствующих сигналов субполос и двух (например, стерео) аудиоканалов используют следующие меры:

ICTD [отсчеты]:

с кратковременной оценкой нормализованной функции перекрестной корреляции, заданной уравнением (8) следующим образом:

где

а - кратковременная оценка среднего от .

ICLD [децибел]:

ICC:

Заметим, что рассматривается абсолютное значение нормализованной перекрестной корреляции, а с12(k) имеет диапазон [0,1].

Оценка ICTD, ICLD и ICC для многоканальных аудиосигналов

Когда имеется больше двух входных каналов, как правило, достаточно определить ICTD и ICLD между опорным каналом (например, канал номер 1) и другими каналами, как показано на фиг.6 для случая С = 5 каналов, где τ(k) и ΔL12(k) обозначают ICTD и ICLD соответственно между опорным каналом 1 и каналом с.

В противоположность ICTD и ICLD параметр ICC обычно имеет больше степеней свободы. ICC по определению может иметь различные значения во всех возможных парах входных каналов. Для С каналов имеется С(С-1)/2 возможных канальных пар; например, для 5 каналов имеется 10 канальных пар, как показано на фиг.7А. Однако указанная схема требует оценки и передачи С(С-1)/2 значений ICC для каждой субполосы и каждого временного индекса, что повышает сложность вычислений и скорость передачи бит.

В альтернативном варианте для каждой субполосы ICTD и ICLD определяют направление, по которому воспринимается звуковое событие соответствующей сигнальной компоненты в данной субполосе. Затем для описания общей когерентности между всеми аудиоканалами можно использовать один единый параметр ICC на каждую субполосу. Хорошие результаты можно получить путем оценки и передачи ключевой информации ICC только между двумя каналами с максимальной энергией в каждой субполосе на каждом временном индексе. Это показано на фиг.7В, где для моментов времени k-1 и k самыми мощными являются соответственно канальные пары (3,4) и (1,2). Для определения ICC между другими канальными парами можно использовать эвристическое правило.

Синтез пространственной ключевой информации

На фиг.8 показана блок-схема реализации синтезатора 400 BCC по фиг.4, который можно использовать в декодере BCC для создания стерео- или многоканального аудиосигнала, задаваемого одним переданным суммарным сигналом s(n) плюс пространственной ключевой информации. Суммарный сигнал s(n) разбивается на субполосы, где обозначает одну указанную субполосу. Для создания соответствующих субполос каждого из выходных каналов к соответствующей субполосе суммарного сигнала применяются задержки dc, масштабные коэффициенты ac и фильтры hc. (Для упрощения написания временной индекс k в задержках, масштабных коэффициентах и фильтрах опущен). Параметры ICTD синтезируют путем наложения задержек, параметры ICLD - путем масштабирования, а параметры ICC - путем применения фильтров декорреляции. Обработка, показанная на фиг.8, применяется независимо к каждой субполосе.

Синтез ICTD

Задержки dc определяют изτ(k) параметров ICTD согласно уравнению (12) следующим образом:

Задержку d1 для опорного канала вычисляют таким образом, чтобы обеспечить минимум максимальной величины задержек dc. Чем меньше модифицируются сигналы субполос, тем меньше риск появления привнесенных искажений. Если частота дискретизации субполосы не обеспечивает достаточно высокое временное разрешение для синтеза ICTD, задержки можно накладывать более точно, используя подходящие всечастотные фильтры.

Синтез ICLD

Для того чтобы сигналы выходных субполос имели желаемую величину ΔL12(k) параметров ICLD между каналом с и опорным каналом 1, коэффициенты усиления ас должны удовлетворять уравнению (13) в следующем виде:

Вдобавок, выходные субполосы предпочтительно нормализовать, так чтобы сумма мощностей всех выходных каналов равнялась мощности входного суммарного канала. Поскольку общая исходная мощность сигнала в каждой субполосе в суммарном сигнале сохраняется, такая нормализация дает абсолютную мощность субполосы для каждого выходного канала, аппроксимирующую соответствующую мощность исходного входного аудиосигнала кодера. При задании указанных ограничений масштабные коэффициенты ас задаются уравнением (14) следующим образом:

Синтез ICC

В некоторых вариантах целью синтеза ICC является уменьшение корреляции между субполосами после применения задержек и масштабирования без воздействия на параметры ICTD и ICLD. Этого можно достичь путем расчета фильтров hc на фиг.8, так чтобы ICTD и ICLD эффективно изменялись в функции частоты и чтобы среднее изменение равнялось нулю в каждой субполосе (критическая звуковая полоса).

На фиг.9 показано, как изменяются ICTD и ICLD в субполосе в функции частоты. Амплитуда изменения ICTD и ICLD определяет степень декорреляции и регулируется в функции ICC. Заметим, что ICTD изменяются плавно (как на фиг.9А), в то время как ICLD изменяются случайным образом (как на фиг.9В). ICLD может изменяться так же плавно, как ICTD, но это приведет к большей корреляции результирующих аудиосигналов.

Другой способ синтеза ICC, подходящий, в частности, для синтеза многоканального параметра ICC, более подробно описан в работе C.Faller, "Parametric multi-channel audio coding. Synthesis of coherence cues", IEEE Trans. on Speech and Audio Proc., 2003, основные положения которой включены сюда по ссылке. К каждому из выходных каналов для достижения желаемого значения ICC добавляются специальные величины искусственной запаздывающей реверберации в функции времени или частоты. Вдобавок, может быть применена модификация спектра, так чтобы спектральная огибающая результирующего сигнала приближалась к спектральной огибающей исходного аудиосигнала.

Другие технологии синтеза, связанного и не связанного с ICC, для стереосигналов (или аудиоканальных пар) представлены в работах E. Schuijers, W. Oomen, B. den Brinker, and J. Breebaart, "Advances in parametric coding for high-quality audio," in Preprint 114th Conv. Aud. Eng. Soc., Mar. 2003, и J. Engdegard, H. Purnhagen, J. Roden, and L. Liljeryd, "Synthetic ambience in parametric stereo coding", in Preprint 117th Conv. Aud. Eng. Soc., May 2004, основные положения которых включены сюда по ссылке.

Кодирование BCC по схеме «с С до Е»

Как было описано ранее, кодирование BCC может быть реализовано с более чем одним каналом передачи. Описан вариант BCC, который представляет С аудиоканалов не в виде одного единственного (передаваемого) канала, а в виде Е каналов (этот вариант обозначен здесь как BCC по схеме «с С до Е»). Имеется по меньшей мере два обоснования для использования BCC по схеме «с С до Е»: BCC с одним каналом передачи обеспечивает обратную совместимость при обновлении существующих монофонических систем для стерео или многоканального воспроизведения звука. Обновленные системы передают суммарный сигнал BCC, подвергшийся смешению с сокращением числа каналов, через существующую монофоническую инфраструктуру, передавая, кроме того, дополнительную информацию BCC. Кодирование BCC по схеме «с С до Е» применимо в случае Е-канального обратно совместимого кодирования С-канального аудиосигнала.

Кодирование BCC по схеме «с С до Е» вводит масштабируемость с точки зрения различной степени сокращения количества переданных каналов. Ожидается, что чем больше аудиоканалов передается, тем выше будет качество аудиосистемы.

Подробности обработки сигналов для кодирования BCC по схеме «с С до Е», например, то, каким образом определять ключевую информацию ICTD, ICLD и ICC, описаны в патентной заявке США №10/762100, поданной 20.01.2004 (Faller 13-1).

Индивидуальное формирование каналов

В некоторых вариантах при кодировании BCC с одним каналом передачи и кодировании BCC по схеме «с С до Е» используют алгоритмы для синтеза ICTD, ICLD и/или ICC. Обычно достаточно синтезировать ключевую информацию ICTD, ICLD и/или ICC каждые 4-30 мс. Однако перцептивный феномен эффекта Хааза предполагает, что имеются определенные моменты времени, когда слуховая система человека оценивает ключевую информацию с более высоким временным разрешением (например, каждые 1-10 мс).

Один блок статических фильтров, как правило, не может обеспечить достаточно высокое частотное разрешение, подходящее для большинства моментов времени, при одновременном обеспечении достаточно высокого временного разрешения в те моменты времени, когда эффект Хааза вступает в действие.

Некоторые варианты настоящего изобретения имеют своей целью создание системы, где используется синтез ICTD, ICLD и/или ICC с относительно низким временным разрешением с добавлением дополнительной обработки, касающейся тех моментов времени, когда требуется более высокое временное разрешение. Вдобавок, в некоторых вариантах система исключает необходимость использования технологии переключения адаптивного окна сигнала, которую, как правило, трудно интегрировать в структуру системы. В некоторых вариантах оценивают временные огибающие одного или нескольких исходных входных аудиоканалов кодера. Это можно выполнить непосредственно, например путем анализа временной структуры сигнала или путем оценки автокорреляции сигнального спектра по частоте. Оба подхода будут детально проработаны далее в последующих примерах реализации. Информацию, содержащуюся в этих огибающих, передают в декодер (в виде кодов ключевой информации огибающей), если это оказывается полезным и требуется с точки зрения восприятия звука.

В некоторых вариантах декодер использует определенную обработку для наложения этих требуемых временных огибающих на выходные аудиоканалы:

Этого можно достичь с помощью обработки TP, например путем манипуляции над огибающей сигнала посредством умножения отсчетов сигнала во временной области на функцию модификации амплитуды в зависимости от времени. Аналогичную обработку можно применить к отсчетам спектра/субполосы, если временное разрешение субполос достаточно высокое (за счет низкого частотного разрешения).

В альтернативном варианте можно использовать свертку/фильтрацию спектрального представления сигнала по частоте способом, аналогичным тому, который используется в известном уровне техники с целью формирования шума квантования аудиокодера с низкой скоростью передачи битов или в целях повышения интенсивности кодированных стереосигналов. Этот вариант является предпочтительным, если блок фильтров имеет высокое частотное разрешение и, следовательно, низкое временное разрешение. Для подхода на основе свертки/фильтрации:

Способ формирования огибающей расширяют с переходом от кодирования интенсивности стереосигнала к многоканальному кодированию по схеме «с С до Е».

Эта технология включает в себя настройку, при которой управление формированием огибающей осуществляется на основе параметрической информации (например, двоичные флаги), созданной кодером, но в действительности формирование огибающей выполняется с использованием набора коэффициентов фильтра, полученных от декодера.

При другой конфигурации наборы коэффициентов фильтрации передают из кодера, например, только тогда, когда это необходимо и/или полезно с точки зрения восприятия звука.

Вышесказанное также верно для подхода на основе использования временной области/области субполос. Таким образом, для дополнительного управления передачей информации об огибающей можно ввести некоторые критерии (например, обнаружение переходного состояния и оценку тональности).

Могут возникнуть ситуации, когда желательно заблокировать обработку TP во избежание возможности появления внесенных искажений. С точки зрения безопасности стратегически правильно оставить временную обработку заблокированной по умолчанию (то есть кодирование BCC будет действовать по условной схеме BCC). Дополнительная обработка разрешается только в том случае, когда ожидается, что более высокое временное разрешение каналов приведет к улучшению, например, когда ожидается, что начнет действовать эффект Хааза.

Как было установлено ранее, такое управление разрешением/блокировкой можно обеспечить на основе обнаружения переходных состояний. То есть при обнаружении переходного состояния обработка TP разрешается. Эффект Хааза наиболее ярко проявляется во время переходных состояний. Обнаружение переходного состояния можно использовать с упреждением для эффективного формирования не только отдельных переходных состояний, но также сигнальных компонент, непосредственно перед и после переходного состояния. Возможные способы обнаружения переходных состояний включают в себя:

Наблюдение за временной огибающей входных сигналов кодера BCC или переданного суммарного сигнала (сигналов)BCC. Если имеет место внезапное возрастание мощности, то тогда появляется переходное состояние.

Анализ эффективности кодирования с линейным предсказанием (LPC), оцененного в кодере или в декодере. Если эффективность предсказания LPC превышает некоторый порог, то тогда можно предположить, что сигнал находится в переходном состоянии или сильно флуктуирует. Вычисления для анализа LPC выполняют на основе автокорреляции спектра.

Вдобавок, для предотвращения возможных привнесенных искажений в канальных сигналах обработку TP предпочтительно не применять, когда тональность переданного суммарного сигнала (сигналов) высока.

Согласно некоторым вариантам настоящего изобретения временные огибающие отдельных исходных аудиоканалов оценивают в кодере BCC, чтобы дать возможность декодеру BCC создать выходные каналы с временными огибающими, аналогичными (или подобными по восприятию) огибающим исходных аудиоканалов. Некоторые варианты настоящего изобретения ориентированы на феномен эффекта Хааза. Некоторые варианты настоящего изобретения включают передачу кодов ключевой информации огибающей вдобавок к другим кодам BCC, таким как ICLD, ICTD и/или ICC, в качестве части дополнительной информации BCC.

В некоторых вариантах настоящего изобретения временное разрешение для ключевой информации временной огибающей выше, чем временное разрешение других кодов BCC (например, ICLD, ICTD, ICC). Это позволяет выполнять формирование огибающей в течение временного периода, предусмотренного окном синтеза, которое соответствует длине блока входного канала, в течение которого получают другие коды BCC.

Примеры реализации

На фиг.10 показана блок-схема обработки во временной области, которая дополняет кодер BCC, например кодер 202 по фиг.2, согласно одному варианту настоящего изобретения. Как показано на фиг.10А, каждый анализатор 1002 временной обработки (TPA) оценивает временную огибающую разного исходного входного канала xc(n), хотя в общем случае может анализироваться любой один или несколько входных каналов.

На фиг.10В показана блок-схема одной возможной реализации во временной области анализатора TPA 1002, в котором отсчеты входного сигнала возводят в квадрат (1006), а затем подвергают фильтрации нижних частот (1008) для характеризации временной огибающей входного сигнала. В альтернативных вариантах временную огибающую можно оценивать, используя метод автокорреляции/LPC или другие методы, например, используя преобразование Гильберта.

Блок 1004 по фиг.10А выполняет параметризацию, квантование и кодирование оцененных временных огибающих до передачи в качестве информации, подвергшейся временной обработке (TP) (например, коды ключевой информации огибающей), которая включается в дополнительную информацию по фиг.2.

В одном варианте детектор (не показан) в блоке 1004 определяет, повышает ли обработка TP в декодере качество звучания, так что блок 1004 передает дополнительную информацию TP только в те моменты времени, когда качество звучания будет улучшено благодаря обработке TP.

На фиг.11 показан пример применения обработки TP во временной области в контексте синтезатора 400 BCC по фиг.4. В этом варианте имеется единственный переданный суммарный сигнал s(n), создается С базовых сигналов путем копирования этого суммарного сигнала, и операция формирования огибающей применяется индивидуально к каждому из различных синтезированных каналов. В альтернативных вариантах порядок задержек, масштабирования и иной обработки может быть другим. Кроме того, в альтернативных вариантах формирование огибающей не ограничивается независимой обработкой каждого канала. Это особенно верно для реализаций на основе свертки/фильтрации, в которых для получения информации о тонкой временной структуре сигнала используется когерентность по частотным полосам.

На фиг.11А блок 1102 декодирования восстанавливает сигналы «а» временной огибающей для каждого выходного канала исходя из переданной дополнительной информации TP, полученной от кодера PCC, а каждый блок TP 1104 применяет соответствующую информацию об огибающей для формирования огибающей выходного канала.

На фиг.11В показана блок-схема одной возможной реализации TP 1104 во временной области, где синтезированные отсчеты сигнала возводят в квадрат (1106), а затем подвергают фильтрации (1108) нижних частот для характеризации временной огибающей «b» синтезированного канала. Создают (1110) масштабный коэффициент (например, sgrt (a/b)), а затем применяют его (1112) к синтезированному каналу для создания выходного сигнала, имеющего временную огибающую, по существу идентичную огибающей соответствующего исходного входного канала.

В альтернативных вариантах реализации TPA 1102 по фиг.10 и TP 1104 по фиг.11 временные огибающие характеризуются с использованием операций со значениями отсчетов сигнала, а не путем возведения их в квадрат. В указанных вариантах реализации в качестве масштабного коэффициента можно использовать отношение a/b, не применяя операцию извлечения квадратного корня.

Хотя операция масштабирования по фиг.11С соответствует реализации обработки TP во временной области, обработку TP (так же, как обработку TPA и обработку, обратную обработке TP (ITP)), можно также реализовать, используя сигналы в частотной области, как в варианте по фиг.16-17 (описаны ниже). По существу, применительно к данному описанию термин «функция масштабирования» следует интерпретировать как термин, охватывающий операции либо во временной области, либо в частотной области, например операции фильтрации по фиг.17В и 17С.

В общем случае каждый блок TP 1104 предпочтительно спроектировать таким образом, чтобы он не изменял мощность (то есть энергию) сигнала. В зависимости от конкретной реализации эта мощность сигнала может быть средней мощностью сигнала за короткое время в каждом канале, например, определяемой на основе общей мощности сигнала на канал за период времени, определенный окном синтеза, или можно использовать какие-либо другие подходящие меры мощности. Масштабирование для синтеза ICLD (например, с использованием умножителей 408) как таковое можно использовать перед или после формирования огибающей.

Поскольку полнополосное масштабирование выходных сигналов BCC может привести к появлению привнесенных искажений, формирование огибающей можно применять только на заданных частотах, например частотах, превышающих некоторую частоту fTP среза (например, 500 Гц). Заметим, что частотный диапазон для анализа (TPA) может отличаться от частотного диапазона для синтеза (TP).

На фиг.12А и 12В показаны возможные варианты реализации анализатора TPA 1002 по фиг.10 и процессора TP 1104 по фиг.11, где формирование огибающей применяется только на частотах, больших частоты fTP среза. В частности, на фиг.12А показано добавление в виде фильтра 1302 верхних частот, который отфильтровывает частоты, меньшие fTP, до характеризации временной огибающей. На фиг.12В показано добавление в виде блока 1204 двухполосных фильтров, имеющих частоту fTP среза между двумя субполосами, где временное формирование выполняется только для высокочастотной части. Затем блок 1206 двухполосных обратных фильтров рекомбинирует низкочастотную часть со сформированной во времени высокочастотной частью для создания выходного канала.

На фиг.13 показана блок-схема обработки в частотной области, которая дополняет кодер BCC, например кодер 202 по фиг.2, согласно альтернативному варианту настоящего изобретения. Как показано на фиг.13А, обработка каждого TPA 1302 используется индивидуально в той или иной субполосе, причем каждый блок фильтров (FB) аналогичен соответствующему блоку FB 302 по фиг.3, а блок 1304 является реализацией субполосы, аналогичной блоку 1004 по фиг.10. В альтернативных вариантах реализации субполосы для обработки TPA могут отличаться от субполос BCC. Как показано на фиг.13В, TPA 1302 может быть реализован так же, как TPA 1002 по фиг.10.

На фиг.14 показан пример применения обработки TP в частотной области в контексте синтезатора BCC 400 по фиг.4. Блок 1402 декодирования аналогичен блоку 1102 декодирования по фиг.11, а каждый блок TP 1404 является реализацией для субполосы, аналогичной каждому блоку TP 1104 по фиг.11, как показано на фиг.14В.

На фиг.15 показана блок-схема обработки в частотной области, которая добавляется к кодеру BCC, например кодеру 202 по фиг.2, согласно другому альтернативному варианту настоящего изобретения. Эта схема имеет следующую структуру: информацию об огибающей для каждого входного канала получают путем вычисления LPC по частоте (1502), после чего кодер выполняет параметризацию (1504), квантование (1506) и кодирование в битовый поток (1508). На фиг.17А показан пример реализации блока TPA 1502 по фиг.15. Дополнительная информация, подлежащая передаче в многоканальный синтезатор (декодер), может представлять собой коэффициенты фильтра LPC, вычисленные методом автокорреляции, результирующие коэффициенты отражения или пары линейчатого спектра и т.д. или, ради поддержания небольшой скорости передачи дополнительной информации, параметры, полученные, например, из результатов оценки эффективности предсказания LPC, такие как двоичные флаги типа «наличие/отсутствие переходных состояний».

На фиг.16 показан другой пример применения обработки TP в частотной области в контексте синтезатора 400 BCC по фиг.4. Обработка, связанная с кодированием, по фиг.15 и обработка, связанная с декодированием, по фиг.16 могут быть реализованы для формирования совмещенной парной конфигурации «кодер/декодер». Блок 1602 декодирования аналогичен блоку 1402 декодирования по фиг.14, а каждый блок TP 1604 аналогичен каждому блоку TP 1404 по фиг.14. В этом многоканальном синтезаторе переданную дополнительную информацию TP декодируют и используют для управления формированием огибающей для отдельных каналов. Вдобавок, синтезатор включает в себя ступень 1606, характеризующую огибающую (TPA) для анализа переданных суммарных сигналов, блок 1608 обратной обработки TP (ITP) для «сглаживания» временной огибающей каждого базового сигнала, где блоки 1604 настройки огибающей (TP) накладывают модифицированную огибающую на каждый выходной канал. В зависимости от конкретной реализации блок ITP можно применять либо до, любо после смешения с увеличением числа каналов. В частности, это делается с использованием подхода на основе свертки/фильтрации, где формирование огибающей достигается путем использования фильтров на основе LPC по спектру, как показано на фиг.17А, 17В и 17С, для обработки TPA, ITP и TP соответственно. На фиг.16 блок 1610 управления определяет, следует ли выполнять формирование огибающей, и если следует, то выполнять ли это на основе (1) переданной дополнительной информации TP или на основе (2) данных локальной характеризации огибающей от блока TPA 1606.

На фиг.18А и 18В показаны два примерных режима функционирования блока 1610 управления по фиг.16. При реализации по фиг.18А набор коэффициентов фильтра передают в декодер, а формирование огибающей путем свертки/фильтрации выполняют на основе этих переданных коэффициентов. Если кодер обнаружил, что формирование переходного состояния невыгодно, то тогда данные о фильтре не посылают и фильтры блокируются (на фиг.18А это показано переключением набора единичных коэффициентов фильтра «[1,0...]»).

При реализации по фиг.18В передают только флаг «есть переходное состояние/нет переходного состояния» для каждого канала, и этот флаг используют для активизации или блокирования формирования огибающей на основе наборов коэффициентов фильтра, вычисленных в декодере из переданных сигналов, смешанных с сокращением числа каналов.

Дополнительные альтернативные варианты

Хотя настоящее изобретение было описано в контексте схем кодирования BCC, где имеет место единственный суммарный сигнал, настоящее изобретение можно также реализовать в контексте схем кодирования BCC, имеющих два или более суммарных сигналов. В этом случае временная огибающая для каждого из разных «базовых» суммарных сигналов может быть оценена до использования синтеза BCC, а различные выходные каналы BCC можно создать на основе разных временных огибающих в зависимости от того, какие суммарные сигналы были использованы для синтеза различных выходных каналов. Выходной канал, синтезированный из двух или более различных суммарных каналов, может быть создан на основе действительной временной огибающей, которая учитывает (например, посредством взвешенного усреднения) относительные вклады образующих суммарных каналов.

Хотя настоящее изобретение было описано в контексте схем кодирования BCC, включающих коды ICTD, ICLD и ICC, настоящее изобретение можно также реализовать в контексте других схем кодирования BCC, включающих только один или два из указанных трех типов кодов (например, ICLD и ICC, но без ICTD) и/или один или несколько дополнительных типов кодов. Кроме того, последовательность обработки при синтезе BCC и формирования огибающей может меняться в зависимости от вариантов реализации. Например, при применении формирования огибающей к сигналам в частотной области, как на фиг.14 и 16, формирование огибающей может быть реализовано как альтернативный вариант после синтеза ICTD (в тех вариантах, где используется синтез ICTD), но до синтеза ICLD. В других вариантах формирование огибающей можно применить к сигналам, подвергшимся смешению с увеличением числа каналов, прежде чем будет использован какой-либо иной синтез BCC.

Хотя настоящее изобретение было описано в контексте кодеров BCC, которые создают коды ключевой информации огибающей из исходных входных каналов, в альтернативных вариантах коды ключевой информации огибающей могут создаваться из каналов, подвергнутых смешению с сокращением числа каналов, которые соответствуют исходным входным каналам. Это позволяет реализовать процессор (например, отдельный кодер ключевой информации огибающей), который смог бы (1) получать выходной сигнал кодера BCC, создающий каналы, получаемые в результате смешения с сокращением числа каналов, и некоторые коды BCC (например, ICLD, ICTD и/или ICC) и (2) характеризовать временную огибающую (огибающие) одного или нескольких каналов, подвергнутых смешению с сокращением числа каналов, для добавления кодов ключевой информации огибающей к дополнительной информации BCC.

Хотя настоящее изобретение было описано в контексте схем кодирования BCC, где коды ключевой информации огибающей передают с помощью одного или нескольких аудиоканалов (например, Е переданных каналов) вместе с другими кодами BCC, в альтернативных вариантах коды ключевой информации огибающей могут передаваться либо отдельно, либо вместе с другими кодами BCC в блок (например, декодер или запоминающее устройство), который уже имеет переданные каналы и возможно другие коды BCC.

Хотя настоящее изобретение было описано в контексте схем кодирования BCC, настоящее изобретение можно также реализовать в контексте других систем обработки аудиосигнала, в которых выполняется декорреляция аудиосигналов или другая аудиообработка, необходимая для декорреляции сигналов.

Хотя настоящее изобретение было описано в контексте вариантов реализаций, в которых кодер получает входной аудиосигнал во временной области и создает переданные аудиосигналы во временной области, а декодер получает переданные аудиосигналы во временной области и создает аудиосигналы воспроизведения во временной области, настоящее изобретение этим не ограничивается. Например, в других вариантах реализации любые один или несколько входных переданных аудиосигналов и сигналов воспроизведения могут быть представлены в частотной области.

Кодеры и/или декодеры BCC могут быть использованы вместе с множеством различных приложений или систем, либо они могут являться их составными частями, причем это относится, в том числе, к системам для распространения телевизионных программ или электронной музыки, домашним кинотеатрам, телерадиовещанию, потоковым приложениям и/или приемным системам. Сюда относятся также системы для кодирования/декодирования передач, например, через наземные, спутниковые, кабельные сети, Интернет, сети Интранет или физические носители (например, компакт-диски, цифровые универсальные диски, полупроводниковые микросхемы, накопители на жестких дисках, карты памяти и т.п.). Кодеры и/или декодеры BCC можно также использовать в играх и игровых системах, в том числе, например, в интерактивных программных продуктах, предназначенных для взаимодействия с пользователем во время развлечения (игровой бой, ролевая игра, стратегическая игра, приключения, имитация, гонки, спортивные соревнования, галерея игровых автоматов, карты и настольные игры) и/или в образовательных целях, причем эти программы могут быть растиражированы для множества машин, платформ или носителей. Кроме того, кодеры и/или декодеры BCC могут быть встроены в аудиомагнитофоны/плееры или системы CD-ROM/DVD. Кодеры и/или декодеры BCC также могут быть встроены в программные приложения для персональных компьютеров, которые включают в себя цифровое декодирование (например, плеер, декодер), и программные приложения, имеющие возможности цифрового кодирования (например, кодер, риппер, рекодер и музыкальный автомат).

Настоящее изобретение можно реализовать в виде схемных процессов, в том числе возможна реализация в виде одной интегральной схемы (например, специализированной интегральной микросхемы (ASIC) или в виде вентильной матрицы, программируемой пользователем (FPGA)), многокристального модуля, одной платы или в виде узла, состоящего из множества схемных плат. Специалистам в данной области техники очевидно, что различные функции схемных элементов также можно реализовать в виде шагов обработки в программе. Указанное программное обеспечение можно использовать, например, в цифровом процессоре сигналов, микроконтроллере или компьютере общего назначения.

Настоящее изобретение можно воплотить в виде способов и устройств для практической реализации этих способов. Настоящее изобретение также можно воплотить в виде программного кода, воплощенного на материальном носителе, например на гибких дисках, ПЗУ на компакт-дисках (CD-ROM), накопителях на жестких дисках или на любом другом считываемом машиной носителе, где при загрузке указанного программного кода и выполнении его машиной, например компьютером, эта машина становится устройством для практической реализации изобретения. Настоящее изобретение можно также воплотить в виде программного кода, хранящегося, например, на носителе для хранения данных, который загружают в машину и/или который выполняется машиной, или передают через некоторую среду передачи или носитель, например по электрическим проводам или кабелям, через волоконно-оптические каналы, или посредством электромагнитного излучения, где при загрузке этого программного кода в машину, такую как компьютер, и его исполнении эта машина становится устройством для практической реализации изобретения. При реализации в процессоре общего назначения сегменты программного кода объединяются с процессором, создавая уникальное устройство, которое функционирует по аналогии со специализированными логическими схемами.

Кроме того, должно быть понятно, что специалисты в данной области техники смогут внести в изобретение различные изменения, касающиеся деталей, материалов и компоновки частей, которые были описаны и приведены в качестве примеров, чтобы объяснить природу этого изобретения, при условии, что эти изменения не будут выходить за рамки объема изобретения, сформулированного в прилагаемой формуле изобретения.

Хотя шаги способа в последующей формуле изобретения на способ, если они имеются, перечислены в определенной последовательности с соответствующими обозначениями, здесь не предполагается, что реализация этих шагов должна обязательно происходить именно в указанной конкретной последовательности, если эти перечисления не предполагают иную конкретную последовательность пунктов формулы изобретения для реализации некоторых или всех упомянутых шагов.

1. Способ кодирования аудиоканалов, причем способ содержит: создание одного или нескольких кодов ключевой информации для одного или нескольких аудиоканалов, где по меньшей мере один код ключевой информации является кодом ключевой информации огибающей, созданным путем характеризации временной огибающей в одном из упомянутых одного или нескольких аудиоканалов, причем один или несколько кодов ключевой информации дополнительно содержат один или несколько кодов межканальной корреляции (ICC), кодов разницы уровней между каналами (ICLD) и кодов временного сдвига между каналами (ICTD), где первое временное разрешение, связанное с кодом ключевой информации огибающей, является более высоким, чем второе временное разрешение, связанное с другим кодом (кодами) ключевой информации, и где временную огибающую характеризуют для соответствующего аудиоканала во временной области или индивидуально для разных сигнальных субполос соответствующего аудиоканала в области субполос;

и передачу упомянутого одного или нескольких кодов ключевой информации.

2. Способ по п.1, дополнительно содержащий передачу Е передаваемых аудиоканалов (аудиоканала), соответствующих упомянутым одному или нескольким аудиоканалам, где Е≥1.

3. Способ по п.2, в котором:

упомянутый один или несколько аудиоканалов содержат С входных аудиоканалов, где С>Е; и

С входных каналов смешивают с сокращением числа каналов для создания Е передаваемых каналов (канала).

4. Способ по п.1, в котором передают один или несколько кодов ключевой информации, чтобы позволить декодеру выполнить формирование огибающей во время декодирования Е переданных каналов (канала) на основе упомянутых одного или нескольких кодов ключевой информации, где Е переданных аудиоканалов (аудиоканал) соответствуют упомянутым одному или нескольким аудиоканалам, причем Е≥1.

5. Способ по п.4, в котором при формировании огибающей настраивают временную огибающую синтезированного сигнала, созданного декодером, так чтобы она по существу совпадала с охарактеризованной временной огибающей.

6. Способ по п.1, в котором временную огибающую характеризуют только на заданных частотах соответствующего аудиоканала.

7. Способ по п.8, в котором временную огибающую характеризуют только на тех частотах соответствующего аудиоканала, которые превышают заданную частоту среза.

8. Способ по п.10, в котором область субполосы соответствует квадратурному зеркальному фильтру (QMF).

9. Способ по п.1, дополнительно содержащий определение того, разрешать или блокировать упомянутую характеризацию.

10. Способ по п.9, дополнительно содержащий создание и передачу флага разрешения/блокировки на основе упомянутого определения для указания декодеру, следует ли ему реализовывать формирование огибающей во время декодирования Е переданных каналов (канала), соответствующих упомянутым одному или нескольким аудиоканалам, где Е≥1.

11. Способ по п.9, в котором упомянутое определение основано на анализе аудиоканала для обнаружения переходных состояний в аудиоканале, так что характеризацию разрешают, если обнаружено появление переходного состояния.

12. Способ по п.1, в котором шаг создания кода ключевой информации огибающей включает в себя возведение в квадрат (1006) или формирование величины и фильтрацию нижних частот (1008) сигнальных отсчетов аудиоканала или сигналов субполос аудиоканала, чтобы охарактеризовать временную огибающую.

13. Способ по п.1 или 12, в котором шаг создания, кроме того, содержит шаг параметризации, квантования и кодирования оцененной временной огибающей.

14. Устройство для кодирования аудиоканалов, причем устройство содержит:

средство для создания одного или нескольких кодов ключевой информации для одного или нескольких аудиоканалов, где по меньшей мере один код ключевой информации является кодом ключевой информации огибающей, созданным путем характеризации временной огибающей в одном из упомянутого одного или нескольких аудиоканалов, причем один или несколько кодов ключевой информации дополнительно содержат один или несколько кодов межканальной корреляции (ICC), кодов разницы уровней между каналами (ICLD) и кодов временного сдвига между каналами (ICTD), где первое временное разрешение, связанное с кодом ключевой информации огибающей, является более высоким, чем второе временное разрешение, связанное с другим кодом (кодами) ключевой информации, и где временную огибающую характеризуют для соответствующего аудиоканала во временной области или индивидуально для разных сигнальных субполос соответствующего аудиоканала в области субполос; и

средство для передачи одного или нескольких кодов ключевой информации.

15. Устройство для кодирования С входных аудиоканалов для создания Е передаваемых аудиоканалов (аудиоканала), причем устройство содержит:

анализатор огибающей, приспособленный для характеризации входной временной огибающей по меньшей мере одного из С входных каналов;

блок оценки кода, приспособленный для создания кодов ключевой информации для двух или более из С входных каналов, причем один или несколько кодов ключевой информации дополнительно содержат один или несколько кодов межканальной корреляции (ICC), кодов разницы уровней между каналами (ICLD) и кодов временного сдвига между каналами (ICTD), где первое временное разрешение, связанное с кодом ключевой информации огибающей, является более высоким, чем второе временное разрешение, связанное с другим кодом (кодами) ключевой информации, и где временную огибающую характеризуют для соответствующего аудиоканала во временной области или индивидуально для разных сигнальных субполос соответствующего аудиоканала в области субполос;

и

смеситель, сокращающий число каналов, приспособленный для смешения С входных каналов с сокращением числа каналов для создания Е передаваемых каналов (канала), где С>Е≥1, причем упомянутое устройство адаптировано для передачи информации о кодах ключевой информации и охарактеризованной входной временной огибающей, чтобы позволить декодеру выполнить синтез и формирование огибающей во время декодирования Е переданных каналов (канала).

16. Устройство по п.15, в котором:

упомянутое устройство является системой, выбранной из группы, состоящей из цифрового видеомагнитофона, цифрового аудиомагнитофона, компьютера, спутникового передатчика, кабельного передатчика, наземного вещательного передатчика, системы домашних развлечений и системы домашнего кинотеатра; и

система содержит анализатор огибающей, блок оценки кода и смеситель, сокращающий число каналов.

17. Считываемый машиной носитель, имеющий закодированный на нем программный код, где при выполнении машиной программного кода эта машина реализует способ по п.1.

18. Кодированный аудиобитовый поток, имеющий:

один или несколько кодов ключевой информации, созданных для одного или нескольких аудиоканалов, где по меньшей мере один код ключевой информации является кодом ключевой информации огибающей, созданным путем характеризации временной огибающей в одном из упомянутых одного или нескольких аудиоканалов, причем один или несколько кодов ключевой информации дополнительно содержат один или несколько кодов межканальной корреляции (ICC), кодов разницы уровней между каналами (ICLD) и кодов временного сдвига между каналами (ICTD), где первое временное разрешение, связанное с кодом ключевой информации огибающей, является более высоким, чем второе временное разрешение, связанное с другим кодом (кодами) ключевой информации, и где временную огибающую характеризуют для соответствующего аудиоканала во временной области или индивидуально для разных сигнальных субполос соответствующего аудиоканала в области субполос;

и упомянутые один или несколько кодов ключевой информации и Е передаваемых аудиоканалов (аудиоканала), соответствующих упомянутым одному или нескольким аудиоканалам, где Е≥1, кодируют в кодированный аудиобитовый поток.

19. Кодированный аудиобитовый поток, содержащий один или несколько кодов ключевой информации и Е передаваемых аудиоканалов (аудиоканал), в котором:

один или несколько кодов ключевой информации создают для одного или нескольких аудиоканалов, где по меньшей мере один код ключевой информации является кодом ключевой информации огибающей, созданным путем характеризации временной огибающей в одном из упомянутых одного или нескольких аудиоканалов, причем один или несколько кодов ключевой информации дополнительно содержат один или несколько кодов межканальной корреляции (ICC), кодов разницы уровней между каналами (ICLD) и кодов временного сдвига между каналами (ICTD), где первое временное разрешение, связанное с кодом ключевой информации огибающей, является более высоким, чем второе временное разрешение, связанное с другим кодом (кодами) ключевой информации, и где временную огибающую характеризуют для соответствующего аудиоканала во временной области или индивидуально для разных сигнальных субполос соответствующего аудиоканала в области субполос;

и Е передаваемых аудиоканалов (аудиоканал) соответствуют упомянутым одному или нескольким аудиоканалам.

20. Способ декодирования Е переданных аудиоканалов (аудиоканала) для создания С аудиоканалов воспроизведения, где С>Е≥1, причем способ содержит:

прием кодов ключевой информации, соответствующих Е передаваемым каналам (каналу), где коды ключевой информации содержат код ключевой информации огибающей, соответствующий охарактеризованной временной огибающей аудиоканала, соответствующего Е переданным каналам (каналу), причем один или несколько кодов ключевой информации дополнительно содержат один или несколько кодов межканальной корреляции (ICC), кодов разницы уровней между каналами (ICLD) и кодов временного сдвига между каналами (ICTD), где первое временное разрешение, связанное с кодом ключевой информации огибающей, является более высоким, чем второе временное разрешение, связанное с другим кодом (кодами) ключевой информации;

смешение одного или нескольких из Е переданных каналов (канала) с увеличением числа каналов для создания одного или нескольких каналов, смешанных с увеличением числа каналов; и

синтез одного или нескольких из С каналов воспроизведения путем применения кодов ключевой информации к упомянутым одному или нескольким каналам, смешанным с увеличением числа каналов, где код ключевой информации огибающей применяют к каналу, смешанному с увеличением числа каналов, или синтезированному сигналу для настройки временной огибающей синтезированного сигнала на основе охарактеризованной временной огибающей путем масштабирования отсчетов сигнала во временной области или области субполос с использованием масштабного коэффициента, так что настроенная временная огибающая по существу совпадает с охарактеризованной временной огибающей.

21. Способ по п.24, в котором код ключевой информации огибающей соответствует охарактеризованной временной огибающей в исходном входном канале, использованном для создания Е переданных каналов (канала).

22. Способ по п.21, в котором синтез содержит синтез ICC с запаздывающей реверберацией.

23. Способ по п.21, в котором временную огибающую синтезированного сигнала настраивают до синтеза ICLD.

24. Способ по п.20, в котором характеризуют временную огибающую синтезированного сигнала; и настраивают временную огибающую синтезированного сигнала на основе как охарактеризованной временной огибающей, соответствующей коду ключевой информации огибающей, так и охарактеризованной временной огибающей синтезированного сигнала.

25. Способ по п.24, в котором создают функцию масштабирования на основе охарактеризованной временной огибающей, соответствующей коду ключевой информации огибающей, и охарактеризованной временной огибающей синтезированного сигнала; и применяют функцию масштабирования к синтезированному сигналу.

26. Способ по п.20, дополнительно содержащий настройку переданного канала на основе охарактеризованной временной огибающей для создания сглаженного канала, где к сглаженному каналу применяют смешение с увеличением числа каналов и синтез для создания соответствующего канала воспроизведения.

27. Способ по п.20, дополнительно содержащий настройку канала, смешанного с увеличением числа каналов, на основе охарактеризованной временной огибающей для создания сглаженного канала, где к сглаженному каналу применяют синтез для создания соответствующего канала воспроизведения.

28. Способ по п.20, в котором временную огибающую синтезированного сигнала настраивают только для заданных частот.

29. Способ по п.28, в котором временную огибающую синтезированного сигнала настраивают только для частот, превышающих заданную частоту среза.

30. Способ по п.20, в котором временные огибающие настраивают индивидуально для разных субполос сигнала в синтезированном сигнале.

31. Способ по п.20, в котором область субполос соответствует QMF.

32. Способ по п.20, в котором временную огибающую синтезированного сигнала настраивают во временной области.

33. Способ по п.20, дополнительно содержащий определение того, разрешать или блокировать настройку временной огибающей синтезированного сигнала.

34. Способ по п.33, в котором упомянутое определение основано на флаге разрешения/блокировки, созданном аудиокодером, который создал Е переданных каналов (канал).

35. Способ по п.33, в котором упомянутое определение основано на анализе Е переданных каналов (канала) для обнаружения переходных состояний, так что настройку разрешают, если обнаружено появление переходного состояния.

36. Способ по п.20, дополнительно содержащий:

характеризацию временной огибающей переданного канала; и определение того, использовать ли (1) охарактеризованную временную огибающую, соответствующую коду ключевой информации огибающей, или (2) охарактеризованную временную огибающую переданного канала для настройки временной огибающей синтезированного сигнала.

37. Способ по п.20, в котором мощность в заданном окне синтезированного сигнала после настройки временной огибающей по существу равна мощности в соответствующем окне синтезированного сигнала до настройки.

38. Способ по п.37, в котором заданное окно соответствует окну синтеза, связанному с одним или несколькими кодами ключевой информации, не относящимся к огибающей.

39. Устройство для декодирования Е переданных аудиоканалов (аудиоканала) для создания С аудиоканалов воспроизведения, где С>Е≥1, причем устройство содержит:

средство для приема кодов ключевой информации, соответствующих Е переданным каналам (каналу), где коды ключевой информации содержат код ключевой информации огибающей, соответствующий охарактеризованной временной огибающей аудиоканала, соответствующего Е переданным каналам, причем один или несколько кодов ключевой информации дополнительно содержат один или несколько кодов межканальной корреляции (ICC), кодов разницы уровней между каналами (ICLD) и кодов временного сдвига между каналами (ICTD), где первое временное разрешение, связанное с кодом ключевой информации огибающей, является более высоким, чем второе временное разрешение, связанное с другим кодом (кодами) ключевой информации;

средство для смешения одного или нескольких из Е переданных каналов с увеличением числа каналов для создания одного или нескольких каналов, смешанных с увеличением числа каналов; и

средство для синтеза одного или нескольких из С каналов воспроизведения путем применения кодов ключевой информации к одному или нескольким каналам, смешанным с увеличением числа каналов, где код ключевой информации огибающей применяют к каналу, смешанному с увеличением числа каналов, или синтезированному сигналу для настройки временной огибающей синтезированного сигнала на основе охарактеризованной временной огибающей путем масштабирования отсчетов сигнала во временной области или области субполос с использованием масштабного коэффициента, так что настроенная временная огибающая по существу совпадает с охарактеризованной временной огибающей.

40. Устройство для декодирования Е переданных аудиоканалов (аудиоканала) для создания С аудиоканалов воспроизведения, где С>Е≥1, причем устройство содержит:

приемник, приспособленный для приема кодов ключевой информации, соответствующих Е переданным каналам (каналу), где коды ключевой информации содержат код ключевой информации огибающей, соответствующий охарактеризованной временной огибающей аудиоканала, соответствующего Е переданным каналам, причем один или несколько кодов ключевой информации дополнительно содержат один или несколько кодов межканальной корреляции (ICC), кодов разницы уровней между каналами (ICLD) и кодов временного сдвига между каналами (ICTD), где первое временное разрешение, связанное с кодом ключевой информации огибающей, является более высоким, чем второе временное разрешение, связанное с другим кодом (кодами) ключевой информации;

смеситель, увеличивающий число каналов, приспособленный для смешения одного или нескольких из Е переданных каналов с увеличением числа каналов для создания одного или нескольких каналов, смешанных с увеличением числа каналов; и

синтезатор, приспособленный для синтеза одного или нескольких из С каналов воспроизведения, путем применения кодов ключевой информации к одному или нескольким каналам, смешанным с увеличением числа каналов, где код ключевой информации огибающей применяют к каналу, смешанному с увеличением числа каналов, или синтезированному сигналу для настройки временной огибающей синтезированного сигнала на основе охарактеризованной временной огибающей путем масштабирования отсчетов сигнала во временной области или области субполос с использованием масштабного коэффициента, так что настроенная временная огибающая по существу совпадает с охарактеризованной временной огибающей.

41. Устройство по п.40, в котором упомянутое устройство является системой, выбранной из группы, состоящей из цифрового видеоплеера, цифрового аудиоплеера, компьютера, спутникового приемника, кабельного приемника, наземного приемника широковещательного сигнала, системы домашних развлечений и системы домашнего кинотеатра; и

система содержит приемник, смеситель, увеличивающий число каналов, синтезатор и настройщик огибающей.

42. Считываемый машиной носитель, имеющий закодированный на нем программный код, где при выполнении машиной программного кода эта машина реализует способ декодирования по п.20.



 

Похожие патенты:

Изобретение относится к кодеру и к кодированию сигнала, содержащего аудио- и/или видеоинформацию, в частности к оценке потребности в информационных блоках для кодирования этого сигнала.

Изобретение относится к аудиокодированию и, в частности, к аудиокодированию, которое позволяет кодировать аудиосигналы с коротким временем задержки. .

Изобретение относится к звуковым кодерам и в особенности к звуковым кодерам на основе преобразования временного представления в спектральное представление. .

Изобретение относится к аудиокодерам, в частности к аудиокодерам, в которых осуществляется преобразование временного представления в спектральное представление. .

Изобретение относится к способу передачи аудиосигналов между передатчиком и, по меньшей мере, одним приемником методом приоритетной передачи пикселей. .

Изобретение относится к анализу качества звуковых сигналов и может быть использовано для оценки качества речи, передаваемой по каналам радиосвязи. .

Изобретение относится к способу и устройству в области высокочастотного восстановления, применяемого в системах кодирования аудиосигналов. .

Изобретение относится к распознаванию речи. .

Изобретение относится к машинной оценке качества передачи аудиосигналов. .

Изобретение относится к области радиотехники, в частности к кодированию информации для расширения формата кодируемых сигналов. .

Изобретение относится к способу поддержки кодирования звукового сигнала, в котором по меньшей мере один отрезок звукового сигнала необходимо кодировать с помощью модели кодирования, позволяющей использовать различные длительности кадра кодирования, согласно которому предлагается определять на основе характеристик звукового сигнала по меньшей мере один параметр управления

Изобретение относится к вычислительной технике и может быть использовано в устройствах кодирования звука

Изобретение относится к многоканальным кодерам, например к многоканальным звуковым кодерам, использующим параметрическое описание пространственного звука

Изобретение относится к устройству кодирования, устройству декодирования, способу кодирования и способу декодирования

Изобретение относится к способам кодирования данных, например к способу кодирования аудиоданных и/или видеоданных, используя переменные углы поворота для компонентов данных

Изобретение относится к обработке стереосигнала, полученного от кодировщика

Изобретение относится к области цифровой обработки речевых данных и может быть использовано в различных приложениях, например в IР-телефонии

Изобретение относится к устройству и способу для генерации значений субполос звукового сигнала, к устройству и способу для генерации отсчетов временной области

Изобретение относится к кодированию информационных сигналов, например, аудиокодированию, в частности, к кодированию с копированием спектральных полос (SBR)

Изобретение относится к технологии обработки речевых сигналов, в частности система и способы относятся к изменению окна с кадром, ассоциированным с аудио сигналом
Наверх