Кодер, декодер и способы для зависимого от сигнала преобразования масштаба при пространственном кодировании аудиообъектов

Изобретение относится к средствам для пространственного кодирования аудиообъектов. Технический результат заключается в повышении качества кодированного аудиосигнала. Декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования. Декодер содержит первый модуль анализа для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее множество каналов первого поддиапазона. Декодер содержит второй модуль анализа для формирования второго преобразованного понижающего микширования путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. Декодер содержит блок повышающего микширования, сконфигурированный для повышающего микширования второго преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал. 6 н. и 10 з.п. ф-лы, 22 ил.

 

Настоящее изобретение относится к кодированию аудиосигнала, декодированию аудиосигнала и обработке аудиосигнала, и в частности, к кодеру, декодеру и способам для обратно совместимой динамической адаптации разрешения по времени/частоте при пространственном кодировании аудиообъектов (SAOC).

В современных системах цифрового аудио главным направлением является создание возможности связанных с аудиообъектом модификаций переданного контента на стороне приемника. Эти модификации включают в себя модификации усиления выбранных частей аудиосигнала и/или пространственную перестановку выделенных аудиообъектов в случае многоканального воспроизведения посредством рассредоточенных в пространстве динамиков. Это может достигаться путем индивидуальной доставки разных частей аудиоконтента в разные динамики.

Другими словами, в области обработки аудио, передачи аудио и хранения аудио существует растущая потребность в разрешении взаимодействия с пользователем касательно объектно-ориентированного воспроизведения аудиоконтента, а также необходимость использовать расширенные возможности многоканального воспроизведения для индивидуального воспроизведения аудиоконтента или его частей, чтобы улучшить слуховое ощущение. К тому же использование многоканального аудиоконтента приносит пользователю значительные улучшения. Например, можно получить трехмерное слуховое ощущение, которое способствует большей удовлетворенности пользователя в развлекательных приложениях. Однако многоканальный аудиоконтент также полезен в профессиональных средах, например, в приложениях телефонной конференц-связи, поскольку можно улучшить разборчивость речи говорящего с использованием многоканального воспроизведения аудио. Другим возможным применением является предложение слушателю музыкального произведения индивидуально регулировать уровень воспроизведения и/или пространственное положение разных частей (также называемых "аудиообъектами") либо дорожек, например вокальную часть или разные инструменты. Пользователь может выполнять такую регулировку исходя из личного вкуса, для более простой расшифровки одной или более частей музыкального произведения, для образовательных целей, караоке, репетиции и т. п.

Прямая дискретная передача всего цифрового многоканального или многообъектного аудиоконтента, например, в виде данных импульсно-кодовой модуляции (PCM) или даже форматов сжатого аудио, требует очень высоких скоростей передачи разрядов. Однако также желательно передавать и хранить аудиоданные эффективным по скорости передачи разрядов способом. Поэтому есть желание принять разумный компромисс между качеством аудио и требованиями к скорости передачи разрядов, чтобы избежать чрезмерной загрузки ресурсов, вызванной многоканальными/многообъектными приложениями.

В последнее время в области кодирования аудио Экспертной группой по движущимся изображениям (MPEG) и другими предложены параметрические методики для эффективной по скорости передачи/хранения многоканальных/многообъектных аудиосигналов. Одним примером является MPEG Surround (MPS) в качестве канально-ориентированного подхода [MPS, BCC], или Пространственное кодирование аудиообъектов MPEG (SAOC) в качестве объектно-ориентированного подхода [JSC, SAOC, SAOC1, SAOC2]. Другой объектно-ориентированный подход называется "информированным разделением источников" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Эти методики направлены на восстановление нужной выходной аудиосцены или нужного объекта источника аудио на основе понижающего микширования каналов/объектов и дополнительной информации, описывающей переданную/сохраненную аудиосцену и/или объекты источников аудио в аудиосцене.

В таких системах оценка и применение связанной с каналом/объектом дополнительной информации выполняется избирательным по времени-частоте способом. Поэтому такие системы применяют частотно-временные преобразования, например дискретное преобразование Фурье (DFT), оконное преобразование Фурье (STFT) или гребенки фильтров типа гребенок квадратурного зеркального фильтра (QMF), и т.п. Основной принцип таких систем изображается на фиг. 3 с использованием примера SAOC MPEG.

В случае STFT временная размерность представляется номером временного блока, а спектральная размерность охватывается номером спектрального коэффициента ("элемента разрешения"). В случае QMF временная размерность представляется номером временного интервала, а спектральная размерность охватывается номером поддиапазона. Если спектральное разрешение QMF повышается путем последующего применения второго каскада фильтра, то вся гребенка фильтров называется гибридным QMF, а поддиапазоны высокого разрешения называются гибридными поддиапазонами.

Как уже упоминалось выше, в SAOC общая обработка осуществляется избирательным по времени-частоте способом и может описываться в каждом диапазоне частот следующим образом, как изображено на фиг. 3:

- N сигналов s1…sN входных аудиообъектов подвергаются понижающему микшированию в P каналов x1…xP как часть обработки кодера с использованием матрицы понижающего микширования, состоящей из элементов d1,1…dN,P. К тому же кодер извлекает дополнительную информацию, описывающую характеристики входных аудиообъектов (модуль оценки дополнительной информации (SIE)). Для SAOC MPEG зависимости мощностей объектов друг от друга являются основным видом такой дополнительной информации.

- Сигнал понижающего микширования (сигналы) и дополнительная информация передаются/сохраняются. С этой целью аудиосигнал (сигналы) понижающего микширования можно сжимать, например, с использованием общеизвестных кодеров воспринимаемого аудио, таких как Уровень II или III MPEG-1/2 (также известный как .mp3), Усовершенствованное аудиокодирование (AAC) MPEG-2/4 и т.п.

- На принимающей стороне декодер концептуально пытается восстановить исходные сигналы объектов ("разделение объектов") из (декодированных) сигналов понижающего микширования, используя переданную дополнительную информацию. Эти приблизительные сигналы ŝ1…ŝN объектов затем подвергаются микшированию в целевую сцену, представленную M каналами ŷ1…ŷM вывода аудио, используя матрицу воспроизведения, описанную коэффициентами r1,1…rN,M на фиг. 3. Нужная целевая сцена в предельном случае может быть воспроизведением лишь одного сигнала источника из смеси (сценарий разделения источников), но также любой другой произвольной акустической сценой, состоящей из переданных объектов. Например, результатом может быть одноканальная, 2-канальная (стерео) или многоканальная (5.1) целевая сцена.

Частотно-временные системы могут использовать частотно-временное (t/f) преобразование со статическим разрешением по времени и частоте. Выбор определенной сетки фиксированного t/f-разрешения обычно включает в себя компромисс между разрешением по времени и частоте.

Эффект фиксированного t/f-разрешения можно продемонстрировать на примере типичных сигналов объектов в смеси аудиосигналов. Например, спектры тональных звуков показывают гармонически связанную структуру с основной частотой и несколькими обертонами. Энергия таких сигналов сосредоточена в определенных областях частот. Для таких сигналов высокое разрешение по частоте у используемого t/f-представления выгодно для выделения узкополосных тональных спектральных областей из смеси сигналов. Наоборот, сигналы перехода типа звуков ударных часто имеют четкую временную структуру: существенная энергия присутствует только в коротких периодах времени и распространяется на широкий диапазон частот. Для этих сигналов высокое разрешение по времени у используемого t/f-представления выгодно для выделения части с сигналами перехода из смеси сигналов.

Имеющиеся схемы кодирования аудиообъектов предлагают лишь ограниченную изменчивость в избирательности по времени-частоте в обработке SAOC. Например, SAOC MPEG [SAOC][SAOC1][SAOC2] ограничивается разрешением по времени-частоте, которое можно получить с использованием так называемой гребенки гибридного квадратурного зеркального фильтра (Гибридный QMF), и его последующего группирования в параметрические диапазоны. Поэтому восстановление объекта при стандартном SAOC (SAOC MPEG, которое стандартизовано в [SAOC]) часто страдает от низкого разрешения по частоте у Гибридного QMF, приводящего к слышимым модулированным перекрестным помехам от других аудиообъектов (например, артефактам неразборчивости в речи или артефактам резкости для слуха в музыке).

Схемы кодирования аудиообъектов, например бинауральное кодирование с метками [BCC] и параметрическое совместное кодирование источников аудио [JSC], также ограничены использованием одной гребенки фильтров с фиксированным разрешением. Фактический выбор гребенки фильтров с фиксированным разрешением или преобразования всегда включает в себя предопределенный компромисс в части оптимальности между временными и спектральными свойствами схемы кодирования.

В области информированного разделения источников (ISS) предложено динамически адаптировать длину частотно-временного преобразования к свойствам сигнала [ISS7], что известно из схем кодирования воспринимаемого аудио, например, усовершенствованного аудиокодирования (AAC)[AAC].

Цель настоящего изобретения – предоставить усовершенствованные идеи для кодирования аудиообъектов. Цель настоящего изобретения достигается с помощью декодера по п. 1, кодера по п. 7, способа декодирования по п. 13, способа кодирования по п. 14 и компьютерной программы по п. 15.

В отличие от современного SAOC варианты осуществления предоставляются для динамической адаптации разрешения по времени-частоте к сигналу обратно совместимым способом, так что

- потоки двоичных сигналов параметров SAOC, исходящие из кодера стандартного SAOC (SAOC MPEG, которое стандартизовано в [SAOC]), по-прежнему можно декодировать с помощью улучшенного декодера с воспринимаемым качеством, сопоставимым с получаемым от стандартного декодера,

- потоки двоичных сигналов параметров улучшенного SAOC можно декодировать с оптимальным качеством с помощью улучшенного декодера, и

- потоки двоичных сигналов параметров стандартного и улучшенного SAOC можно смешивать, например, в сценарии многоточечного блока управления (MCU), в один общий поток двоичных сигналов, который можно декодировать с помощью стандартного или улучшенного декодера.

Для вышеупомянутых свойств полезно предусмотреть общее представление гребенки фильтров/преобразования, которое можно динамически адаптировать в части разрешения по времени-частоте к поддержке декодирования данных нового улучшенного SAOC и, одновременно, обратно совместимого отображения данных традиционного, стандартного SAOC. Объединение данных улучшенного SAOC и данных стандартного SAOC возможно при условии такого общего представления.

Воспринимаемое качество улучшенного SAOC можно получить путем динамической адаптации разрешения по времени-частоте у гребенки фильтров или преобразования, которое применяется для оценки или используется для синтеза меток аудиообъекта, к характерным свойствам входного аудиообъекта. Например, если аудиообъект является квазистационарным в течение некоторого промежутка времени, то оценку параметров и синтез выгодно выполнять при низком разрешении по времени и высоком разрешении по частоте. Если аудиообъект содержит переходы или нестабильности в течение некоторого промежутка времени, то оценку параметров и синтез предпочтительно выполнять с использованием высокого разрешения по времени и низкого разрешения по частоте. В силу этого динамическая адаптация гребенки фильтров или преобразования допускает

- высокую избирательность по частоте при спектральном разделении квазистационарных сигналов, чтобы избежать перекрестных помех между объектами, и

- высокую временную точность для наслоений объектов или событий переходов, чтобы минимизировать опережающие и запаздывающие эхо.

Одновременно можно получить качество традиционного SAOC путем отображения данных стандартного SAOC на частотно-временную сетку, предоставленную обладающим признаками изобретения, обратно совместимым адаптивным к сигналу преобразованием, которое зависит от дополнительной информации, описывающей характеристики сигналов объектов.

Возможность декодировать данные стандартного и улучшенного SAOC с использованием одного общего преобразования дает возможность прямой и обратной совместимости для приложений, которые выполняют смешивание данных стандартного и нового улучшенного SAOC.

Предоставляется декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов.

Декодер содержит генератор последовательности окон, определяющий множество окон анализа, где каждое из окон анализа содержит множество выборок понижающего микширования временной области у сигнала понижающего микширования. Каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок понижающего микширования временной области в упомянутом окне анализа. Генератор последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.

Кроме того, декодер содержит модуль t/f-анализа для преобразования множества выборок понижающего микширования временной области в каждом окне анализа в множестве окон анализа из временной области в частотно-временную область в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование.

Кроме того, декодер содержит блок повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

В соответствии с вариантом осуществления генератор последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования, был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.

В варианте осуществления генератор последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования, был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck-1=t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.

В соответствии с вариантом осуществления генератор последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования.

В варианте осуществления модуль t/f-анализа может быть сконфигурирован для преобразования выборок понижающего микширования временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок t/f-анализа (135) сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.

Кроме того, предоставляется кодер для кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Кодер содержит блок последовательности окон для определения множества окон анализа. Каждое из окон анализа содержит множество выборок сигнала временной области в одном из сигналов входных аудиообъектов, где каждое из окон анализа имеет длину окна, указывающую количество выборок сигнала временной области у упомянутого окна анализа. Блок последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.

Кроме того, кодер содержит блок t/f-анализа для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область, чтобы получить преобразованные выборки сигнала. Блок t/f-анализа может быть сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.

Кроме того, кодер содержит блок оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.

В варианте осуществления кодер может дополнительно содержать блок обнаружения перехода, конфигурируемый для определения множества разностей уровней объектов у двух или более сигналов входных аудиообъектов и конфигурируемый для определения, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, чтобы для каждого из окон анализа определить, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.

В соответствии с вариантом осуществления блок обнаружения перехода может быть сконфигурирован для применения функции d(n) обнаружения, чтобы определить, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, где функция d(n) обнаружения задается в виде:

где n указывает индекс, i указывает первый объект, j указывает второй объект, а b указывает параметрический диапазон. OLD может указывать, например, разность уровней объектов.

В варианте осуществления блок последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.

В соответствии с вариантом осуществления блок последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck-1=t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.

В варианте осуществления блок последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.

В соответствии с вариантом осуществления блок t/f-анализа может быть сконфигурирован для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок t/f-анализа может быть сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.

Кроме того, предоставляется декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Декодер содержит первый подмодуль анализа для преобразования множества выборок понижающего микширования временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов. Кроме того, декодер содержит генератор последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где генератор последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Кроме того, декодер содержит второй модуль анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование. Кроме того, декодер содержит блок повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

Кроме того, предоставляется кодер для кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Кодер содержит первый подмодуль анализа для преобразования множества выборок сигнала временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов. Кроме того, кодер содержит блок последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое из окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где блок последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов. Кроме того, кодер содержит второй модуль анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованные выборки сигнала. Кроме того, кодер содержит блок оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.

Кроме того, предоставляется декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования. Сигнал понижающего микширования кодирует один или более сигналов аудиообъектов. Декодер содержит блок управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов. Кроме того, декодер содержит первый модуль анализа для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее множество каналов первого поддиапазона. Кроме того, декодер содержит второй модуль анализа для формирования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. Кроме того, декодер содержит блок повышающего микширования, где блок повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

Кроме того, предоставляется кодер для кодирования сигнала входного аудиообъекта. Кодер содержит блок управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у сигнала входного аудиообъекта. Кроме того, кодер содержит первый модуль анализа для преобразования сигнала входного аудиообъекта, чтобы получить первый преобразованный сигнал аудиообъекта, где первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона. Кроме того, кодер содержит второй модуль анализа для формирования второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второй преобразованный сигнал аудиообъекта содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. Кроме того, кодер содержит блок оценки PSI, где блок оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, и определения параметрической дополнительной информации на основе первого преобразованного сигнала аудиообъекта, когда указание активизации не установлено в состояние активизации.

Кроме того, предоставляется способ декодирования для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Способ содержит:

- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок понижающего микширования временной области у сигнала понижающего микширования, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок понижающего микширования временной области в упомянутом окне анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.

- Преобразование множества выборок понижающего микширования временной области в каждом окне анализа в множестве окон анализа из временной области в частотно-временную область в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование, и

- Повышающее микширование преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

Кроме того, предоставляется способ кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Способ содержит:

- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок сигнала временной области в одном из сигналов входных аудиообъектов, где каждое из окон анализа имеет длину окна, указывающую количество выборок сигнала временной области у упомянутого окна анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.

- Преобразование выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область, чтобы получить преобразованные выборки сигнала, где преобразование множества выборок сигнала временной области в каждом из окон анализа зависит от длины окна у упомянутого окна анализа. И:

- Определение параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.

Кроме того, предоставляется способ декодирования путем формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области, где сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Способ содержит:

- Преобразование множества выборок понижающего микширования временной области для получения множества поддиапазонов, содержащего множество выборок поддиапазонов.

- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.

- Преобразование множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование. И:

- Повышающее микширование преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

Кроме того, предоставляется способ кодирования двух или более сигналов входных аудиообъектов, где каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Способ содержит:

- Преобразование множества выборок сигнала временной области для получения множества поддиапазонов, содержащего множество выборок поддиапазонов.

- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое из окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.

- Преобразование множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованные выборки сигнала. И

- Определение параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.

Кроме того, предоставляется способ декодирования путем формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, где сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Способ содержит:

- Установку указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.

- Преобразование сигнала понижающего микширования для получения первого преобразованного понижающего микширования, содержащего множество каналов первого поддиапазона.

- Формирование второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. И:

- Повышающее микширование второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающее микширование первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

Кроме того, предоставляется способ кодирования двух или более сигналов входных аудиообъектов. Способ содержит:

- Установку указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.

- Преобразование каждого из сигналов входных аудиообъектов для получения первого преобразованного сигнала аудиообъекта в упомянутом сигнале входного аудиообъекта, где упомянутый первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона.

- Формирование для каждого из сигналов входных аудиообъектов второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона первого преобразованного сигнала аудиообъекта упомянутого сигнала входного аудиообъекта, чтобы получить множество каналов второго поддиапазона, где упомянутое второе преобразованное понижающее микширование содержит упомянутые каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и упомянутые каналы второго поддиапазона. И:

- Определение параметрической дополнительной информации на основе второго преобразованного сигнала аудиообъекта каждого из сигналов входных аудиообъектов, когда указание активизации установлено в состояние активизации, и определение параметрической дополнительной информации на основе первого преобразованного сигнала аудиообъекта каждого из сигналов входных аудиообъектов, когда указание активизации не установлено в состояние активизации.

Кроме того, предоставляется компьютерная программа для реализации одного из вышеописанных способов, когда она исполняется на компьютере или процессоре сигналов.

Предпочтительные варианты осуществления будут предоставлены в зависимых пунктах формулы изобретения.

Ниже подробнее описываются варианты осуществления настоящего изобретения со ссылкой на чертежи, на которых:

Фиг. 1a иллюстрирует декодер в соответствии с вариантом осуществления,

Фиг. 1b иллюстрирует декодер в соответствии с другим вариантом осуществления,

Фиг. 1c иллюстрирует декодер в соответствии с дополнительным вариантом осуществления,

Фиг. 2a иллюстрирует кодер для кодирования сигналов входных аудиообъектов в соответствии с вариантом осуществления,

Фиг. 2b иллюстрирует кодер для кодирования сигналов входных аудиообъектов в соответствии с другим вариантом осуществления,

Фиг. 2c иллюстрирует кодер для кодирования сигналов входных аудиообъектов в соответствии с дополнительным вариантом осуществления,

Фиг. 3 показывает блок-схему концептуального представления системы SAOC,

Фиг. 4 показывает схематическую и пояснительную схему спектрально-временного представления одноканального аудиосигнала,

Фиг. 5 показывает блок-схему избирательного по времени-частоте вычисления дополнительной информации в кодере SAOC,

Фиг. 6 изображает блок-схему декодера улучшенного SAOC в соответствии с вариантом осуществления, иллюстрирующую декодирование потоков двоичных сигналов стандартного SAOC,

Фиг. 7 изображает блок-схему декодера в соответствии с вариантом осуществления,

Фиг. 8 иллюстрирует блок-схему кодера в соответствии с конкретным вариантом осуществления, реализующим параметрический тракт кодера,

Фиг. 9 иллюстрирует адаптацию обычной последовательности организации окон для размещения точки пересечения окон на переходе,

Фиг. 10 иллюстрирует схему переключения блоков с изоляцией перехода в соответствии с вариантом осуществления,

Фиг. 11 иллюстрирует сигнал с переходом и результирующую AAC-подобную последовательность организации окон в соответствии с вариантом осуществления,

Фиг. 12 иллюстрирует расширенную гибридную фильтрацию QMF,

Фиг. 13 иллюстрирует пример, где для преобразования используются короткие окна,

Фиг. 14 иллюстрирует пример, где для преобразования используются более длинные окна, чем в примере из фиг. 13.

Фиг. 15 иллюстрирует пример, где реализуется высокое разрешение по частоте и низкое разрешение по времени,

Фиг. 16 иллюстрирует пример, где реализуется высокое разрешение по времени и низкое разрешение по частоте,

Фиг. 17 иллюстрирует первый пример, где реализуется промежуточное разрешение по времени и промежуточное разрешение по частоте, и

Фиг. 18 иллюстрирует первый пример, где реализуется промежуточное разрешение по времени и промежуточное разрешение по частоте.

Перед описанием вариантов осуществления настоящего изобретения предоставляется больше данных о системах современного SAOC.

Фиг. 3 показывает общую компоновку кодера 10 SAOC и декодера 12 SAOC. Кодер 10 SAOC в качестве ввода принимает N объектов, то есть аудиосигналы с s1 по sN. В частности, кодер 10 содержит средство 16 понижающего микширования, которое принимает аудиосигналы s1–sN и осуществляет их понижающее микширование в сигнал понижающего микширования 18. В качестве альтернативы понижающее микширование может предоставляться извне ("художественной понижающее микширование"), и система оценивает дополнительную информацию, чтобы привести предоставленное понижающее микширование к вычисленному понижающему микшированию. На фиг. 3 сигнал понижающего микширования показан как P-канальный сигнал. Таким образом, возможна любая монофоническая (P=1), стереофоническая (P=2) или многоканальная (P>2) конфигурация сигнала понижающего микширования.

В случае стереофонического понижающего микширования каналы сигнала понижающего микширования 18 обозначаются L0 и R0, в случае монофонического понижающего микширования это просто обозначается L0. Чтобы дать декодеру 12 SAOC возможность восстановить отдельные объекты s1–sN, модуль 17 оценки дополнительной информации предоставляет декодеру 12 SAOC дополнительную информацию, включающую в себя параметры SAOC. Например, в случае стереофонического понижающего микширования параметры SAOC содержат разности уровней объектов (OLD), корреляции между объектами (IOC) (параметры взаимной корреляции между объектами), значения усиления понижающего микширования (DMG) и разности уровней каналов понижающего микширования (DCLD). Дополнительная информация 20, включающая в себя параметры SAOC, вместе со сигналом понижающего микширования 18 образует выходной поток данных SAOC, принимаемый декодером 12 SAOC.

Декодер 12 SAOC содержит разделитель, который принимает сигнал понижающего микширования 18, а также дополнительную информацию 20, чтобы восстановить и воспроизвести аудиосигналы ŝ1 и ŝN на любом выбранном пользователем наборе каналов ŷ1–ŷM, причем воспроизведение предписывается информацией 26 воспроизведения, введенной в декодер 12 SAOC.

Аудиосигналы s1–sN можно вводить в кодер 10 в любой области кодирования, например, во временной или спектральной области. Если аудиосигналы s1–sN подаются в кодер 10 во временной области, например кодированными с PCM, то кодер 10 может использовать гребенку фильтров, например гребенку гибридного QMF, чтобы перевести сигналы в спектральную область, в которой аудиосигналы представляются в нескольких поддиапазонах, ассоциированных с разными спектральными частями, при определенном разрешении гребенки фильтров. Если аудиосигналы s1–sN уже находятся в представлении, предполагаемом кодером 10, то ему не приходится выполнять спектральное разложение.

Фиг. 4 показывает аудиосигнал в только что упомянутой спектральной области. Как видно, аудиосигнал представляется в виде множества сигналов поддиапазонов. Каждый сигнал 301–30K поддиапазона состоит из временной последовательности значений поддиапазонов, указанных небольшими прямоугольниками 32. Как видно, значения 32 поддиапазонов у сигналов 301–30K поддиапазонов синхронизированы друг с другом во времени, чтобы для каждого из последовательных временных интервалов 34 гребенки фильтров каждый поддиапазон 301–30K содержал строго одно значение 32 поддиапазона. Как проиллюстрировано осью 36 частот, сигналы 301–30K поддиапазонов ассоциируются с разными областями частот, а как проиллюстрировано осью 38 времени, временные интервалы 34 гребенки фильтров последовательно упорядочены во времени.

Как указано выше, устройство 17 извлечения дополнительной информации из фиг. 3 вычисляет параметры SAOC из входных аудиосигналов s1–sN. В соответствии с реализованным в настоящее время стандартом SAOC кодер 10 выполняет это вычисление в разрешении по времени/частоте, которое можно уменьшить относительно исходного разрешения по времени/частоте, которое определено временными интервалами 34 гребенки фильтров и разложением поддиапазонов, на некоторую величину, причем эта некоторая величина сигнализируется стороне декодера в дополнительной информации 20. Группы последовательных временных интервалов 34 гребенки фильтров могут образовывать кадр 41 SAOC. Также в дополнительной информации 20 сообщается количество диапазонов параметров в кадре 41 SAOC. Поэтому временная/частотная область разделяется на фрагменты времени/частоты, показанные на фиг. 4 пунктирными линиями 42. На фиг. 4 диапазоны параметров распределяются одинаковым образом в различных изображенных кадрах 41 SAOC, чтобы получилось регулярное расположение фрагментов времени/частоты. Однако диапазоны параметров в общем могут меняться от одного кадра 41 SAOC к последующему в зависимости от разных потребностей в спектральном разрешении в соответствующих кадрах 41 SAOC. Кроме того, с тем же успехом может меняться длина кадров 41 SAOC. В результате расположение фрагментов времени/частоты может быть нерегулярным. Тем не менее, фрагменты времени/частоты в конкретном кадре 41 SAOC обычно имеют одинаковую длительность и выровнены в направлении времени, то есть все фрагменты t/f в упомянутом кадре 41 SAOC начинаются с начала данного кадра 41 SAOC и заканчиваются в конце упомянутого кадра 41 SAOC.

Устройство 17 извлечения дополнительной информации, изображенное на фиг. 3, вычисляет параметры SAOC в соответствии со следующими формулами. В частности, устройство 17 извлечения дополнительной информации вычисляет разности уровней объектов для каждого объекта i в виде

где суммы и индексы n и k соответственно проходят по всем временным индексам 34 и всем спектральным индексам 30, которые принадлежат некоторому фрагменту 42 времени/частоты, на который ссылаются индексы l для кадра SAOC (или временного интервала обработки) и m для диапазона параметров. В силу этого энергии всех значений xi поддиапазонов аудиосигнала или объекта i суммируются и нормируются к наибольшему значению энергии того фрагмента среди всех объектов или аудиосигналов. обозначает комплексно сопряженную величину .

Кроме того, устройство 17 извлечения дополнительной информации SAOC способно вычислить степень сходства у соответствующих фрагментов времени/частоты в парах разных входных объектов s1–sN. Хотя устройство 17 извлечения дополнительной информации SAOC может вычислять степень сходства между всеми парами входных объектов s1–sN, устройство 17 извлечения дополнительной информации также может запретить сигнализацию степеней сходства или ограничить вычисление степеней сходства аудиообъектами s1–sN, которые образуют левый или правый каналы общего стереофонического канала. В любом случае степень сходства называется параметром взаимной корреляции между объектами . Вычисление выглядит следующим образом

причем индексы n и k опять проходят по всем значениям поддиапазонов, принадлежащим некоторому фрагменту 42 времени/частоты, i и j обозначают некоторую пару аудиообъектов s1–sN, и Re{} обозначает операцию отбрасывания мнимой части у комплексного аргумента.

Средство 16 понижающего микширования из фиг. 3 осуществляет понижающее микширование объектов s1–sN путем использования коэффициентов усиления, применяемых к каждому объекту s1–sN. То есть коэффициент di усиления применяется к объекту i, а затем все взвешенные таким образом объекты s1–sN суммируются для получения монофонического сигнала понижающего микширования, который иллюстрируется на фиг. 3, если P=1. В другом примерном случае двухканального сигнала понижающего микширования, изображенного на фиг. 3, если P=2, коэффициент d1,i усиления применяется к объекту i, а затем все такие усиленные объекты суммируются, чтобы получить левый канал L0 понижающего микширования, и коэффициенты d2,i усиления применяются к объекту i, а затем усиленные таким образом объекты суммируются, чтобы получить правый канал R0 понижающего микширования. Обработку, которая аналогична вышеизложенной, нужно применять в случае многоканального понижающего микширования (P>2).

Это предписание понижающего микширования сигнализируется стороне декодера посредством усилений DMGi понижающего микширования, а в случае стереофонического сигнала понижающего микширования – разностей DCLDi уровней каналов понижающего микширования.

Усиления понижающего микширования вычисляются в соответствии с:

(монофоническое понижающее микширование),

(стереофоническое понижающее микширование),

где – малое число, например 10-9.

Для DCLD применяется следующая формула:

.

В обычном режиме средство 16 понижающего микширования формирует сигнал понижающего микширования в соответствии с:

для монофонического понижающего микширования или

для стереофонического понижающего микширования соответственно.

Таким образом, в вышеупомянутых формулах параметры OLD и IOC являются функцией аудиосигналов, а параметры DMG и DCLD являются функцией d. К слову, отметим, что d может меняться во времени и по частоте.

Таким образом, в обычном режиме средство 16 понижающего микширования осуществляет микширование всех объектов s1–sN без каких-либо предпочтений, то есть обращаясь со всеми объектами s1–sN одинаково.

На стороне декодера разделитель выполняет инверсию процедуры понижающего микширования и реализацию "информации 26 воспроизведения", представленной матрицей R (в литературе также иногда называемой A) на одном этапе вычисления, а именно, в случае двухканального понижающего микширования

,

где матрица E является функцией параметров OLD и IOC, а матрица D содержит коэффициенты понижающего микширования в виде

.

Матрица E является предполагаемой ковариационной матрицей аудиообъектов s1–sN. В текущих реализациях SAOC вычисление предполагаемой ковариационной матрицы E обычно выполняется в спектральном/временном разрешении параметров SAOC, то есть для каждого (l,m), чтобы предполагаемую ковариационную матрицу можно было записать в виде El,m. Предполагаемая ковариационная матрица El,m имеет размер N×N с коэффициентами, заданными в виде

.

Таким образом, матрица El,m при

по своей диагонали содержит разности уровней объектов, то есть для i=j, поскольку и для i=j. Вне ее диагонали предполагаемая ковариационная матрица E содержит коэффициенты матрицы, представляющие среднее геометрическое разностей уровней объектов у объектов i и j соответственно, взвешенных по мере взаимной корреляции между объектами .

Фиг. 5 отображает один возможный принцип реализации на примере модуля оценки дополнительной информации (SIE) как части кодера 10 SAOC. Кодер 10 SAOC содержит средство 16 понижающего микширования и модуль 17 оценки дополнительной информации (SIE). SIE концептуально состоит из двух модулей: Один модуль 45 для вычисления кратковременного t/f-представления (например, STFT или QMF) каждого сигнала. Вычисленное кратковременное t/f-представление подается во второй модуль 46, модуль избирательной по t/f оценки дополнительной информации (t/f-SIE). Модуль 46 t/f-SIE вычисляет дополнительную информацию для каждого фрагмента t/f. В текущих реализациях SAOC частотно-временное преобразование неизменно и идентично для всех аудиообъектов s1–sN. Кроме того, параметры SAOC определяются по кадрам SAOC, которые одинаковы для всех аудиообъектов и имеют одинаковое разрешение по времени/частоте для всех аудиообъектов s1–sN, соответственно пренебрегая характерными для объекта потребностями в высоком разрешении по времени в некоторых случаях или высоком спектральном разрешении в остальных случаях.

Ниже описываются варианты осуществления настоящего изобретения.

Фиг. 1a в соответствии с вариантом осуществления иллюстрирует декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов.

Декодер содержит генератор 134 последовательности окон для определения множества окон анализа (например, на основе параметрической дополнительной информации, например, разностей уровней объектов), где каждое из окон анализа содержит множество выборок понижающего микширования временной области у сигнала понижающего микширования. Каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок понижающего микширования временной области в упомянутом окне анализа. Генератор 134 последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Например, длина окна может зависеть от того, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования.

Для определения множества окон анализа генератор 134 последовательности окон может, например, проанализировать параметрическую дополнительную информацию, например, переданные разности уровней объектов, относящиеся к двум или более сигналам аудиообъектов, чтобы определить длину окна у окон анализа так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Либо, например, генератор 134 последовательности окон для определения множества окон анализа может проанализировать формы окон или сами окна анализа, где формы окон или окна анализа могут, например, передаваться в потоке двоичных сигналов от кодера к декодеру, и где длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.

Кроме того, декодер содержит модуль 135 t/f-анализа для преобразования множества выборок понижающего микширования временной области в каждом окне анализа в множестве окон анализа из временной области в частотно-временную область в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование.

Кроме того, декодер содержит блок 136 повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

Следующие варианты осуществления используют особый механизм построения последовательности окон. Прототипная оконная функция f (n, Nw) задается для индекса 0≤n≤Nw-1 для длины Nw окна. Планируя одно окно , нужны три контрольные точки, а именно центры предыдущего, текущего и следующего окна, , и .

Используя их, оконная функция задается в виде

.

Фактическим местоположением окна тогда является при ( обозначает операцию округления аргумента в большую сторону до следующего целого числа, а соответственно обозначает операцию округления аргумента в меньшую сторону до следующего целого числа). Прототипная оконная функция, используемая на иллюстрациях, является синусоидальным окном, заданным в виде

,

но также могут использоваться другие виды. Местоположение t перехода задает центры для трех окон , и , где числа и задают нужный диапазон окна до и после перехода.

Как объясняется позже по отношению к фиг. 9, генератор 134 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.

Как объясняется позже по отношению к фиг. 10, генератор 134 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck-1=t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.

Как объясняется позже по отношению к фиг. 11, генератор 134 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход.

В варианте осуществления модуль 135 t/f-анализа сконфигурирован для преобразования выборок понижающего микширования временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок t/f-анализа (135) сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.

Фиг. 2a иллюстрирует кодер для кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области.

Кодер содержит блок 102 последовательности окон для определения множества окон анализа. Каждое из окон анализа содержит множество выборок сигнала временной области в одном из сигналов входных аудиообъектов, где каждое из окон анализа имеет длину окна, указывающую количество выборок сигнала временной области у упомянутого окна анализа. Блок 102 последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов. Например, длина окна может зависеть от того, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.

Кроме того, кодер содержит блок 103 t/f-анализа для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область, чтобы получить преобразованные выборки сигнала. Блок 103 t/f-анализа может быть сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.

Кроме того, кодер содержит блок 104 оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.

В варианте осуществления кодер может, например, дополнительно содержать блок 101 обнаружения перехода, конфигурируемый для определения множества разностей уровней объектов у двух или более сигналов входных аудиообъектов и конфигурируемый для определения, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, чтобы для каждого из окон анализа определить, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.

В соответствии с вариантом осуществления блок 101 обнаружения перехода конфигурируется для применения функции d(n) обнаружения, чтобы определить, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, где функция d(n) обнаружения задается в виде:

где n указывает временной индекс, i указывает первый объект, j указывает второй объект, а b указывает параметрический диапазон. OLD может указывать, например, разность уровней объектов.

Как объясняется позже по отношению к фиг. 9, блок 102 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.

Как объясняется позже по отношению к фиг. 10, блок 102 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck1=t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1 =t+la, где la и lb являются числами.

Как объясняется позже по отношению к фиг. 11, блок 102 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.

В соответствии с вариантом осуществления блок 103 t/f-анализа сконфигурирован для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок 103 t/f-анализа сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.

Ниже описывается улучшенное SAOC с использованием обратно совместимых адаптивных гребенок фильтров в соответствии с вариантами осуществления.

Сначала объясняется декодирование потоков двоичных сигналов стандартного SAOC с помощью декодера улучшенного SAOC.

Декодер улучшенного SAOC проектируется так, чтобы иметь возможность декодирования потоков двоичных сигналов от кодеров стандартного SAOC с хорошим качеством. Декодирование ограничивается только параметрическим восстановлением, и возможные остаточные потоки игнорируются.

Фиг. 6 изображает блок-схему декодера улучшенного SAOC в соответствии с вариантом осуществления, иллюстрирующую декодирование потоков двоичных сигналов стандартного SAOC. Полужирные черные функциональные блоки (132, 133, 134, 135) указывают обладающую признаками изобретения обработку. Параметрическая дополнительная информация (PSI) состоит из наборов разностей уровней объектов (OLD), корреляций между объектами (IOC) и матрицы понижающего микширования D, используемой для создания сигнала понижающего микширования (аудио DMX) из отдельных объектов в декодере. Каждый набор параметров ассоциируется с границей параметров, которая задает временную область, с которой ассоциируются параметры. При стандартном SAOC элементы разрешения по частоте у лежащего в основе частотно-временного представления группируются в параметрические диапазоны. Интервал диапазонов имеет сходство с интервалом критических диапазонов в системе слуха человека. Кроме того, несколько кадров t/f-представления можно сгруппировать в кадр параметров. Обе эти операции обеспечивают сокращение объема необходимой дополнительной информации за счет погрешностей моделирования.

Как описано в стандарте SAOC, OLD и IOC используются для вычисления матрицы повышающего микширования, где элементами E являются приближенные значения матрицы взаимной корреляции объектов, i и j являются индексами объектов, и DT является транспозицией D. Вычислитель 131 матрицы повышающего микширования может, соответственно, конфигурироваться для вычисления матрицы повышающего микширования.

Матрица повышающего микширования затем линейно интерполируется временным интерполятором 132 из матрицы повышающего микширования предыдущего кадра по кадру параметров вплоть до границы параметров, на которой достигаются предполагаемые значения, согласно стандартному SAOC. Это приводит к матрицам повышающего микширования для каждого частотно-временного окна анализа и параметрического диапазона.

Разрешение по частоте параметрического диапазона у матриц повышающего микширования расширяется до разрешения частотно-временного представления в том окне анализа с помощью блока 133 адаптации разрешения по частоте у окна. Когда интерполированная матрица повышающего микширования для параметрического диапазона b в некотором периоде задается в виде G(b), одинаковые коэффициенты повышающего микширования используются для всех элементов разрешения по частоте внутри того параметрического диапазона.

Генератор 134 последовательности окон конфигурируется для использования информации о диапазоне набора параметров из PSI, чтобы определить подходящую последовательность организации окон для анализа входного аудиосигнала понижающего микширования. Основным требованием является то, что когда в PSI имеется граница набора параметров, точка пересечения между последовательными окнами анализа должна с ней совпадать. Организация окон определяет также разрешение по частоте у данных в каждом окне (используемое при развертывании данных повышающего микширования, как описано раньше).

Разделенные на окна данные затем преобразуются модулем 135 t/f-анализа в представление в частотной области, используя подходящее частотно-временное преобразование, например, дискретное преобразование Фурье (DFT), комплексифицированное модифицированное дискретное косинусное преобразование (CMDCT) или нечетное дискретное преобразование Фурье (ODFT).

В конечном счете блок 136 повышающего микширования применяет матрицы повышающего микширования на каждый кадр на каждый элемент разрешения по частоте к спектральному представлению сигнала понижающего микширования X, чтобы получить параметрические восстановления Y. Канал вывода j является линейной комбинацией каналов понижающего микширования .

Качество, которое можно получить с помощью этого процесса, для большинства целей неотличимо по восприятию от результата, полученного с помощью декодера стандартного SAOC.

Следует отметить, что вышеприведенный текст описывает восстановление отдельных объектов, но при стандартном SAOC воспроизведение включается в матрицу повышающего микширования, то есть включается в параметрическую интерполяцию. Учитывая линейную операцию, порядок операций не имеет значения, но следует отметить различие.

Ниже описывается декодирование потоков двоичных сигналов улучшенного SAOC с помощью декодера улучшенного SAOC.

Основные функциональные возможности декодера улучшенного SAOC уже описаны раньше при декодировании потоков двоичных сигналов стандартного SAOC. Данный раздел подробно опишет, как можно использовать улучшения предложенного улучшенного SAOC в PSI для получения лучшего воспринимаемого качества.

Фиг. 7 изображает основные функциональные блоки декодера в соответствии с вариантом осуществления, иллюстрирующие декодирование повышений разрешения по частоте. Полужирные черные функциональные блоки (132, 133, 134, 135) указывают обладающую признаками изобретения обработку.

Сначала блок 141 расширения значения по диапазону адаптирует значения OLD и IOC для каждого параметрического диапазона к разрешению по частоте, используемому в улучшениях, например, к 1024 элементам разрешения. Это выполняется путем повторения значений на элементах разрешения по частоте, которые соответствуют параметрическому диапазону. Это приводит к новым OLD и IOC . является матрицей ядра, задающей распределение элементов f разрешения по частоте по параметрическим диапазонам b с помощью

.

Параллельно с этим блок 142 восстановления дельта-функции инвертирует параметризацию поправочных коэффициентов для получения дельта-функции того же размера, что и расширенные OLD и IOC.

Затем блок 143 применения дельты применяет дельту к расширенным значениям OLD, и полученные значения OLD высокого разрешения получаются с помощью .

В конкретном варианте осуществления вычисление матриц повышающего микширования, может, например, выполняться с помощью вычислителя 131 матрицы повышающего микширования, как и в случае декодирования потока двоичных сигналов стандартного SAOC: , причем и . При желании матрицу воспроизведения можно умножить на матрицу G(f) повышающего микширования. Временная интерполяция с помощью временного интерполятора 132 придерживается стандартного SAOC.

Так как разрешение по частоте в каждом окне может отличаться (как правило, оно ниже) от номинального высокого разрешения по частоте, блоку 133 адаптации разрешения по частоте у окна нужно адаптировать матрицы повышающего микширования для совпадения с разрешением спектральных данных аудио, чтобы сделать возможным их применение. Это можно выполнить, например, путем передискретизации коэффициентов по оси частот к правильному разрешению. Либо, если разрешения являются целыми кратными числами, просто усредняя от данных высокого разрешения индексы, которые соответствуют одному элементу разрешения по частоте в более низком разрешении .

Информация о последовательности организации окон из потока двоичных сигналов может использоваться для получения частотно-временного анализа, полностью комплементарного анализу, используемому в кодере, либо последовательность организации окон можно построить на основе границ параметров, как выполняется при декодировании потока двоичных сигналов стандартного SAOC. Для этого может применяться генератор 134 последовательности окон.

Затем проводится частотно-временной анализ аудио понижающего микширования с помощью модуля 135 t/f-анализа, используя заданные окна.

В конечном счете интерполированные во времени и (по возможности) спектрально адаптированные матрицы повышающего микширования применяются блоком 136 повышающего микширования к частотно-временному представлению входного аудио, и канал вывода j можно получить в виде линейной комбинации каналов ввода .

Ниже описывается обратно совместимое кодирование улучшенного SAOC.

Теперь описывается кодер улучшенного SAOC, который создает поток двоичных сигналов, содержащий обратно совместимую часть с дополнительной информацией и дополнительные улучшения. Существующие декодеры стандартного SAOC могут декодировать обратно совместимую часть PSI и создавать восстановления объектов. Добавленная информация, используемая декодером улучшенного SAOC, в большинстве случаев повышает воспринимаемое качество восстановлений. Более того, если декодер улучшенного SAOC работает с ограниченными ресурсами, то улучшения можно игнорировать, и тем не менее получается восстановление базового качества. Следует отметить, что восстановления от декодеров стандартного SAOC и улучшенного SAOC с использованием только PSI, совместимой со стандартным SAOC, отличаются, но считаются очень похожими по восприятию (различие имеет аналогичный характер, как при декодировании потоков двоичных сигналов стандартного SAOC с помощью декодера улучшенного SAOC).

Фиг. 8 иллюстрирует блок-схему кодера в соответствии с конкретным вариантом осуществления, реализующим параметрический тракт описанного выше кодера. Полужирные черные функциональные блоки (102, 103) указывают обладающую признаками изобретения обработку. В частности, фиг. 8 иллюстрирует блок-схему двухэтапного кодирования, создающего обратно совместимый поток двоичных сигналов с улучшениями для более функциональных декодеров.

Сначала сигнал подразделяется на кадры анализа, которые затем преобразуются в частотную область. Несколько кадров анализа группируются в кадр параметров фиксированной длины с использованием, например, длин из 16 и 32 кадров анализа в SAOC MPEG. Предполагается, что свойства сигнала остаются квазистационарными в течение кадра параметров и, соответственно, могут описываться только одним набором параметров. Если характеристики сигнала меняются в пределах кадра параметров, то получается ошибка моделирования, и было бы полезно подразделение более длинного кадра параметров на части, в которых опять выполняется предположение квазистационарности. С этой целью необходимо обнаружение перехода.

Переходы можно обнаруживать с помощью блока 101 обнаружения перехода из всех входных объектов в отдельности, и когда имеется событие перехода всего лишь в одном из объектов, это местоположение объявляется местоположением глобального перехода. Информация о местоположениях переходов используется для построения подходящей последовательности организации окон. Построение может основываться, например, на следующей логике:

- Установить длину окна по умолчанию, то есть длину блока преобразования сигнала по умолчанию, например, в 2048 выборок.

- Установить длину кадра параметров, например, в 4096 выборок, соответствующую 4 окнам по умолчанию с 50%-ным перекрытием. Кадры параметров группируют несколько окон, и один набор дескрипторов сигнала используется для всего блока вместо дескрипторов для каждого окна в отдельности. Это делает возможным сокращение объема PSI.

- Если переход не обнаружен, использовать окна по умолчанию и полную длину кадра параметров.

- Если обнаруживается переход, адаптировать организацию окон для обеспечения лучшего разрешения по времени в местоположении перехода.

Наряду с построением последовательности организации окон отвечающий за это блок 102 последовательности окон также создает субкадры параметров из одного или более окон анализа. Каждое подмножество анализируется в качестве объекта, и для каждого субблока передается только один набор параметров PSI. Чтобы предоставить PSI, совместимую со стандартным SAOC, заданная длина блока параметров используется в качестве основной длины блока параметров, а возможные обнаруженные переходы в том блоке задают подмножества параметров.

Построенная последовательность окон выводится для частотно-временного анализа входных аудиосигналов, проводимого блоком 103 t/f-анализа, и передается в части улучшения улучшенного SAOC в PSI.

Спектральные данные каждого окна анализа используются блоком 104 оценки PSI для оценивания PSI для обратно совместимой части SAOC (например, MPEG). Это выполняется путем группирования спектральных элементов разрешения в параметрические диапазоны SAOC MPEG и оценивания IOC, OLD и энергий абсолютных объектов (NRG) в диапазонах. Следуя в общих чертах нотации SAOC MPEG, нормализованное произведение двух спектров и объектов в фрагменте параметризации задается в виде

,

где матрица задает отображение из Fn элементов разрешения t/f-представления в кадре n (из N кадров в этом кадре параметров) в B параметрических диапазонов с помощью

, и

S * является комплексно сопряженной величиной от S. Спектральное разрешение может меняться между кадрами в одном параметрическом блоке, поэтому матрица отображения преобразует данные в общее основание разрешения. Максимальная энергия объекта в этом фрагменте параметризации задается как максимальная энергия объекта . При наличии этого значения OLD затем задаются как нормализованные энергии объектов

.

И в конечном счете можно получить IOC из взаимных мощностей в виде

.

Это завершает оценку совместимых со стандартным SAOC частей потока двоичных сигналов.

Блок 105 грубого восстановления спектра мощности конфигурируется для использования OLD и NRG для восстановления грубой оценки огибающей спектра в блоке анализа параметров. Огибающая строится с наибольшим разрешением по частоте, используемым в том блоке.

Исходный спектр каждого окна анализа используется блоком 106 оценки спектра мощности для вычисления спектра мощности в том окне.

Полученные спектры мощности преобразуются в общее представление с высоким разрешением по частоте с помощью блока 107 адаптации разрешения по частоте. Это может выполняться, например, путем интерполяции спектральных значений мощности. Затем спектральный профиль средней мощности вычисляется путем усреднения спектров в блоке параметров. Это приблизительно соответствует оценке OLD за исключением агрегирования параметрических диапазонов. Полученный спектральный профиль рассматривается как OLD высокого разрешения.

Блок 108 оценки дельты конфигурируется для оценки поправочного коэффициента, "дельты", например, путем деления OLD высокого разрешения на грубое восстановление спектра мощности. В результате это предоставляет (мультипликативный) поправочный коэффициент для каждого элемента разрешения по частоте, который [коэффициент] может использоваться для приближенного вычисления OLD высокого разрешения с учетом грубых спектров.

В конечном счете блок 109 моделирования дельты конфигурируется для моделирования предполагаемого поправочного коэффициента эффективным для передачи способом.

В сущности, модификации улучшенного SAOC в потоке двоичных сигналов состоят из информации о последовательности организации окон и параметров для передачи "дельты".

НИЖЕ ОПИСЫВАЕТСЯ ОБНАРУЖЕНИЕ ПЕРЕХОДА.

Когда характеристики сигнала остаются квазистационарными, эффективности кодирования (по отношению к объему дополнительной информации) можно достичь путем объединения нескольких временных кадров в блоки параметров. Например, при стандартном SAOC часто используемыми значениями являются 16 и 32 QMF-кадров на один блок параметров. Они соответствуют 1024 и 2048 выборкам соответственно. Длину блока параметров можно заранее установить в фиксированное значение. Это имеет один прямой эффект, которым является задержка кодека (у кодера должен быть полный кадр, чтобы иметь возможность его кодировать). При использовании длинных параметрических блоков было бы выгодно обнаруживать значительные изменения в характеристиках сигнала, в основном когда нарушается предположение квазистационарности. После нахождения местоположения значительного изменения сигнал временной области можно разделить, и части снова могут лучше выполнять предположение квазистационарности.

Здесь описывается новый способ обнаружения перехода, который будет использоваться в сочетании с SAOC. Видно, что он не стремится к обнаружению переходов, а вместо этого – изменений в параметризациях сигнала, которые также могут инициироваться, например, смещением звука.

Входной сигнал разделяется на короткие, перекрывающиеся кадры, и кадры преобразуются в частотную область, например, с помощью дискретного преобразования Фурье (DFT). Сложный спектр преобразуется в спектр мощности путем умножения значений на их комплексно сопряженные величины (то есть возведения в квадрат их абсолютных значений). Затем используется группирование параметрических диапазонов, аналогичное используемому при стандартном SAOC, и вычисляется энергия каждого параметрического диапазона в каждом периоде в каждом объекте. Операции вкратце выглядят как

,

где является сложным спектром объекта i в периоде n. Суммирование проходит по элементам f разрешения по частоте в диапазоне b. Чтобы удалить некоторый шумовой эффект из данных, значения фильтруются по нижним частотам с помощью IIR-фильтра первого порядка:

,

где является коэффициентом обратной связи фильтра, например, .

Основной параметризацией в SAOC являются разности уровней объектов (OLD). Предложенный способ обнаружения пытается обнаружить, когда изменились бы OLD. Таким образом, все пары объектов проверяются с помощью . Изменения во всех уникальных парах объектов суммируются в функцию обнаружения с помощью

.

Полученные значения сравниваются с пороговой величиной T, чтобы отфильтровать небольшие отклонения уровня, и принудительно применяется минимальное расстояние L между последовательными обнаружениями. Таким образом, функцией обнаружения является

.

Ниже описывается разрешение по частоте улучшенного SAOC.

Разрешение по частоте, полученное из анализа стандартного SAOC, ограничивается количеством параметрических диапазонов, в стандартном SAOC имеющим максимальное значение 28. Они получаются из гребенки гибридных фильтров, состоящей из 64-полосного QMF-анализа с последующим каскадом гибридной фильтрации на самых нижних диапазонах, дополнительно делящим их не более чем на 4 комплексных поддиапазона. Полученные диапазоны частот группируются в параметрические диапазоны, имитирующие разрешение критических диапазонов у системы слуха человека. Группирование позволяет уменьшить скорость передачи необходимой дополнительной информации.

Существующая система выдает разумное качество разделения, учитывая достаточно низкую скорость передачи данных. Основной проблемой является недостаточное разрешение по частоте для четкого разделения тональных звуков. Это проявляется в виде "ореола" от других объектов, окружающей тональные компоненты объекта. По восприятию это наблюдается в виде резкости или вокодероподобного артефакта. Негативное воздействие этого ореола можно уменьшить путем увеличения параметрического разрешения по частоте. Отмечалось, что разрешение, больше либо равное 512 диапазонам (на частоте дискретизации 44,1 кГц), создает хорошее для восприятия разделение на тестовых сигналах. Это разрешение можно было бы получить путем расширения каскада гибридной фильтрации у существующей системы, но потребовались бы гибридные фильтры довольно высокого порядка для достаточного разделения, что приводит к высоким вычислительным затратам.

Простым способом получения необходимого разрешения по частоте является использование частотно-временного преобразования на основе DFT. Это можно эффективно реализовать посредством алгоритма быстрого преобразования Фурье (FFT). Вместо обычного DFT в качестве альтернатив рассматриваются CMDCT или ODFT. Отличие состоит в том, что последние два являются нечетными, и полученный спектр содержит чистые положительные и отрицательные частоты. По сравнению с DFT элементы разрешения по частоте сдвигаются на ширину в 0,5 элемента разрешения. При DFT один из элементов разрешения центрируется на 0 Гц, а другой на частоте Найквиста. Различие между ODFT и CMDCT состоит в том, что CMDCT содержит дополнительную операцию после модуляции, оказывающую влияние на фазовый спектр. Выгода этого в том, что результирующий сложный спектр состоит из модифицированного дискретного косинусного преобразования (MDCT) и модифицированного дискретного синусного преобразования (MDST).

Преобразование на основе DFT с длиной N создает сложный спектр с N значениями. Когда преобразованная последовательность является вещественной, нужны только N/2 из этих значений для идеального восстановления; остальные N/2 значений можно получить из данных значений с помощью простых манипуляций. Анализ обычно состоит из получения кадра из N выборок временной области из сигнала, применения оконной функции к значениям, а затем вычисления фактического преобразования над разделенными на окна данными. Последовательные блоки перекрываются на 50% во времени, и оконные функции проектируются так, что квадраты последовательных окон дадут в сумме единицу. Это гарантирует, что когда оконная функция дважды применяется к данным (один раз при анализе сигнала временной области, а второй раз после синтезирующего преобразования перед перекрытием с суммированием), цепочка "анализ плюс синтез" без модификаций сигнала не имеет потерь.

При условии 50%-ного перекрытия между последовательными кадрами и длины кадра в 2048 выборок эффективное разрешение по времени равно 1024 выборкам (соответствующим 23,2 мс на частоте дискретизации 44,1 кГц). Этого не достаточно мало по двум причинам: во-первых, было бы желательно иметь возможность декодировать потоки двоичных сигналов, созданные кодером стандартного SAOC, а во-вторых, анализ сигналов в кодере улучшенного SAOC с более высоким разрешением по времени, если необходимо.

В SAOC можно группировать несколько блоков в кадры параметров. Предполагается, что свойства сигнала остаются довольно похожими на протяжении кадра параметров для их описания с помощью одного набора параметров. Длины кадров параметров, обычно встречающиеся в стандартном SAOC, составляют 16 или 32 QMF-кадра (стандартом разрешены длины вплоть до 72). Аналогичное группирование может выполняться при использовании гребенки фильтров с высоким разрешением по частоте. Когда свойства сигнала не изменяются в течение кадра параметров, группирование обеспечивает эффективность кодирования без ухудшений качества. Однако, когда свойства сигнала изменяются в пределах кадра параметров, группирование вносит ошибки. Стандартное SAOC позволяет задание длины группирования по умолчанию, которая используется с квазистационарными сигналами, а также задание субблоков параметров. Субблоки задают группирования короче длины по умолчанию, и параметризация выполняется над каждым субблоком в отдельности. Вследствие разрешения по времени у лежащей в основе гребенки QMF результирующее разрешение по времени равно 64 выборкам временной области, что гораздо выше разрешения, доступного с использованием фиксированной гребенки фильтров с высоким разрешением по частоте. Это требование влияет на декодер улучшенного SAOC.

Использование гребенки фильтров с большой длиной преобразования обеспечивает хорошее разрешение по частоте, но одновременно ухудшается разрешение по времени (так называемый принцип неопределенности). Если свойства сигнала изменяются в рамках одного кадра анализа, то низкое разрешение по времени может вызвать смазывание на выходе синтеза. Поэтому было бы полезно получить разрешение по времени субкадра в местоположениях значительных переключений сигнала. Разрешение по времени субкадра приводит, как и следовало ожидать, к более низкому разрешению по частоте, но предполагается, что во время переключения сигнала разрешение по времени является более важным для точного захвата. Это требование к разрешению по времени субкадра преимущественно влияет на кодер улучшенного SAOC (а следовательно, также и на декодер).

Один и тот же принцип решения может использоваться в обоих случаях: использовать длинные кадры анализа, когда сигнал квазистационарный (переходы не обнаружены) и когда нет границ параметров. Когда не выполняется любое из двух условий, применять схему переключения длины блоков. Исключение из этого условия можно сделать для границ параметров, которые находятся между неразделенными группами кадров и совпадают с точкой пересечения между двумя длинными окнами (декодируя при этом поток двоичных сигналов стандартного SAOC). Предполагается, что в таком случае свойства сигнала остаются довольно стационарными для гребенки фильтров с высоким разрешением. Когда сигнализируется граница параметров (из потока двоичных сигналов или детектора переходов), кадрирование регулируется для использования меньшей длины кадра, соответственно локально повышая разрешение по времени.

Первые два варианта осуществления используют один и тот же лежащий в основе механизм построения последовательности окон. Прототипная оконная функция задается для индекса для длины окна N. Планируя одно окно , нужны три контрольные точки, а именно центры предыдущего, текущего и следующего окна, , и .

Используя их, оконная функция задается в виде

.

Фактическим местоположением окна тогда является при . Прототипная оконная функция, используемая на иллюстрациях, является синусоидальным окном, заданным в виде

,

но также могут использоваться другие виды.

Ниже описывается пересечение на переходе в соответствии с вариантом осуществления.

Фиг. 9 является иллюстрацией принципа схемы переключения блоков с "пересечением на переходе". В частности, фиг. 9 иллюстрирует адаптацию обычной последовательности организации окон для размещения точки пересечения окон на переходе. Линия 111 представляет выборки сигнала временной области, вертикальная линия 112 – местоположение t обнаруженного перехода (или границы параметров из потока двоичных сигналов), а линии 113 иллюстрируют оконные функции и их временные диапазоны. Эта схема требует принятия решения о величине перекрытия между двумя окнами и около перехода, задающей крутизну окон. Когда длина перекрытия устанавливается в небольшое значение, окна имеют свои максимальные точки рядом с переходом, и пересекающие переход участки быстро убывают. Длины перекрытий также могут отличаться до и после перехода. При этом подходе два окна или кадра, окружающие переход, будут отрегулированы по длине. Местоположение перехода задает центры окружающих окон равными и , в которых и являются соответственно длиной перекрытия до и после перехода. Задав их, можно использовать уравнение выше.

Ниже описывается изоляция перехода в соответствии с вариантом осуществления.

Фиг. 10 иллюстрирует принцип схемы переключения блоков с изоляцией перехода в соответствии с вариантом осуществления. Короткое окно центрируется на переходе, а два соседних окна и регулируются для дополнения короткого окна. В сущности, соседние окна ограничиваются местоположением перехода, поэтому предыдущее окно содержит только сигнал до перехода, а следующее окно содержит только сигнал после перехода. При этом подходе переход задает центры для трех окон , и , где и задают нужный диапазон окна до и после перехода. Задав их, можно использовать уравнение выше.

Ниже описывается AAC-подобное кадрирование в соответствии с вариантом осуществления.

Степени свободы у двух предшествующих схем организации окон не всегда могут быть нужны. Отличающаяся обработка перехода также применяется в области кодирования воспринимаемого аудио. Цель – уменьшить временной разброс у перехода, который вызывал бы так называемые опережающие эхо. В MPEG-2/4 AAC [AAC] используются две базовые длины окон: LONG (с длиной в 2048 выборок) и SHORT (с длиной в 256 выборок). В дополнение к этим двум длинам также задаются два переходных окна, чтобы сделать возможным переход от LONG к SHORT и наоборот. В качестве дополнительного ограничения SHORT-окнам необходимо находиться в группах из 8 окон. Таким образом, шаг между окнами и группами окон остается в постоянном значении 1024 выборок.

Если бы система SAOC применяла основанный на AAC кодек для сигналов объектов, понижающего микширования или остатков объектов, то было бы полезно иметь схему кадрирования, которую можно легко синхронизировать с кодеком. По этой причине описывается схема переключения блоков на основе AAC-окон.

Фиг. 11 изображает AAC-подобный пример переключения блоков. В частности, фиг. 11 иллюстрирует один и тот же сигнал с переходом и результирующей AAC-подобной последовательностью организации окон. Видно, что местоположение перехода во времени охватывается 8 SHORT-окнами, которые окружены переходными окнами от и до LONG-окон. Из иллюстрации видно, что сам переход ни центрирован в одном окне, ни в точке пересечения между двумя окнами. Причина в том, что местоположения окон привязаны к сетке, но вместе с тем эта сетка гарантирует постоянный шаг. Результирующая временная ошибка округления предполагается довольно мелкой, чтобы не иметь значения для восприятия по сравнению с ошибками, вызванными использованием только LONG-окон.

Окна задаются в виде:

- Окно LONG: при .

- Окно SHORT: при .

- Переходное окно от LONG к SHORT

.

- Переходное окно от SHORT к LONG .

Ниже описываются варианты реализации в соответствии с вариантами осуществления.

Независимо от схемы переключения блоков другим проектным решением является длина фактического t/f-преобразования. Если основной целью является сохранить следующие операции в частотной области простыми по всем кадрам анализа, то можно использовать постоянную длину преобразования. Длина устанавливается в подходящее большое значение, например, соответствующее длине наибольшего разрешенного кадра. Если кадр временной области короче этого значения, то он дополняется нулями до полной длины. Следует отметить, что даже если после дополнения нулями спектр имеет большее количество элементов разрешения, то объем фактической информации не увеличивается по сравнению с более коротким преобразованием. В этом случае матрицы ядер имеют одинаковые размеры для всех значений n.

Другой альтернативой является преобразование разделенного на окна кадра без дополнения нулями. Это имеет меньшую вычислительную сложность, чем при постоянной длине преобразования. Однако нужно принимать во внимание отличающиеся разрешения по частоте между последовательными кадрами при матрицах ядер.

Ниже описывается расширенная гибридная фильтрация в соответствии с вариантом осуществления.

Другой возможностью для получения более высокого разрешения по частоте было бы изменение гребенки гибридных фильтров, используемой при стандартном SAOC, для более высокого разрешения. При стандартном SAOC только нижние три из 64 QMF-диапазонов пропускаются через гребенку фильтров Найквиста, дополнительно подразделяющую содержимое диапазона.

Фиг. 12 иллюстрирует расширенную гибридную фильтрацию QMF. Фильтры Найквиста повторяются для каждого QMF-диапазона в отдельности, и результаты объединяются для одного спектра высокого разрешения. В частности, фиг. 12 иллюстрирует, как получить разрешение по частоте, сопоставимое с подходом на основе DFT, который потребовал бы подразделения каждого QMF-диапазона, например, на 16 поддиапазонов (требующих комплексной фильтрации в 32 поддиапазона). Недостатком этого подхода является то, что необходимые прототипы фильтров являются длинными из-за узости диапазонов. Это вызывает некоторую задержку обработки и увеличивает вычислительную сложность.

Альтернативным способом является реализации расширенной гибридной фильтрации путем замены наборов фильтров Найквиста эффективными гребенками фильтров/преобразованиями (например, "масштабное" DFT, дискретное косинусное преобразование и т. п.). Кроме того, наложение спектров, содержащееся в результирующих спектральных коэффициентах высокого разрешения, которое вызвано эффектами утечки у первого каскада фильтра (здесь – QMF), можно существенно уменьшить путем постобработки с компенсацией наложения спектров для спектральных коэффициентов высокого разрешения, аналогичной общеизвестной гребенке гибридных фильтров в Уровне 3 MPEG-1/2 [FB] [MPEG-1].

Фиг. 1b в соответствии с соответствующим вариантом осуществления иллюстрирует декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов.

Декодер содержит первый подмодуль 161 анализа для преобразования множества выборок понижающего микширования временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов.

Кроме того, декодер содержит генератор 162 последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа. Генератор 162 последовательности окон сконфигурирован для определения множества окон анализа, например, на основе параметрической дополнительной информации, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.

Кроме того, декодер содержит второй модуль 163 анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование.

Кроме того, декодер содержит блок 164 повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

Другими словами: преобразование проводится в два этапа. На первом этапе преобразования создается множество поддиапазонов, содержащих множество выборок поддиапазонов. Затем на втором этапе проводится дополнительное преобразование. Между прочим, окна анализа, используемые для второго этапа, определяют разрешение по времени и разрешение по частоте у результирующего преобразованного понижающего микширования.

Фиг. 13 иллюстрирует пример, где для преобразования используются короткие окна. Использование коротких окон приводит к низкому разрешению по частоте, но высокому разрешению по времени. Применение коротких окон может быть уместным, например, когда в кодированных сигналах аудиообъектов присутствует переход (ui,j указывают выборки поддиапазонов, а vs,r указывают выборки преобразованного понижающего микширования в частотно-временной области).

Фиг. 14 иллюстрирует пример, где для преобразования используются более длинные окна, чем в примере из фиг. 13. Использование длинных окон приводит к высокому разрешению по частоте, но низкому разрешению по времени. Применение длинных окон может быть уместным, например, когда в кодированных сигналах аудиообъектов отсутствует переход. (Опять ui,j указывают выборки поддиапазонов, а vs,r указывают выборки преобразованного понижающего микширования в частотно-временной области).

Фиг. 2b иллюстрирует соответствующий кодер для кодирования двух или более сигналов входных аудиообъектов в соответствии с вариантом осуществления. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области.

Кодер содержит первый подмодуль 171 анализа для преобразования множества выборок сигнала временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов.

Кроме того, кодер содержит блок 172 последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое из окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где блок 172 последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов. Например, (необязательный) блок 175 обнаружения перехода может предоставлять блоку 172 последовательности окон информацию о том, присутствует ли переход в одном из сигналов входных аудиообъектов.

Кроме того, кодер содержит второй модуль 173 анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованные выборки сигнала.

Кроме того, кодер содержит блок 174 оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.

В соответствии с другими вариантами осуществления могут присутствовать два модуля анализа для проведения анализа в два этапа, но второй модуль может включаться и выключаться в зависимости от свойства сигнала.

Например, если необходимо высокое разрешение по частоте и приемлемо низкое разрешение по времени, то второй модуль анализа включается.

В отличие от этого, если необходимо высокое разрешение по времени и приемлемо низкое разрешение по частоте, то второй модуль анализа выключается.

Фиг. 1c иллюстрирует декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования в соответствии с таким вариантом осуществления. Сигнал понижающего микширования кодирует один или более сигналов аудиообъектов.

Декодер содержит блок 181 управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов.

Кроме того, декодер содержит первый модуль 182 анализа для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее множество каналов первого поддиапазона.

Кроме того, декодер содержит второй модуль 183 анализа для формирования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона.

Кроме того, декодер содержит блок 184 повышающего микширования, где блок 184 повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

Фиг. 15 иллюстрирует пример, где необходимо высокое разрешение по частоте и приемлемо низкое разрешение по времени. Следовательно, блок 181 управления включает второй модуль анализа путем установки указания активизации в состояние активизации (например, путем установки логической переменной "activation_indication" в "activation_indication = true"). Сигнал понижающего микширования преобразуется первым модулем 182 анализа (не показан на фиг. 15) для получения первого преобразованного понижающего микширования. В примере из фиг. 15 преобразованное понижающее микширование имеет три поддиапазона. В более реалистичных сценариях применения преобразованное понижающее микширование может иметь, например, 32 или 64 поддиапазона. Затем первое преобразованное понижающее микширование преобразуется вторым модулем 183 анализа (не показан на фиг. 15) для получения второго преобразованного понижающего микширования. В примере из фиг. 15 преобразованное понижающее микширование имеет девять поддиапазонов. В более реалистичных сценариях применения преобразованное понижающее микширование может иметь, например, 512, 1024 или 2048 поддиапазонов. Блок 184 повышающего микширования затем осуществляет повышающее микширование второго преобразованного понижающего микширования для получения выходного аудиосигнала.

Например, блок 184 повышающего микширования может принять указание активизации от блока 181 управления. Либо, например, всякий раз, когда блок 184 повышающего микширования принимает второе преобразованное понижающее микширование от второго модуля 183 анализа, блок 184 повышающего микширования делает вывод, что нужно осуществить повышающее микширование второго преобразованного понижающего микширования; всякий раз, когда блок 184 повышающего микширования не принимает второе преобразованное понижающее микширование от второго модуля 183 анализа, блок 184 повышающего микширования делает вывод, что нужно осуществить повышающее микширование первого преобразованного понижающего микширования.

Фиг. 16 иллюстрирует пример, где необходимо высокое разрешение по времени и приемлемо низкое разрешение по частоте. Следовательно, блок 181 управления выключает второй модуль анализа путем установки указания активизации в состояние, отличное от состояния активизации (например, путем установки логической переменной "activation_indication" в "activation_indication=false"). Сигнал понижающего микширования преобразуется первым модулем 182 анализа (не показан на фиг. 16) для получения первого преобразованного понижающего микширования. Затем, в отличие от фиг. 15, первое преобразованное понижающее микширование не преобразуется еще раз вторым модулем 183 анализа. Вместо этого блок 184 повышающего микширования осуществляет повышающее микширование первого преобразованного понижающего микширования для получения выходного аудиосигнала.

В соответствии с вариантом осуществления блок 181 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от того, содержит ли по меньшей мере один из упомянутого одного или более сигналов аудиообъектов переход, указывающий изменение сигнала у упомянутого по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов.

В другом варианте осуществления указание преобразования поддиапазона назначается каждому из каналов первого поддиапазона. Блок 181 управления сконфигурирован для установки указания преобразования поддиапазона каждого из каналов первого поддиапазона в состояние преобразования поддиапазона в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов. Кроме того, второй модуль 183 анализа сконфигурирован для преобразования каждого из каналов первого поддиапазона, у которого указание преобразования поддиапазона установлено в состояние преобразования поддиапазона, получения упомянутого множества каналов второго поддиапазона и отказа от преобразования каждого из каналов второго поддиапазона, у которого указание преобразования поддиапазона не установлено в состояние преобразования поддиапазона.

Фиг. 17 иллюстрирует пример, где блок 181 управления (не показан на фиг. 17) установил указание преобразования поддиапазона у второго поддиапазона в состояние преобразования поддиапазона (например, путем установки логической переменной "subband_transform_indication_2" в "subband_transform_indication_2=true"). Таким образом, второй модуль 183 анализа (не показан на фиг. 17) преобразует второй поддиапазон для получения трех новых поддиапазонов "высокого разрешения". В примере из фиг. 17 блок 181 управления не установил указание преобразования поддиапазона у первого и третьего поддиапазона в состояние преобразования поддиапазона (например, это может быть указано блоком 181 управления путем установки логических переменных "subband_transform_indication_1" и "subband_transform_indication_3" в "subband_transform_indication_1=false" и "subband_transform_indication_3=false"). Таким образом, второй модуль 183 анализа не преобразует первый и третий поддиапазон. Вместо этого первый поддиапазон и третий поддиапазон сами используются в качестве поддиапазонов второго преобразованного понижающего микширования.

Фиг. 18 иллюстрирует пример, где блок 181 управления (не показан на фиг. 18) установил указание преобразования поддиапазона у первого и второго поддиапазона в состояние преобразования поддиапазона (например, путем установки логической переменной "subband_transform_indication_1" в "subband_transform_indication_1=true" и, например, путем установки логической переменной "subband_transform_indication_2" в "subband_transform_indication_2=true"). Таким образом, второй модуль 183 анализа (не показан на фиг. 18) преобразует первый и второй поддиапазон для получения шести новых поддиапазонов "высокого разрешения". В примере из фиг. 18 блок 181 управления не установил указание преобразования поддиапазона у третьего поддиапазона в состояние преобразования поддиапазона (например, это может быть указано блоком 181 управления путем установки логической переменной "subband_transform_indication_3" в "subband_transform_indication_3=false"). Таким образом, второй модуль 183 анализа не преобразует третий поддиапазон. Вместо этого третий поддиапазон сам используется в качестве поддиапазона второго преобразованного понижающего микширования.

В соответствии с вариантом осуществления первый модуль 182 анализа сконфигурирован для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее упомянутое множество каналов первого поддиапазона, путем применения квадратурного зеркального фильтра (QMF).

В варианте осуществления первый модуль 182 анализа сконфигурирован для преобразования сигнала понижающего микширования в зависимости от длины первого окна анализа, где длина первого окна анализа зависит от упомянутого свойства сигнала, и/или второй модуль 183 анализа сконфигурирован для формирования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования упомянутого по меньшей мере одного из каналов первого поддиапазона в зависимости от длины второго окна анализа, при этом длина второго окна анализа зависит от упомянутого свойства сигнала. Такой вариант осуществления реализует включение и выключение второго модуля 183 анализа и установку длины окна анализа.

В варианте осуществления декодер сконфигурирован для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, где сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Блок 181 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Кроме того, блок 184 повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

Фиг. 2c иллюстрирует кодер для кодирования сигнала входного аудиообъекта в соответствии с вариантом осуществления.

Кодер содержит блок 191 управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у сигнала входного аудиообъекта.

Кроме того, кодер содержит первый модуль 192 анализа для преобразования сигнала входного аудиообъекта, чтобы получить первый преобразованный сигнал аудиообъекта, где первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона.

Кроме того, кодер содержит второй модуль 193 анализа для формирования второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второй преобразованный сигнал аудиообъекта содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона.

Кроме того, кодер содержит блок 194 оценки PSI, где блок 194 оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, и определения параметрической дополнительной информации на основе первого преобразованного сигнала аудиообъекта, когда указание активизации не установлено в состояние активизации.

В соответствии с вариантом осуществления блок 191 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от того, содержит ли сигнал входного аудиообъекта переход, указывающий изменение сигнала у сигнала входного аудиообъекта.

В другом варианте осуществления указание преобразования поддиапазона назначается каждому из каналов первого поддиапазона. Блок 191 управления сконфигурирован для установки указания преобразования поддиапазона каждого из каналов первого поддиапазона в состояние преобразования поддиапазона в зависимости от свойства сигнала у сигнала входного аудиообъекта. Второй модуль 193 анализа сконфигурирован для преобразования каждого из каналов первого поддиапазона, у которого указание преобразования поддиапазона установлено в состояние преобразования поддиапазона, получения упомянутого множества каналов второго поддиапазона и отказа от преобразования каждого из каналов второго поддиапазона, у которого указание преобразования поддиапазона не установлено в состояние преобразования поддиапазона.

В соответствии с вариантом осуществления первый модуль 192 анализа сконфигурирован для преобразования каждого из сигналов входных аудиообъектов путем применения квадратурного зеркального фильтра.

В другом варианте осуществления первый модуль 192 анализа сконфигурирован для преобразования сигнала входного аудиообъекта в зависимости от длины первого окна анализа, где длина первого окна анализа зависит от упомянутого свойства сигнала, и/или второй модуль 193 анализа сконфигурирован для формирования второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона в зависимости от длины второго окна анализа, при этом длина второго окна анализа зависит от упомянутого свойства сигнала.

В соответствии с другим вариантом осуществления кодер сконфигурирован для кодирования сигнала входного аудиообъекта и по меньшей мере одного дополнительного сигнала входного аудиообъекта. Блок 191 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от свойства сигнала у сигнала входного аудиообъекта и в зависимости от свойства сигнала у упомянутого по меньшей мере одного дополнительного сигнала входного аудиообъекта. Первый модуль 192 анализа сконфигурирован для преобразования по меньшей мере одного дополнительного сигнала входного аудиообъекта, чтобы получить по меньшей мере один дополнительный первый преобразованный сигнал аудиообъекта, где каждый из упомянутого по меньшей мере одного дополнительного первого преобразованного сигнала аудиообъекта содержит множество каналов первого поддиапазона. Второй модуль 193 анализа сконфигурирован для преобразования, когда указание активизации установлено в состояние активизации, по меньшей мере одного из упомянутого множества каналов первого поддиапазона у по меньшей мере одного из упомянутого по меньшей мере одного дополнительного первого преобразованного сигнала аудиообъекта, чтобы получить множество дополнительных каналов второго поддиапазона. Кроме того, блок 194 оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе множества дополнительных каналов второго поддиапазона, когда указание активизации установлено в состояние активизации.

Обладающий признаками изобретения способ и устройство устраняют вышеупомянутые недостатки современной обработки SAOC, использующей фиксированную гребенку фильтров или частотно-временное преобразование. Субъективно лучшее качество аудио можно получить путем динамической адаптации разрешения по времени/частоте у преобразований или гребенок фильтров, применяемых для анализа и синтеза аудиообъектов в SAOC. Вместе с тем в рамках той же системы SAOC можно минимизировать артефакты типа опережающих и запаздывающих эхо, вызванные недостатком временной точности, и артефакты типа резкости для слуха и неразборчивости, вызванные недостаточной спектральной точностью. Самое главное, что система улучшенного SAOC, оборудованная обладающим признаками изобретения адаптивным преобразованием, сохраняет обратную совместимость со стандартным SAOC, обеспечивая при этом хорошее воспринимаемое качество, сопоставимое с качеством стандартного SAOC.

Варианты осуществления предоставляют аудиокодер или способ аудиокодирования либо связанную компьютерную программу, как описано выше. Кроме того, варианты осуществления предоставляют аудиокодер или способ аудиодекодирования либо связанную компьютерную программу, как описано выше. Кроме того, варианты осуществления предоставляют кодированный аудиосигнал или носитель информации, имеющий сохраненный кодированный аудиосигнал, как описано выше.

Хотя некоторые особенности описаны применительно к устройству, понято, что эти особенности также представляют собой описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. По аналогии особенности, описанные применительно к этапу способа, также представляют собой описание соответствующего блока или элемента либо признака соответствующего устройства.

Обладающий признаками изобретения разложенный сигнал может храниться на цифровом носителе информации или может передаваться по передающей среде, например беспроводной передающей среде или проводной передающей среде, такой как Интернет.

В зависимости от некоторых требований к реализации, варианты осуществления изобретения можно реализовать в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя информации, например дискеты, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные на нем электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой так, что выполняется соответствующий способ.

Некоторые варианты осуществления в соответствии с изобретением содержат долговременный носитель информации, имеющий электронно считываемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой так, что выполняется один из способов, описанных в этом документе.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код действует для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может храниться, например, на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в этом документе способов, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления обладающего признаками изобретения способа поэтому является компьютерной программой, имеющей программный код для выполнения одного из описанных в этом документе способов, когда компьютерная программа выполняется на компьютере.

Дополнительный вариант осуществления обладающих признаками изобретения способов поэтому является носителем информации (или цифровым носителем информации, или считываемым компьютером носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе.

Дополнительный вариант осуществления обладающего признаками изобретения способа поэтому является потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в этом документе. Поток данных или последовательность сигналов могут конфигурироваться, например, для передачи по соединению передачи данных, например по Интернету.

Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, сконфигурированное или приспособленное для выполнения одного из способов, описанных в этом документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в этом документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в этом документе. Как правило, способы предпочтительно выполняются любым аппаратным устройством.

Вышеописанные варианты осуществления являются всего лишь пояснительными для принципов настоящего изобретения. Подразумевается, что модификации и изменения компоновок и подробностей, описанных в этом документе, будут очевидны другим специалистам в данной области техники. Поэтому есть намерение ограничиться только объемом предстоящей формулы изобретения, а не определенными подробностями, представленными посредством описания и объяснения вариантов осуществления в этом документе.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

[BCC] C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications,” IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[JSC] C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April, 2007.

[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) – The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008.

[SAOC] ISO/IEC, “MPEG audio technologies – Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.

[AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin, “ISO/IEC MPEG-2 Advanced Audio Coding”, J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.

[ISS1] M. Parvaix and L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”, IEEE ICASSP, 2010.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010.

[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: “Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[ISS5] Shuhua Zhang and Laurent Girin: “An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011.

[ISS6] L. Girin and J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011.

[ISS7] Andrew Nesbit, Emmanuel Vincent, and Mark D. Plumbley: “Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation”, IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.

[FB] B. Edler, "Aliasing reduction in subbands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992.

[MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s,1993.

1. Декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, при этом сигнал понижающего микширования содержит один или более кодированных сигналов аудиообъектов, при этом декодер содержит:

блок (181) управления для указания, должно ли быть сформировано второе преобразованное понижающее микширование, в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов,

первый модуль (182) анализа для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее множество каналов первого поддиапазона,

второй модуль (183) анализа для формирования, когда указано, что второе преобразованное понижающее микширование должно быть сформировано, второго преобразованного понижающего микширования путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, при этом второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона, и

блок (184) повышающего микширования, при этом блок (184) повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указано, что второе преобразованное понижающее микширование должно быть сформировано, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда не указано, что второе преобразованное понижающее микширование должно быть сформировано, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

2. Декодер по п. 1, в котором блок (181) управления сконфигурирован для указания, должно ли быть сформировано второе понижающее микширование, в зависимости от того, содержит ли по меньшей мере один из упомянутого одного или более сигналов аудиообъектов переход, указывающий изменение сигнала у упомянутого по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов.

3. Декодер по п. 1,

в котором для каждого канала первого поддиапазона из каналов первого поддиапазона блок (181) управления сконфигурирован для указания, должен ли быть преобразован упомянутый канал первого поддиапазона, в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов, и

в котором второй модуль (183) анализа сконфигурирован для преобразования каждого канала первого поддиапазона из каналов первого поддиапазона, когда указано, что упомянутый канал первого поддиапазона должен быть преобразован, получения упомянутого множества каналов второго поддиапазона и отказа от преобразования каждого канала первого поддиапазона из каналов первого поддиапазона, когда не указано, что упомянутый канал первого поддиапазона должен быть преобразован.

4. Декодер по п. 1, в котором первый модуль (182) анализа сконфигурирован для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее упомянутое множество каналов первого поддиапазона, путем применения квадратурного зеркального фильтра.

5. Декодер по п. 1,

в котором первый модуль (182) анализа сконфигурирован для преобразования сигнала понижающего микширования в зависимости от длины первого окна анализа, при этом длина первого окна анализа зависит от упомянутого свойства сигнала, либо

в котором второй модуль (183) анализа сконфигурирован для формирования, когда указано, что второе преобразованное понижающее микширование должно быть сформировано, второго преобразованного понижающего микширования путем преобразования упомянутого по меньшей мере одного из каналов первого поддиапазона в зависимости от длины второго окна анализа, при этом длина второго окна анализа зависит от упомянутого свойства сигнала.

6. Декодер по п. 1,

при этом декодер сконфигурирован для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, при этом сигнал понижающего микширования содержит два или более кодированных сигналов аудиообъектов,

в котором блок (181) управления сконфигурирован для указания, что второе преобразованное понижающее микширование должно быть сформировано, в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов, и

в котором блок (184) повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указано, что второе преобразованное понижающее микширование должно быть сформировано, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда не указано, что второе преобразованное понижающее микширование должно быть сформировано на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

7. Кодер для кодирования входного сигнала аудиообъекта, при этом кодер содержит:

блок (191) управления для указания, должен ли быть сформирован второй преобразованный сигнал аудиообъекта, в зависимости от свойства сигнала у входного сигнала аудиообъекта,

первый модуль (192) анализа для преобразования входного сигнала аудиообъекта, чтобы получить первый преобразованный сигнал аудиообъекта, при этом первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона,

второй модуль (193) анализа для формирования, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, второго преобразованного сигнала аудиообъекта путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, при этом второй преобразованный сигнал аудиообъекта содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона, и

блок (194) оценки PSI, при этом блок (194) оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе второго преобразованного сигнала аудиообъекта, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, и определения параметрической дополнительной информации на основе первого преобразованного сигнала аудиообъекта, когда не указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован.

8. Кодер по п. 7, в котором блок (191) управления сконфигурирован для указания, должен ли быть сформирован второй преобразованный сигнал аудиообъекта, в зависимости от того, содержит ли входной сигнал аудиообъекта переход, указывающий изменение сигнала у входного сигнала аудиообъекта.

9. Кодер по п. 7,

в котором для каждого канала первого поддиапазона из каналов первого поддиапазона блок (191) управления сконфигурирован для указания, должен ли быть преобразован канал первого поддиапазона, в зависимости от свойства сигнала у входного сигнала аудиообъекта, и

в котором второй модуль (193) анализа сконфигурирован для преобразования каждого канала первого поддиапазона из каналов первого поддиапазона, когда указано, что упомянутый первый канал поддиапазона должен быть преобразован, получения упомянутого множества каналов второго поддиапазона и отказа от преобразования каждого первого канала поддиапазона из каналов первого поддиапазона, когда не указано, что упомянутый первый канал поддиапазона должен быть преобразован.

10. Кодер по п. 7, в котором первый модуль (192) анализа сконфигурирован для преобразования каждого из входных сигналов аудиообъектов путем применения квадратурного зеркального фильтра.

11. Кодер по п. 7,

в котором первый модуль (192) анализа сконфигурирован для преобразования входного сигнала аудиообъекта в зависимости от длины первого окна анализа, при этом длина первого окна анализа зависит от упомянутого свойства сигнала, либо

в котором второй модуль (193) анализа сконфигурирован для формирования, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, второго преобразованного сигнала аудиообъекта путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона в зависимости от длины второго окна анализа, при этом длина второго окна анализа зависит от упомянутого свойства сигнала.

12. Кодер по п. 7,

при этом кодер сконфигурирован для кодирования входного сигнала аудиообъекта и по меньшей мере одного дополнительного входного сигнала аудиообъекта,

в котором блок (191) управления сконфигурирован для указания, должен ли быть сформирован второй преобразованный сигнал аудиообъекта, в зависимости от свойства сигнала у входного сигнала аудиообъекта и в зависимости от свойства сигнала у упомянутого по меньшей мере одного дополнительного входного сигнала аудиообъекта,

в котором первый модуль (192) анализа сконфигурирован для преобразования по меньшей мере одного дополнительного входного сигнала аудиообъекта, чтобы получить по меньшей мере один дополнительный первый преобразованный сигнал аудиообъекта, при этом каждый из упомянутого по меньшей мере одного дополнительного первого преобразованного сигнала аудиообъекта содержит множество каналов первого поддиапазона,

в котором второй модуль (193) анализа сконфигурирован для преобразования, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, по меньшей мере одного из упомянутого множества каналов первого поддиапазона у по меньшей мере одного из упомянутого по меньшей мере одного дополнительного первого преобразованного сигнала аудиообъекта, чтобы получить множество дополнительных каналов второго поддиапазона, и

в котором блок (194) оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе множества дополнительных каналов второго поддиапазона, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован.

13. Способ декодирования путем формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, при этом сигнал понижающего микширования содержит два или более кодированных сигнала аудиообъектов, при этом способ содержит этапы, на которых:

указывают, должно ли быть сформировано второе преобразованное понижающее микширование, в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов,

преобразуют сигнал понижающего микширования для получения первого преобразованного понижающего микширования, содержащего множество каналов первого поддиапазона,

формируют, когда указано, что второе преобразованное понижающее микширование должно быть сформировано, второе преобразованное понижающее микширование путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, при этом второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона, и

осуществляют повышающее микширование второго преобразованного понижающего микширования, когда указано, что второе преобразованное понижающее микширование должно быть сформировано на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и осуществляют повышающее микширование первого преобразованного понижающего микширования, когда не указано, что второе преобразованное понижающее микширование должно быть сформировано, на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.

14. Способ кодирования двух или более входных сигналов аудиообъектов, при этом способ содержит этапы, на которых:

указывают, должен ли быть сформирован второй преобразованный сигнал аудиообъекта, в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более входных сигналов аудиообъектов,

преобразуют каждый из входных сигналов аудиообъектов для получения первого преобразованного сигнала аудиообъекта упомянутого входного сигнала аудиообъекта, при этом упомянутый первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона,

формируют, для каждого из входных сигналов аудиообъектов, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, второй преобразованный сигнал аудиообъекта путем преобразования по меньшей мере одного из каналов первого поддиапазона первого преобразованного сигнала аудиообъекта упомянутого входного сигнала аудиообъекта, чтобы получить множество каналов второго поддиапазона, при этом упомянутое второе преобразованное понижающее микширование содержит упомянутые каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и упомянутые каналы второго поддиапазона, и

определяют параметрическую дополнительную информацию на основе второго преобразованного сигнала аудиообъекта каждого из входных сигналов аудиообъектов, когда указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован, и определяют параметрическую дополнительную информацию на основе первого преобразованного сигнала аудиообъекта каждого из входных сигналов аудиообъектов, когда не указано, что второй преобразованный сигнал аудиообъекта должен быть сформирован.

15. Считываемый компьютером носитель, содержащий компьютерную программу для реализации способа по п. 13 при исполнении на компьютере или процессоре сигналов.

16. Считываемый компьютером носитель, содержащий компьютерную программу для реализации способа по п. 14 при исполнении на компьютере или процессоре сигналов.



 

Похожие патенты:

Изобретение относится к средствам для компенсации переключения режима кодирования. Технический результат заключается в повышении качества аудио при переключении между разными режимами кодирования с разными полосами пропускания, за счет сглаживания и/или смешивания звука при соответствующем переходе.

Изобретение относится к обработке аудиосигналов и предназначено для кодирования или декодирования аудиосигналов при наличии переходов. Технический результат - предоставление усовершенствованного аудиокодирования/декодирования, обеспечивающего повышение производительности устройства.

Изобретение относится к кодированию и декодированию и предназначено для осуществления высокочастотной реконструкции аудиосигнала. Технический результат – обеспечение улучшенной реконструкции переходных процессов и тональных компонентов в высокочастотных полосах.

Изобретение относится к передаче цифровых звуковых сигналов по телекоммуникационным сетям и предназначено для обработки ослабления опережающего эха при декодировании цифрового звукового сигнала.

Изобретение относится к передаче данных и предназначено для обработки входного сигнала весовыми коэффициентами окна. Технический результат – повышение эффективности кодирования путем адаптации характеристик окна к характеристикам входного спектра сигнала.

Изобретение относится к кодированию цифрового звука, в частности к кодированию звуковых сигналов, содержащих составляющие разного характера. Способ декодирования кадра кодированного звукового сигнала, при этом кодированный звуковой сигнал генерируют аудиокодером, при этом способ включает: извлечение первого параметра из кодированного звукового сигнала, при этом первый параметр представляет режим кодирования для кадра; извлечение второго параметра из кодированного звукового сигнала; запуск либо первого режима декодирования, либо второго режима декодирования на основе значения первого параметра; генерирование предварительного звукового сигнала из кодированного звукового сигнала при работе либо в первом режиме декодирования, либо во втором режиме декодирования; и фильтрацию предварительного звукового сигнала с помощью фильтра высоты тона.

Изобретение относится к области обработки сигнала. Техническим результатом является уменьшение сложности алгоритмов кодирования и декодирования за счет декорреляции только вещественнозначных коэффициентов.

Изобретение относится к средствам кодирования и декодирования. Технический результат заключается в повышении эффективности кодирования/декодирования данных.

Изобретение относится к области кодирования и декодирования аудиосигналов. Технический результат – обеспечение минимума слышимых артефактов кодирования в выходном аудиосигнале на низких частотах путем низкочастотного акцентирования на стороне кодера и деакцентирования на стороне декодера.

Изобретение относится к средствам для управления фазовой когерентностью для гармонических сигналов в перцепционных аудиокодеках. Технический результат заключается в повышении качества аудиосигнала.

Изобретение относится к средствам для компенсации переключения режима кодирования. Технический результат заключается в повышении качества аудио при переключении между разными режимами кодирования с разными полосами пропускания, за счет сглаживания и/или смешивания звука при соответствующем переходе.

Изобретение относится к обработке аудиосигналов и предназначено для кодирования или декодирования аудиосигналов при наличии переходов. Технический результат - предоставление усовершенствованного аудиокодирования/декодирования, обеспечивающего повышение производительности устройства.

Изобретение относится к аудиокодированию и декодированию. Технический результат – восстановление дискретизированной звуковой волны в одноканальном, стереофоническом или многоканальном формате.

Изобретение относится к средствам формирования сигнала водяного знака. Технический результат заключается в оптимальном сбалансировании возможности вычисления сигнала водяного знака и отсутствия его воздействия на слух.

Изобретение относится к средствам для генерирования расширенного по частоте сигнала. Технический результат заключается в уменьшении необходимого количества побочной информации по сравнению с полным параметрическим описанием недостающих частот.

Изобретение относится к средствам генерирования кодированного битового аудиопотока. Технический результат заключается в повышении эффективности обнаружения и исправления ошибок идентификации метаданных аудиопотока за счет наличия в аудиопотоке метаданных звукового содержимого аудиопотока.

Изобретение относится к средствам для сжатия и восстановления представления системы Амбисоник высшего порядка для звукового поля. Технический результат заключается в улучшении качества сжатого представления звукового поля HOA.

Изобретение относится к передаче цифровых звуковых сигналов по телекоммуникационным сетям и предназначено для обработки ослабления опережающего эха при декодировании цифрового звукового сигнала.

Изобретение относится к средствам кодирования и декодирования аудиосигнала. Технический результат заключается в повышении качества кодированного аудиосигнала.

Изобретение относится к цифровой обработке аудиосигналов, более конкретно к квантованию аудиосигналов. Технический результат – обеспечение улучшенных концепций для адаптивного квантования аудиосигналов.

Изобретение относится к средствам посегментной настройки пространственного аудиосигнала к другой установке громкоговорителей для воспроизведения. Технический результат заключается в сохранении пространственного образа аудиосцены при перенастройке аудиосигнала к другой установке громкоговорителей. Предложено устройство для адаптации пространственного аудиосигнала, предназначенного для исходной установки громкоговорителя, к установке громкоговорителя для воспроизведения, которая отличается от исходной установки громкоговорителя. Устройство содержит блок декомпозиции на прямой звук и звук окружения, который выполнен с возможностью осуществления декомпозиции канальных сигналов в сегменте исходной установки громкоговорителя на компоненты прямого звука и окружения, и определения направления прихода для компонентов прямого звука. Блок представления прямого звука принимает информацию установки громкоговорителя для воспроизведения и настраивает компоненты прямого звука с использованием информации установки громкоговорителя для воспроизведения так, что воспринимаемое направление прихода для компонентов прямого звука в установке громкоговорителя для воспроизведения является идентичным направлению прихода для компонентов прямого звука. 3 н. и 13 з.п. ф-лы, 9 ил.

Изобретение относится к средствам для пространственного кодирования аудиообъектов. Технический результат заключается в повышении качества кодированного аудиосигнала. Декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования. Декодер содержит первый модуль анализа для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее множество каналов первого поддиапазона. Декодер содержит второй модуль анализа для формирования второго преобразованного понижающего микширования путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. Декодер содержит блок повышающего микширования, сконфигурированный для повышающего микширования второго преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал. 6 н. и 10 з.п. ф-лы, 22 ил.

Наверх