Декодер и способ параметрической концепции обобщенного пространственного кодирования аудиообъектов для случаев многоканального понижающего микширования/повышающего микширования

Изобретение относится к средствам для пространственного кодирования аудиообъектов. Технический результат заключается в повышении качества кодирования аудиообъектов. Декодер для генерирования выходного аудиосигнала содержит один или более выходных аудиоканалов, из микшированного с понижением сигнала, содержащего один или более каналов понижающего микширования. Микшированный с понижением сигнал кодирует один или более сигналов аудиообъектов. Декодер содержит определитель порога для определения порогового значения в зависимости от энергии сигнала и/или энергии шума, по меньшей мере, одного из упомянутых одного или более сигналов аудиообъектов и/или в зависимости от энергии сигнала и/или энергии шума, по меньшей мере, одного из упомянутых одного или более каналов понижающего микширования. Более того, декодер содержит блок обработки для генерирования упомянутых одного или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от порогового значения. 3 н. и 11 з.п. ф-лы, 4 ил.

 

Настоящее изобретение относится к устройству и способу параметрической концепции обобщенного пространственного кодирования аудиообъектов для случаев многоканального понижающего микширования/повышающего микширования.

В современных цифровых аудиосистемах, главной тенденцией является учитывать относящиеся к аудиообъектам модификации переданного контента на стороне приемника. Эти модификации включают в себя модификации усиления выбранных частей аудиосигнала и/или пространственное изменение положения назначенных аудиообъектов в случае многоканального проигрывания посредством пространственно распределенных громкоговорителей. Это может достигаться посредством индивидуальной доставки разных частей аудиоконтента в разные громкоговорители.

Другими словами, в области обработки аудио, передачи аудио, и хранения аудио, имеется возрастающая потребность учитывать взаимодействие с пользователем при объектно-ориентированном проигрывании аудиоконтента и также потребность использовать расширенные возможности многоканального проигрывания, чтобы индивидуально воспроизводить аудиоконтенты или их части, чтобы улучшать впечатление от прослушивания. В силу этого, использование многоканального аудиоконтента обеспечивает значительные улучшения для пользователя. Например, может обеспечиваться трехмерное впечатление от прослушивания, которое способствует улучшенному удовлетворению пользователя в развлекательных приложениях. Однако многоканальный аудиоконтент также является полезным в профессиональных средах, например, в приложениях телефонной конференцсвязи, так как разборчивость говорящего может улучшаться посредством использования проигрывания многоканального аудио. Другим возможным приложением является обеспечение возможности слушателю музыкальной пьесы индивидуально регулировать уровень проигрывания и/или пространственное положение разных частей (также называемых как "аудиообъекты") или дорожек, как, например, вокальной части или разных инструментов. Пользователь может выполнять такую регулировку по причинам персонального вкуса, для более легкого транскрибирования одной или более части (частей) из музыкальной пьесы, образовательных целей, караоке, репетиции, и т.д.

Непосредственная дискретная передача всего цифрового многоканального или многообъектного аудиоконтента, например, в форме данных импульсно-кодовой модуляции (PCM) или даже сжатых аудиоформатов, требует очень высоких битовых скоростей. Однако также является желательным передавать и сохранять аудиоданные эффективным в отношении битовой скорости способом. Поэтому, является предпочтительным соглашаться на разумный компромисс между качеством аудио и требованиями к битовой скорости, чтобы избегать избыточной загрузки ресурсов, вызванной многоканальными/многообъектными приложениями.

Недавно, в области кодирования аудио, были введены параметрические технологии для эффективных в отношении битовой скорости передачи/хранения многоканальных/многообъектных аудиосигналов, например, группой экспертов по движущимся изображениям (MPEG) и другими. Одним примером является Объемный звук (MPS) MPEG как канально-ориентированный подход [MPS, BCC], или Пространственное кодирование аудиообъектов (SAOC) MPEG как объектно-ориентированный подход [JSC, SAOC, SAOC1, SAOC2]. Другой объектно-ориентированный подход называется как "информированное разделение источников" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Эти технологии имеют целью восстановление требуемой выходной аудиосцены или требуемого объекта аудиоисточника на основе понижающего микширования каналов/объектов и дополнительной вспомогательной информации, описывающей переданную/сохраненную аудиосцену и/или объекты аудиоисточника в аудиосцене.

Оценка и применение относящейся к каналам/объектам вспомогательной информации в таких системах осуществляется время-частотным избирательным способом. Поэтому, такие системы применяют время-частотные преобразования, такие как дискретное преобразование Фурье (DFT), кратковременное преобразование Фурье (STFT) или наборы фильтров, такие, как наборы квадратурных зеркальных фильтров (QMF), и т.д. Основной принцип таких систем изображен на фиг. 2, с использованием примера MPEG SAOC.

В случае STFT, временное измерение представлено посредством номера временного блока и спектральное измерение захватывается посредством номера спектрального коэффициента ("отсчета"). В случае QMF, временное измерение представляется посредством номера временного интервала и спектральное измерение захватывается посредством номера поддиапазона. Если спектральное разрешение QMF улучшается посредством последующего применения второго этапа фильтров, полный набор фильтров называется гибридным QMF, и поддиапазоны с высоким разрешением называются гибридными поддиапазонами.

Как уже упомянуто выше, в SAOC общая обработка выполняется время-частотным избирательным образом и может быть описана следующим образом внутри каждого частотного диапазона, как изображено на фиг. 2:

- N входных сигналов аудиообъектов s1 ... sN микшируются с понижением в P каналов x1 ... xP как часть обработки кодера с использованием матрицы понижающего микширования, состоящей из элементов d1,1 ... dN,P. В дополнение, кодер извлекает вспомогательную информацию, описывающую характеристики входных аудиообъектов (модуль оценки вспомогательной информации (SIE)). Для MPEG SAOC, отношения мощностей объектов по отношению друг к другу являются наиболее типичной формой такой вспомогательной информации.

Микшированный с понижением сигнал (сигналы) и вспомогательная информация передаются/сохраняются. С этой целью, микшированный с понижением аудиосигнал (аудиосигналы) может сжиматься, например, с использованием хорошо известных перцепционных аудиокодеров как, например, MPEG-1/2 Layer II или III (также известного как .mp3), MPEG-2/4 Advanced Audio Coding (усовершенствованное аудиокодирование) (AAC) и т.д.

На приемном конце, декодер концептуально пытается восстановить исходные сигналы объектов ("разделение объектов") из (декодированных) микшированных с понижением сигналов с использованием переданной вспомогательной информации. Эти аппроксимированные сигналы объектов ... затем микшируются в целевую сцену, представленную посредством M выходных аудиоканалов ... , с использованием матрицы воспроизведения, описанной посредством коэффициентов r1,1 ... rN,M на фиг. 2. Требуемая целевая сцена, в предельном случае, может быть воспроизведением только одного исходного сигнала из результата микширования (сценарий разделения источников), но также любой другой произвольной акустической сценой, состоящей из переданных объектов. Например, вывод может быть одиночным каналом, 2-канальным стерео или целевой сценой многоканальной конфигурации 5.1.

Увеличение доступной ширины полосы/хранилища и ведущиеся улучшения в области кодирования аудио обеспечивают возможность пользователю выбирать из устойчиво возрастающего ассортимента продукции многоканального аудио. Многоканальные аудиоформаты 5.1 являются уже стандартом в продукции DVD и Blue-Ray. На горизонте появляются новые аудиоформаты, такие как MPEG-H 3D Audio, даже с более большим количеством транспортных каналов аудио, которые будут обеспечивать конечным пользователям опыт аудио с высоким эффектом присутствия.

Параметрические схемы кодирования аудиообъектов в текущее время ограничены максимум двумя каналами понижающего микширования. Они могут применяться только до некоторой степени на многоканальных результатах микширования, например, только на двух выбранных каналах понижающего микширования. Гибкость этих схем кодирования с точки зрения того, чтобы предлагать пользователю регулировать аудиосцену для его/ее собственных предпочтений, является, таким образом, сильно ограниченной, например, в отношении изменения уровня звука у спортивного комментатора и атмосферы в спортивных трансляциях.

Более того, текущие схемы кодирования аудиообъектов предлагают только ограниченную возможность изменений в обработке микширования на стороне кодера. Обработка микширования ограничена переменным по времени микшированием аудиообъектов; и переменное по частоте микширование не является возможным.

Поэтому является весьма предпочтительным, если будут предоставлены улучшенные концепции для кодирования аудиообъектов.

Целью настоящего изобретения является обеспечить улучшенные концепции для кодирования аудиообъектов. Цель настоящего изобретения достигается посредством декодера по п. 1 формулы, посредством способа по п. 14 формулы и посредством компьютерной программы по п. 15 формулы.

Обеспечивается декодер для генерирования выходного аудиосигнала, содержащего один или более выходных аудиоканалов, из микшированного с понижением сигнала, содержащего один или более каналов понижающего микширования.

Микшированный с понижением сигнал кодирует один или более сигналов аудиообъектов. Декодер содержит определитель порога для определения порогового значения в зависимости от энергии сигнала и/или энергии шума, по меньшей мере, одного из упомянутых одного или более сигналов аудиообъектов и/или в зависимости от энергии сигнала и/или энергии шума, по меньшей мере, одного из упомянутых одного или более каналов понижающего микширования. Более того, декодер содержит блок обработки для генерирования упомянутых одного или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от порогового значения.

Согласно одному варианту осуществления, микшированный с понижением сигнал может содержать два или более каналов понижающего микширования, и определитель порога может быть сконфигурирован с возможностью определять пороговое значение в зависимости от энергии шума каждого из упомянутых двух или более каналов понижающего микширования.

В одном варианте осуществления, определитель порога может быть сконфигурирован с возможностью определять пороговое значение в зависимости от суммы всей энергии шума в упомянутых двух или более каналах понижающего микширования.

Согласно одному варианту осуществления, микшированный с понижением сигнал может кодировать два или более сигналов аудиообъектов, и определитель порога может быть сконфигурирован с возможностью определять пороговое значение в зависимости от энергии сигнала упомянутого сигнала аудиообъекта из упомянутых двух или более сигналов аудиообъектов, который имеет наибольшую энергию сигнала из упомянутых двух или более сигналов аудиообъектов.

В одном варианте осуществления, микшированный с понижением сигнал может содержать два или более каналов понижающего микширования, и определитель порога может быть сконфигурирован с возможностью определять пороговое значение в зависимости от суммы всей энергии шума в упомянутых двух или более каналах понижающего микширования.

Согласно одному варианту осуществления, микшированный с понижением сигнал может кодировать упомянутые один или более сигналов аудиообъектов для каждого время-частотного фрагмента из множества время-частотных фрагментов. Определитель порога может быть сконфигурирован с возможностью определять пороговое значение для каждого время-частотного фрагмента из множества время-частотных фрагментов в зависимости от энергии сигнала или энергии шума, по меньшей мере, одного из упомянутых одного или более сигналов аудиообъектов или в зависимости от энергии сигнала или энергии шума, по меньшей мере, одного из упомянутых одного или более каналов понижающего микширования, при этом первое пороговое значение первого время-частотного фрагмента из множества время-частотных фрагментов может отличаться от второго время-частотного фрагмента из множества время-частотных фрагментов. Блок обработки может быть сконфигурирован с возможностью генерировать для каждого время-частотного фрагмента из множества время-частотных фрагментов значение канала каждого из упомянутых одного или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от порогового значения упомянутого время-частотного фрагмента.

В одном варианте осуществления, декодер может быть сконфигурирован с возможностью определять пороговое значение T в децибелах согласно формуле

T[dB]=Enoise[dB]-Eref[dB]-Z или согласно формуле

T[dB]=Enoise[dB]-Eref[dB],

где T[dB] обозначает пороговое значение в децибелах, где Enoise[dB] обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования в децибелах, где Eref[dB] обозначает энергию сигнала одного из сигналов аудиообъектов в децибелах, и где Z обозначает дополнительный параметр, который представляет собой число. В одном альтернативном варианте осуществления, Enoise[dB] обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования в децибелах, разделенную на количество каналов понижающего микширования.

Согласно одному варианту осуществления, декодер может быть сконфигурирован с возможностью определять пороговое значение T согласно формуле

или согласно формуле

,

где T обозначает пороговое значение, где Enoise обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования, где Eref обозначает энергию сигнала одного из сигналов аудиообъектов, и где Z обозначает дополнительный параметр, который представляет собой число. В одном альтернативном варианте осуществления, Enoise[dB] обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования, разделенную на количество каналов понижающего микширования.

Согласно одному варианту осуществления, блок обработки может быть сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от ковариационной матрицы объектов (E) упомянутых одного или более сигналов аудиообъектов, в зависимости от матрицы понижающего микширования (D) для понижающего микширования упомянутых двух или более сигналов аудиообъектов, чтобы получать упомянутые два или более каналов понижающего микширования, и в зависимости от порогового значения.

В одном варианте осуществления, блок обработки сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования посредством применения порогового значения в функции для обращения матрицы Q взаимной корреляции каналов понижающего микширования, где Q определяется как Q=DED*, где D является матрицей понижающего микширования для понижающего микширования упомянутых двух или более сигналов аудиообъектов, чтобы получать упомянутые два или более каналов понижающего микширования, и где E является ковариационной матрицей объектов упомянутых одного или более сигналов аудиообъектов.

Например, блок обработки может быть сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования посредством вычисления собственных значений матрицы Q взаимной корреляции каналов понижающего микширования или посредством вычисления сингулярных значений матрицы Q взаимной корреляции каналов понижающего микширования.

Например, блок обработки может быть сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования посредством умножения наибольшего собственного значения из собственных значений матрицы Q взаимной корреляции каналов понижающего микширования на пороговое значение, чтобы получать относительный порог.

Например, блок обработки может быть сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования посредством генерирования модифицированной матрицы. Блок обработки может быть сконфигурирован с возможностью генерировать модифицированную матрицу в зависимости только от тех собственных векторов матрицы Q взаимной корреляции каналов понижающего микширования, которые имеют собственное значение из собственных значений матрицы Q взаимной корреляции каналов понижающего микширования, которое больше или равно модифицированному порогу. Более того, блок обработки может быть сконфигурирован с возможностью выполнять матричное обращение модифицированной матрицы, чтобы получать обращенную матрицу. Дополнительно, блок обработки может быть сконфигурирован с возможностью применять обращенную матрицу на одном или более из каналов понижающего микширования, чтобы генерировать упомянутые один или более выходных аудиоканалов.

Более того, обеспечивается способ генерирования выходного аудиосигнала, содержащего один или более выходных аудиоканалов, из микшированного с понижением сигнала, содержащего один или более каналов понижающего микширования. Микшированный с понижением сигнал кодирует один или более сигналов аудиообъектов. Декодер содержит:

- Определение порогового значения в зависимости от энергии сигнала или энергии шума, по меньшей мере, одного из упомянутых одного или более сигналов аудиообъектов или в зависимости от энергии сигнала или энергии шума, по меньшей мере, одного из упомянутых одного или более каналов понижающего микширования. И:

- Генерирование упомянутых одного или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от порогового значения.

Более того, обеспечивается компьютерная программа для осуществления вышеописанного способа, когда исполняется на компьютере или сигнальном процессоре.

В последующем, варианты осуществления настоящего изобретения описываются более подробно со ссылкой на фигуры, на которых:

Фиг. 1 иллюстрирует декодер для генерирования выходного аудиосигнала, содержащего один или более выходных аудиоканалов, согласно одному варианту осуществления,

Фиг. 2 является общим видом системы SAOC, изображающим принцип таких систем с использованием примера MPEG SAOC,

Фиг. 3 иллюстрирует общий вид концепции параметрического повышающего микширования G-SAOC, и

Фиг. 4 иллюстрирует общую концепцию понижающего микширования/повышающего микширования.

До описания вариантов осуществления настоящего изобретения, обеспечивается больше информации о состоянии в области систем SAOC.

Фиг. 2 показывает общую компоновку кодера 10 SAOC и декодера 12 SAOC. Кодер 10 SAOC принимает в качестве входа N объектов, т.е. аудиосигналы s1 по sN. В частности, кодер 10 содержит модуль 16 понижающего микширования, который принимает аудиосигналы s1 по sN и микширует их с понижением в микшированный с понижением сигнал 18. Альтернативно, результат понижающего микширования может обеспечиваться извне ("художественное понижающее микширование") и система оценивает дополнительную вспомогательную информацию, чтобы обеспечивать, что предоставленный результат понижающего микширования соответствует вычисленному результату понижающего микширования. На фиг. 2, микшированный с понижением сигнал показан как P-канальный сигнал. Таким образом, является возможной любая моно (P=1), стерео (P=2) или многоканальная (P>2) конфигурация микшированного с понижением сигнала.

В случае стерео результата понижающего микширования, каналы микшированного с понижением сигнала 18 обозначаются L0 и R0, в случае моно результата понижающего микширования он просто обозначается L0. Чтобы обеспечивать возможность декодеру 12 SAOC восстанавливать индивидуальные объекты s1 по sN, модуль 17 оценки вспомогательной информации обеспечивает декодер 12 SAOC вспомогательной информацией, включающей в себя параметры SAOC. Например, в случае стерео результата понижающего микширования, параметры SAOC содержат разности уровня объектов (OLD), корреляции между объектами (IOC) (параметры взаимной корреляции между объектами), значения усиления понижающего микширования (DMG) и разности уровня каналов понижающего микширования (DCLD). Вспомогательная информация 20, включающая в себя параметры SAOC, вместе с микшированным с понижением сигналом 18, формирует выходной поток данных SAOC, принимаемый декодером 12 SAOC.

Декодер 12 SAOC содержит модуль повышающего микширования, который принимает микшированный с понижением сигнал 18 также как вспомогательную информацию 20, чтобы восстанавливать и воспроизводить аудиосигналы и на любом выбранном пользователем наборе каналов по , при этом воспроизведение предписывается информацией 26 воспроизведения, введенной в декодер 12 SAOC.

Аудиосигналы s1 по sN могут вводиться в кодер 10 в любой области кодирования, как, например, во временной или спектральной области. В случае, когда аудиосигналы s1 по sN подаются в кодер 10 во временной области, как, например, кодированные на основе PCM, кодер 10 может использовать набор фильтров, такой как гибридный набор QMF, чтобы передавать сигналы в спектральную область, в которой аудиосигналы представляются в нескольких поддиапазонах, ассоциированных с разными спектральными частями, при конкретном разложении набора фильтров. Если аудиосигналы s1 по sN уже находятся в представлении, ожидаемом кодером 10, он не должны выполнять спектральное разложение.

Более большая гибкость в обработке микширования обеспечивает возможность оптимального использования характеристик объектов сигналов. Может вырабатываться результат понижающего микширования, который является оптимизированным для параметрического разделения на стороне декодера по отношению к воспринимаемому качеству.

Варианты осуществления расширяют параметрическую часть схемы SAOC до произвольного количества каналов понижающего микширования/повышающего микширования. Следующая фигура обеспечивает общий вид концепции параметрического повышающего микширования обобщенного пространственного кодирования аудиообъектов (G-SAOC):

Фиг. 3 иллюстрирует общий вид концепции параметрического повышающего микширования G-SAOC. Может быть реализовано полностью гибкое последующее микширование (воспроизведение) параметрически восстановленных аудиообъектов.

Среди прочего, фиг. 3 иллюстрирует аудиодекодер 310, разделитель 320 объектов и модуль 330 воспроизведения.

Рассмотрим следующую общую систему обозначений:

x - входной сигнал аудиообъекта (размера Nobj)

y - микшированный с понижением аудиосигнал (размера Ndmx)

z - воспроизводимый сигнал выходной сцены (размера Nupmix)

D - матрица понижающего микширования (размера Nobj×Ndmx)

R - матрица воспроизведения (размера Nobj×Nupmix)

G - матрица параметрического повышающего микширования (размера Ndmx×Nupmix)

E - ковариационная матрица объектов (размера Nobj×Nobj)

Все введенные матрицы (в общем) изменяются в зависимости от времени и частоты.

В последующем, обеспечивается основополагающее отношение для параметрического повышающего микширования.

Сначала, обеспечиваются общие концепции понижающего микширования/повышающего микширования со ссылкой на фиг. 4. В частности, фиг. 4 иллюстрирует общую концепцию понижающего микширования/повышающего микширования, при этом фиг. 4 иллюстрирует системы смоделированную (левая) и параметрического повышающего микширования (правая).

Более конкретно, фиг. 4 иллюстрирует блок 410 воспроизведения, блок 421 понижающего микширования и блок 422 параметрического повышающего микширования.

Идеальный (смоделированный) воспроизведенный сигнал выходной сцены z определяется как, см. фиг. 4 (слева):

Rx=z. (1)

Микшированный с понижением аудиосигнал y определяется как, см. фиг. 4 (справа):

Dx=y. (2)

Основополагающее отношение (примененное к микшированному с понижением аудиосигналу) для восстановления параметрического сигнала выходной сцены может быть представлено как, см. фиг. 4 (справа):

Gy=z. (3)

Матрица параметрического повышающего микширования может быть определена из (1) и (2) как следующая функция матриц понижающего микширования и воспроизведения G=G(D,R):

G=RED*(DED*)-1. (4)

В последующем, рассматривается улучшение устойчивости параметрической оценки источника согласно вариантам осуществления.

Схема параметрического разделения внутри MPEG SAOC основывается на наименьшей среднеквадратической (IMS) оценке источников в результате микширования. Оценка IMS включает в себя обращение параметрически описанной ковариационной матрицы канала понижающего микширования Q=DED*. Алгоритмы для матричного обращения являются, в общем, чувствительными к матрицам плохого качества. Обращение такой матрицы может быть причиной неестественных звуков, называемых артефактами, в воспроизводимой выходной сцене. Эвристически определенный фиксированный порог T в MPEG SAOC в текущее время предотвращает это. Хотя артефакты предотвращаются посредством этого способа, достаточное возможное выполнение разделения на стороне декодера может, тем самым, не достигаться.

Фиг. 1 иллюстрирует декодер для генерирования выходного аудиосигнала, содержащего один или более выходных аудиоканалов, из микшированного с понижением сигнала, содержащего один или более каналов понижающего микширования, согласно одному варианту осуществления. Микшированный с понижением сигнал кодирует один или более сигналов аудиообъектов.

Декодер содержит определитель 110 порога для определения порогового значения в зависимости от энергии сигнала и/или энергии шума, по меньшей мере, одного из упомянутых одного или более сигналов аудиообъектов и/или в зависимости от энергии сигнала и/или энергии шума, по меньшей мере, одного из упомянутых одного или более каналов понижающего микширования.

Более того, декодер содержит блок 120 обработки для генерирования упомянутых одного или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от порогового значения.

В отличие от состояния данной области техники, пороговое значение, определенное посредством определителя 110 порога, зависит от энергии сигнала или энергии шума упомянутых одного или более каналов понижающего микширования или кодированных одного или более сигналов аудиообъектов. В вариантах осуществления, так как энергии сигнала и шума упомянутых одного или более каналов понижающего микширования и/или упомянутых одного или более значений сигналов аудиообъектов изменяется, таким образом изменяется пороговое значение, например, от момента времени к моменту времени, или от время-частотного фрагмента к время-частотному фрагменту.

Варианты осуществления обеспечивают способ адаптивного порога для матричного обращения, чтобы достигать улучшенного параметрического разделения аудиообъектов на стороне декодера. Выполнение разделения в среднем является более хорошим, но никогда не меньшим, чем в текущее время используемая схема фиксированного порога, используемая в MPEG SAOC в алгоритме для обращения матрицы Q.

Порог T динамически адаптируется к точности данных для каждого обрабатываемого время-частотного фрагмента. Выполнение разделения, таким образом, улучшается и артефакты в воспроизводимой выходной сцене, вызванные обращением матриц плохого качества, предотвращаются.

Согласно одному варианту осуществления, микшированный с понижением сигнал может содержать два или более каналов понижающего микширования, и определитель 110 порога может быть сконфигурирован с возможностью определять пороговое значение в зависимости от энергии шума каждого из упомянутых двух или более каналов понижающего микширования.

В одном варианте осуществления, определитель 110 порога может быть сконфигурирован с возможностью определять пороговое значение в зависимости от суммы всей энергии шума в упомянутых двух или более каналах понижающего микширования.

Согласно одному варианту осуществления, микшированный с понижением сигнал может кодировать два или более сигналов аудиообъектов, и определитель 110 порога может быть сконфигурирован с возможностью определять пороговое значение в зависимости от энергии сигнала упомянутого сигнала аудиообъекта из упомянутых двух или более сигналов аудиообъектов, который имеет наибольшую энергию сигнала из упомянутых двух или более сигналов аудиообъектов.

В одном варианте осуществления, микшированный с понижением сигнал может содержать два или более каналов понижающего микширования, и определитель 110 порога может быть сконфигурирован с возможностью определять пороговое значение в зависимости от суммы всей энергии шума в упомянутых двух или более каналах понижающего микширования.

Согласно одному варианту осуществления, микшированный с понижением сигнал может кодировать упомянутые один или более сигналов аудиообъектов для каждого время-частотного фрагмента из множества время-частотных фрагментов. Определитель 110 порога может быть сконфигурирован с возможностью определять пороговое значение для каждого время-частотного фрагмента из множества время-частотных фрагментов в зависимости от энергии сигнала или энергии шума, по меньшей мере, одного из упомянутых одного или более сигналов аудиообъектов или в зависимости от энергии сигнала или энергии шума, по меньшей мере, одного из упомянутых одного или более каналов понижающего микширования, при этом первое пороговое значение первого время-частотного фрагмента из множества время-частотных фрагментов может отличаться от второго время-частотного фрагмента из множества время-частотных фрагментов. Блок 120 обработки может быть сконфигурирован с возможностью генерировать для каждого время-частотного фрагмента из множества время-частотных фрагментов значение канала каждого из упомянутых одного или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от порогового значения упомянутого время-частотного фрагмента.

Согласно одному варианту осуществления, декодер может быть сконфигурирован с возможностью определять пороговое значение T согласно формуле

или согласно формуле

,

где T обозначает пороговое значение, где Enoise обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования, где Eref обозначает энергию сигнала одного из сигналов аудиообъектов, и где Z обозначает дополнительный параметр, который представляет собой число. В одном альтернативном варианте осуществления, Enoise обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования, разделенную на количество каналов понижающего микширования.

В одном варианте осуществления, декодер может быть сконфигурирован с возможностью определять пороговое значение T в децибелах согласно формуле

T[dB]=Enoise[dB]-Eref[dB]-Z или согласно формуле

T[dB]=Enoise[dB]-Eref[dB],

где T[dB] обозначает пороговое значение в децибелах, где Enoise[dB] обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования в децибелах, где Eref[dB] обозначает энергию сигнала одного из сигналов аудиообъектов в децибелах, и где Z обозначает дополнительный параметр, который представляет собой число. В одном альтернативном варианте осуществления, Enoise[dB] обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования в децибелах, разделенную на количество каналов понижающего микширования.

В частности, грубая оценка порога может быть дана для каждого время-частотного фрагмента посредством:

T[dB]=Enoise[dB]-Eref[dB]-Z. (5)

Enoise может обозначать уровень минимального уровня шума, например, сумму всей энергии шума в каналах понижающего микширования. Минимальный уровень шума может определяться посредством разложения аудиоданных, например, минимальным уровнем шума, вызванным кодированием на основе PCM каналов. Другая возможность состоит в том, чтобы учитывать шум кодирования, если результат понижающего микширования сжимается. Для такого случая, может добавляться минимальный уровень шума, вызываемый алгоритмом кодирования. В одном альтернативном варианте осуществления, Enoise[dB] обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования в децибелах, разделенную на количество каналов понижающего микширования.

Eref может обозначать энергию опорного сигнала. В наиболее простой форме, это может быть энергией самого сильного аудиообъекта:

Eref=max(E) (6)

Z может обозначать коэффициент штрафа, чтобы управляться с дополнительными параметрами, которые влияют на разложение разделения, например, разность количества каналов понижающего микширования и количества объектов источника. Выполнение разделения уменьшается с увеличением количества аудиообъектов. Более того, влияния квантования параметрической вспомогательной информации на разделение также могут включаться сюда.

В одном варианте осуществления, блок 120 обработки сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от ковариационной матрицы объектов E упомянутых одного или более сигналов аудиообъектов, в зависимости от матрицы понижающего микширования D для понижающего микширования упомянутых двух или более сигналов аудиообъектов, чтобы получать упомянутые два или более каналов понижающего микширования, и в зависимости от порогового значения.

Согласно одному варианту осуществления, для генерирования упомянутых одного или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от порогового значения, блок 120 обработки может быть сконфигурирован с возможностью действовать следующим образом:

Порог (который может упоминаться как "порог разложения разделения") применяется на стороне декодера в функции для обращения параметрически оцененной матрицы Q взаимной корреляции каналов понижающего микширования.

Вычисляются сингулярные значения Q или собственные значения Q. Берется наибольшее собственное значение и умножается на порог T.

Все за исключением наибольшего собственного значения сравниваются с этим относительным порогом и отбрасываются, если они являются более маленькими.

Затем над модифицированной матрицей выполняется матричное обращение, при этом модифицированная матрица может, например, быть матрицей определенной посредством уменьшенного набора векторов. Следует отметить, что для случая, когда все за исключением наивысшего собственного значения отбрасываются, наивысшее собственное значение должно устанавливаться на уровень минимального уровня шума, если собственное значение ниже.

Например, блок 120 обработки может быть сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования посредством генерирования модифицированной матрицы. Модифицированная матрица может генерироваться в зависимости только от тех собственных векторов матрицы Q взаимной корреляции каналов понижающего микширования, которые имеют собственное значение из собственных значений матрицы Q взаимной корреляции каналов понижающего микширования, которое больше или равно модифицированному порогу. Блок 120 обработки может быть сконфигурирован с возможностью выполнять матричное обращение модифицированной матрицы, чтобы получать обращенную матрицу. Далее, блок 120 обработки может быть сконфигурирован с возможностью применять обращенную матрицу на одном или более из каналов понижающего микширования, чтобы генерировать упомянутые один или более выходных аудиоканалов. Например, обращенная матрица может применяться на одном или более из каналов понижающего микширования одним из способов, как обращенная матрица матричного произведения DED* применяется на каналах понижающего микширования (см. например, [SAOC], см. в частности, например,: ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010, в частности, см. главу "SAOC Processing", более конкретно, см. подраздел "Transcoding modes" и подраздел "Decoding modes").

Параметры, которые могут применяться для оценки порога T, могут либо определяться в кодере и встраиваться в параметрическую вспомогательную информацию либо оцениваться напрямую на стороне декодера.

На стороне кодера может использоваться упрощенная версия модуля оценки порога, чтобы показывать потенциальные неустойчивости в оценке источника на стороне декодера. В его наиболее простой форме, при отбрасывании всех членов шума, может вычисляться норма матрицы понижающего микширования, которая показывает, что полный потенциал доступных каналов понижающего микширования для параметрической оценки исходных сигналов на стороне декодера не может использоваться. Такой индикатор может использоваться в ходе обработки микширования, чтобы избегать смешивания матриц, которые являются критическими для оценки исходных сигналов.

Относительно параметризации ковариационной матрицы объектов, можно видеть, что описанный способ параметрического повышающего микширования на основе основополагающего отношения (4) является инвариантным к знаку элементов вне диагонали ковариационной матрицы объектов E. Это дает результатом возможность более эффективной (в сравнении с SAOC) параметризации (квантования и кодирования) значений, представляющих корреляции между объектами.

Относительно транспортировки информации, представляющей матрицу понижающего микширования, в общем, входные и микшированные с понижением аудиосигналы x, y вместе с ковариационной матрицей E определяются на стороне кодера. Кодированное представление микшированного с понижением аудиосигнала y и информация, описывающая ковариационную матрицу E, передаются в сторону декодера (посредством полезной нагрузки битового потока). Матрица воспроизведения R устанавливается и является доступной на стороне декодера.

Информация, представляющая матрицу понижающего микширования D (применяемую в кодере и используемую как декодер), может определяться (в кодере) и получаться (в декодере) с использованием следующих принципиальных способов.

Матрица понижающего микширования D может:

- устанавливаться и применяться (в кодере) и ее квантованное и кодированное представление может явно передаваться (в декодер) посредством полезной нагрузки битового потока.

- назначаться и применяться (в кодере) и восстанавливаться (в декодере) с использованием сохраненной таблицы поиска (т.е. набора предварительно определенных матриц понижающего микширования).

- назначаться и применяться (в кодере) и восстанавливаться (в декодере) согласно конкретному алгоритму или способу (например, специально взвешенного и упорядоченного равноудаленного расположения аудиообъектов к доступным каналам понижающего микширования).

- оцениваться и применяться (в кодере) и восстанавливаться (в декодере) с использованием конкретного критерия оптимизации, обеспечивая возможность "гибкого микширования" входных аудиообъектов (т.е. генерирования матрицы понижающего микширования, которая оптимизирована для параметрической оценки аудиообъектов на стороне декодера). Например, кодер генерирует матрицу понижающего микширования таким способом, чтобы делать параметрическое повышающее микширование более эффективным, в терминах восстановления специальных свойств сигналов, как, например, ковариация, межсигнальная корреляция, или улучшать/обеспечивать численную устойчивость алгоритма параметрического повышающего микширования.

Представленные варианты осуществления могут применяться на произвольном количестве каналов понижающего микширования/повышающего микширования. Они могут комбинироваться с любыми текущими и также будущими аудиоформатами.

Гибкость нового способа обеспечивает возможность обхода неизменных каналов, чтобы уменьшать вычислительную сложность, уменьшать полезную нагрузку битового потока/уменьшать объем данных.

Обеспечивается аудиокодер, способ или компьютерная программа для кодирования. Более того, обеспечивается аудиодекодер, способ или компьютерная программа для декодирования. Дополнительно, обеспечивается кодированный сигнал.

Хотя некоторые аспекты были описаны в контексте устройства, должно быть ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства.

Новый разложенный сигнал может сохраняться на цифровом запоминающем носителе или может передаваться по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, как, например, сеть Интернет.

В зависимости от конкретных требований вариантов осуществления, варианты осуществления изобретения могут осуществляться в аппаратном обеспечении или в программном обеспечении. Осуществление может выполняться с использованием цифрового запоминающего носителя, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего электронным образом читаемые сигналы управления, сохраненные на нем, которые взаимодействуют (или являются способными взаимодействовать) с программируемой компьютерной системой, так что выполняется соответствующий способ.

Некоторые варианты осуществления согласно изобретению содержат нетранзиторный носитель данных, имеющий электронным образом читаемые сигналы управления, которые являются способными взаимодействовать с программируемой компьютерной системой, так что выполняется один из способов, здесь описанных.

В общем варианты осуществления настоящего изобретения могут осуществляться как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью для выполнения одного из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код может, например, быть сохранен на машинно-читаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, здесь описанных, сохраненную на машинно-читаемом носителе.

Другими словами, один вариант осуществления нового способа является, поэтому, компьютерной программой, имеющей программный код для выполнения одного из способов, здесь описанных, когда компьютерная программа исполняется на компьютере.

Дополнительный вариант осуществления новых способов является, поэтому, носителем данных (или цифровым запоминающим носителем, или машиночитаемым носителем), содержащим, записанную на нем, компьютерную программу для выполнения одного из способов, здесь описанных.

Дополнительный вариант осуществления нового способа является, поэтому, потоком данных или последовательностью сигналов, представляющим компьютерную программу для выполнения одного из способов, здесь описанных. Поток данных или последовательность сигналов может, например, быть сконфигурирован с возможностью передачи посредством соединения передачи данных, например, посредством сети Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер, или программируемое логическое устройство, сконфигурированное с возможностью или выполненное с возможностью выполнять один из способов, здесь описанных.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, здесь описанных.

В некоторых вариантах осуществления, может использоваться программируемое логическое устройство (например, программируемая пользователем вентильная матрица), чтобы выполнять некоторые или все из функциональностей способов, здесь описанных. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнять один из способов, здесь описанных. В общем, способы предпочтительно выполняются посредством любого аппаратного устройства.

Вышеописанные варианты осуществления являются всего лишь иллюстративными для принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и деталей, здесь описанных, должны быть ясными для специалистов в данной области техники. Поэтому предполагается, что изобретение ограничено только объемом приложенной патентной формулы изобретения и не посредством конкретных деталей, представленных здесь в качестве описания и объяснения вариантов осуществления.

Источники информации

[MRS] ISO/IEC 23003-1:2007, MPEG-D (MPEG audio technologies), Part 1: MPEG Surround, 2007.

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans, on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007

[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010

[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011

[ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011

[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011

1. Декодер для генерирования выходного аудиосигнала, содержащего один или более выходных аудиоканалов, из микшированного с понижением сигнала, содержащего один или более каналов понижающего микширования, при этом микшированный с понижением сигнал содержит два или более кодируемых сигналов аудиообъектов, при этом декодер содержит:

определитель (110) порога для определения порогового значения для одного или более каналов понижающего микширования

в зависимости от энергии сигнала по меньшей мере одного из двух или более сигналов аудиообъектов, которая указывает энергию упомянутого по меньшей мере одного из двух или более сигналов аудиообъектов, или

в зависимости от энергии шума, по меньшей мере, одного из двух или более сигналов аудиообъектов, которая указывает энергию шума в упомянутом по меньшей мере одном из двух или более сигналов аудиообъектов, или

в зависимости от энергии сигнала по меньшей мере одного из одного или более каналов понижающего микширования, которая указывает энергию упомянутого по меньшей мере одного из одного или более каналов понижающего микширования, или

в зависимости от энергии шума, по меньшей мере, одного из одного или более каналов понижающего микширования, которая указывает энергию шума в упомянутом по меньшей мере одном из одного или более каналов понижающего микширования, и

блок (120) обработки для генерирования упомянутых одного или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от порогового значения.

2. Декодер по п. 1,

в котором микшированный с понижением сигнал содержит два или более каналов понижающего микширования, и

при этом определитель (110) порога сконфигурирован с возможностью определять пороговое значение в зависимости от энергии шума каждого из упомянутых двух или более каналов понижающего микширования.

3. Декодер по п. 2, в котором определитель (110) порога сконфигурирован с возможностью определять пороговое значение в зависимости от суммы всей энергии шума в упомянутых двух или более каналах понижающего микширования.

4. Декодер по п. 1,

в котором определитель (110) порога сконфигурирован с возможностью определять пороговое значение в зависимости от энергии сигнала упомянутого сигнала аудиообъекта из упомянутых двух или более сигналов аудиообъектов, который имеет наибольшую энергию сигнала из упомянутых двух или более сигналов аудиообъектов.

5. Декодер по п. 1,

в котором микшированный с понижением сигнал содержит упомянутые два или более кодируемых сигналов аудиообъектов для каждого время-частотного фрагмента из множества время-частотных фрагментов,

при этом определитель (110) порога сконфигурирован с возможностью определять пороговое значение для каждого время-частотного фрагмента из множества время-частотных фрагментов в зависимости от энергии сигнала или энергии шума, по меньшей мере, одного из упомянутых двух или более сигналов аудиообъектов или в зависимости от энергии сигнала или энергии шума, по меньшей мере, одного из упомянутых одного или более каналов понижающего микширования, при этом первое пороговое значение первого время-частотного фрагмента из множества время-частотных фрагментов отличается от второго порогового значения второго время-частотного фрагмента из множества время-частотных фрагментов.

6. Декодер по п. 1,

в котором микшированный с понижением сигнал содержит два или более каналов понижающего микширования,

при этом декодер сконфигурирован с возможностью определять пороговое значение Т в децибелах согласно формуле

Т[dB]=Enoise[dB]-Eref[dB]-Z или согласно формуле

Т[dB]=Enoise[dB]-Eref[dB],

где T[dB] обозначает пороговое значение в децибелах,

где Enoise[dB] обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования в децибелах, или Enoise[dB] обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования в децибелах, разделенную на количество упомянутых двух или более каналов понижающего микширования,

где Eref[dB] обозначает энергию сигнала одного из сигналов аудиообъектов в децибелах, и

где Z обозначает дополнительный параметр, который представляет собой число.

7. Декодер по п. 1,

в котором микшированный с понижением сигнал содержит два или более каналов понижающего микширования,

при этом декодер сконфигурирован с возможностью определять пороговое значение Т согласно формуле

или согласно формуле

,

где Т обозначает пороговое значение,

где Enoise обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования, или Enoise в децибелах обозначает сумму всей энергии шума в упомянутых двух или более каналах понижающего микширования в децибелах, разделенную на количество упомянутых двух или более каналов понижающего микширования,

где Eref обозначает энергию сигнала одного из сигналов аудиообъектов, и

где Z обозначает дополнительный параметр, который представляет собой число.

8. Декодер по п. 1, в котором блок (120) обработки сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от ковариационной матрицы объектов (Е) упомянутых одного или более сигналов аудиообъектов, в зависимости от матрицы понижающего микширования (D) для понижающего микширования упомянутых двух или более сигналов аудиообъектов, чтобы получать упомянутый один или более каналов понижающего микширования, и в зависимости от порогового значения.

9. Декодер по п. 8, в котором блок (120) обработки сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования посредством применения порогового значения в функции для обращения матрицы Q взаимной корреляции каналов понижающего микширования,

где Q определяется как Q=DED*,

где D является матрицей понижающего микширования для понижающего микширования упомянутых двух или более сигналов аудиообъектов, чтобы получать упомянутые два или более каналов понижающего микширования, и

где Е является ковариационной матрицей объектов упомянутых одного или более сигналов аудиообъектов.

10. Декодер по п. 9, в котором блок (120) обработки сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования посредством вычисления собственных значений матрицы Q взаимной корреляции каналов понижающего микширования или посредством вычисления сингулярных значений матрицы Q взаимной корреляции каналов понижающего микширования.

11. Декодер по п. 9, в котором блок (120) обработки сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования посредством умножения наибольшего собственного значения из собственных значений матрицы Q взаимной корреляции каналов понижающего микширования на пороговое значение, чтобы получать относительный порог.

12. Декодер по п. 11,

в котором блок (120) обработки сконфигурирован с возможностью генерировать упомянутые один или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования посредством генерирования модифицированной матрицы,

при этом блок (120) обработки сконфигурирован с возможностью генерировать модифицированную матрицу в зависимости только от тех собственных векторов матрицы Q взаимной корреляции каналов понижающего микширования, которые имеют собственное значение из собственных значений матрицы Q взаимной корреляции каналов понижающего микширования, которое больше или равно относительному порогу,

при этом блок (120) обработки сконфигурирован с возможностью выполнять матричное обращение модифицированной матрицы, чтобы получать обращенную матрицу, и

при этом блок (120) обработки сконфигурирован с возможностью применять обращенную матрицу на одном или более из каналов понижающего микширования, чтобы генерировать упомянутые один или более выходных аудиоканалов.

13. Способ генерирования выходного аудиосигнала, содержащего один или более выходных аудиоканалов, из микшированного с понижением сигнала, содержащего один или более каналов понижающего микширования, при этом микшированный с понижением сигнал содержит два или более кодируемых сигналов аудиообъектов, при этом способ содержит:

определение порогового значения для одного или более каналов понижающего микширования

в зависимости от энергии сигнала по меньшей мере одного из двух или более сигналов аудиообъектов, которая указывает энергию упомянутого по меньшей мере одного из двух или более сигналов аудиообъектов, или

в зависимости от энергии шума, по меньшей мере, одного из упомянутых двух или более сигналов аудиообъектов, которая указывает энергию шума в упомянутом по меньшей мере одном из двух или более сигналов аудиообъектов, или

в зависимости от энергии сигнала по меньшей мере одного из одного или более каналов понижающего микширования, которая указывает энергию упомянутого по меньшей мере одного из одного или более каналов понижающего микширования, или

в зависимости от энергии шума, по меньшей мере, одного из упомянутых одного или более каналов понижающего микширования, которая указывает энергию шума в упомянутом по меньшей мере одном из одного или более каналов понижающего микширования, и

генерирование упомянутых одного или более выходных аудиоканалов из упомянутых одного или более каналов понижающего микширования в зависимости от порогового значения.

14. Компьютерно-читаемый носитель, содержащий компьютерную программу для осуществления способа по п. 13, когда она исполняется на компьютере или сигнальном процессоре.



 

Похожие патенты:

Изобретение относится к аудиосистемам. Технический результат заключается в обеспечении возможности улучшения пространственного восприятия воспроизводимого аудиосистемой аудиосигнала, расширении арсенала доступных аудиоэффектов.

Изобретение относится к средствам воспроизведения стереофонического звука. Технический результат заключается в увеличении точности локализации звукового сигнала.

Изобретение относится к средствам воспроизведения трехмерного звукового сопровождения. Технический результат заключается в увеличении точности локализации звукового сигнала.

Изобретение относится к обработке звукового сигнала, в частности к производству нескольких выходных каналов из меньшего количества входных каналов, например, из одного (моно) канала или двух (стерео) входных каналов.

Изобретение относится к кодированию и декодированию многоканальных звуковых сигналов с использованием пространственных параметров и, в частности, к усовершенствованным принципам для формирования и использования декоррелированных сигналов.

Изобретение относится к системе контроля уровня звука и может быть использовано, например, в системе домашнего кинротеатра в случае использования тонкой центральной акустической колонки, низкие звуки могут восприниматься на слух, как слышимые из центральной акустической колонки.

Изобретение относится к электроакустике. .

Изобретение относится к области стереофонического звуковоспроизведения и может быть использовано для озвучивания кинотеатральных залов или других помещений большого объема.

Изобретение относится к обработке аудиосигналов или сигналов изображения, в частности к кодированию или декодированию аудиосигналов или сигналов изображения при наличии переходов.

Изобретение относится к средствам для пространственного кодирования аудиообъектов. Технический результат заключается в повышении качества кодированного аудиосигнала.

Изобретение относится к средствам для компенсации переключения режима кодирования. Технический результат заключается в повышении качества аудио при переключении между разными режимами кодирования с разными полосами пропускания, за счет сглаживания и/или смешивания звука при соответствующем переходе.

Изобретение относится к обработке аудиосигналов и предназначено для кодирования или декодирования аудиосигналов при наличии переходов. Технический результат - предоставление усовершенствованного аудиокодирования/декодирования, обеспечивающего повышение производительности устройства.

Изобретение относится к кодированию и декодированию и предназначено для осуществления высокочастотной реконструкции аудиосигнала. Технический результат – обеспечение улучшенной реконструкции переходных процессов и тональных компонентов в высокочастотных полосах.

Изобретение относится к передаче цифровых звуковых сигналов по телекоммуникационным сетям и предназначено для обработки ослабления опережающего эха при декодировании цифрового звукового сигнала.

Изобретение относится к передаче данных и предназначено для обработки входного сигнала весовыми коэффициентами окна. Технический результат – повышение эффективности кодирования путем адаптации характеристик окна к характеристикам входного спектра сигнала.

Изобретение относится к кодированию цифрового звука, в частности к кодированию звуковых сигналов, содержащих составляющие разного характера. Способ декодирования кадра кодированного звукового сигнала, при этом кодированный звуковой сигнал генерируют аудиокодером, при этом способ включает: извлечение первого параметра из кодированного звукового сигнала, при этом первый параметр представляет режим кодирования для кадра; извлечение второго параметра из кодированного звукового сигнала; запуск либо первого режима декодирования, либо второго режима декодирования на основе значения первого параметра; генерирование предварительного звукового сигнала из кодированного звукового сигнала при работе либо в первом режиме декодирования, либо во втором режиме декодирования; и фильтрацию предварительного звукового сигнала с помощью фильтра высоты тона.

Изобретение относится к области обработки сигнала. Техническим результатом является уменьшение сложности алгоритмов кодирования и декодирования за счет декорреляции только вещественнозначных коэффициентов.

Изобретение относится к средствам кодирования и декодирования. Технический результат заключается в повышении эффективности кодирования/декодирования данных.

Изобретение относится к кодированию и декодированию аудио сигналов. Технический результат – обеспечение возможности улучшения восстановления звукового объекта.

Изобретение относится к технике кодирования и декодирования информации и может быть использовано для получения декодированной аудио информации на основе кодированной аудио информации.
Наверх