Устройство и способ обработки кодированного аудиосигнала

Изобретение относится к средствам для обработки кодированного аудиосигнала, включающего в себя множество микшированных с понижением сигналов, связанных с множеством входных звуковых объектов и параметрами объектов. Технический результат заключается в повышении эффективности обработки аудиосигнала. Группируют множество микшированных с понижением сигналов во множество групп микшированных с понижением сигналов на основании информации в упомянутом кодированном аудиосигнале. Каждая группа микшированных с понижением сигналов связана с набором входных звуковых объектов из множества входных звуковых объектов. Индивидуально выполняют по меньшей мере один этап обработки параметров (Ek) объектов каждого набора входных звуковых объектов, чтобы обеспечить результаты группы. Объединяют результаты групп, чтобы обеспечить декодированный аудиосигнал. Группирование множества микшированных с понижением сигналов в множество групп микшированных с понижением сигналов конфигурировано таким образом, что каждый входной звуковой объект принадлежит только одному набору входных звуковых объектов. 3 н. и 17 з.п. ф-лы, 19 ил., 1 табл.

 

Изобретение относится к устройству и способу обработки кодированного аудиосигнала.

Недавно были предложены параметрические методики для передачи и/или сохранения с эффективной битовой скоростью звуковых сцен, содержащих множественные звуковые объекты, в области аудиокодирования (см. следующие ссылки [BCC, АО, SAOC, SAOC1, SAOC2]) и разделения информированных источников (см., например, следующие ссылки [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]).

Эти методики стремятся восстановить желаемую выдаваемую звуковую сцену или желаемый объект источника звука на основании дополнительной вспомогательной информации, описывающей переданные и/или сохраненные аудиосигналы и/или объекты источников звука в звуковой сцене. Это восстановление происходит в декодере с использованием схемы параметрического разделения информированного источника.

К сожалению, было обнаружено, что в некоторых случаях схемы параметрического разделения могут приводить к серьезным слышимым артефактам, вызывающим неудовлетворительное восприятие при прослушивании.

Способ обработки аудиосигналов, исходящих от разных звуковых объектов, описан в документе WO 2014/021588 A1. Кодер обеспечивает битовый поток, содержащий микшированные с понижением сигналы. Микшированные с понижением сигналы сформированы на основе групп сигналов звуковых объектов. Декодер формирует микшированные с понижением сигналы из принятого битового потока и восстанавливает соответствующие группы сигналов объектов.

Таким образом, задача изобретения состоит в улучшении качества звука декодированных аудиосигналов, используя методики параметрического кодирования.

Задача решается устройством по пункту 1 формулы и соответствующим способом по пункту 21 формулы.

Задача решается посредством устройства для обработки кодированного аудиосигнала. Кодированный аудиосигнал содержит множество микшированных с понижением сигналов, связанных с множеством входных звуковых объектов и параметрами (E) объектов. Устройство содержит блок группирования, процессор и блок объединения.

Блок группирования выполнен с возможностью группирования множества микшированных с понижением сигналов во множество групп микшированных с понижением сигналов. Каждая группа микшированных с понижением сигналов связана с набором входных звуковых объектов (или входных аудиосигналов) из множества входных звуковых объектов. Другими словами, группы покрывают подмножества набора входных аудиосигналов, представленных кодированным аудиосигналом. Каждая группа микшированных с понижением сигналов также связана с некоторыми параметрами E объектов, описывающих входные звуковые объекты. Далее индивидуальные группы Gk идентифицируются с помощью индекса k (1≤k≤K), где K - количество групп микшированных с понижением сигналов.

Далее, после группирования процессор выполнен с возможностью индивидуального выполнения по меньшей мере одного этапа обработки параметров объекта из каждого набора входных звуковых объектов. Следовательно, по меньшей мере один этап обработки выполняется не одновременно для всех параметров объекта, а индивидуально для параметров объекта, принадлежащих соответствующей группе микшированных с понижением сигналов. В одном варианте осуществления только один этап выполняется индивидуально. В другом варианте осуществления выполняется более одного этапа, тогда как в альтернативном варианте осуществления вся обработка выполняется индивидуально для групп микшированных с понижением сигналов. Процессор обеспечивает результаты групп для индивидуальных групп.

В другом варианте осуществления процессор после группирования выполнен с возможностью индивидуального выполнения по меньшей мере одного этапа обработки для каждой группы из множества групп микшированных с понижением сигналов. Следовательно, по меньшей мере один этап обработки выполняется не одновременно для всех микшированных с понижением сигналов, а индивидуально для соответствующих групп микшированных с понижением сигналов.

Наконец, блок объединения выполнен с возможностью объединения результатов групп или обработанные результаты групп, чтобы обеспечить декодированный аудиосигнал. Следовательно, результаты групп или результаты этапов последующей обработки, выполненных для результатов групп, объединяются, чтобы обеспечить декодированный аудиосигнал. Декодированный аудиосигнал соответствует множеству входных звуковых объектов, которые кодированы посредством кодированного аудиосигнала.

Группирование, выполняемое блоком группирования, делается по меньшей мере с ограничением, что каждый входной звуковой объект из множества входных звуковых объектов принадлежит одному и только одному набору входных звуковых объектов. Это подразумевает, что каждый входной звуковой объект принадлежит только одной группе микшированных с понижением сигналов. Это также подразумевает, что каждый микшированный с понижением сигнал принадлежит только одной группе микшированных с понижением сигналов.

В соответствии с вариантом осуществления блок группирования выполнен с возможностью группирования множества микшированных с понижением сигналов во множество групп микшированных с понижением сигналов таким образом, что каждый входной звуковой объект из каждого набора входных звуковых объектов либо лишен отношения, сигнализированного в кодированном аудиосигнале, с другими входными звуковыми объектами, либо имеет отношение, сигнализированное в кодированном аудиосигнале, только по меньшей мере с одним входным звуковым объектом, принадлежащим тому же набору входных звуковых объектов. Это подразумевает, что никакой входной звуковой объект не имеет сигнализированного отношения с входным звуковым объектом, принадлежащим другой группе микшированных с понижением сигналов. Такое сигнализированное отношение в одном варианте осуществления представляет собой то, что два входных звуковых объекта являются стереосигналами, исходящими от одного источника.

Устройство по изобретению обрабатывает кодированный аудиосигнал, содержащий микшированные с понижением сигналы. Понижающее микширование представляет собой часть процесса кодирования заданного количества индивидуальных аудиосигналов и подразумевает, что определенное количество входных звуковых объектов объединено в сигнал понижающего микширования. Количество входных звуковых объектов, таким образом, сокращается до меньшего количества микшированных с понижением сигналов. Вследствие этого микшированные с понижением сигналы связаны с множеством входных звуковых объектов.

Микшированные с понижением сигналы группируются в группы микшированных с понижением сигналов и индивидуально подвергаются (т.е., как единые группы) по меньшей мере одному этапу обработки. Следовательно, устройство выполняет по меньшей мере один этап обработки не совместно для всех микшированных с понижением сигналах, а индивидуально для индивидуальных групп микшированных с понижением сигналов. В другом варианте осуществления параметры объектов групп рассматриваются отдельно, чтобы получить матрицы, которые будут применены к кодированному аудиосигналу.

В одном варианте осуществления устройство представляет собой декодер кодированных аудиосигналов. Устройство в альтернативном варианте осуществления представляет собой часть декодера.

В одном варианте осуществления каждый микшированный с понижением сигнал назначен в одну группу микшированных с понижением сигналов и, следовательно, обрабатывается индивидуально относительно по меньшей мере одного этапа обработки. В этом варианте осуществления количество групп микшированных с понижением сигналов равно количеству микшированных с понижением сигналов. Это подразумевает, что группирование и индивидуальная обработка совпадают.

В одном варианте осуществления объединение представляет собой один из окончательных этапов обработки кодированного аудиосигнала. В другом варианте осуществления результаты групп далее подвергаются разным этапам обработки, которые выполняются либо индивидуально, либо совместно для результатов групп.

Группирование (или обнаружение групп) и индивидуальная обработка групп показали улучшение качества звука. Это особенно относится, например, к методикам параметрического кодирования.

В соответствии с вариантом осуществления блок группирования устройства выполнен с возможностью группирования множества микшированных с понижением сигналов во множество групп микшированных с понижением сигналов, минимизируя количество микшированных с понижением сигналов в каждой группе микшированных с понижением сигналов. В этом варианте осуществления устройство пытается сократить количество микшированных с понижением сигналов, принадлежащих каждой группе. В одном случае по меньшей мере одной группе микшированных с понижением сигналов принадлежит только один микшированный с понижением сигнал.

В соответствии с вариантом осуществления блок группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов в упомянутое множество групп микшированных с понижением сигналов таким образом, что всего один единственный микшированный с понижением сигнал принадлежит одной группе микшированных с понижением сигналов. Другими словами, группирование приводит к различным группам микшированных с понижением сигналов, причем задана по меньшей мере одна группа микшированных с понижением сигналов, которой принадлежит только один микшированный с понижением сигнал. Таким образом, по меньшей мере одна группа микшированных с понижением сигналов относится только к одному единственному микшированному с понижением сигналу. В дополнительном варианте осуществления максимизируется количество групп микшированных с понижением сигналов, которым принадлежит только один микшированный с понижением сигнал.

В одном варианте осуществления блок группирования устройства выполнен с возможностью группирования множества микшированных с понижением сигналов во множество групп микшированных с понижением сигналов на основании информации в кодированном аудиосигнале. В дополнительном варианте осуществления устройство использует только информацию в кодированном аудиосигнале для группирования микшированных с понижением сигналов. Использование информации в битовом потоке кодированного аудиосигнала в одном варианте осуществления содержит принятие во внимание информации корреляции или ковариации. Блок группирования, в частности, извлекает из кодированного аудиосигнала информацию об отношении между разными входными звуковыми объектами.

В одном варианте осуществления блок группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов в упомянутое множество групп микшированных с понижением сигналов на основании значений bsRelatedTo в упомянутом кодированном аудиосигнале. Относительно этих значений см., например, WO 2011/039195 A1.

В соответствии с вариантом осуществления блок группирования выполнен с возможностью группирования множества микшированных с понижением сигналов во множество групп микшированных с понижением сигналов, применяя по меньшей мере следующие этапы (к каждой группе микшированных с понижением сигналов):

- обнаружения, назначен ли микшированный с понижением сигнал в существующую группу микшированных с понижением сигналов;

- обнаружения, является ли по меньшей мере один входной звуковой объект из множества входных звуковых объектов, связанных с микшированным с понижением сигналом, частью набора входных звуковых объектов, связанных с существующей группой микшированных с понижением сигналов;

- назначения микшированного с понижением сигнала в новую группу микшированных с понижением сигналов

-- в случае, если микшированный с понижением сигнал лишен назначения в существующую группу микшированных с понижением сигналов (следовательно, микшированный с понижением сигнал еще не приписан к группе), и

-- в случае, если все входные звуковые объекты из множества входных звуковых объектов, связанных с микшированным с понижением сигналом, лишены привязки к существующей группе микшированных с понижением сигналов (следовательно, входные звуковые объекты микшированного с понижением сигнала еще не назначены (через другой микшированный с понижением сигнал) в группу); и

- объединения микшированного с понижением сигнала с существующей группой микшированных с понижением сигналов

-- либо в случае, если микшированный с понижением сигнал назначен в существующую группу микшированных с понижением сигналов,

-- либо в случае, если по меньшей мере один входной звуковой объект из множества входных звуковых объектов, связанных с микшированным с понижением сигналом, связан с существующей группой микшированных с понижением сигналов.

Если отношение, сигнализированное в кодированном аудиосигнале, также будет принято во внимание, то будет добавлен другой этап обнаружения, приводящий к дополнительному требованию для привязки и объединения микшированных с понижением сигналов.

В соответствии с вариантом осуществления процессор выполнен с возможностью индивидуального выполнения различных этапов обработки для параметров (Ek) объектов из каждого набора входных звуковых объектов (или каждой группы микшированных с понижением сигналов), чтобы обеспечить индивидуальные матрицы как результаты группы. Блок объединения выполнен с возможностью объединения индивидуальных матриц, чтобы обеспечить упомянутый декодированный аудиосигнал. Параметры (Ek) объектов принадлежат входным звуковым объектам соответствующей группы микшированных с понижением сигналов с индексом k и обрабатываются для получения индивидуальных матриц для этой группы, имеющей индекс k.

В соответствии с другим вариантом осуществления процессор выполнен с возможностью индивидуального выполнения различных этапов обработки для каждой группы из упомянутого множества групп микшированных с понижением сигналов, чтобы обеспечить выходные аудиосигналы как результаты групп. Блок объединения выполнен с возможностью объединения выходных аудиосигналов, чтобы обеспечить упомянутый декодированный аудиосигнал.

В этом варианте осуществления группы микшированных с понижением сигналов обрабатываются таким образом, что получаются выходные аудиосигналы, которые соответствуют входным звуковым объектам, принадлежащим соответствующей группе микшированных с понижением сигналов. Следовательно, объединение выходных аудиосигналов с декодированными аудиосигналами является близким к заключительным этапам процессов декодирования, выполняемым над кодированным аудиосигналом. В этом варианте осуществления, таким образом, каждая группа микшированных с понижением сигналов индивидуально подвергается всем этапам обработки после обнаружения групп микшированных с понижением сигналов.

В другом варианте осуществления процессор выполнен с возможностью выполнения по меньшей мере одного этапа обработки индивидуально для каждой группы из упомянутого множества групп микшированных с понижением сигналов, чтобы обеспечить обработанные сигналы как результаты группы. Устройство также содержит постпроцессор, выполненный с возможностью совместной обработки упомянутых обработанных сигналов, чтобы обеспечить выходные аудиосигналы. Блок объединения выполнен с возможностью объединения выходных аудиосигналов как результаты обработанных групп, чтобы обеспечить упомянутый декодированный аудиосигнал.

В этом варианте осуществления группы микшированного с понижением сигнала подвергаются по меньшей мере одному этапу обработки индивидуально и по меньшей мере одному этапу обработки совместно с другими группами. Индивидуальная обработка приводит к обработанным сигналам, которые в варианте осуществления обрабатываются совместно.

Что касается матриц, в одном варианте осуществления процессор выполнен с возможностью индивидуального выполнения по меньшей мере одного этапа обработки параметров (Ek) объектов каждого набора входных звуковых объектов, чтобы обеспечить индивидуальные матрицы. Постпроцессор, содержащийся в устройстве, выполнен с возможностью совместной обработки параметров объектов, чтобы обеспечить по меньшей мере одну общую матрицу. Блок объединения выполнен с возможностью объединения упомянутых индивидуальных матриц и упомянутой по меньшей мере одной общей матрицы. В одном варианте осуществления постпроцессоры совместно выполняют по меньшей мере один этап обработки для индивидуальных матриц, чтобы получить по меньшей мере одну общую матрицу.

Следующие варианты осуществления относятся к этапам обработки, выполняемых процессором. Некоторые из этих этапов также подходят для упомянутого в предыдущем варианте осуществления постпроцессора.

В одном варианте осуществления процессор содержит блок разбиения, выполненный с возможностью выполнения разбиения микшированных с понижением сигналов соответствующих групп из упомянутого множества групп микшированных с понижением сигналов. Посредством разбиения микшированных с понижением сигналов процессор получает представления первоначальных входных звуковых объектов, которые были микшированы в микшированный с понижением сигнал.

В соответствии с вариантом осуществления блок разбиения выполнен с возможностью выполнения разбиения микшированных с понижением сигналов соответствующих групп из упомянутого множества групп микшированных с понижением сигналов на основании алгоритма оценки минимальной среднеквадратичной ошибки (MMSE). Такой алгоритм будет описан в следующем описании.

В другом варианте осуществления процессор содержит блок разбиения, выполненный с возможностью индивидуальной обработки параметров объекта каждого из набора входных звуковых объектов, чтобы обеспечить индивидуальные матрицы разбиения.

В одном варианте осуществления процессор содержит блок вычисления, выполненный с возможностью индивидуального вычисления для каждой группы микшированных с понижением сигналов матрицы с размерами, зависящими по меньшей мере от одного количества из количества входных звуковых объектов из набора входных звуковых объектов, связанных с соответствующей группой микшированных с понижением сигналов, и количества микшированных с понижением сигналов, принадлежащих соответствующей группе микшированных с понижением сигналов. Поскольку группы микшированных с понижением сигналов меньше, чем весь ансамбль микшированных с понижением сигналов, и поскольку группы микшированных с понижением сигналов относятся к меньшему количеству входных аудиосигналов, матрицы, используемые для обработки групп микшированных с понижением сигналов, меньше, чем используемые на текущем уровне техники. Это облегчает вычисления.

В соответствии с вариантом осуществления блок вычисления выполнен с возможностью вычисления для индивидуальных матриц разбиения индивидуальной пороговой величины на основании максимального значения энергии в соответствующей группе микшированных с понижением сигналов.

В соответствии с вариантом осуществления процессор выполнен с возможностью вычисления индивидуальной пороговой величины на основании максимального значения энергии в соответствующей группе микшированных с понижением сигналов для каждой группы микшированных с понижением сигналов индивидуально.

В одном варианте осуществления блок вычисления выполнен с возможностью вычисления индивидуальной пороговой величины для этапа регуляризации для разбиения микшированных с понижением сигналов каждой группы микшированных с понижением сигналов на основании максимального значения энергии в соответствующей группе микшированных с понижением сигналов. Пороговые величины для групп микшированных с понижением сигналов в другом варианте осуществления вычисляются самим блоком разбиения.

Нижеследующее описание покажет интересный эффект вычисления пороговой величины для групп (одна пороговая величина для каждой группы), а не для всех микшированных с понижением сигналов.

В соответствии с вариантом осуществления процессор содержит блок рендеризации, выполненный с возможностью рендеризации подвергнутых разбиению микшированных с понижением сигналов соответствующих групп для сценария вывода упомянутого декодированного аудиосигнала, чтобы обеспечить рендеризированные сигналы. Рендеризация основана на вводе, обеспеченном слушателем, или на основании данных о фактическом сценарии вывода.

В варианте осуществления процессор содержит блок рендеризации, выполненный с возможностью обработки параметров объекта, чтобы обеспечить по меньшей мере одну матрицу рендеризации.

В варианте осуществления процессор содержит постмикшер, выполненный с возможностью обработки параметров объекта, чтобы обеспечить по меньшей мере одну матрицу декорреляции.

В соответствии с вариантом осуществления процессор содержит постмикшер, выполненный с возможностью выполнения по меньшей мере одного этапа декорреляции для упомянутых рендеризированных сигналов, и выполненный с возможностью объединения результатов (Ywet) выполненного этапа декорреляции с упомянутыми соответствующими рендеризированными сигналами (Ydry).

В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной матрицы (Dk) понижающего микширования для каждой группы микшированных с понижением сигналов (k - индекс соответствующей группы), процессор выполнен с возможностью определения индивидуальной ковариационной матрицы (Ek) группы для каждой группы микшированных с понижением сигналов, процессор выполнен с возможностью определения индивидуальной ковариационной матрицы (Δk) понижающего микширования группы для каждой группы микшированных с понижением сигналов на основании индивидуальной матрицы (Dk) понижающего микширования и индивидуальной ковариационной матрицы (Ek) группы, и процессор выполнен с возможностью определения индивидуальной матрицы (Jk) регуляризированной инверсии группы для каждой группы микшированных с понижением сигналов.

В соответствии с вариантом осуществления блок объединения выполнен с возможностью объединения индивидуальных матриц (Jk) регуляризированной инверсии группы, чтобы получить общую матрицу (J) регуляризированной инверсии группы.

В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной матрицы (Uk) параметрического разбиения группы для каждой группы микшированных с понижением сигналов на основании индивидуальной матрицы (Dk) понижающего микширования, индивидуальной ковариационной матрицы (Ek) группы и индивидуальной матрицы (Jk) регуляризированной инверсии группы, и блок объединения выполнен с возможностью объединения индивидуальной матрицы (Uk) параметрического разбиения группы, чтобы получить общую матрицу (U) параметрического разбиения группы.

В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной матрицы (Uk) параметрического разбиения группы для каждой группы микшированных с понижением сигналов на основании индивидуальной матрицы (Dk) понижающего микширования, индивидуальной ковариационной матрицы (Ek) группы и индивидуальной матрицы (Jk) регуляризированной инверсии группы, и блок объединения выполнен с возможностью объединения индивидуальной матрицы (Uk) параметрического разбиения группы, чтобы получить общую матрицу (U) параметрического разбиения группы.

В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной матрицы (Rk) рендеризации группы для каждой группы микшированных с понижением сигналов.

В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной матрицы (RkUk) повышающего микширования для каждой группы микшированных с понижением сигналов на основании индивидуальной матрицы (Rk) рендеризации группы и индивидуальной матрицы (Uk) параметрического разбиения группы, и блок объединения выполнен с возможностью объединения индивидуальных матриц (RkUk) повышающего микширования, чтобы получить общую матрицу (RU) повышающего микширования.

В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной ковариационной матрицы (Ck) группы для каждой группы микшированных с понижением сигналов на основании индивидуальной матрицы (Rk) рендеризации группы и индивидуальной ковариационной матрицы (Ek) группы, и блок объединения выполнен с возможностью объединения индивидуальных ковариационных матриц (Ck) группы, чтобы получить общую ковариационную матрицу (C) группы.

В соответствии с вариантом осуществления процессор выполнен с возможностью определения индивидуальной ковариационной матрицы группы параметрически оцененного сигнала (Eydry)k на основании индивидуальной матрицы (Rk) рендеризации группы, индивидуальной матрицы (Uk) параметрического разбиения группы, индивидуальной матрицы (Dk) понижающего микширования и индивидуальной ковариационной матрицы (Ek) группы, и блок объединения выполнен с возможностью объединения индивидуальных ковариационных матриц группы параметрически оцененного сигнала (Eydry)k, чтобы получить общий параметрически оцененный сигнал Eydry.

В соответствии с вариантом осуществления процессор выполнен с возможностью определения матрицы (J) регуляризированной инверсии на основании сингулярного разложения ковариационной матрицы (EDMX) понижающего микширования.

В соответствии с вариантом осуществления процессор выполнен с возможностью определения подматрицы (Δk) для определения матрицы (U) параметрического разбиения посредством выбора элементов (Δ (m, n)), соответствующих микшированным с понижением сигналам (m, n), назначенным в соответствующую группу (имеющей индекс k) микшированных с понижением сигналов. Каждая группа микшированных с понижением сигналов покрывает заданное количество микшированных с понижением сигналов и связанный набор входных звуковых объектов и обозначена здесь индексом k.

В соответствии с этим вариантом осуществления индивидуальные подматрицы (Δk) получаются посредством выбора элементов из ковариационной матрицы Δ понижающего микширования, которые принадлежат соответствующей группе k.

В одном варианте осуществления индивидуальные подматрицы (Δk) индивидуально инвертируются, и результаты объединяются в матрице (J) регуляризированной инверсии.

В другом варианте осуществления подматрица (Δk) получается с использованием ее определения как Δk=DkEkDk* с помощью индивидуальной матрицы (Dk) понижающего микширования.

В соответствии с вариантом осуществления блок объединения выполнен с возможностью определения матрицы (P) постмикширования основе индивидуально определенных матриц для каждой группы микшированных с понижением сигналов, и блок объединения выполнен с возможностью применения матрицы (P) постмикширования к множеству микшированных с понижением сигналов, чтобы получить декодированный аудиосигнал. В этом варианте осуществления из параметров объектов вычисляется матрица постмикширования, которая применяется к кодированному аудиосигналу, чтобы получить декодированный аудиосигнал.

В соответствии с одним вариантом осуществления устройство и его соответствующие компоненты выполнены с возможностью индивидуального выполнения для каждой группы микшированных с понижением сигналов по меньшей мере одного из следующих вычислений:

- вычисление ковариационной матрицы Ek группы с размером Nk на Nk с элементами: ,

- вычисление ковариационной матрицы Δk понижающего микширования группы с размером Mk на Mk: Δk=DkEkDk*,

- вычисление сингулярного разложения ковариационной матрицы понижающего микширования группы Δk=DkEkDk*: Δk=V k Λ k V k*,

- вычисление матрицы Jk регуляризированной инверсии группы, аппроксимирующей : , в том числе вычисление индивидуальной матрицы Λinv k (подробности будут даны ниже),

- вычисление матрицы Uk параметрического разбиения группы с размером Nk на Mk: Uk=EkDk*Jk,

- умножение матрицы Rk рендеризации группы с размером NUpmix на Nk на матрицу Uk разбиения с размером Nk на Mk: RkUk,

- вычисление ковариационной матрицы Ck группы с размером Nout на Nout: Ck=RkEkRk*,

- вычисление ковариации группы параметрически оцененного сигнала (Eydry)k с размером Nout на Nout: .

В этом отношении k обозначает индекс соответствующей группы микшированных с понижением сигналов, Nk обозначает количество входных звуковых объектов привязанного набора входных звуковых объектов, Nk обозначает количество микшированных с понижением сигналов, принадлежащих соответствующей группе микшированных с понижением сигналов, и Nout обозначает количество подвергнутых повышающему микшированию и рендеризации выходных каналов.

Вычисленные матрицы имеют меньшие размеры, чем используемые на текущем уровне техники. В соответствии с этим в одном варианте осуществления как можно больше этапов обработки выполняются индивидуально для групп микшированных с понижением сигналов.

Задача изобретения также решается соответствующим способом обработки кодированного аудиосигнала. Кодированный аудиосигнал содержит множество микшированных с понижением сигналов, связанных с множеством входных звуковых объектов и параметрами объектов. Способ содержит следующие этапы:

- группирование микшированных с понижением сигналов во множество групп микшированных с понижением сигналов, связанных с набором входных звуковых объектов из множества входных звуковых объектов,

- индивидуальное выполнение по меньшей мере одного этапа обработки для параметров объектов из каждого набора входных звуковых объектов, чтобы обеспечить результаты групп, и

- объединение упомянутых результатов групп, чтобы обеспечить декодированный аудиосигнал.

Группирование выполняется по меньшей мере с ограничением, что каждый входной звуковой объект из множества входных звуковых объектов принадлежит только одному набору входных звуковых объектов.

Упомянутые выше варианты осуществления устройства также могут быть выполнены посредством этапов способа и соответствующих вариантов осуществления способа. Таким образом, разъяснения, данные для вариантов осуществления устройства, также относятся к способу.

Далее изобретение будет описано в отношении прилагаемых чертежей и вариантов осуществления, изображенные в прилагаемых чертежах:

Фиг. 1 показывает обзор концепции параметрического понижающего/повышающего микширования на основе MMSE,

Фиг. 2 показывает схему параметрической реконструкции с декорреляцией, применяемую к рендеризированному выводу,

Фиг. 3 показывает структуру процессора понижающего микширования,

Фиг. 4 показывает спектрограммы пяти входных звуковых объектов (столбец слева) и спектрограммы соответствующих микшированных с понижением каналов (столбец справа),

Фиг. 5 показывает спектрограммы опорных выходных сигналов (столбец слева) и спектрограммы соответствующих декодированных посредством SAOC 3D и рендеризированных выходных сигналов (столбец справа),

Фиг. 6 показывает спектрограмм выходных сигналов SAOC 3D с использованием изобретения,

Фиг. 7 показывает параметрическую обработку кадра в соответствии с текущим уровнем техники,

Фиг. 8 показывает параметрическую обработку кадра в соответствии с изобретением,

Фиг. 9 показывает пример реализации функции обнаружения групп,

Фиг. 10 схематично показывает устройство для кодирования входных звуковых объектов,

Фиг. 11 схематично показывает пример устройства по изобретению для обработки кодированного аудиосигнала,

Фиг. 12 схематично показывает другой пример устройства по изобретению для обработки кодированного аудиосигнала,

Фиг. 13 показывает последовательность этапов варианта осуществления способа по изобретению,

Фиг. 14 схематично показывает пример устройства по изобретению,

Фиг. 15 схематично показывает дополнительный пример устройства,

Фиг. 16 схематично показывает процессор устройства по изобретению, и

Фиг. 17 схематично показывает применение устройства по изобретению.

Далее будет дан обзор схем параметрического разделения с использованием примера технологии пространственного кодирования звуковых объектов (Spatial Audio Object Coding, SAOC) для MPEG ([SAOC]) и части обработки 3D SAOC для MPEG-H 3D Audio ([SAOC3D, SAOC3D2]). Рассматриваются математические свойства этих способов.

Используются следующие математические обозначения:

N количество входных звуковых объектов (альтернативно: входных объектов)
Ndmx Количество микшированных с понижением (транспортных) каналов
Nout Количество микшированных с повышением (рендеризированных) каналов
Nsamples Количество отсчетов на аудиосигнал
D Матрица понижающего микширования, размер Ndmx на N
S Входной сигнал звукового объекта, размер N на Nsamples
E Ковариационная матрица объекта, размер N на N, аппроксимация ESS*
X Микшированные с понижением аудиосигналы, размер Ndmx на Nsamples, определенны как X=DS
EDMX Ковариационная матрица микшированных с понижением сигналов, размер Ndmx на Ndmx, определена как EDMX=DED*
U Матрица параметрической оценки источника, размер N times Ndmx, аппроксимация UED* (DED*)-1
R Матрица рендеризации (определяется на стороне декодера), размер Nout times N
Параметрически восстановленные сигналы объекта, размер N на Nsamples, аппроксимация S, определены как =UX
Y dry Параметрически восстановленные и рендеризированные сигналы объекта, размер Nout на Nsamples, определены как Ydry=RUX
Y wet Выводы декоррелятора, размер Nout на Nsamples
Y Окончательный вывод, размер Nout на Nsamples
(⋅)* Самосопряженный (эрмитов) оператор, который представляет сопряженное транспонирование (⋅)
F decorr (⋅) Функция декоррелятора

Без потери общности, чтобы улучшить удобочитаемость уравнений для всех введенных переменных, опущены индексы, обозначающие зависимость от времени и частоты.

Системы параметрического разделения объектов:

Общие схемы параметрического разделения нацелены на оценку нескольких звуковых источников из смеси сигналов (микшированных с понижением) с использованием вспомогательной параметрической информации. Стандартное решение этой задачи основано на применении алгоритмов оценки минимальной среднеквадратичной ошибки (MMSE). Технология SAOC является одним примером таких систем параметрического аудиокодирования.

Фиг. 1 изображает общий принцип архитектуры кодера/декодера SAOC.

Общая параметрическая обработка понижающего/повышающего микширования выполняется выборочно по времени/частоте и может быть описана как последовательность следующих этапов:

- В «Кодер» вводятся входные «звуковые объекты» S и «параметры микширования» D. «икшер» выполняет понижающее микширование «звуковых объектов» S в некоторое количество «микшированных с понижением сигналов» X с использованием «параметров микширования» D (например, коэффициентов понижающего микширования).

- «Блок оценки вспомогательной информации» извлекает вспомогательную информацию, описывающую характеристики входных «звуковых объектов» S (например, свойства ковариации).

- «Микшированные с понижением сигналы» X и вспомогательная информация передаются или сохраняются. Эти микшированные с понижением аудиосигналы могут быть дополнительно сжаты с использованием звуковых кодеров (таких как MPEG-1/2 уровня II или III, MPEG-2/4 усовершенствованный аудиокодер (AAC) MPEG-2/4, унифицированный кодер речи и звука (USAC) MPEG и т.д.). Вспомогательная информация также может быть представлена и эффективно кодирована (например, как кодированные отношения мощностей объектов и коэффициентов корреляции объектов).

«Декодер» восстанавливает первоначальные «звуковые объекты» из декодированных «микшированных с понижением сигналов» с использованием переданной вспомогательной информации (эта информация обеспечивает параметры объектов). «Процессор вспомогательной информации» выполняет оценку коэффициентов разбиения, которые следует применить к «микшированным с понижением сигналам» в «параметрическом разделителе объектов», чтобы получить параметрическую реконструкцию объекта S. Восстановленные «звуковые объекты» рендеризируются как (многоканальная) целевая сцена, представленная выходными каналами Y, посредством применения «параметров рендеризации» R.

Тот же самый общий принцип и последовательные этапы применяются в обработке SAOC 3D, которая включает в себя дополнительную ветвь декорреляции.

Фиг. 2 обеспечивает обзор концепции параметрического понижающего/повышающего микширования с интегрированной ветвью декорреляции.

С использованием примера методики SAOC 3D, части методики MPEG-H 3D Audio, главные этапы обработки такой системы параметрического разделения могут быть кратко описаны следующим образом:

Декодер SAOC 3D производит модифицированный рендеризированный вывод Y как смесь параметрически восстановленного и рендеризированного сигнала («сухого», необработанного сигнала) Ydry и его декоррелированной версии («влажного», обработанного сигнала) Ywet.

Для надлежащего описания изобретения этапы обработки могут быть дифференцированы, как проиллюстрировано на фиг. 3:

- Разбиение, которое параметрически восстанавливает входные звуковые объекты с использованием матрицы U,

- Рендеризация с использованием информации рендеризации (матрица R),

- Декорреляция,

- Постмикширование с использованием матрицы P, вычисленной на основании информации, содержащейся в битовом потоке.

Параметрическое разделение объектов получается из микшированного с понижением сигнала X с использованием матрицы U разбиения на основании дополнительной вспомогательной информации: =UX.

Информация R рендеризации используется для получения необработанного сигнала как: Ydry=R=RUX.

Окончательный выходной сигнал Y вычисляется из сигналов Ydry и Ywet как.

Матрица P микширования вычисляется, например, на основании информации рендеризации, информации корреляции, информации энергии, информации ковариации и т.д.

В изобретении матрица постмикширования будет применяться к кодированному аудиосигналу для получения декодированного аудиосигнала.

Далее будет описана общая операция параметрического разделения объектов с использованием MMSE.

Матрица U разбиения получается на основании информации, выведенной из переменных, содержащихся в битовом потоке (например, матрицы D понижающего микширования и информации E ковариации), с использованием алгоритма оценки минимальной среднеквадратичной ошибки (MMSE): U=ED*J.

Матрица J с размером Ndmx на Ndmx представляет приближение псевдоинверсии ковариационной матрицы EDMX =DED* понижающего микширования как: JEDMX-1.

Вычисление матрицы J выводится в соответствии с: J=V Λinv V*,

где матрицы V и Λ определены с использованием сингулярного разложения (SVD) матрицы EDMX как: EDMX=V Λ V*.

Следует отметить, что подобные результаты могут быть получены с использованием разных способов разложения, таких как: разложение по собственным значениям, разложение Шура и т.д.

Операция (⋅)inv регуляризированной инверсии, используемая для диагональной сингулярной матрицы Λ, может быть определена, например, как это сделано в SAOC 3D, с использованием отсечения сингулярных значений относительно наибольшего сингулярного значения:

В другом варианте осуществления используется следующая формула:

Скаляр относительной регуляризации определяется с использованием абсолютной пороговой величины Treg и максимального значения Λ как: , например, при Treg=10-2.

В зависимости от определения сингулярных значений λi,i могут быть ограничены только положительными значениями (если λi,i<0, то λi,i=abs(λi,i), и sign(λi,i) умножается на соответствующий левый или правый сингулярный вектор), или отрицательные значения могут быть разрешены.

Во втором случае с отрицательными значениями λi,i скаляр относительной регуляризации вычисляется как: .

Для простоты далее будет использоваться второе определение .

Подобные результаты могут быть получены с использованием усечения сингулярных значений относительно абсолютного значения или других способов регуляризации, используемых для инверсии матриц.

Инверсия очень малых сингулярных значений может привести к очень высоким коэффициентам разбиения и, следовательно, к высоким усилениям соответствующих микшированных с понижением каналов. В таком случае каналы с очень малыми энергетическими уровнями могут быть усилены с использованием высоких коэффициентов усиления, и это может привести к слышимым артефактам. Чтобы сократить этот нежелательный эффект, сингулярные значения, которые меньше относительной пороговой величины , отсекаются до нуля.

Теперь будут пояснены обнаруженные недостатки в методике параметрического разделения объектов из уровня техники.

Описанные способы параметрического разделения объектов из уровня техники определяют использование регуляризированной инверсии ковариационной матрицы понижающего микширования, чтобы избежать артефактов разделения. Однако для некоторых реальных сценариев микширования на выходе системы были идентифицированы вредные артефакты, вызванные слишком агрессивной регуляризацией.

Далее построен и проанализирован пример такого сценария.

Входные звуковые объекты (S) в количество N=5 кодируются с использованием описанной методики (более точно, способа обработки SAOC 3D, части MPEG-H 3D Audio) как микшированные с понижением каналы (X) в количестве Ndmx=3.

Входные звуковые объекты примера могут состоять из:

- одной группы из двух коррелированных звуковых объектов, содержащих сигналы из музыкального сопровождения (левый и правый каналы стереопары),

- одной группы из одного независимого звукового объекта, содержащего речевой сигнал, и

- одной группы из двух коррелированных звуковых объектов, содержащих запись фортепьяно (левый и правый каналы стереопары).

Входные сигналы подвергаются понижающему микшированию на три группы транспортных каналов:

- группу G1 с одним (M1=1) микшированным с понижением каналом, содержащую первую группу объектов,

- группу G2 с одним (M2=1) микшированным с понижением каналом, содержащую вторую группу объектов, и

- группу G3 с одним (M3=1) микшированным с понижением каналом, содержащую третью группу объектов,

причем Ndmx=M1+M2+M3.

Матрицы Dk понижающего микширования, соответствующие каждой группе Gk, k=1, 2, 3, строятся с использованием унарных коэффициентов микширования, и полная матрица D понижающего микширования задана как:

Можно отметить отсутствие перекрестного микширования между группой из первых двух сигналов объектов, третьим сигналом объекта и группой из последних двух сигналов объектов. Также следует отметить, что третий сигнал объекта, содержащий речь, только один микшируется как один микшированный с понижением канал. Таким образом, ожидается хорошая реконструкция этого объекта, и, следовательно, также хорошая рендеризация. Спектрограммы входных сигналов и полученного микшированного с понижением сигнала проиллюстрированы на фиг. 4.

Возможное основное кодирование микшированного с понижением сигнала, используемое в реальной системе, здесь опущено для лучшего обозначения в общих чертах нежелательного эффекта. На стороне декодера параметрическое декодирование SAOC 3D используется для восстановления и рендеризации сигналов звуковых объектов как компоновки с 3 каналами (Nout=3): левый (L), центральный (C) и правый (R) каналы.

Простое ремикширование входных звуковых объектов примера используется следующим образом:

- первые два звуковых объекта (музыкальное сопровождение) заглушаются (т.е., рендеризируются с коэффициентом усиления 0),

- третий входной объект (речь) рендеризируется в центральном канале, и

- объект 4 рендеризируется в левом канале, и объект 5 - в правом канале.

В соответствии с этим используемая матрица рендеризации задается как:

где .

Опорный выходной сигнал может быть вычислен посредством применения заданной матрицы рендеризации непосредственно к входным сигналам: Yref=RS.

Спектрограммы опорного выходного сигнала и выходных сигналов декодирования и рендеризации SAOC 3D и визуализации проиллюстрированы двумя столбцами на фиг. 5.

На основании показанных спектрограмм выхода декодера SAOC 3D могут быть отмечены следующие наблюдения:

- Центральный канал, содержащий только речевой сигнал, сильно поврежден по сравнению с опорным сигналом. Могут быть замечены большие спектральные провалы. Эти спектральные провалы (являющийся частотно-временными областями с недостающей энергией) приводят к серьезным слышимым артефактам.

- Малые спектральные провалы присутствуют также в левом и правом каналах, особенно в низкочастотных областях, в которых сконцентрирована наибольшая часть энергии сигнала. Эти спектральные провалы также приводят к слышимым артефактам.

- В микшированных с понижением каналах нет перекрестного микширования групп объектов, т.е., объекты, микшированные в одном микшированном с понижением канале, не присутствуют ни в каком другом микшированном с понижением канале. Второй микшированный с понижением канал содержит только один объект (речь); таким образом, спектральные провалы на выходе системы могут быть формированы только потому, что он обработан вместе с другими микшированными с понижением каналами.

На основании упомянутых наблюдений можно прийти к заключению, что:

- Система SAOC 3D не является «сквозной» системой, т.е. если только один входной сигнал микшируется как один микшированный с понижением канал, качество звука этого входного сигнала должно сохраниться при декодировании и рендеризации.

- Система SAOC 3D может вносить слышимые артефакты вследствие обработки многоканальных микшированных с понижением сигналов. Выходное качество объектов, содержащихся в одной группе микшированных с понижением каналов, зависит от обработки остальных микшированных с понижением каналов.

Спектральные провалы, особенно в центральном канале, указывают, что некоторая полезная информация, содержащаяся в микшированных с понижением каналах, отбрасывается посредством обработки. Эта потеря информации может быть отслежена обратно до этапа параметрического разделения объектов, более точно до этапа регуляризации инверсии ковариационной матрицы понижающего микширования.

По определению матрица понижающего микширования в примере имеет блочно-диагональную структуру:

Кроме того, вследствие заданного отношения между входными объектами (например, сигнализация параметрических корреляций) также ковариационная матрица входного сигнала объекта, доступная в декодере, имеет блочно-диагональную структуру:

Как следствие ковариационная матрица понижающего микширования может быть представлена в блочно-диагональной форме:

В этом случае матрица EDMX уже является блочно-диагональной, но для общего случая ее блочно-диагональная форма может быть получена после перестановки строк/столбцов с использованием оператора перестановки : .

Оператор перестановки определен как матрица, полученная посредством перестановки строк единичной матрицы. Если симметричная матрица A может быть представлена в блочно-диагональной форме посредством перестановки строк и столбцов, оператор перестановки может использоваться, чтобы выразить полученную в результате матрицу Ā как: Ā=Φ AΦ*.

Если является оператором перестановки, тогда поддерживаются следующие свойства:

- во-первых, если V является унарной матрицей, тогда T=ΦV также является унитарной матрицей, и

- во-вторых, Φ Φ*=Φ* Φ=I, где I является единичной матрицей.

Как следствие операторы перестановки являются прозрачными для алгоритмов сингулярного разложения. Это означает, что первоначальная матрица A и полученная посредством перестановки матрица Ā имеют общие сингулярные значения и полученные посредством перестановки сингулярные векторы:

Вследствие блочно-диагонального представления сингулярные значения матрицы EDMX могут быть вычислены посредством применения сингулярной декомпозиции к матрице EDMX или посредством применения сингулярной декомпозиции к блочно-диагональным подматрицам EDMXk и объединения результатов:

где,, и.

Так как сингулярные значения ковариационной матрицы понижающего микширования непосредственно относятся к энергетическим уровням микшированных с понижением каналов (которые описаны главной диагональю матрицы EDMX):

и объекты, содержащиеся в одном канале, не содержатся ни в каком другом микшированном с понижением канале, можно прийти к заключению, что каждое сингулярное значение соответствует одному микшированному с понижением каналу.

Таким образом, если один из микшированных с понижением каналов будет иметь намного меньший энергетический уровень, чем остальные микшированные с понижением каналы, сингулярное значение, соответствующее этому каналу, будет намного меньше, чем остальные сингулярные значения.

Этап отсечения, используемый при инверсии матрицы, содержащей сингулярные значения матрицы EDMX:

или

может привести к отсечению сингулярных значений, соответствующих микшированному с понижением каналу с малым энергетическим уровнем (относительно микшированного с понижением канала с самой высокой энергией). Вследствие этого информация, присутствующая в этом микшированном с понижением канале с малой относительной энергией, отбрасывается, и формируются спектральные провалы, наблюдаемые в фигурах спектрограммы и на аудиовыходе.

Для лучшего понимания следует учесть то, что понижающее микширование входных звуковых объектов происходит для каждого отсчета и для каждого диапазона частот отдельно. Особенно разделение на разные полосы помогает понять, почему в спектрограммах выходных сигналов на разных частотах могут находиться провалы.

Идентифицированная проблема может быть сведена к тому, что относительная пороговая величина регуляризации вычисляется для сингулярных значений без учета того, что матрица, которая будет инвертирована, является блочно-диагональной: .

Каждая блочно-диагональная матрица соответствует одной независимой группе микшированных с понижением каналов. Отсечение реализуется относительно самого большого сингулярного значения, но это значение описывает только одну группу каналов. Таким образом, реконструкция объектов, содержащихся во всех независимых группах микшированных с понижением каналов, становится зависимой от группы, которая содержит это самое большое сингулярное значение.

Далее изобретение будет описано на основе описанного выше варианта осуществления в отношении уровня техники.

С учетом описанного выше примера три ковариационных матрицы могут быть связаны с тремя разными группами микшированных с понижением каналов Gk, 1≤k≤3. Звуковые объекты или входные звуковые объекты, содержащиеся в микшированных с понижением каналах каждой группы, не содержатся ни в какой другой группе. Кроме того, не сигнализировано никакое отношение (например, корреляция) между объектами, содержащимися в микшированных с понижением каналах из разных групп.

Чтобы решить выявленную проблему системы параметрической реконструкции, способ по изобретению предлагает применять этап регуляризации независимо для каждой группы. Это подразумевает, что вычисляются три различных пороговых величины для инверсии трех независимых ковариационных матриц понижающего микширования: , где 1≤k≤3. Следовательно, в изобретении в одном варианте осуществления такая пороговая величина вычисляется для каждой группы отдельно, а не как на текущем уровне техники - одна общая пороговая величина для соответствующих диапазонов частот и отсчетов.

Инверсия сингулярных значений получается соответствующим образом посредством применения регуляризации независимо для подматриц EDMXk, 1≤k≤3:

В другом варианте осуществления используется следующая формула:

С использованием предложенного способа по изобретению в идентичной в других отношениях системе SAOC 3D для примера, описанного в предыдущем разделе, улучшается качество звука декодированного и рендеризированного выхода. Полученные в результате сигналы проиллюстрированы на фиг. 6.

При сравнении спектрограмм в правом столбце на фиг. 5 и фиг. 6 можно заметить, что способ по изобретению решает выявленные проблемы в существующей системе параметрического разделения предшествующего уровня техники. Способ по изобретению гарантирует функциональность «сквозной» системы, и самое главное, удаляются спектральные провалы.

Описанное решение для обработки трех независимых групп микшированных с понижением каналов может быть легко обобщено для любого количества групп.

Способ по изобретению предлагает модифицировать методику параметрического разделения объектов с использованием информации группирования при инверсии ковариационной матрицы микшированного с понижением сигнала. Это приводит к существенному улучшению качества аудиовывода.

Группирование может быть получено, например, из информации микширования и/или корреляции, уже доступной в декодере без дополнительной сигнализации.

Более точно, одна группа определена в одном варианте осуществления посредством наименьшего набора микшированных с понижением сигналов со следующими двумя свойствами в этом примере:

- Во-первых, входные звуковые объекты, содержащиеся в этих микшированных с понижением каналах, не содержатся ни в каком другом микшированном с понижением канале.

- Во-вторых, все входные сигналы, содержащиеся в микшированных с понижением каналах одной группы, не соотносятся (например, в кодированном аудиосигнале не сигнализирована никакая взаимная корреляция) с любыми другими входными сигналами, содержащимся в микшированных с понижением каналах любой другой группы. Такая взаимная корреляция подразумевает объединенную обработку соответствующих звуковых объектов во время декодирования.

На основании введенного определения группы могут быть определены K (1≤K≤Ndmx) групп: Gk (1≤k≤K), и ковариационная матрица EDMX понижающего микширования может быть выражена с использованием блочно-диагональной формы посредством применения оператора перестановки :

Подматрицы EDMXk построены посредством выбора элементов ковариационной матрицы понижающего микширования, соответствующей независимым группам Gk. Для каждой группы Gk матрица EDMXk с размером Mk на Mk выражена с использованием сингулярной декомпозиции как: EDMXk=V k Λ k V k*,

где и .

Матрица EDMXk псевдоинверсии вычисляется как (EDMXk)-1=V k Λinv k V k*, где матрица Λinv k регуляризированной инверсии задана в одном варианте осуществления как:

и в другом варианте осуществления как:

Скаляр относительной регуляризации определен с использованием абсолютной пороговой величины Treg и максимального значения Λk как: , где Treg=10-2, например.

Инверсия полученной посредством перестановки ковариационной матрицы понижающего микширования получена как:

и инверсия ковариационной матрицы понижающего микширования вычисляется посредством применения обратной операции перестановки .

Кроме того, способ по изобретению предлагает в одном варианте осуществления определять группы полностью на основании информации, содержащейся в битовом потоке. Например, эта информация может быть задана посредством информации понижающего микширования и информации корреляции.

Более точно одна группа Gk определяется посредством наименьшего набора микшированных с понижением каналов со следующими свойствами:

- Входные звуковые объекты, содержащиеся в микшированных с понижением каналах группы Gk, не содержатся ни в каком другом микшированном с понижением канале. Входной звуковой объект не содержится в микшированном с понижением канале, например, если соответствующий коэффициент понижающего микширования задан посредством наименьшего индекса квантования, или если он равен нулю.

- Все входные сигналы i, содержащиеся в микшированных с понижением каналах группы Gk, не соотносятся ни с каким входным сигналом j, содержащимся в каком-либо микшированном с понижением канале какой-либо другой группы. Например, (сравните, например, с WO 2011/039195 A1) переменная битового потока bsRelatedTo[i][j] может использоваться, чтобы сигнализировать, соотносятся ли два объекта (bsRelatedTo[i][j] == 1), или они не соотносятся (bsRelatedTo[i][j] == 0). Также могут использоваться разные способы сигнализации двух соотносящихся объектов, например, на основании информации корреляции или ковариации.

Группы могут быть определены один раз на кадр или один раз на набор параметров для всех полос обработки, или один раз на кадр или один раз на набор параметров для каждой полосы обработки.

Способ по изобретению также позволяет в одном варианте осуществления значительно сокращать вычислительную сложность системы параметрического разделения (например, декодера SAOC 3D) с использованием информации группирования в большинстве дорогих вычислительных компонентах параметрической обработки.

Таким образом, способ по изобретению предлагает удалить вычисления, которые не вносят вклад в качество звука окончательного результата. Эти вычисления могут быть выбраны на основании информации группирования.

Более точно, способ по изобретению предлагает вычислять все параметрические этапы обработки независимо для каждой предварительно заданной группы и в конце объединять результаты.

С использованием примера обработки SAOC 3D, часть MPEG-H 3D Audio сложные, в вычислительном отношении операции заданы как:

- вычисление ковариационной матрицы E с размером N на N с элементами: ,

- вычисление ковариационной матрицы Δ микшированного с понижением сигнала с размером Ndmx на Ndmx: Δ=DED*,

- вычисление сингулярного разложения матрицы Δ=DED*: Δ=V Λ V*,

- вычисление матрицы J регуляризированной инверсии, аппроксимирующей : ,

- вычисление матрицы U параметрического разбиения с размером N на Ndmx: U=ED*J,

- умножение матрицы R рендеризации с размером Nout на N на матрицу U разбиения с размером N на Ndmx: RU,

- вычисление ковариационной матрицы C с размером Nout на Nout: C=RER*,

- вычисление ковариации параметрически оцененного сигнала Eydry с размером Nout times Nout: .

Различиями на уровне объектов (OLD) называется относительная энергия одного объекта к объекту с наибольшей энергией в течение некоторого времени и для некоторого диапазона частот, и перекрестная когерентность между объектами (IOC) описывает величину подобия или взаимную корреляцию для двух объектов в некоторое время и в некотором диапазоне частот.

Способ по изобретению предлагает сократить вычислительную сложность посредством независимого вычисления всех этапов параметрической обработки для всех предварительно определенных K групп Gk, 1≤k≤K, и объединения результатов в конце параметрической обработки.

Одна группа Gk содержит Mk микшированных с понижением каналов и Nk входных звуковых объектов таким образом, что: и .

Для каждой группы Gk матрица понижающего микширования группы определена как Dk посредством выбора элементов матрицы D понижающего микширования, соответствующих микшированным с понижением каналам и входным звуковым объектам, содержащимся в группе Gk.

Аналогичным образом, матрица Rk рендеризации группы получается из матрицы R рендеризации посредством выбора строк, соответствующих входным звуковым объектам, содержащимся в группе Gk.

Аналогичным образом, вектор OLDk группы и матрица IOCk группы получаются из вектора OLD и матрицы IOC посредством выбора элементов, соответствующих входным звуковым объектам, содержащимся в группе Gk.

Для каждой группы Gk описанные этапы обработки заменяются на менее сложные вычислительном отношении этапы следующим образом:

- вычисление ковариационной матрицы Ek группы с размером Nk на Nk с элементами:

- вычисление ковариационной матрицы Δk понижающего микширования группы с размером Mk на Mk: Δk=DkEkDk*,

- вычисление сингулярного разложения ковариационной матрицы понижающего микширования группы Δk=DkEkDk*: Δk=V k Λ k V k*,

- вычисление матрицы Jk регуляризированной инверсии группы, аппроксимирующей : ,

- вычисление матрицы Uk параметрического разбиения группы с размером Nk на Mk: Uk=EkDk*Jk,

- умножение матрицы Rk рендеризации группы с размером NUpmix на Nk на матрицу Uk разбиения с размером Nk на Mk: RkUk,

- вычисление ковариационной матрицы Ck группы с размером Nout на Nout: Ck=RkEkRk*,

- вычисление ковариации группы параметрически оцененного сигнала (Eydry)k с размером Nout на Nout: .

И результаты этапов индивидуальной обработки групп в конце объединяются:

- матрица RU повышающего микширования с размером Nout на Ndmx получается посредством слияния матриц RkUk групп: ,

- ковариационная матрица C с размером Nout на Nout получается посредством суммирования матриц Ck групп: ,

- ковариация параметрически оцененного сигнала Eydry с размером Nout на Nout получается посредством суммирования матриц (Eydry)k групп:

Для краткого описания этапов обработки в соответствии со структурой процессора понижающего микширования, проиллюстрированного на фиг. 3, опуская этап декорреляции, существующая параметрическая обработка кадров предшествующего уровня техники может быть изображена на фиг. 7.

С использованием предложенного способа по изобретению сложность вычисления сокращается, используя обнаружение групп, как проиллюстрировано на фиг. 8.

Пример реализации функции обнаружения групп, называемой: , дан на фиг. 9 с использованием кода на языке ANSI C и статической функции ʺgetSaocCoreGroups()ʺ.

Предложенный способ по изобретению оказывается значительно более эффективным в вычислительном отношении, чем выполнение операций без группирования. Он также позволяет лучше распределять память и использование, поддерживает параллелизацию вычислений, сокращает накопление числовых ошибок и т.д.

Предложенный способ по изобретению и предложенное устройство по изобретению решают существующую проблему систем параметрического разделения объектов текущего уровня техники и предлагают значительно более высокое качество звука на выходе.

Предложенный способ по изобретению описывает способ обнаружения групп, который полностью реализован на основании существующей информации битового потока.

Предложенное изобретательское решение для группирования приводит к значительному сокращению вычислительной сложности. В целом сингулярное разложение в вычислительном отношении является затратным, и его сложность растет экспоненциально с размером матрицы, которая должна быть инвертирована: .

Для большого количества микшированных с понижением каналов вычисление K операций сингулярной декомпозиции для матрицы меньшего размера в вычислительном отношении намного более эффективно: .

С использованием тех же соображений все этапы параметрической обработки в декодере могут быть эффективно реализованы посредством вычисления всех умножений матриц, описанных в системе, только для независимых групп и объединения результатов.

Оценка сокращения сложности для разного количества входных звуковых объектов, т.е., входных звуковых объектов, микшированных с понижением каналов и фиксированного количества из 24 выходных каналов дана в следующей таблице:

Количество входных звуковых объектов 8 16 32 60 96 128 256
Количество микшированных с понижением каналов, Ndmx 4 8 16 24 24 32 64
Количество групп, K 2 4 4 6 6 8 8
Параметрическая обработка SAOC 3D [миллионов операций в секунду] 7,5 28 56 464 1000 2022 12000
Параметрическая обработка способа по изобретению [миллионов операций в секунду] 3 3 7,5 10 20 20 81
Сокращение сложности [%] 60,00 89,29 86,61 97,84 98,00 99,01 99,33

Изобретение представляет следующие дополнительные преимущества:

- Для ситуаций, когда может быть создана только одна группа, вывод побитно идентичен системам текущего уровня техники.

- Группирование сохраняет функциональность «сквозной» системы. Это подразумевает, что если только один входной звуковой объект микшируется как один микшированный с понижением канал, декодер способен отлично восстановить его.

Изобретение приводит к следующим предложенным иллюстративным модификациям для формулировки стандарта.

Добавить в ʺ9.5.4.2.4 Операция регуляризированной инверсииʺ:

Матрица J регуляризированной инверсии, аппроксимирующая , вычисляется как.

Матрицы V и Λ определяются как сингулярное разложение матрицы Δ как: Δ=V Λ V*.

Регуляризированная инверсия Λinv диагональной сингулярной матрицы Λ вычисляется в соответствии с 9.5.4.2.5.

В случае, когда матрица Δ используется при вычислении матрицы U параметрического разбиения, описанные операции применяются для всех подматриц Δk. Подматрица Δk получается посредством выбора элементов Δ(m, n), соответствующих микшированным с понижением каналам m и n, назначенным в группу k.

Группа k определяется посредством наименьшего набора микшированных с понижением каналов со следующими свойствами:

- входные сигналы, содержащиеся в микшированных с понижением каналах группы k, не содержатся ни в каком другом микшированном с понижением канале. Входной сигнал не содержится в микшированном с понижением канале, если соответствующий коэффициент понижающего микширования задан посредством наименьшего индекса квантования (23003-2:2010 ISO/IEC, Таблица 49).

- Все входные сигналы i, содержащиеся в микшированных с понижением каналах группы k, не соотносятся ни с каким входным сигналом, содержащимся в каком-либо микшированном с понижением канале какой-либо другой группы (т.е., bsRelatedTo[i][j] == 0).

Результаты независимых операций регуляризированной инверсии объединяются для получения матрицы J.

Изобретение также приводит к следующим предложенным иллюстративным модификациям для формулировки стандарта.

9.5.4.2.5 Операция регуляризированной инверсии

Матрица регуляризированной инверсии, аппроксимирующая , вычисляется как:

.

Матрицы и определены как сингулярное разложение матрицы как:

.

Регуляризированная инверсия диагональной сингулярной матрицы вычисляется в соответствии с 9.5.4.2.6.

В случае, когда матрица используется при вычислении матрицы параметрического разбиения, описанные операции применяются для всех подматриц . Подматрица с размером , с элементами получается посредством выбора элементов , соответствующих микшированным с понижением каналам и , назначенным в группу (т.е. и ).

Группа с размером определяется посредством наименьшего набора микшированных с понижением каналов со следующими свойствами:

- входные сигналы, содержащиеся в микшированных с понижением каналах группы , не содержатся ни в каком другом микшированном с понижением канале. Входной сигнал не содержится в микшированном с понижением канале, если соответствующий коэффициент понижающего микширования задан посредством наименьшего индекса квантования (23003-2:2010 ISO/IEC, Таблица 49).

- Все входные сигналы , содержащиеся в микшированных с понижением каналах группы , не соотносятся ни с каким входным сигналом , содержащимся в каком-либо микшированном с понижением канале какой-либо другой группы (т.е., bsRelatedTo[i][j] == 0).

Результаты независимых операций регуляризированной инверсии объединяются для получения матрицы как:

9.5.4.2.6 Регуляризация сингулярных значений

Операция регуляризированной инверсии, используемая для диагональной сингулярной матрицы, определена как:

Скаляр относительной регуляризации определен с использованием абсолютной пороговой величины и максимального значения Λ следующим образом:

, где .

На некоторых из следующих фигур индивидуальные сигналы показаны как получаемые из различных этапов обработки. Это сделано для лучшего понимания изобретения и является одной возможностью реализации изобретения, т.е., извлечение индивидуальных сигналов и выполнение этапов обработки этих сигналов или обработанных сигналов.

Другой вариант осуществления вычисляет все необходимые матрицы и применяет их как последний этап к кодированному аудиосигналу, чтобы получить декодированный аудиосигнал. Это включает в себя вычисление разных матриц и их соответствующих комбинаций.

Вариант осуществления объединяет оба метода.

Фиг. 10 схематично показывает устройство 10 для обработки множества (здесь в этом примере пяти) входных звуковых объектов 111, чтобы обеспечить представление входных звуковых объектов 111 посредством кодированного аудиосигнала 100.

Входные звуковые объекты 111 распределяются или микшируются с понижением как микшированные с понижением сигналы 101. В показанном варианте осуществления четыре из пяти входных звуковых объектов 111 назначены в два микшированных с понижением сигнала 101. Один входной звуковой объект 111 назначен в третий микшированный с понижением сигнал 101. Таким образом, пять входных звуковых объектов 111 представлены тремя микшированными с понижением сигналами 101.

Эти микшированные с понижением сигналы 101 затем (возможно, после некоторых не показанных этапов обработки) объединяются в кодированный аудиосигнал 100.

Такой кодированный аудиосигнал 100 подается на устройство 1 по изобретению, для которого один вариант осуществления показан на фиг. 11.

Из кодированного аудиосигнала 100 извлекаются три микшированных с понижением сигнала 101 (сравните с фиг. 10).

Микшированные с понижением сигналы 101 группируются (в показанном примере) в две группы 102 микшированных с понижением сигналов.

Поскольку каждый микшированный с понижением сигнал 101 связан с заданным количеством входных звуковых объектов, каждая группа 102 микшированных с понижением сигналов относится к заданному количеству входных звуковых объектов (соответствующее выражение - входной объект). Следовательно, каждая группа 102 микшированных с понижением сигналов связана с набором входных звуковых объектов из множества входных звуковых объектов, которые кодированы посредством кодированного аудиосигнала 100 (сравните с фиг. 10).

Группирование происходит в показанном варианте осуществления со следующими ограничениями:

1. Каждый входной звуковой объект 111 принадлежит только одному набору входных звуковых объектов и, таким образом, одной группе 102 микшированных с понижением сигналов.

2. Каждый входной звуковой объект 111 не имеет отношения, сигнализированного в кодированном аудиосигнале, к входному звуковому объекту 111, принадлежащему другому набору, связанному с другой группой микшированных с понижением сигналов. Это означает, что кодированный аудиосигнал не имеет такой информации, которая вследствие стандарта привела бы к объединенному вычислению соответствующих входных звуковых объектов.

3. Количество микшированных с понижением сигналов 101 в соответствующих группах 102 минимизировано.

Группы (здесь: две группы) 102 микшированных с понижением сигналов затем обрабатываются индивидуально для получения пяти выходных аудиосигналов 103, соответствующих пяти входным звуковым объектам 111.

Одна группа 102 микшированных с понижением сигналов, которая связана с двумя микшированными с понижением сигналами 101, покрывающими две пары входных звуковых объектов 111 (сравните с фиг. 10), позволяет получить четыре выходных аудиосигнала 103.

Другая группа 102 микшированных с понижением сигналов приводит к одному выходному сигналу 103 как единственному микшированному с понижением сигналу 101, или эта группа 102 микшированных с понижением сигналов (или более точно: группа из одного микшированного с понижением сигнала) относится к одному входному звуковому объекту 111 (сравните с фиг. 10).

Пять выходных аудиосигналов 103 объединяются в один декодированный аудиосигнал 110 в качестве выхода устройства 1.

В варианте осуществления на фиг. 11 все этапы обработки выполняются индивидуально для групп 102 микшированных с понижением сигналов.

Вариант осуществления устройства 1, показанный на фиг. 12, может принимать такой же кодированный аудиосигнал 100, как устройство 1, показанное на фиг. 11, и полученный устройством 10, как показано на фиг. 10.

Из кодированного аудиосигнала 100 получаются три микшированных с понижением сигнала 101 (для трех транспортных каналов) и группируются в две группы 102 микшированных с понижением сигналов. Эти группы 102 обрабатываются индивидуально для получения пяти обработанных сигналов 104, соответствующих пяти входным звуковым объектам, показанным на фиг. 10.

На следующих этапах из пяти совместно обработанных сигналов 104 получаются восемь выходных аудиосигналов 103, например, рендеризируются для использования для восьми выходных каналов. Выходные аудиосигналы 103 объединяются в декодированный аудиосигнал 110, который является выходом из устройства 1. В этом варианте осуществления, выполняется как индивидуальная, так и совместная обработка групп 102 микшированных с понижением сигналов.

Фиг. 13 показывает некоторые этапы варианта осуществления способа по изобретению, в котором декодируется кодированный аудиосигнал.

На этапе 200 микшированные с понижением сигналы извлекаются из кодированного аудиосигнала. На следующем этапе 201 микшированные с понижением сигналы распределяются в группы микшированных с понижением сигналов.

На этапе 202 каждая группа микшированных с понижением сигналов индивидуально обрабатывается, чтобы обеспечить результаты индивидуальных групп. Индивидуальная обработка групп содержит по меньшей мере разбиение для получения представлений аудиосигналов, которые были объединены через понижающее микширование входных звуковых объектов в процессе кодирования. В одном варианте осуществления (не показанном здесь) после индивидуальной обработки следует совместная обработка.

На этапе 203 эти результаты групп объединяются в декодированный аудиосигнал для вывода.

Фиг. 14 еще раз показывает вариант осуществления устройства 1, в котором все этапы обработки после группирования микшированных с понижением сигналов 101 из кодированного аудиосигнала 100 в группы 102 микшированных с понижением сигналов выполняются индивидуально. Устройство 1, которое принимает кодированный аудиосигнал 100 с микшированными с понижением сигналами 101, содержит блок 2 группирования, который группирует микшированные с понижением сигналы 101, чтобы обеспечить группы 102 микшированных с понижением сигналов. Группы 102 микшированных с понижением сигналов обрабатываются процессором 3, выполняющим все необходимые этапы индивидуально для каждой группы 102 микшированных с понижением сигналов. Индивидуальными результатами обработки групп 102 микшированных с понижением сигналов являются выходные аудиосигналы 103, которые объединяются блоком 4 объединения, чтобы получить декодированный аудиосигнал 110 для вывода посредством устройства 1.

Устройство 1, показанное на фиг. 15, отличается от варианта осуществления, показанного на фиг. 14, после группирования микшированных с понижением сигналов 101. В примере не все этапы обработки групп 102 микшированных с понижением сигналов выполняются индивидуально, а некоторые этапы выполняются совместно, и тем самым учитывается более чем одна группа 102 микшированных с понижением сигналов.

Вследствие этого процессор 3 в этом варианте осуществления выполнен с возможностью выполнения только некоторых или по меньшей мере одного этапа обработки индивидуально. Результатом обработки являются обработанные сигналы 104, которые обрабатываются совместно постпроцессором 5. Полученные выходные аудиосигналы 103, наконец, объединяются блоком 4 объединения, что приводит к декодированному аудиосигналу 110.

На фиг. 16 схематично показан процессор 3, принимающий группы 102 микшированных с понижением сигналов и обеспечивающий выходные аудиосигналы 103.

Процессор 3 содержит блок 300 разбиения, выполненный с возможностью разбиения микшированных с понижением сигналов 101 из соответствующих групп 102 микшированных с понижением сигналов. Блок 300 разбиения, таким образом, восстанавливает индивидуальные входные звуковые объекты, которые были объединены кодером в соответствующие микшированные с понижением сигналы 101.

Восстановленные или разделенные входные звуковые объекты подаются на блок 302 рендеризации. Блок 302 рендеризации выполнен с возможностью рендеризации разбитых микшированных с понижением сигналов соответствующих групп для сценария вывода упомянутого декодированного аудиосигнала 110, чтобы обеспечить рендеризированные сигналы 112. Рендеризированные сигналы 112, таким образом, адаптированы к сценарию воспроизведения декодированного аудиосигнала. Рендеризация зависит, например, от количества динамиков, которые будут использоваться, от их размещения или от вида эффектов, которые должны быть получены посредством воспроизведения декодированного аудиосигнала.

Рендеризированные сигналы 112, Ydry, далее подаются на постмикшер 303, выполненный с возможностью выполнения по меньшей мере одного этапа декорреляции для упомянутых рендеризированных сигналов 112, и выполненный с возможностью объединения результатов Ywet выполненного этапа декорреляции с упомянутыми соответствующими рендеризированными сигналами 112, Ydry. Постмикшер 303, таким образом, выполняет этапы для декорреляции сигналов, которые были объединены в одном микшированном с понижением сигнале.

Полученные в результате выходные аудиосигналы 103, наконец, подаются на блок объединения, как показано выше.

Для выполнения этапов процессор 3 полагается на блок 301 вычисления, который является здесь отдельным от других блоков процессора 3, но который в альтернативном (не показанном) варианте осуществления представляет собой признак блока 300 группирования, блока 302 рендеризации и постмикшера 303, соответственно.

Уместно упомянуть, что необходимые матрицы, значения и т.д. вычисляются индивидуально для соответствующих групп 102 микшированных с понижением сигналов. Это подразумевает, что, например, вычисляемые матрицы меньше, чем матрицы, используемые на текущем уровне техники. Матрицы имеют размеры, зависящие от количества входных звуковых объектов соответствующего набора входных звуковых объектов, связанных с группами микшированных с понижением сигналов, и/или от количества микшированных с понижением сигналов, принадлежащих соответствующей группе микшированных с понижением сигналов.

На существующем уровне техники матрица, которая будет использоваться для разбиения, имеет размер [количество входных звуковых объектов или входных аудиосигналов] на [это же количество]. Изобретение позволяет вычислять меньшую матрицу с размером, зависящим от количества входных аудиосигналов, принадлежащих соответствующей группе микшированных с понижением сигналов.

На фиг. 17 разъясняется цель рендеризации.

Устройство 1 принимает кодированный аудиосигнал 100 и декодирует его, обеспечивая декодированный аудиосигнал 110.

Этот декодированный аудиосигнал 110 воспроизводится в заданном сценарии 400 вывода. Декодированный аудиосигнал 110 в этом примере должен быть выдан пятью динамиками 401: левым, правым, центральным левым окружающим и правым окружающим. Слушатель 402 находится в середине сценария 400 и направлен лицом к центральному динамику.

Блок рендеризации в устройстве 1 распределяет восстановленные аудиосигналы, которые должны быть переданы на отдельные динамики 401, и, таким образом, распределяет восстановленное представление первоначальных звуковых объектов как источники аудиосигналов в данном сценарии 400 вывода.

Рендеризация, таким образом, зависит от вида сценария 400 вывода и от индивидуальных вкусовых предпочтений слушателя 402.

Хотя некоторые аспекты были описаны в контексте устройства, понятно, что эти аспекты также представляют описание соответствующего способа, в котором блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все этапы способа могут быть исполнены посредством (или с использованием) аппаратного устройства, например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления один или более самых важных этапов способа могут быть исполнены таким устройством.

В зависимости от конкретных требований реализации варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении, или по меньшей мере частично в аппаратных средствах, или по меньшей мере частично в программном обеспечении. Реализация может быть выполнена с использованием цифрового запоминающего носителя, например, гибкого диска, DVD, Blu-Ray, CD, ПЗУ (ROM), ППЗУ (PROM), СППЗУ (EPROM), ЭСППЗУ (EEPROM) или флэш-памяти, имеющего сохраненные на нем электронно-читаемые управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ. Таким образом, цифровой запоминающий носитель может быть машиночитаемым.

Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий электронно-читаемые управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой таким образом, что выполняется один из способов, описанных в настоящем документе.

В целом варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, программный код выполнен с возможностью выполнения одного из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код программы, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в настоящем документе, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления способа по изобретению, таким образом, является компьютерной программой, имеющей программный код для выполнения одного из способов, описанных в настоящем документе, когда компьютерная программа работает на компьютере.

Дополнительный вариант осуществления способов по изобретению, таким образом, является носителем информации (или цифровым носителем, или машиночитаемым носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Носитель данных, цифровой запоминающий носитель или носитель с записанными данными обычно являются материальными и/или постоянными.

Дополнительный вариант осуществления способа по изобретению, таким образом, является потоком данных или последовательностью сигналов, представляющими компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов, например, могут быть выполнены с возможностью их передачи через соединение передачи данных, например, через Интернет или по радиоканалу.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью выполнения одного из способов, описанных в настоящем документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.

Дополнительный вариант осуществления в соответствии с изобретением содержит устройство или систему, выполненные с возможностью переноса (например, в электронном виде или оптически) компьютерной программы для выполнения одного из способов, описанных в настоящем документе, к приемнику. Приемник может, например, представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система могут, например, содержать файловый сервер для переноса компьютерной программы к приемнику.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторой или всей функциональности способов, описанных в настоящем документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в настоящем документе. В общем случае способы предпочтительно выполняются любым аппаратным устройством.

Устройство, описанное в настоящем документе, может быть реализовано с использованием аппаратного устройства, или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.

Способы, описанные в настоящем документе, могут быть выполнены с использованием аппаратного устройства, или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.

Список литературы

[BCC] C. Faller and F. Baumgarte, ʺBinaural Cue Coding - Part II: Schemes and applications,ʺ IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[ISS1] M. Parvaix and L. Girin: ʺInformed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embeddingʺ, IEEE ICASSP, 2010.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: ʺA watermarking-based method for informed source separation of audio signals with a single sensorʺ, IEEE Transactions on Audio, Speech and Language Processing, 2010.

[ISS3] A. Liutkus, J. Pinel, R. Badeau, L. Girin, G. Richard: ʺInformed source separation through spectrogram coding and data embeddingʺ, Signal Processing Journal, 2011.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: ʺInformed source separation: source coding meets source separationʺ, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[ISS5] S. Zhang and L. Girin: ʺAn Informed Source Separation System for Speech Signalsʺ, INTERSPEECH, 2011.

[ISS6] L. Girin and J. Pinel: ʺInformed Audio Source Separation from Compressed Linear Stereo Mixturesʺ, AES 42nd International Conference: Semantic Audio, 2011.

[JSC] C. Faller, ʺParametric Joint-Coding of Audio Sourcesʺ, 120th AES Convention, Paris, 2006.

[SAOC] ISO/IEC, ʺMPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),ʺ ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.

[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.

[SAOC3D] ISO/IEC, JTC1/SC29/WG11 N14747, Text of ISO/MPEG 23008-3/DIS 3D Audio, Sapporo, July 2014.

[SAOC3D2] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, ʺMPEG-H Audio - The new standard for universal spatial/3D audio coding,ʺ 137th AES Convention, Los Angeles, 2011.

1. Устройство (1) для обработки кодированного аудиосигнала (100), содержащего множество микшированных с понижением сигналов (101), связанных с множеством входных звуковых объектов (111) и параметрами (E) объектов, причем устройство содержит:

блок (2) группирования, выполненный с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) во множество групп (102) микшированных с понижением сигналов на основании информации в упомянутом кодированном аудиосигнале (100), причем каждая группа (102) микшированных с понижением сигналов связана с набором входных звуковых объектов (111) из упомянутого множества входных звуковых объектов (111),

процессор (3), выполненный с возможностью индивидуального выполнения по меньшей мере одного этапа обработки параметров (Ek) объектов каждого из набора входных звуковых объектов (111), чтобы обеспечить результаты (103, 104) группы, и

блок (4) объединения, выполненный с возможностью объединения упомянутых результатов (103, 104) групп, чтобы обеспечить декодированный аудиосигнал (110),

причем упомянутый блок (2) группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов таким образом, что каждый входной звуковой объект (111) из упомянутого множества входных звуковых объектов (111) принадлежит только одному набору входных звуковых объектов (111), и

причем упомянутый блок (2) группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов таким образом, что каждый входной звуковой объект (111) из каждого набора входных звуковых объектов либо лишен отношения, сигнализированного в кодированном аудиосигнале (100), с другими входными звуковыми объектами (111), либо имеет отношение, сигнализированное в кодированном аудиосигнале (100), только по меньшей мере с одним входным звуковым объектом (111), принадлежащим тому же набору входных звуковых объектов (111).

2. Устройство (1) по п. 1, в котором упомянутый блок (2) группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов, минимизируя количество микшированных с понижением сигналов (101) в каждой группе (102) микшированных с понижением сигналов.

3. Устройство (1) по п. 1, в котором упомянутый блок (2) группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов таким образом, что только один единственный микшированный с понижением сигнал (101) принадлежит одной группе (102) микшированных с понижением сигналов.

4. Устройство (1) по п. 1,

в котором упомянутый блок (2) группирования выполнен с возможностью группирования упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов посредством применения по меньшей мере следующих этапов:

обнаружения, назначен ли микшированный с понижением сигнал (101) в существующую группу (102) микшированных с понижением сигналов;

обнаружения, является ли по меньшей мере один входной звуковой объект (111) из множества входных звуковых объектов (111), связанный с микшированным с понижением сигналом (101), частью набора входных звуковых объектов (111), связанных с существующей группой (102) микшированных с понижением сигналов;

назначения микшированного с понижением сигнала (101) в новую группу (102) микшированных с понижением сигналов в случае, если микшированный с понижением сигнал (101) лишен назначения в существующую группу (102) микшированных с понижением сигналов, и в случае, если все входные звуковые объекты (111) из множества входных звуковых объектов, связанных с микшированным с понижением сигналом (101), лишены привязки к существующей группе (102) микшированных с понижением сигналов; и

объединения микшированного с понижением сигнала (101) с существующей группой (102) микшированных с понижением сигналов либо в случае, если микшированный с понижением сигнал (101) назначен в существующую группу (102) микшированных с понижением сигналов, либо в случае, если по меньшей мере один входной звуковой объект (111) из множества входных звуковых объектов, связанных с микшированным с понижением сигналом (101), связан с существующей группой (102) микшированных с понижением сигналов.

5. Устройство (1) по п. 1,

в котором упомянутый процессор (3) выполнен с возможностью индивидуального выполнения различных этапов обработки для параметров (Ek) объектов из каждого набора входных звуковых объектов (111), чтобы обеспечить индивидуальные матрицы в качестве результатов группы, и

в котором упомянутый блок (4) объединения выполнен с возможностью объединения упомянутых индивидуальных матриц.

6. Устройство (1) по п. 1,

в котором упомянутый процессор (3) выполнен с возможностью индивидуального выполнения по меньшей мере одного этапа обработки для параметров (Ek) объектов из каждого набора входных звуковых объектов (111), чтобы обеспечить индивидуальные матрицы,

причем упомянутое устройство (1) содержит постпроцессор (5), выполненный с возможностью совместной обработки параметров объектов, чтобы обеспечить по меньшей мере одну общую матрицу, и

причем упомянутый блок (4) объединения выполнен с возможностью объединения упомянутых индивидуальных матриц и упомянутой по меньшей мере одной общей матрицы.

7. Устройство (1) по п. 1,

в котором упомянутый процессор (3) содержит блок (301) вычисления, выполненный с возможностью вычисления индивидуально для каждой группы (102) микшированных с понижением сигналов матрицы с размерами, зависящими по меньшей мере от одного количества из количества входных звуковых объектов набора входных звуковых объектов, связанных с соответствующей группой (102) микшированных с понижением сигналов, и количества микшированных с понижением сигналов (101), принадлежащих соответствующей группе (102) микшированных с понижением сигналов.

8. Устройство (1) по п. 1,

в котором упомянутый процессор (3) выполнен с возможностью вычисления для каждой отдельной группы микшированных с понижением сигналов индивидуальной пороговой величины на основании максимального абсолютного значения среди абсолютных сингулярных значений в соответствующей группе (102) микшированных с понижением сигналов.

9. Устройство (1) по п. 1,

в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной матрицы (Dk) понижающего микширования для каждой группы (102) микшированных с понижением сигналов,

в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной ковариационной матрицы (Ek) группы для каждой группы (102) микшированных с понижением сигналов,

в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной ковариационной матрицы (Δk) понижающего микширования группы для каждой группы (102) микшированных с понижением сигналов на основании индивидуальной матрицы (Dk) понижающего микширования и индивидуальной ковариационной матрицы (Ek) группы, и

в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной матрицы (Jk) регуляризированной инверсии группы для каждой группы (102) микшированных с понижением сигналов.

10. Устройство (1) по п. 9,

в котором упомянутый блок (4) объединения выполнен с возможностью объединения индивидуальных матриц (Jk) регуляризированной инверсии группы, чтобы получить общую матрицу (J) регуляризированной инверсии группы.

11. Устройство (1) по п. 9,

в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной матрицы (Uk) параметрического разбиения группы для каждой группы (102) микшированных с понижением сигналов на основании индивидуальной матрицы (Dk) понижающего микширования, индивидуальной ковариационной матрицы (Ek) группы и индивидуальной матрицы (Jk) регуляризированной инверсии группы, и

в котором упомянутый блок (4) объединения выполнен с возможностью объединения индивидуальных матриц (Uk) параметрического разбиения группы, чтобы получить общую матрицу (U) параметрического разбиения группы.

12. Устройство (1) по п. 1,

в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной матрицы (Rk) рендеризации группы для каждой группы (102) микшированных с понижением сигналов.

13. Устройство (1) по п. 12,

в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной матрицы (RkUk) повышающего микширования для каждой группы (102) микшированных с понижением сигналов на основании индивидуальной матрицы (Rk) рендеризации группы и индивидуальной матрицы (Uk) параметрического разбиения группы, и

в котором упомянутый блок (4) объединения выполнен с возможностью объединения индивидуальных матриц (RkUk) повышающего микширования, чтобы получить общую матрицу (RU) повышающего микширования.

14. Устройство (1) по п. 12,

в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной ковариационной матрицы (Ck) группы для каждой группы (102) микшированных с понижением сигналов на основании индивидуальной матрицы (Rk) рендеризации группы и индивидуальной ковариационной матрицы (Ek) группы, и

в котором упомянутый блок (4) объединения выполнен с возможностью объединения индивидуальных ковариационных матриц (Ck) группы, чтобы получить общую ковариационную матрицу (C) группы.

15. Устройство (1) по п. 12,

в котором упомянутый процессор (3) выполнен с возможностью определения индивидуальной ковариационной матрицы группы параметрически оцененного сигнала (Eydry)k на основании индивидуальной матрицы (Rk) рендеризации группы, индивидуальной матрицы (Uk) параметрического разбиения группы, индивидуальной матрицы (Dk) понижающего микширования и индивидуальной ковариационной матрицы (Ek) группы, и

в котором упомянутый блок (4) объединения выполнен с возможностью объединения индивидуальных ковариационных матриц группы параметрически оцененного сигнала (Eydry)k, чтобы получить общий параметрически оцененный сигнал Eydry.

16. Устройство (1) по п. 1,

в котором упомянутый процессор (3) выполнен с возможностью определения матрицы (J) регуляризированной инверсии на основании сингулярного разложения ковариационной матрицы (EDMX) понижающего микширования.

17. Устройство (1) по п. 1,

в котором упомянутый процессор (3) выполнен с возможностью определения подматрицы (Δk) для определения матрицы (U) параметрического разбиения посредством выбора элементов (Δ (m, n)), соответствующих микшированным с понижением сигналам (m, n), назначенным в соответствующую группу (k) (102) микшированных с понижением сигналов.

18. Устройство (1) по п. 1,

в котором упомянутый блок (4) объединения выполнен с возможностью определения матрицы (P) постмикширования на основании индивидуально определенных матриц для каждой группы (102) микшированных с понижением сигналов и

в котором упомянутый блок (4) объединения выполнен с возможностью применения матрицы (P) постмикширования к множеству микшированных с понижением сигналов (101), чтобы получить декодированный аудиосигнал (110).

19. Способ обработки кодированного аудиосигнала (100), содержащего множество микшированных с понижением сигналов (101), связанных с множеством входных звуковых объектов (111) и параметрами (E) объектов,

причем упомянутый способ содержит этапы, на которых:

группируют упомянутое множество микшированных с понижением сигналов (101) во множество групп (102) микшированных с понижением сигналов на основании информации в упомянутом кодированном аудиосигнале (100), причем каждая группа (102) микшированных с понижением сигналов связана с набором входных звуковых объектов (111) из упомянутого множества входных звуковых объектов (111),

индивидуально выполняют по меньшей мере один этап обработки параметров (Ek) объектов каждого набора входных звуковых объектов (111), чтобы обеспечить результаты (103, 104) группы, и

объединяют упомянутые результаты (103, 104) групп, чтобы обеспечить декодированный аудиосигнал (110),

причем группирование упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов конфигурировано таким образом, что каждый входной звуковой объект (111) из упомянутого множества входных звуковых объектов (111) принадлежит только одному набору входных звуковых объектов (111), и

причем группирование упомянутого множества микшированных с понижением сигналов (101) в упомянутое множество групп (102) микшированных с понижением сигналов конфигурировано таким образом, что каждый входной звуковой объект (111) из каждого набора входных звуковых объектов либо лишен отношения, сигнализированного в кодированном аудиосигнале (100), с другими входными звуковыми объектами (111), либо имеет отношение, сигнализированное в кодированном аудиосигнале (100), по меньшей мере только с одним входным звуковым объектом (111), принадлежащим тому же набору входных звуковых объектов (111).

20. Физический запоминающий носитель, на котором сохранён программный код для выполнения способа по п. 19 при его выполнении на компьютере.



 

Похожие патенты:

Изобретение относится к средствам кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования аудио.

Настоящее изобретение относится к обработке аудиосигналов, в частности к способу воспроизведения многоканального аудиосигнала, включающего в себя звуковой сигнал с возвышением в окружении с горизонтальной схемой расположения, тем самым получая параметр рендеринга в соответствии с типом рендеринга и конфигурируя матрицу понижающего микширования.

Изобретение относится к средствам для обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале. Технический результат заключается в повышении эффективности усиления речевого компонента в многоканальном звуковом сигнале.

Изобретение относится к аудио кодированию и декодированию. Технический результат – обеспечение эффективного кодирования/декодирования метаданных объекта.

Изобретение относится к средствам для представления трехмерных аудиоданных. Технический результат заключается в повышении эффективности представления трехмерных аудиоданных.

Изобретение относится к области обработки аудио. Технический результат - уменьшение объема вычислений в процессе поиска и вычисление межканальной временной разности в процессе кодирования стерео.

Изобретение относится к средствам для формирования из представления НОА-сигналов в области коэффициентов смешанного представления упомянутых НОА-сигналов в пространственной области.

Изобретение относится к средствам для сжатия и распаковки представления на основе амбиофонии высшего порядка. Технический результат заключается в повышении эффективности сжатия.

Изобретение относится к средствам для аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен.

Изобретение относится к устройствам, способу и машиночитаемому носителю для воспроизведения звукового объекта. Технический результат заключается в оптимизации воспроизведения звукового объекта.

Изобретение относится к средствам кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования аудио.

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования.

Изобретение относится к средствам для линейного прогнозирующего кодирования и декодирования звуковых сигналов после перехода между кадрами, имеющими различные частоты дискретизации.

Изобретение относится к обработке звука, в частности, к обработке звука с перекрывающимися окнами для анализа или синтеза в цепочке обработки звукового сигнала. Технический результат – повышение качества обработки звукового сигнала.

Изобретение относится к средствам для генерации множества звуковых каналов. Технический результат заключается в повышении гибкости схемы расположения громкоговорителей.

Изобретение относится к средствам для кодирования и декодирования аудиосигнала. Технический результат заключается в создании усовершенствованной концепции кодирования/декодирования аудиоданных, позволяющей уменьшить скорость передачи дополнительной информации для схемы направленного декодирования.

Изобретение относится к средствам для кодирования и декодирования кодированного звукового сигнала. Технический результат заключается в повышении эффективности кодирования звукового сигнала.

Настоящее изобретение относится к обработке аудиосигналов, в частности к способу воспроизведения многоканального аудиосигнала, включающего в себя звуковой сигнал с возвышением в окружении с горизонтальной схемой расположения, тем самым получая параметр рендеринга в соответствии с типом рендеринга и конфигурируя матрицу понижающего микширования.

Изобретение относится к средствам для кодирования аудиосигнала. Технический результат заключается в повышении эффективности кодирования аудиоданных.

Изобретение относится к многоканальным аудиокодеру и аудиодекодеру для формирования кодированного представления многоканального аудиосигнала и двух выходных аудиосигналов на основании кодированного представления.

Изобретение относится к области обработки аудиосигналов. Технический результат заключается в повышении эффективности обработки аудиосигналов. Технический результат достигается за счет анализа входного аудиосигнала, при этом межканальные зависимости между входными каналами идентифицируются; выравнивания фазы входных каналов на основе идентифицированных межканальных зависимостей, при этом фазы входных каналов тем больше выровнены относительно друг друга, чем выше их межканальная зависимость; микширования с понижением выровненного входного аудиосигнала в выходной аудиосигнал, имеющий меньшее число выходных каналов, чем число входных каналов. 6 н. и 19 з.п. ф-лы, 10 ил.
Наверх