Способ и устройство для сжатия и распаковки представления на основе амбиофонии высшего порядка

Изобретение относится к средствам для сжатия и распаковки представления на основе амбиофонии высшего порядка. Технический результат заключается в повышении эффективности сжатия. Для текущего кадра оценивают набор доминирующих направлений и соответствующий набор данных индексов обнаруженных направленных сигналов. Отделяют от последовательностей HOA-коэффициентов упомянутого текущего кадра нефиксированное число направленных сигналов с соответствующими направлениями, содержащимися в упомянутом наборе оценок доминирующих направлений и с соответствующим задержанным набором данных индексов упомянутых направленных сигналов, при этом упомянутое нефиксированное число меньше упомянутого фиксированного числа. Назначают направленные сигналы и последовательности HOA-коэффициентов окружающего HOA-компонента каналам, число которых соответствует фиксированному числу, при этом для назначения используются задержанный набор данных индексов направленных сигналов и набор данных индексов сокращенного числа окружающих последовательностей HOA-коэффициентов. Перцепционно кодируют каналы связанного кадра таким образом, чтобы предоставлять кодированный сжатый кадр. 4 н. и 18 з.п. ф-лы, 5 ил.

 

Область техники

Изобретение относится к способу и к устройству для сжатия и распаковки представления на основе амбиофонии высшего порядка посредством обработки направленных и окружающих компонентов сигнала по-разному.

Уровень техники

Амбиофония высшего порядка (HOA) является одной из возможностей представления трехмерного звука из числа других технологий, таких как синтез волнового поля (WFS) или канальные подходы, к примеру 22.2. Тем не менее, в отличие от канальных способов, HOA-представление обеспечивает преимущество независимости от конкретной компоновки громкоговорителей. Тем не менее, эта гибкость обеспечивается за счет процесса декодирования, который требуется для воспроизведения HOA-представления на конкретной компоновке громкоговорителей. По сравнению с WFS-подходом, в котором число требуемых громкоговорителей обычно является очень большим, HOA также может быть подготовлена посредством рендеринга для компоновок, состоящих только из небольшого числа громкоговорителей. Дополнительное преимущество HOA состоит в том, что идентичное представление также может использоваться без модификации для бинаурального рендеринга в наушники.

HOA основана на представлении пространственной плотности амплитуд гармонической плоской волны сложной формы посредством усеченного разложения в ряд по сферическим гармоникам (SH). Каждый коэффициент разложения в ряд представляет собой функцию от угловой частоты, которая может быть эквивалентно представлена посредством функции во временной области. Следовательно, без потери общности, полное HOA-представление звукового поля фактически может предполагаться как состоящее из 0 функций во временной области, где 0 обозначает число коэффициентов разложения в ряд. Эти функции во временной области эквивалентно упоминаются как "последовательности HOA-коэффициентов" или как "HOA-каналы".

Пространственное разрешение HOA-представления повышается с растущим максимальным порядком N разложения в ряд. К сожалению, число коэффициентов разложения в ряд в 0 растет квадратично с порядком N, в частности . Например, типичные HOA-представления с использованием порядка N=4 требуют 0=25 HOA-коэффициентов (разложения в ряд). Согласно вышеприведенным соображениям, полная скорость передачи битов для передачи HOA-представления, с учетом требуемой одноканальной частоты дискретизации и числа битов в расчете на выборку, определяется посредством . Следовательно, передача HOA-представления порядка N=4 с частотой дискретизации =48 кГц с использованием =16 битов на выборку приводит к скорости передачи битов в 19,2 Мбит/с, которая является очень высокой для многих практических вариантов применения, например, для потоковой передачи.

Сжатие HOA-представлений звукового поля предложено в заявках на патент EP 12306569.0 и EP 12305537.8. Вместо перцепционного кодирования каждой из последовательностей HOA-коэффициентов по отдельности, которое выполняется, например, в работе авторов E. Hellerud, I. Burnett, A. Солвенг и U.P. Svensson, "Encoding Higher Order Ambisonics with AAC", 124th AES Convention, Амстердам, 2008 год, предпринимается попытка сокращать число сигналов, которые должны быть перцепционно кодированы, в частности, посредством выполнения анализа звукового поля и разложения данного HOA-представления на направленный и остаточный окружающий компонент. В общем, предполагается, что направленный компонент представлен посредством небольшого числа доминирующих направленных сигналов, которые могут рассматриваться в качестве общих функций плоской волны. Порядок остаточного окружающего HOA-компонента уменьшается, поскольку предполагается, что после извлечения доминирующих направленных сигналов, HOA-коэффициенты низшего порядка переносят наиболее релевантную информацию.

Сущность изобретения

В итоге, посредством такой операции, начальное число последовательностей HOA-коэффициентов, которые должны быть перцепционно кодированы, уменьшается до фиксированного числа D доминирующих направленных сигналов и числа последовательностей HOA-коэффициентов, представляющих остаточный окружающий HOA-компонент с усеченным порядком, в силу чего число сигналов кодироваться является фиксированным, т.е. . В частности, это число является независимым от фактически обнаруженного числа активных доминирующих направленных источников звука во временном кадре k. Это означает то, что в k временных кадрах, в которых фактически обнаруженное число активных доминирующих направленных источников звука меньше максимального разрешенного числа D направленных сигналов, некоторые или даже все доминирующие направленные сигналы, которые должны быть перцепционно кодированы, являются нулевыми. В конечном счете, это означает то, что эти каналы вообще не используются для захвата релевантной информации звукового поля. В этом контексте, дополнительное возможно слабое место в обработках согласно EP 12306569.0 и EP 12305537.8 представляет собой критерий для определения количества активных доминирующих направленных сигналов в каждом временном кадре, поскольку предпринимается попыток определять оптимальное количество активных доминирующих направленных сигналов относительно последовательного перцепционного кодирования звукового поля. Например, в EP 12305537.8, количество доминирующих источников звука оценивается с использованием простого критерия мощности, а именно, посредством определения размерности подпространства матрицы корреляции между коэффициентами, принадлежащей наибольшим собственным значениям. В EP 12306569.0 предложено инкрементное обнаружение доминирующих направленных источников звука, причем направленный источник звука считается доминирующим, если мощность функции плоской волны из соответствующего направления является достаточно высокой относительно первого направленного сигнала. Использование критериев на основе мощности, как указано в EP 12306569.0 и EP 12305537.8, может приводить к направленно-окружающему разложению, которое является субоптимальным относительно перцепционного кодирования звукового поля.

Проблема, которая должна разрешаться посредством изобретения, состоит в том, чтобы улучшать HOA-сжатие посредством определения для текущего HOA-контента аудиосигнала того, как назначать для предварительно определенного сокращенного числа каналов, направленные сигналы и коэффициенты для окружающего HOA-компонента. Эта проблема разрешается посредством способов, раскрытых в пунктах 1 и 3 формулы изобретения. Устройства, которые используют эти способы, раскрыты в пунктах 2 и 4 формулы изобретения.

Изобретение улучшает обработку сжатия, предложенную в EP 12306569.0, в двух аспектах. Во-первых, лучше используется полоса пропускания, предоставленная посредством данного числа каналов, которые должны быть кодированы. Во временных кадрах, в которых сигналы доминирующих источников звука не обнаруживаются, каналы, первоначально зарезервированные для доминирующих направленных сигналов, используются для захвата дополнительной информации относительно окружающего компонента, в форме дополнительных последовательностей HOA-коэффициентов остаточного окружающего HOA-компонента. Во-вторых, с учетом цели использовать данное число каналов для того, чтобы перцепционно кодировать данное HOA-представление звукового поля, критерий определения количества направленных сигналов, которые должны извлекаться из HOA-представления, адаптирован относительно этого назначения. Число направленных сигналов определяется таким образом, что декодированное и восстановленное HOA-представление предоставляет наименьшую воспринимаемую ошибку. Этот критерий сравнивает ошибки моделирования, либо возникающие в результате извлечения направленного сигнала и использования последовательности HOA-коэффициентов меньше для описания остаточного окружающего HOA-компонента, либо возникающие в результате неизвлечения направленного сигнала и использования вместо этого дополнительной последовательности HOA-коэффициентов для описания остаточного окружающего HOA-компонента. Этот критерий дополнительно учитывает для обоих случаев пространственное распределение мощности шума квантования введенным посредством перцепционного кодирования направленных сигналов и последовательностей HOA-коэффициентов остаточного окружающего HOA-компонента.

Чтобы реализовывать вышеописанную обработку, перед началом HOA-сжатия, указывается общее число сигналов (каналов), по сравнению с которым уменьшается исходное число 0 последовательностей HOA-коэффициентов. Окружающий HOA-компонент предположительно должен быть представлен посредством минимального числа последовательностей HOA-коэффициентов. В некоторых случаях, это минимальное число может быть нулем. Оставшиеся каналы предположительно содержат либо направленные сигналы, либо дополнительные последовательности коэффициентов окружающего HOA-компонента, в зависимости от того, что обработка извлечения направленных сигналов определяет в качестве перцепционно (то есть с точки зрения восприятия) более значимого. Предполагается, что назначение либо направленных сигналов, либо последовательностей коэффициентов окружающего HOA-компонента оставшимся D каналов может изменяться на покадровой основе. Для восстановления звукового поля на стороне приемного устройства информация относительно назначения передается в качестве дополнительной вспомогательной информации.

В принципе, изобретаемый способ сжатия подходит для сжатия с использованием фиксированного числа перцепционных кодирований представления на основе амбиофонии высшего порядка звукового поля, обозначаемой HOA, с входными временными кадрами последовательностей HOA-коэффициентов, причем упомянутый способ включает в себя следующие этапы, которые выполняются на покадровой основе:

- для текущего кадра, оценка набора доминирующих направлений и соответствующего набора данных индексов обнаруженных направленных сигналов;

- разложение последовательностей HOA-коэффициентов упомянутого текущего кадра на нефиксированное число направленных сигналов с соответствующими направлениями, содержащимися в упомянутом наборе оценок доминирующих направлений, и с соответствующим набором данных индексов упомянутых направленных сигналов, при этом упомянутое нефиксированное число меньше упомянутого фиксированного числа, и на остаточный окружающий HOA-компонент, который представлен посредством сокращенного числа последовательностей HOA-коэффициентов и соответствующего набора данных индексов упомянутого сокращенного числа остаточных окружающих последовательностей HOA-коэффициентов, причем это сокращенное число соответствует разности между упомянутым фиксированным числом и упомянутым нефиксированным числом;

- назначение упомянутых направленных сигналов и последовательностей HOA-коэффициентов упомянутого остаточного окружающего HOA-компонента каналам, число которых соответствует упомянутому фиксированному числу, при этом для упомянутого назначения используются упомянутый набор данных индексов упомянутых направленных сигналов и упомянутый набор данных индексов упомянутого сокращенного числа остаточных окружающих последовательностей HOA-коэффициентов;

- перцепционное кодирование упомянутых каналов связанного кадра таким образом, чтобы предоставлять кодированный сжатый кадр.

В принципе, изобретаемое устройство сжатия подходит для сжатия с использованием фиксированного числа перцепционных кодирований представления на основе амбиофонии высшего порядка звукового поля, обозначаемой HOA, с входными временными кадрами последовательностей HOA-коэффициентов, причем упомянутое устройство выполняет обработку на покадровой основе и включает в себя:

- средство, выполненное с возможностью оценки для текущего кадра набора доминирующих направлений и соответствующего набора данных индексов обнаруженных направленных сигналов;

- средство, выполненное с возможностью с возможностью разложения последовательностей HOA-коэффициентов упомянутого текущего кадра на нефиксированное число направленных сигналов с соответствующими направлениями, содержащимися в упомянутом наборе оценок доминирующих направлений, и с соответствующим набором данных индексов упомянутых направленных сигналов, при этом упомянутое нефиксированное число меньше упомянутого фиксированного числа, и на остаточный окружающий HOA-компонент, который представлен посредством сокращенного числа последовательностей HOA-коэффициентов и соответствующего набора данных индексов упомянутого сокращенного числа остаточных окружающих последовательностей HOA-коэффициентов, причем это сокращенное число соответствует разности между упомянутым фиксированным числом и упомянутым нефиксированным числом;

- средство, выполненное с возможностью назначения упомянутых направленных сигналов и последовательностей HOA-коэффициентов упомянутого остаточного окружающего HOA-компонента каналам, число которых соответствует упомянутому фиксированному числу, при этом для упомянутого назначения используются упомянутый набор данных индексов упомянутых направленных сигналов и упомянутый набор данных индексов упомянутого сокращенного числа остаточных окружающих последовательностей HOA-коэффициентов;

- средство, выполненное с возможностью перцепционного кодирования упомянутых каналов связанного кадра таким образом, чтобы предоставлять кодированный сжатый кадр.

В принципе, изобретаемый способ распаковки подходит для распаковки представления на основе амбиофонии высшего порядка, сжатого согласно вышеуказанному способу сжатия, причем упомянутая распаковка включает в себя следующие этапы:

- перцепционное декодирование текущего кодированного сжатого кадра таким образом, чтобы предоставлять перцепционно декодированный кадр каналов;

- перераспределение упомянутого перцепционно декодированного кадра каналов, с использованием упомянутого набора данных индексов обнаруженных направленных сигналов и упомянутого набора данных индексов выбранных окружающих последовательностей HOA-коэффициентов, с тем чтобы воссоздавать соответствующий кадр направленных сигналов и соответствующий кадр остаточного окружающего HOA-компонента;

- повторное составление текущего распакованного кадра HOA-представления из упомянутого кадра направленных сигналов и из упомянутого кадра остаточного окружающего HOA-компонента, с использованием упомянутого набора данных индексов обнаруженных направленных сигналов и упомянутого набора оценок доминирующих направлений,

- при этом направленные сигналы относительно равномерно распределенных направлений прогнозируются из упомянутых направленных сигналов, и после этого упомянутый текущий распакованный кадр повторно составляется из упомянутого кадра направленных сигналов, упомянутых прогнозированных сигналов и упомянутого остаточного окружающего HOA-компонента.

В принципе, изобретаемое устройство распаковки подходит для распаковки представления на основе амбиофонии высшего порядка, сжатого согласно вышеуказанному способу сжатия, причем упомянутое устройство включает в себя:

- средство, выполненное с возможностью перцепционного декодирования текущего кодированного сжатого кадра таким образом, чтобы предоставлять перцепционно декодированный кадр каналов;

- средство, выполненное с возможностью перераспределения упомянутого перцепционно декодированного кадра каналов, с использованием упомянутого набора данных индексов обнаруженных направленных сигналов и упомянутого набора данных индексов выбранных окружающих последовательностей HOA-коэффициентов, с тем чтобы воссоздавать соответствующий кадр направленных сигналов и соответствующий кадр остаточного окружающего HOA-компонента;

- средство, выполненное с возможностью повторного составления текущего распакованного кадра HOA-представления из упомянутого кадра направленных сигналов, упомянутого кадра остаточного окружающего HOA-компонента, упомянутого набора данных индексов обнаруженных направленных сигналов и упомянутого набора оценок доминирующих направлений, при этом направленные сигналы относительно равномерно распределенных направлений прогнозируются из упомянутых направленных сигналов, и после этого упомянутый текущий распакованный кадр повторно составляется из упомянутого кадра направленных сигналов, упомянутых прогнозированных сигналов и упомянутого остаточного окружающего HOA-компонента.

Преимущественные дополнительные варианты осуществления изобретения раскрыты в соответствующих зависимых пунктах формулы изобретения.

Краткое описание чертежей

Примерные варианты осуществления изобретения описаны со ссылкой на прилагаемые чертежи, из которых:

Фиг. 1 является блок-схемой для HOA-сжатия;

Фиг. 2 является оценкой направлений доминирующих источников звуков;

Фиг. 3 является блок-схемой для HOA-распаковки;

Фиг. 4 является сферической системой координат;

Фиг. 5 является нормализованной дисперсионной функцией для различных порядков N амбиофонии и для углов .

Подробное описание вариантов осуществления

A. Улучшенное HOA-сжатие

Обработка сжатия согласно изобретению, которая основана на EP 12306569.0, проиллюстрирована на фиг. 1, на котором блоки обработки сигналов, которые модифицированы или введены как новые по сравнению с EP 12306569.0, представлены с помощью полужирного поля, и на котором (оценки направлений как таковые) и в этой заявке соответствуют (матрице оценок направлений) и в EP 12306569.0, соответственно. Для HOA-сжатия используется покадровая обработка с неперекрывающимися входными кадрами C(k) последовательностей HOA-коэффициентов длины L, где k обозначает индекс кадра. Кадры задаются относительно последовательностей HOA-коэффициентов, указываемых в уравнении (45), следующим образом:

, (1)

где указывает период дискретизации. Первый этап или стадия 11/12 на фиг. 1 является необязательной и состоит из конкатенации неперекрывающихся k-ого и (k-1)-ых кадров последовательностей HOA-коэффициентов в длинный кадр следующим образом:

, (2)

причем этот длинный кадр перекрывается на 50% со смежным длинным кадром, и этот длинный кадр последовательно использован для оценки направлений доминирующих источников звуков. Аналогично обозначению для , символ тильды используется в нижеприведенном описании для указания того, что соответствующая величина означает длинные перекрывающиеся кадры. Если этап/стадия 11/12 не присутствует, символ тильды не имеет конкретного смысла. В принципе, этап или стадия 13 оценки доминирующих источников звука выполняется так, как предложено в EP 13305156.5, но с важной модификацией. Модификация связана с определением количества направлений, которые должны обнаруживаться, т.е. того, сколько направленных сигналов предположительно извлекаются из HOA-представления. Это осуществляется с намерением извлекать направленные сигналы, только если это является перцепционно более релевантным по сравнению с использованием вместо этого дополнительных последовательностей HOA-коэффициентов для лучшей аппроксимации окружающего HOA-компонента. Подробное описание этой технологии приведено в разделе 2.

Оценка предоставляет набор данных индексов направленных сигналов, которые обнаружены, а также набор соответствующих оценок направлений. D обозначает максимальное число направленных сигналов, которое должно задаваться перед началом HOA-сжатия.

На этапе или стадии 14, текущий (длинный) кадр последовательностей HOA-коэффициентов разлагается (как предложено в EP 13305156.5) на число направленных сигналов, принадлежащих направлениям, содержащимся в наборе , и остаточный окружающий HOA-компонент . Задержка в два кадра вводится в результате обработки суммирования с перекрытием, чтобы получать сглаженные сигналы. Предполагается, что содержит всего D каналов, из которых, тем не менее, только каналы, которые соответствуют активным направленным сигналам, являются ненулевыми. Индексы, указывающие эти каналы, предположительно должны выводиться в наборе данных. Дополнительно, разложение на этапе/стадии 14 предоставляет некоторые параметры, которые используются на стороне распаковки для прогнозирования частей исходного HOA-представления из направленных сигналов (дополнительную информацию см. в EP 13305156.5). На этапе или стадии 15, число коэффициентов окружающего HOA-компонента обоснованно уменьшено, так что они содержат только последовательностей ненулевых HOA-коэффициентов, где указывает число элементов набора данных, т.е. число активных направленных сигналов в кадре k-2. Поскольку окружающий HOA-компонент предположительно должен всегда быть представлен посредством минимального числа последовательностей HOA-коэффициентов, эта проблема может быть фактически сведена к выбору оставшихся последовательностей HOA-коэффициентов из возможных . Чтобы получать сглаженное уменьшенное окружающее HOA-представление, этот выбор выполняется таким образом, что по сравнению с выбором, осуществленным в предыдущем кадре k-3, возникает минимально возможное число изменений.

В частности, следует различать следующе три случая:

a) : В этом случае, предположительно должны выбираться последовательности HOA-коэффициентов, идентичные последовательностям HOA-коэффициентов в кадре k-3.

b) : В этом случае, большее число последовательностей HOA-коэффициентов по сравнению с последним кадром k-3 может использоваться для представления окружающего HOA-компонента в текущем кадре. Эти последовательности HOA-коэффициентов, которые выбраны в k-3, предположительно также должны выбираться в текущем кадре. Дополнительные последовательности HOA-коэффициентов могут выбираться согласно различным критериям. Например, выбор этих последовательностей HOA-коэффициентов в с наибольшей средней мощностью или выбор последовательностей HOA-коэффициентов относительно их перцепционной значимости.

c) : В этом случае, меньшее число последовательностей HOA-коэффициентов по сравнению с последним кадром k-3 может использоваться для представления окружающего HOA-компонента в текущем кадре. Здесь вопрос, на который следует ответить, заключается в том, какая из ранее выбранных последовательностей HOA-коэффициентов должна деактивироваться. Обоснованное решение заключается в том, чтобы деактивировать те последовательности, которые назначены каналам на этапе или стадии 16 назначения сигналов в кадре k-3. Для недопущения неоднородностей на границах кадров, когда дополнительные последовательности HOA-коэффициентов активируются или деактивируются, преимущественно обеспечивать плавное постепенное усиление или затухание соответствующих сигналов.

Конечное окружающее HOA-представление с сокращенным числом последовательностей ненулевых коэффициентов обозначается посредством . Индексы выбранных окружающих последовательностей HOA-коэффициентов выводятся в наборе данных.

На этапе/стадии 16, активные направленные сигналы, содержащиеся в , и последовательности HOA-коэффициентов, содержащиеся в , назначаются кадру I-каналов для отдельного перцепционного кодирования. Если подробнее описывать назначение сигналов, кадры и предположительно должны состоять из отдельных сигналов и следующим образом:

(3)

Активные направленные сигналы назначаются таким образом, что они поддерживают свои индексы каналов, для того чтобы получать непрерывные сигналы для последовательного перцепционного кодирования. Это может выражаться следующим образом:

(4)

Последовательности HOA-коэффициентов окружающего компонента назначаются таким образом, что минимальное число последовательностей коэффициентов всегда содержится в последних сигналах , т.е.:

(5)

Для дополнительных последовательностей HOA-коэффициентов окружающего компонента, следует различать, выбраны они также или нет в предыдущем кадре:

a) Если они также выбраны для передачи в предыдущем кадре, т.е. если соответствующие индексы также содержатся в наборе данных, назначение этих последовательностей коэффициентов сигналам в является идентичным назначению для предыдущего кадра. Эта операция обеспечивает сглаженные сигналы , что является предпочтительным для последовательного перцепционного кодирования на этапе или стадии 17.

b) В противном случае, если некоторые последовательности коэффициентов выбираются как новые, т.е. если их индексы содержатся в наборе данных, а не в наборе данных, они сначала размещаются относительно своих индексов в порядке по возрастанию и в этом порядке назначаются каналам , которые еще не заняты посредством направленных сигналов.

Это конкретное назначение обеспечивает такое преимущество, что в ходе процесса HOA-распаковки, перераспределение и составление сигналов может выполняться без знания того, какая окружающая последовательность HOA-коэффициентов содержится в каком канале . Вместо этого, назначение может быть восстановлено во время HOA-распаковки с простым знанием наборов и данных. Преимущественно, эта операция назначения также предоставляет вектор назначений, элементы , которого обозначают индексы каждой из дополнительных последовательностей HOA-коэффициентов окружающего компонента. Иначе говоря, элементы вектора назначений предоставляют информацию в отношении того, какие из дополнительных последовательностей HOA-коэффициентов окружающего HOA-компонента назначаются в каналах с неактивными направленными сигналами. Этот вектор может передаваться дополнительно, но менее часто, чем посредством частоты кадров, для получения возможности инициализации процедуры перераспределения, выполняемой для HOA-распаковки (см. раздел B). Этап/стадия 17 перцепционного кодирования кодирует I-каналы кадра и выводит кодированный кадр .

Для кадров, для которых вектор не передается из этапа/стадии 16 на стороне распаковки, наборы и параметров данных вместо вектора используются для выполнения перераспределения.

A.1. Оценка направлений доминирующих источников звуков

Этап/стадия 13 оценки для направлений доминирующих источников звуков по фиг. 1 подробнее проиллюстрирован на фиг. 2. Он, по сути, выполняется согласно этапу из EP 13305156.5, но с определяющим отличием, которое состоит в способе определения количества доминирующих источников звука, соответствующих числу направленных сигналов, которые должны извлекаться из данного HOA-представления. Это число является значительным, поскольку оно используется для управления тем, данное HOA-представление представляется лучше либо посредством использования более направленных сигналов, либо вместо этого посредством использования более последовательностей HOA-коэффициентов, с тем чтобы лучше моделировать окружающий HOA-компонент.

Оценка направлений доминирующих источников звуков начинается на этапе или стадии 21 с предварительного поиска направлений доминирующих источников звуков с использованием длинного кадра входных последовательностей HOA-коэффициентов. Вместе с предварительными оценками направлений, вычисляются соответствующие направленные сигналы и HOA-компоненты звукового поля, которые предположительно созданы посредством отдельных источников звука, как описано в EP 13305156.5. На этапе или стадии 22, эти количества используются вместе с кадром входных последовательностей HOA-коэффициентов для определения числа направленных сигналов, которые должны извлекаться. Следовательно, оценки направлений, соответствующие направленные сигналы и HOA-компоненты звукового поля отбрасываются. Вместо этого, только оценки , направлений затем назначаются ранее найденным источникам звука.

На этапе или стадии 23, результирующие траектории направлений сглажены согласно модели перемещения источников звука, и определяется то, какие из источников звука предположительно являются активными (см. EP 13305156.5). Последняя операция предоставляет набор индексов активных направленных источников звука и набор соответствующих оценок направлений.

A.2. Определение числа извлеченных направленных сигналов

Для определения числа направленных сигналов на этапе/стадии 22, предполагается ситуация, в которой имеется данное общее количество I-каналов, которые должны быть использованы для захвата перцепционно наиболее релевантной информации звукового поля. Следовательно, определяется число направленных сигналов, которые должны извлекаться, обусловленное вопросом касательно того, для общего качества HOA-сжатия/распаковки текущее HOA-представление представляется лучше либо посредством использования более направленных сигналов, либо посредством использования более последовательностей HOA-коэффициентов, для лучшего моделирования окружающего HOA-компонента. Чтобы извлекать на этапе/стадии 22 критерий определения числа направленных источников звука, которые должны извлекаться, причем этот критерий связан с человеческим восприятием, учитывается то, что HOA-сжатие достигается, в частности, посредством следующих двух операций:

- уменьшение последовательностей HOA-коэффициентов для представления окружающего HOA-компонента (что означает уменьшение числа связанных каналов);

- перцепционное кодирование направленных сигналов и последовательностей HOA-коэффициентов для представления окружающего HOA-компонента. В зависимости от числа M, , извлеченных направленных сигналов, первая операция приводит к аппроксимации:

(6)

, (7)

где (8)

обозначает HOA-представление направленного компонента, состоящее из HOA-компонентов , звукового поля, которые предположительно должны создаваться посредством M отдельно рассматриваемых источников звука, и обозначает HOA-представление окружающего компонента только последовательностей ненулевых HOA-коэффициентов. Аппроксимация из второй операции может выражаться следующим образом:

(9)

, (10)

где и обозначают составленные направленные и окружающие HOA-компоненты после перцепционного декодирования, соответственно.

Формулирование критерия

Число направленных сигналов, которые должны извлекаться, выбирается таким образом, что полная ошибка аппроксимации:

, (11)

где , является минимально возможно менее значимой относительно человеческого восприятия. Чтобы обеспечивать это, распределение направленной мощности полной ошибки для отдельных критических полос частот по шкале в барках учитывается в предварительно заданном числе Q тестовых направлений , которые почти равномерно распределены по единичной сфере. Более конкретно, распределение направленной мощности для b-той критической полосы частот, b=1..., B, представлено посредством вектора:

(12)

компоненты которого обозначают мощность полной ошибки , связанной с направлением , b-той критической полосой частот по шкале в барках и k-ым кадром. Распределение направленной мощности полной ошибки сравнивается с распределением направленной перцепционной мощности маскирования:

(13)

вследствие исходного HOA-представления . Затем, для каждого тестового направления и критической полосы b частот, вычисляется уровень восприятия полной ошибки. Здесь он, по сути, задается в качестве отношения направленной мощности полной ошибки и направленной мощности маскирования согласно следующему:

(14)

Вычитание 1 и последующая операция определения максимума выполняются для того, чтобы обеспечивать то, что уровень восприятия является нулевым при условии, что мощность ошибки ниже порогового значения маскирования.

В завершение, число направленных сигналов, которые должны извлекаться, может выбираться таким образом, чтобы минимизировать среднее по всем тестовым направлениям максимума уровня восприятия ошибки по всем критическим полосам частот, т.е.:

(15)

Следует отметить, что, альтернативно, можно заменять максимум посредством операции усреднения в уравнении (15).

Вычисление распределения направленной перцепционной мощности маскирования

Для вычисления распределения направленной перцепционной мощности маскирования вследствие исходного HOA-представления , последнее преобразуется в пространственную область, так что оно представляется посредством общих плоских волн , падающих из тестовых направлений , q=l, ..., Q. При размещении общих сигналов плоской волны в матрице следующим образом:

(16)

преобразование в пространственную область выражается посредством операции:

, (17)

где обозначает матрицу мод относительно тестового направления , заданную следующим образом:

, (18)

причем

. (19)

Элементы распределения направленной перцепционной мощности маскирования, вследствие исходного HOA-представления, соответствуют мощностям маскирования общих функций плоской волны для отдельных критических полос b частот.

Вычисление распределения направленной мощности

Далее представлены две альтернативы для вычисления распределения направленной мощности:

a. Одна возможность состоит в том, чтобы фактически вычислять аппроксимацию требуемого HOA-представления посредством выполнения двух операций, упомянутых в начале раздела 2. Затем полная ошибка аппроксимации вычисляется согласно уравнению (11). Далее полная ошибка аппроксимации преобразована в пространственную область, так что она представлена посредством общих плоских волн, падающих из тестовых направлений . При размещении общих сигналов плоской волны в матрице следующим образом:

(20),

преобразование в пространственную область выражается посредством операции:

. (21)

Элементы распределения направленной мощности полной ошибки аппроксимации получаются посредством вычисления мощностей общих функций плоской волны в пределах отдельных критических полос b частот.

b. Альтернативное решение состоит в том, чтобы вычислять только аппроксимацию вместо . Этот способ обеспечивает такое преимущество, что сложное перцепционное кодирование отдельных сигналов не должно выполняться непосредственно. Вместо этого, достаточно знать мощности ошибки перцепционного квантования в пределах отдельных критических полос частот по шкале в барках. С этой целью, полная ошибка аппроксимации, заданная в уравнении (11), может быть записана в качестве суммы трех следующих ошибок аппроксимации:

(22)

(23)

, (24)

которые могут предполагаться как независимые друг от друга. Вследствие этой независимости, распределение направленной мощности полной ошибки может выражаться как сумма распределений направленной мощности трех отдельных ошибок , и .

Далее описывается то, как вычислять распределения направленной мощности трех ошибок для отдельных критических полос частот по шкале в барках:

a. Чтобы вычислять распределение направленной мощности ошибки , она сначала преобразуется в пространственную область следующим образом:

, (25)

при этом ошибка аппроксимации, следовательно, представлена посредством общих плоских волн , падающих из тестовых направлений , которые размещаются в матрице согласно следующему:

(26)

Следовательно, элементы распределения направленной мощности ошибки аппроксимации получаются посредством вычисления мощностей общих функций плоской волны в отдельных критических полосах частот.

b. Для вычисления распределения направленной мощности ошибки , следует принимать во внимание, что эта ошибка вводится в направленный HOA-компонент посредством перцепционного кодирования направленных сигналов , . Дополнительно, считается, что направленный HOA-компонент задается посредством уравнения (8). Затем для простоты предполагается, что HOA-компонент эквивалентно представлен в пространственной области посредством 0 общих функций плоской волны, которые созданы из направленного сигнала посредством простого масштабирования, т.е.:

, (27)

где , , обозначают коэффициенты масштабирования. Соответствующие направления , , плоской волны предположительно должны быть равномерно распределены по единичной сфере и циклически сдвинуты таким образом, что соответствует оценке направления. Следовательно, коэффициент масштабирования равен 1.

При задании в качестве матрицы мод относительно циклически сдвинутых направлений и размещении всех коэффициентов масштабирования в векторе согласно следующему:

(28)

HOA-компонент может быть записан следующим образом:

(29)

Следовательно, ошибка (см. уравнение (23)) между истинным направленным HOA-компонентом:

(30)

и направленным HOA-компонентом, составленным из перцепционно декодированных направленных сигналов , посредством:

(31)

(32)

может выражаться с точки зрения ошибок перцепционного кодирования:

(33)

в отдельных направленных сигналах следующим образом:

(34)

Представление ошибки в пространственной области относительно тестовых направлений , задается следующим образом:

(35)

Если обозначить элементы вектора посредством , , и при условии, что отдельные ошибки перцепционного кодирования являются независимыми друг от друга, из уравнения (35) следует то, что элементы распределения направленной мощности ошибки перцепционного кодирования могут вычисляться следующим образом:

(36)

как предполагается, представляет мощность ошибки перцепционного квантования в b-той критической полосе частот в направленном сигнале. Эта мощность может предполагаться как соответствующая перцепционной мощности маскирования направленного сигнала .

c. Для вычисления распределения направленной мощности ошибки , получающейся в результате перцепционного кодирования последовательностей HOA-коэффициентов окружающего HOA-компонента, каждая последовательность HOA-коэффициентов предположительно должна кодироваться независимо. Следовательно, ошибки, введенные в отдельные последовательности HOA-коэффициентов в каждой критической полосе частот по шкале в барках, могут предполагаться как декоррелированные. Это означает то, что матрица корреляции между коэффициентами ошибки относительно каждой критической полосы частот по шкале в барках является диагональной, т.е.:

(37)

Элементы предположительно представляют мощность ошибки перцепционного квантования в b-той критической полосе частот в o-ой кодированной последовательности HOA-коэффициентов в . Они предположительно могут соответствовать перцепционной мощности маскирования o-ой последовательности HOA-коэффициентов . Распределение направленной мощности ошибки перцепционного кодирования в силу этого вычисляется следующим образом:

(38)

B. Улучшенная HOA-распаковка

Соответствующая обработка HOA-распаковки проиллюстрирована на фиг. 3 и включает в себя следующие этапы или стадии.

На этапе или стадии 31, перцепционное декодирование I сигналов, содержащихся в, выполняется для того, чтобы получать I декодированных сигналов в. На этапе или стадии 32 перераспределения сигналов, перцепционно декодированные сигналы в перераспределяются, чтобы воссоздавать кадр направленных сигналов и кадр окружающего HOA-компонента. Информация относительно того, как перераспределять сигналы, получается посредством воспроизведения операции назначения, выполняемой для HOA-сжатия, с использованием наборов и данных индексов. Поскольку она представляет собой рекурсивную процедуру (см. раздел A), дополнительно передаваемый вектор назначений может использоваться для получения возможности инициализации процедуры перераспределения, например, в случае если передача нарушается.

На этапе или стадии 33 составления, повторно составляется текущий кадр требуемого полного HOA-представления (согласно обработке, описанной в связи с фиг. 2b и фиг. 4 из EP 12306569.0 с использованием кадра направленных сигналов, набора индексов активных направленных сигналов вместе с набором соответствующих направлений, параметров для прогнозирования частей HOA-представления из направленных сигналов и кадра последовательностей HOA-коэффициентов уменьшенного окружающего HOA-компонента. соответствует компоненту в EP 12306569.0, а и соответствуют в EP 12306569.0, при этом индексы активных направленных сигналов отмечаются в матричных элементах . Иными словами, направленные сигналы относительно равномерно распределенных направлений прогнозируются из направленных сигналов с использованием принимаемых параметров для такого прогнозирования, и после этого текущий распакованный кадр повторно составляется из кадра направленных сигналов , прогнозных частей и уменьшенного окружающего HOA-компонента .

C. Основы амбиофонии высшего порядка

Амбиофония высшего порядка (HOA) основана на описании звукового поля в компактной интересующей области, которая предположительно не должна содержать источников звука. В этом случае, пространственно-временной характер изменения звукового давления p(t,x) во время t и в позиции x внутри интересующей области физически полностью определяется посредством гомогенного волнового уравнения. Далее, предполагается сферическая система координат, как показано на фиг. 4. В используемой системе координат ось X указывает на переднюю позицию, ось Y указывает влево, а ось Z указывает вверх. Позиция в пространстве представлена посредством радиуса (т.е. расстояния до начала координат), угла наклона, измеренного из полярной оси z, и азимутального угла , измеренного против часовой стрелки в плоскости X-Y от оси X. Дополнительно, обозначает транспозицию.

Можно показать (см. работу автора E.G. Williams "Fourier Acoustics", том 93 Applied Mathematical Sciences, Academic Press, 1999 год), что преобразование Фурье звукового давления относительно времени, обозначаемое посредством, т.е.:

(39)

где обозначает угловую частоту, а i указывает мнимую единицу, может разлагаться на последовательность сферических гармоник согласно следующему:

(40)

В уравнении (40) cs обозначает скорость звука, и k обозначает угловое волновое число, которое связано с угловой частотой посредством. Дополнительно, обозначают сферические функции Бесселя первого вида, и обозначают действительнозначные сферические гармоники порядка n и степени m, которые задаются в нижеприведенном разделе C.1. Коэффициенты разложения в ряд зависят только от углового волнового числа k. Выше, неявно предполагается, что звуковое давление имеет ограниченную пространственную полосу частот. Таким образом, последовательность сферических гармоник усекается относительно индекса n порядка в верхнем пределе N, который называется порядком HOA-представления.

Если звуковое поле представлено посредством наложения бесконечного числа гармонических плоских волн с различными угловыми частотами , поступающих из всех возможных направлений, указываемых посредством кортежа угла, можно показать (см. работу B. Rafaely "Plane-wave Decomposition of the Sound Field on the Sphere by Spherical Convolution", Journal of the Acoustical Society of America, том 4 (116), стр. 2149-2157, 2004 год), что соответствующая комплексная амплитудная функция плоской волны может выражаться посредством следующего разложения в ряд по сферическим гармоникам:

, (41)

где коэффициенты разложения в ряд связаны с коэффициентами разложения в ряд посредством . (42)

При условии, что отдельные коэффициенты представляют собой функции от угловой частоты , применение обратного преобразования Фурье (обозначаемого посредством предоставляет функции во временной области:

(43)

для каждого порядка n и степени m, которые могут собираться в одном векторе посредством (44)

Индекс позиции функции во временной области в векторе задается посредством . Общее количество элементов в векторе задается посредством . Конечный формат амбиофонии предоставляет дискретизированную версию c(t) с использованием частоты дискретизации следующим образом:

, (45)

где обозначает период дискретизации. Элементы здесь упоминаются в качестве коэффициентов амбиофонии. Сигналы временной области и, следовательно, коэффициенты амбиофонии являются действительнозначными.

C.1. Определение действительнозначных сферических гармоник

Действительнозначные сферические гармоники задаются следующим образом:

, (46)

где . (47)

Ассоциированные функции Лежандра задаются следующим образом:

, (48)

с полиномом Лежандра и, в отличие от вышеуказанной работы автора Williams, без фазовой составляющей Кондона-Шортли.

C.2. Пространственное разрешение амбиофонии высшего порядка

Общая функция x(t) плоской волны, поступающей из направления , представлена в HOA следующим образом:

(49)

Соответствующая пространственная плотность амплитуд плоской волны:

задается следующим образом:

(50)

(51)

Из уравнения (51) можно видеть то, что она представляет собой произведение общей функции x(t) плоской волны и пространственной дисперсионной функции , которое, как можно показать, зависит только от угла между и , имеющего свойство:

(52)

Как и следовало ожидать, в пределе бесконечного порядка, т.е., пространственная дисперсионная функция превращается в дельту Дирака:

, т.е. . (53)

Тем не менее, в случае конечного порядка N, доля общей плоской волны из направления размывается по соседним направлениям, при этом степень размывания снижается с увеличением порядка. График нормализованной функции для различных значений N показан на фиг. 5.

Следует отметить, что для любого направления , характер изменения во временной области пространственной плотности амплитуд плоской волны является кратным ее характеру изменения в любом другом направлении. В частности, функции и для некоторых фиксированных направлений и имеют высокую корреляцию друг с другом относительно времени t.

C.3. Преобразование сферических гармоник

Если пространственная плотность амплитуд плоской волны дискретизируется при числе 0 пространственных направлений , , которые почти равномерно распределены по единичной сфере, получаются 0 направленных сигналов . При сборе этих сигналов в вектор следующим образом:

, (54)

посредством использования уравнения (50), можно проверять то, что этот вектор может вычисляться из непрерывного представления d(t) на основе амбиофонии, заданного в уравнении (44), посредством простого умножения матриц следующим образом:

, (55)

где указывает объединенную транспозицию и сопряжение, а обозначает матрицу мод, заданную следующим образом:

, (56)

где:

. (57)

Поскольку направления почти равномерно распределены по единичной сфере, матрица мод, в общем, является обратимой. Следовательно, непрерывное представление на основе амбиофонии может вычисляться из направленных сигналов следующим образом:

(58)

Оба уравнения составляют преобразование и обратное преобразование между представлением на основе амбиофонии и пространственной областью. Эти преобразования здесь называются "преобразованием сферических гармоник" и "обратным преобразованием сферических гармоник".

Следует отметить, что поскольку направления почти равномерно распределены по единичной сфере, аппроксимация:

(59)

доступна, что оправдывает использование вместо в уравнении (55).

Преимущественно, все упомянутые взаимосвязи также являются допустимыми для дискретной временной области.

Изобретаемая обработка может выполняться посредством одного процессора или электронной схемы либо посредством нескольких процессоров или электронных схем, работающих параллельно и/или работающих в различных частях изобретаемой обработки.

1. Способ сжатия с использованием фиксированного числа () перцепционных кодирований представления на основе амбиофонии высшего порядка звукового поля, обозначаемой HOA, с входными временными кадрами (, ) последовательностей HOA-коэффициентов, причем упомянутый способ включает в себя этапы, которые выполняются на покадровой основе, на которых:

- для текущего кадра (, ), оценивают (13) набор () доминирующих направлений и соответствующий набор () данных индексов обнаруженных направленных сигналов;

- отделяют (14, 15) от последовательностей HOA-коэффициентов упомянутого текущего кадра нефиксированное число () направленных сигналов () с соответствующими направлениями, содержащимися в упомянутом наборе () оценок доминирующих направлений и с соответствующим задержанным набором () данных индексов упомянутых направленных сигналов, при этом упомянутое нефиксированное число () меньше упомянутого фиксированного числа (),

- и окружающий HOA-компонент (), который представлен посредством сокращенного числа последовательностей HOA-коэффициентов и соответствующего набора () данных индексов упомянутого сокращенного числа окружающих последовательностей HOA-коэффициентов, причем это сокращенное число соответствует разности между упомянутым фиксированным числом () и упомянутым нефиксированным числом ();

- назначают (16) упомянутые направленные сигналы () и последовательности HOA-коэффициентов упомянутого окружающего HOA-компонента () каналам, число которых соответствует упомянутому фиксированному числу (), при этом для упомянутого назначения используются упомянутый задержанный набор () данных индексов упомянутых направленных сигналов и упомянутый набор () данных индексов упомянутого сокращенного числа окружающих последовательностей HOA-коэффициентов;

- перцепционно кодируют (17) упомянутые каналы связанного кадра () таким образом, чтобы предоставлять кодированный сжатый кадр ().

2. Способ по п. 1, в котором упомянутое нефиксированное число () направленных сигналов () определяется согласно перцепционно связанному критерию таким образом, что:

- соответственно, распакованное HOA-представление предоставляет наименьшую воспринимаемую ошибку, которая может достигаться с помощью фиксированного данного числа каналов для сжатия, при этом упомянутый критерий учитывает следующие ошибки:

-- ошибки моделирования, возникающие в результате использования различных чисел упомянутых направленных сигналов () и различных чисел последовательностей HOA-коэффициентов для окружающего HOA-компонента ();

-- шум квантования, введенный посредством перцепционного кодирования упомянутых направленных сигналов ();

-- шум квантования, введенный посредством кодирования отдельных последовательностей HOA-коэффициентов упомянутого окружающего HOA-компонента ();

- полная ошибка, получающаяся в результате вышеуказанных трех ошибок, учитывается для числа тестовых направлений и числа критических полос частот относительно своей воспринимаемости;

- упомянутое нефиксированное число () направленных сигналов () выбирается таким образом, чтобы минимизировать среднюю воспринимаемую ошибку или максимальную воспринимаемую ошибку, с тем чтобы достигать упомянутой наименьшей воспринимаемой ошибки.

3. Способ по п. 1 или 2, в котором выбор сокращенного числа последовательностей HOA-коэффициентов для того, чтобы представлять окружающий HOA-компонент (), выполняется согласно критерию, который различается между следующими тремя случаями:

- в случае если число последовательностей HOA-коэффициентов для упомянутого текущего кадра () является идентичным числу последовательностей HOA-коэффициентов для предыдущего кадра (), выбираются последовательности HOA-коэффициентов, идентичные последовательностям HOA-коэффициентов в упомянутом предыдущем кадре;

- в случае если число последовательностей HOA-коэффициентов для упомянутого текущего кадра () меньше числа последовательностей HOA-коэффициентов для упомянутого предыдущего кадра (), деактивируются те последовательности HOA-коэффициентов из упомянутого предыдущего кадра, которые находятся в упомянутом предыдущем кадре, назначаемом каналу, который находится в упомянутом текущем кадре, занимаемом посредством направленного сигнала;

- в случае если число последовательностей HOA-коэффициентов для упомянутого текущего кадра () превышает число последовательностей HOA-коэффициентов для упомянутого предыдущего кадра (), те последовательности HOA-коэффициентов, которые выбраны в упомянутом предыдущем кадре, также выбраны в упомянутом текущем кадре, и эти дополнительные последовательности HOA-коэффициентов могут выбираться согласно своей перцепционной значимости или согласно наибольшей средней мощности.

4. Способ по п. 1, в котором упомянутое назначение (16) выполняется следующим образом:

- активные направленные сигналы назначаются данным каналам таким образом, что они сохраняют свои индексы каналов, чтобы получать непрерывные сигналы для упомянутого перцепционного кодирования (17);

- последовательности HOA-коэффициентов упомянутого окружающего HOA-компонента () назначаются таким образом, что минимальное число () таких последовательностей коэффициентов всегда содержится в соответствующем числе () последних каналов;

- для назначения дополнительных последовательностей HOA-коэффициентов упомянутого окружающего HOA-компонента () определяется то, выбраны они также или нет в упомянутом предыдущем кадре ():

-- если это является истинным, назначение (16) этих последовательностей HOA-коэффициентов в каналах, которые должны быть перцепционно кодированы (17), является идентичным назначению для упомянутого предыдущего кадра;

-- если это не является истинным и если последовательности HOA-коэффициентов выбираются как новые, последовательности HOA-коэффициентов сначала размещаются относительно своих индексов в порядке по возрастанию и в этом порядке назначаются каналам, которые должны быть перцепционно кодированы (17), которые еще не заняты посредством направленных сигналов.

5. Способ по п. 1, в котором является числом последовательностей HOA-коэффициентов, представляющих упомянутый окружающий HOA-компонент (), при этом параметры, описывающие упомянутое назначение (16), размещаются в битовом массиве, который имеет длину, соответствующую дополнительному числу последовательностей HOA-коэффициентов, используемых в дополнение к числу последовательностей HOA-коэффициентов для представления упомянутого окружающего HOA-компонента, при этом каждый o-й бит в упомянутом битовом массиве указывает то, используется или нет -я дополнительная последовательность HOA-коэффициентов для представления упомянутого окружающего HOA-компонента.

6. Способ по п. 1, в котором параметры, описывающие упомянутое назначение (16), размещаются в векторе назначений, имеющем длину, соответствующую числу неактивных направленных сигналов, причем элементы этого вектора указывают то, какие из дополнительных последовательностей HOA-коэффициентов окружающего HOA-компонента назначаются каналам с неактивными направленными сигналами.

7. Способ по п. 1, в котором упомянутое отделение (14) последовательностей HOA-коэффициентов упомянутого текущего кадра, помимо этого, предоставляет параметры (), которые могут использоваться на стороне распаковки для прогнозирования частей исходного HOA-представления из упомянутых направленных сигналов ().

8. Способ по одному из пп. 4-7, в котором упомянутое назначение (16) предоставляет вектор () назначений, причем элементы этого вектора представляют информацию в отношении того, какие из дополнительных последовательностей HOA-коэффициентов для упомянутого окружающего HOA-компонента назначаются каналам с неактивными направленными сигналами.

9. Устройство для сжатия с использованием фиксированного числа () перцепционных кодирований представления на основе амбиофонии высшего порядка звукового поля, обозначаемой HOA, с входными временными кадрами (, ) последовательностей HOA-коэффициентов, причем упомянутое устройство выполняет обработку на покадровой основе и включает в себя:

- средство (13), выполненное с возможностью оценки для текущего кадра (, ) набора () доминирующих направлений и соответствующего набора данных () индексов обнаруженных направленных сигналов;

- средство (14, 15), выполненное с возможностью отделения от последовательностей HOA-коэффициентов упомянутого текущего кадра нефиксированного числа () направленных сигналов () с соответствующими направлениями, содержащимися в упомянутом наборе () оценок доминирующих направлений и с соответствующим задержанным набором () данных индексов упомянутых направленных сигналов, при этом упомянутое нефиксированное число () меньше упомянутого фиксированного числа (),

- и окружающий HOA-компонент (), который представлен посредством сокращенного числа последовательностей HOA-коэффициентов и соответствующего набора данных () индексов упомянутого сокращенного числа окружающих последовательностей HOA-коэффициентов, причем это сокращенное число соответствует разности между упомянутым фиксированным числом () и упомянутым нефиксированным числом ();

- средство (16), выполненное с возможностью назначения упомянутых направленных сигналов () и последовательностей HOA-коэффициентов упомянутого окружающего HOA-компонента () каналам, число которых соответствует упомянутому фиксированному числу (), и за счет этого получения параметров () индексов выбранных окружающих последовательностей HOA-коэффициентов, описывающих упомянутое назначение, которое может использоваться для соответствующего перераспределения на стороне распаковки, при этом для упомянутого назначения используются упомянутый задержанный набор данных () индексов упомянутых направленных сигналов и упомянутый набор данных () индексов упомянутого сокращенного числа окружающих последовательностей HOA-коэффициентов;

- средство (17), выполненное с возможностью перцепционного кодирования упомянутых каналов связанного кадра () таким образом, чтобы предоставлять кодированный сжатый кадр ().

10. Устройство по п. 9, в котором упомянутое нефиксированное число () направленных сигналов () определяется согласно перцепционно связанному критерию таким образом, что:

- соответственно, распакованное HOA-представление предоставляет наименьшую воспринимаемую ошибку, которая может достигаться с помощью фиксированного данного числа каналов для сжатия, при этом упомянутый критерий учитывает следующие ошибки:

-- ошибки моделирования, возникающие в результате использования различных чисел упомянутых направленных сигналов () и различных чисел последовательностей HOA-коэффициентов для окружающего HOA-компонента ();

-- шум квантования, введенный посредством перцепционного кодирования упомянутых направленных сигналов ();

-- шум квантования, введенный посредством кодирования отдельных последовательностей HOA-коэффициентов упомянутого окружающего HOA-компонента ();

- полная ошибка, получающаяся в результате вышеуказанных трех ошибок, учитывается для числа тестовых направлений и числа критических полос частот относительно своей воспринимаемости;

- упомянутое нефиксированное число () направленных сигналов () выбирается таким образом, чтобы минимизировать среднюю воспринимаемую ошибку или максимальную воспринимаемую ошибку, с тем чтобы достигать упомянутой наименьшей воспринимаемой ошибки.

11. Устройство по п. 9 или 10, в котором выбор сокращенного числа последовательностей HOA-коэффициентов для того, чтобы представлять окружающий HOA-компонент (), выполняется согласно критерию, который различается между следующими тремя случаями:

- в случае если число последовательностей HOA-коэффициентов для упомянутого текущего кадра () является идентичным числу последовательностей HOA-коэффициентов для предыдущего кадра (), выбираются последовательности HOA-коэффициентов, идентичные последовательностям HOA-коэффициентов в упомянутом предыдущем кадре;

- в случае если число последовательностей HOA-коэффициентов для упомянутого текущего кадра () меньше числа последовательностей HOA-коэффициентов для упомянутого предыдущего кадра (), деактивируются те последовательности HOA-коэффициентов из упомянутого предыдущего кадра, которые находятся в упомянутом предыдущем кадре, назначаемом каналу, который находится в упомянутом текущем кадре, занимаемом посредством направленного сигнала;

- в случае если число последовательностей HOA-коэффициентов для упомянутого текущего кадра () превышает число последовательностей HOA-коэффициентов для упомянутого предыдущего кадра (), те последовательности HOA-коэффициентов, которые выбраны в упомянутом предыдущем кадре, также выбраны в упомянутом текущем кадре, и эти дополнительные последовательности HOA-коэффициентов могут выбираться согласно своей перцепционной значимости или согласно наибольшей средней мощности.

12. Устройство по п. 9, в котором упомянутое назначение (16) выполняется следующим образом:

- активные направленные сигналы назначаются данным каналам таким образом, что они сохраняют свои индексы каналов, чтобы получать непрерывные сигналы для упомянутого перцепционного кодирования (17);

- последовательности HOA-коэффициентов упомянутого окружающего HOA-компонента () назначаются таким образом, что минимальное число () таких последовательностей коэффициентов всегда содержится в соответствующем числе () последних каналов;

- для назначения дополнительных последовательностей HOA-коэффициентов упомянутого окружающего HOA-компонента () определяется то, выбраны они также или нет в упомянутом предыдущем кадре ():

-- если это является истинным, назначение (16) этих последовательностей HOA-коэффициентов в каналах, которые должны быть перцепционно кодированы (17), является идентичным назначению для упомянутого предыдущего кадра;

-- если это не является истинным и если последовательности HOA-коэффициентов выбираются как новые, последовательности HOA-коэффициентов сначала размещаются относительно своих индексов в порядке по возрастанию и в этом порядке назначаются каналам, которые должны быть перцепционно кодированы (17), которые еще не заняты посредством направленных сигналов.

13. Устройство по п. 9, в котором является числом последовательностей HOA-коэффициентов, представляющих упомянутый окружающий HOA-компонент (), при этом параметры, описывающие упомянутое назначение (16), размещаются в битовом массиве, который имеет длину, соответствующую дополнительному числу последовательностей HOA-коэффициентов, используемых в дополнение к числу последовательностей HOA-коэффициентов для представления упомянутого окружающего HOA-компонента, при этом каждый o-й бит в упомянутом битовом массиве указывает то, используется или нет -я дополнительная последовательность HOA-коэффициентов для представления упомянутого окружающего HOA-компонента.

14. Устройство по п. 9, в котором параметры, описывающие упомянутое назначение (16), размещаются в векторе назначений, имеющем длину, соответствующую числу неактивных направленных сигналов, причем элементы этого вектора указывают то, какие из дополнительных последовательностей HOA-коэффициентов окружающего HOA-компонента назначаются каналам с неактивными направленными сигналами.

15. Устройство по п. 9, в котором упомянутое отделение (14) последовательностей HOA-коэффициентов упомянутого текущего кадра, помимо этого, предоставляет параметры (), которые могут использоваться на стороне распаковки для прогнозирования частей исходного HOA-представления из упомянутых направленных сигналов ().

16. Устройство по одному из пп. 12-15, в котором упомянутое назначение (16) предоставляет вектор () назначений, причем элементы этого вектора представляют информацию в отношении того, какие из дополнительных последовательностей HOA-коэффициентов для упомянутого окружающего HOA-компонента назначаются каналам с неактивными направленными сигналами.

17. Способ распаковки представления на основе амбиофонии высшего порядка, сжатого согласно способу по п. 1, причем упомянутая распаковка включает в себя этапы, на которых:

- перцепционно декодируют (31) текущий кодированный сжатый кадр () таким образом, чтобы предоставлять перцепционно декодированный кадр () каналов;

- перераспределяют (32) упомянутый перцепционно декодированный кадр () каналов с использованием упомянутого набора данных () индексов направленных сигналов и упомянутого набора данных () индексов выбранных окружающих последовательностей HOA-коэффициентов, с тем чтобы воссоздавать соответствующий кадр направленных сигналов () и соответствующий кадр окружающего HOA-компонента ();

- повторно составляют (33) текущий распакованный кадр () HOA-представления из упомянутого кадра направленных сигналов () и из упомянутого кадра окружающего HOA-компонента () с использованием упомянутого набора ()данных индексов обнаруженных направленных сигналов и упомянутого набора () оценок доминирующих направлений,

- при этом направленные сигналы относительно равномерно распределенных направлений прогнозируются из упомянутых направленных сигналов (), и после этого упомянутый текущий распакованный кадр () повторно составляется из упомянутого кадра направленных сигналов (), упомянутых прогнозированных сигналов и упомянутого окружающего HOA-компонента ().

18. Способ по п. 17, в котором упомянутое прогнозирование направленных сигналов относительно равномерно распределенных направлений выполняется из упомянутых направленных сигналов () с использованием упомянутых принимаемых параметров () для упомянутого прогнозирования.

19. Способ по п. 17 или 18, в котором в упомянутом перераспределении (32), вместо набора () данных индексов обнаруженных направленных сигналов и набора () данных индексов выбранных окружающих последовательностей HOA-коэффициентов используется принимаемый вектор () назначений, причем элементы этого вектора представляют информацию в отношении того, какие из дополнительных последовательностей HOA-коэффициентов для упомянутого окружающего HOA-компонента назначаются каналам с неактивными направленными сигналами.

20. Устройство для распаковки представления на основе амбиофонии высшего порядка, сжатого согласно способу по п. 1, причем упомянутое устройство включает в себя:

- средство (31), выполненное с возможностью перцепционного декодирования текущего кодированного сжатого кадра () таким образом, чтобы предоставлять перцепционно декодированный кадр () каналов;

- средство (32), выполненное с возможностью перераспределения упомянутого перцепционно декодированного кадра () каналов с использованием упомянутого набора () данных индексов обнаруженных направленных сигналов и упомянутого набора () данных индексов выбранных окружающих последовательностей HOA-коэффициентов, с тем чтобы воссоздавать соответствующий кадр направленных сигналов () и соответствующий кадр окружающего HOA-компонента ();

- средство (33), выполненное с возможностью повторного составления текущего распакованного кадра () HOA-представления из упомянутого кадра направленных сигналов () и из упомянутого кадра окружающего HOA-компонента () с использованием упомянутого набора () данных индексов обнаруженных направленных сигналов и упомянутого набора () оценок доминирующих направлений,

- при этом направленные сигналы относительно равномерно распределенных направлений прогнозируются из упомянутых направленных сигналов (), и после этого упомянутый текущий распакованный кадр () повторно составляется из упомянутого кадра направленных сигналов (), упомянутых прогнозированных сигналов и упомянутого окружающего HOA-компонента ().

21. Устройство по п. 20, в котором упомянутое прогнозирование направленных сигналов относительно равномерно распределенных направлений выполняется из упомянутых направленных сигналов () с использованием упомянутых принимаемых параметров () для упомянутого прогнозирования.

22. Устройство по п. 20 или 21, в котором в упомянутом перераспределении (32), вместо набора () данных индексов обнаруженных направленных сигналов и набора () данных индексов выбранных окружающих последовательностей HOA-коэффициентов, используется принимаемый вектор () назначений, причем элементы этого вектора представляют информацию в отношении того, какие из дополнительных последовательностей HOA-коэффициентов для упомянутого окружающего HOA-компонента назначаются каналам с неактивными направленными сигналами.



 

Похожие патенты:

Изобретение относится к средствам для аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен.

Изобретение относится к устройствам, способу и машиночитаемому носителю для воспроизведения звукового объекта. Технический результат заключается в оптимизации воспроизведения звукового объекта.

Изобретение относится к средствам для формирования одного или более аудиоканалов. Технический результат заключается в повышении эффективности кодирования метаданных.

Изобретение относится к средствам для амплитудного панорамирования с затуханием фронтов. Технический результат заключается в повышении эффективности кодирования аудио.

Изобретение относится к средствам для осуществления понижающего микширования SAOC объемного аудиоконтента. Технический результат заключается в повышении эффективности понижающего микширования аудиоконтента.

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен.

Изобретение относится к средствам для масштабирования центрального сигнала. Технический результат заключается в повышении разборчивости речи.

Изобретение относится к средствам для заполнения шумом при многоканальном кодировании аудио. Технический результат заключается в повышении эффективности кодирования на низких скоростях передачи битов.

Изобретение относится к аудиокодированию/аудиодекодированию. Технический результат – повышение точности воспроизведения аудиосигнала.

Изобретение относится к средствам для сжатия разложенных представлений звукового поля. Технический результат заключается в повышении эффективности обработки звукового поля.

Изобретение относится к средствам для расширения диапазона частот при декодировании аудиосигналов. Технический результат заключается в повышении эффективности расширения диапазона частот без дополнительной информации из кодера.

Изобретение относится к средствам для переключения технологии кодирования при кодировании аудиосигнала. Технический результат заключается в сокращении артефактов на границах кадров и несогласованностей энергии при переключении технологии кодирования.

Изобретение относится к обработке аудиосигналов. Технический результат – повышение качества звука.

Изобретение предназначено для распознавания протоколов низкоскоростного кодирования речи (НСКР). Технический результат заключается в повышении точности распознавания протоколов НСКР.

Изобретение относится к средствам для генерации сигнала верхней полосы. Технический результат заключается в повышении эффективности кодирования.

Изобретение относится к средствам для кодирования сигналов. Технический результат заключается в повышении эффективности классификации между кодированием во временной области и кодированием в частотной области.

Изобретение относится к обработке аудиосигнала. Технический результат – обеспечение формирования расширенного сигнала из входного сигнала.

Изобретение относится к обработке аудиосигналов. Технический результат – обеспечение маскирования ошибки во временной области с использованием сигнала возбуждения во временной области.

Изобретение относится к средствам для кодирования, декодирования и вывода аудиосигнала. Технический результат заключается в повышении качества аудиосигнала. Вычисляют расстояние между позицией идеального громкоговорителя, воспроизводящего аудиосигнал, и позицией реального громкоговорителя, воспроизводящего аудиосигнал. Вычисляют коэффициент усиления воспроизведения аудиосигнала на основании указанного расстояния. Выполняют регулировку коэффициента усиления аудиосигнала на основании коэффициента усиления воспроизведения. Корректируют коэффициент усиления воспроизведения на основании отношения между полной мощностью выходного звука и полной мощностью входного звука. Причем полная мощность выходного звука основана на аудиосигнале, подвергнутом регулировке коэффициента усиления посредством коэффициента усиления воспроизведения. 7 н. и 12 з.п. ф-лы, 11 ил.
Наверх