Устройство, способ и компьютерная программа для формирования с использованием среднего значения параметров сигнала, подстроенных для обеспечения представления микшированного с повышением сигнала на базе представления микшированного с понижением сигнала и параметрической сторонней информации, связанной с представлением микшированного с понижением сигнала

Авторы патента:

ФАЛХ Корнелия (AT)

ХЕРРЕ Юрген (DE)

ТЕРЕНТИВ Леон (DE)

G10L19/008 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2607266:

Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE)

Изобретение относится к области микширования. Технический результат – устранение слышимого искажения в сигнале. Устройство для формирования одного или нескольких подстроенных параметров для формирования представления сигнала повышающего микширования, на основе представления сигнала понижающего микширования и связанного с этим представлением сигнала понижающего микширования служебной параметрической информации с использованием среднего значения параметров, включающее подстройщик параметра, выполненный с возможностью получения одного или нескольких параметров и формирования на их основе одного или нескольких подстроенных параметров, где подстройщик параметра выполнен с возможностью сформировать один или более подстроенных параметров в зависимости от среднего значения из множества значений параметра, так, что искажение представления микшированного с повышением сигнала, вызываемое при использовании неоптимальных параметров для обработки представления микшированного с повышением сигнала, уменьшено, по крайней мере, для одного или более параметров, отклоняющихся от оптимальных параметров больше, чем на предопределенное отклонение. 4 н. и 18 з.п. ф-лы, 10 ил.

Решение согласно изобретению связано с устройством, обеспечивающим один или несколько подстроенных параметров для формирования представления микшированного с повышением (расширенного) сигнала на основе представления микшированного с понижением (сокращенного) сигнала и параметрической сторонней (служебной) информации, связанной с сокращенным представлением сигнала.

Другое решение согласно изобретению связано с устройством, обеспечивающим представление микшированного с повышением сигнала на основе представления микшированного с понижением сигнала и параметрической сторонней информации.

Другое решение согласно изобретению связано со способом, обеспечивающим один или несколько параметров, подстроенных для формирования представления микшированного с повышением сигнала на основе представления микшированного с понижением сигнала и параметрической сторонней информации, связанной с представлением микшированного с понижением сигнала.

Другое решение согласно изобретению связано с компьютерной программой для осуществления предложенного способа.

Некоторые решения согласно изобретению связаны со схемой ограничения параметра контроля искажения в системах MPEGSAOC.

В технике обработки аудио, передачи аудио и хранения аудио есть растущая потребность обращаться с многоканальным содержанием, чтобы улучшить впечатление от прослушивания. Использование многоканального аудио содержания принесло с собой существенные улучшения для пользователя. Например, может быть получено трехмерное впечатление от прослушивания, которое приносит улучшенное удовлетворение пользователя в развлекательных приложениях. Кроме этого, многоканальное аудио содержание также полезно в профессиональной окружающей среде, например в телефонных приложениях конференцсвязи, потому что ясность разговора может быть улучшена при помощи многоканального аудио воспроизведения.

Недавно были предложены параметрические способы с эффективным битрейтом для передачи и/или хранения аудио сцен, содержащих множественные аудио объекты, например, Бинауральное Кодирование Реплики (Тип I) (см., например, ссылку [1]), Объединенное Кодирование Источника (см., например, ссылку [2]), и Пространственное кодирование аудио объекта (Spatial Audio Object Coding - (SAOC) MPEG (см., например, ссылки [3], [4], [5]).

В сочетании с пользовательской интерактивностью на приемной стороне такие способы могут привести к низкому качеству звука выходных сигналов, если осуществляется экстремальная обработка (рендеринг) объекта (см., например, ссылку [6]).

Эти способы осуществляются не подбором формы волны, а перцепционным восстановлением желаемого выходного аудио сигнала.

На фиг.8 показан краткий обзор такой системы (здесь: MPEG SAOC). MPEG SAOC система 800, показанная на фиг.8, включает кодирующее устройство SAOC 810 и декодер SAOC 820. Кодирующее устройство SAOC 810 получает множество от x₁ до x_N сигналов объекта, которое может быть представлено, например, сигналами во временной области или сигналами частотно-временной области (например, в форме коэффициентов преобразования ряда Фурье, или в форме сигналов подгруппы QMF). Кодирующее устройство SAOC 810, как правило, также получает сокращенные коэффициенты от d₁ до d_N, которые связаны с сигналами объекта от x₁ до x_N. Раздельные наборы сокращенных коэффициентов могут быть доступны для каждого микшированного с понижением канала. Кодирующее устройство SAOC 810, как правило, выполнено с возможностью получить канал микшированного с понижением сигнала, объединяя сигналы объекта от x₁ до x_N в соответствии со связанными сокращенными коэффициентами от d₁ до d_N. Как правило, существует меньшее число каналов микшированного с понижением сигнала, чем сигналов объекта от x₁ до x_N. Чтобы обеспечить (по крайней мере, приблизительно) разделение (или раздельную обработку) сигналов объекта на стороне декодера SAOC 820, кодирующее устройство SAOC 810 предоставляет один или больше сокращенных сигналов (выполненных в виде сокращенных каналов) 812 и стороннюю информацию 814. Сторонняя информация 814 описывает особенности сигналов объекта от x₁ до x_N, чтобы учесть определенную для объекта обработку на стороне декодера.

Декодер SAOC 820 выполнен с возможностью получить один или более сокращенных сигналов 812 и стороннюю информацию 814. Кроме того, декодер SAOC 820, как правило, выполнен с возможностью получения пользовательской информации о взаимодействии и/или пользовательской информации о контроле 822, которая описывает желаемую установку обработки. Например, пользовательская информация о взаимодействии/контроле 822 может описать установки спикера и желаемое пространственное размещение объектов, которые обеспечивают сигналы объектов x₁ к x_N.

Декодер SAOC 820 выполнен с возможностью формирования, например, множества декодированных сигналов от до канала upmix. Сигналы канала upmix могут, например, быть связаны с индивидуальными спикерами мультиспикерного оборудования. Декодер SAOC 820 может, например, включать сепаратор объекта 820а, который выполнен с возможностью восстановления, по крайней мере, приблизительно, сигналов объекта от x₁ до x_N на основе одного или более сокращенных сигналов 812 и сторонней информации 814, таким образом, получая восстановленные сигналы объекта 820b. Однако восстановленные сигналы объекта 820b могут несколько отличаться от оригинальных сигналов объекта от x₁ до x_N, например, потому что сторонняя информация 814 не совсем достаточна для идеальной реконструкции из-за ограничений битрейта. Декодер SAOC 820 может далее включать смеситель 820с, который может быть выполнен с возможностью получения восстановленных сигналов объекта 820b и информации о действии пользователей/управления работой пользователей 822 и обеспечить, на основе этого, сигналы от до канала upmix. Смеситель 820с может быть выполнен с возможностью использования информации о действии пользователей/управления работой пользователей 822, чтобы определить, вклад индивидуального восстановленного сигнала объекта 820b в сигналы от до канала upmix. Информация о действии пользователей/управления работой пользователей 822 может, например, включать параметры обработки (также определяемые как предоставление коэффициентов), которые определяют вклад индивидуального восстановленного сигнала объекта 820b в сигналы от до канала upmix.

Нужно отметить, что во многих воплощениях блок разделения объекта, который обозначен сепаратором объекта 820а на фиг.8, и блок смешивания, который обозначен миксером 820с на фиг.8, реализованы на одном единственном шаге. С этой целью могут быть вычислены все параметры, которые описывают прямое отображение одного или более сокращенных сигналов 812 на сигналы от до канала upmix. Эти параметры могут быть вычислены на основе сторонней информации и информации о действии пользователей/управления работой пользователей 822.

На фиг.9а, 9b и 9с представлены различные устройства для того, чтобы получить представление микшированного с повышением сигнала на основе представления микшированного с понижением сигнала и связанной с объектом сторонней информации.

Нужно отметить, что связанная с объектом сторонняя информация является примером сторонней информации, связанной с сигналом понижающего микширования. На фиг.9а показана блок схема MPEG SAOC системы 900, включающей декодер SAOC 920. Декодер SAOC 920 включает, как отдельные функциональные блоки, декодер объекта 922 и смеситель/обработчик 926. Декодер объекта 922 обеспечивает множество восстановленных сигналов объекта 924 в зависимости от представления микшированного с понижением сигнала (например, в форме одного или более сокращенных сигналов, представленных на временном интервале или в частотно временной области), и связанную с объектом стороннюю информацию (например, в форме объекта мета данных). Смеситель/обработчик 926 получает восстановленные сигналы объекта 924, связанные с множеством из N объектов, и обеспечивает на их основе и на основе информации об обработке один или несколько микшированных с повышением сигналов канала 928. В декодере SAOC 920 извлечение сигналов объекта 924 выполнено отдельно от смешивания/обработки, что учитывает разделение функциональности декодирования объекта от функциональности смешивания/обработки, но вносит относительно высокую вычислительную сложность.

На фиг.9b представлена другая MPEG SAOC система 930, которая включает декодер SAOC 950. Декодер SAOC 950 обеспечивает множество микшированных с повышением сигналов канала 958 в зависимости от представления микшированного с понижением сигнала (например, в форме одного или более сокращенных сигналов) и связанной с объектом сторонней информации (например, в форме объекта метаданных). Декодер SAOC 950 включает объединенный декодер объекта и смеситель/обработчик, который выполнен с возможностью получения микшированных с повышением сигналов канала 958 в объединенном процессе смешивания без разделения декодирования объекта и смешивания/обработки, причем параметры для указанного объединенного процесса повышающего микширования зависят и от связанной с объектом сторонней информации и от информации об обработке. Объединенный процесс повышающего микширования зависит также от информации о понижающем микшировании, которая, как полагают, является частью связанной с объектом сторонней информации.

Суммируя сказанное, представление сигналов повышающего микширования 928, 958 канала может быть выполнено в одношаговом процессе шага или двухшаговом процессе.

На фиг.9c представлена MPEG SAOC система 960. Система SAOC 960 включает транскодер от SAOC к MPEG окружению 980, а не декодер SAOC.

Транскодер от SAOC к MPEG окружению включает транскодер сторонней информации 982, который выполнен с возможностью получения связанной с объектом сторонней информации (например, в форме объекта мета данных) и, возможно, информации об одном или более сокращенном сигнале и информации об обработке. Транскодер сторонней информации также выполнен с возможностью обеспечения на основе полученных данных сторонней информации MPEG окружения (например, в форме битового потока MPEG окружения). Соответственно, транскодер сторонней информации 982 выполнен с возможностью преобразовать связанную с объектом (параметрическую) стороннюю информацию, которая получена от устройства, кодирующего объект, в связанную с каналом (параметрическую) стороннюю информацию, учитывая информацию об обработке и, возможно, информацию о содержимом одного или более сокращенных сигналов.

Возможно, транскодер от SAOC к MPEG окружению 980 может быть выполнен с возможностью манипуляции одним или более сокращенных сигналов, описанных, например, представлением микшированного с понижением сигнала, чтобы получить обработанное представление микшированного с понижением сигнала 988. Однако манипулятор микшированного с понижением сигнала 986 может быть опущен, так что выходной сигнал транскодера 980 микшированного с понижением представления сигнала 988 от SAOC к MPEG окружению идентичен входному представлению микшированного с понижением сигнала от SAOC к MPEG окружению транскодера. Манипулятор микшированного с понижением сигнала 986 может, например, использоваться, если связанная с каналом MPEG окружения сторонняя информация 984 не позволяла бы обеспечивать желаемое впечатление от слушания на основе входного представления микшированного с понижением сигнала от SAOC к MPEG окружению транскодера 980, что может иметь место в некоторых вариантах обработки.

Соответственно, транскодер от SAOC к MPEG окружению 980 обеспечивает представление микшированного с понижением сигнала 988 и битовый поток MPEG окружения 984 таким образом, что множество сигналов канала повышающего микширования, которые представляют аудио объекты в соответствии с входной информацией об обработке транскодера от SAOC к MPEG окружению 980, может быть сформировано, используя декодер MPEG окружения, который получает битовый поток MPEG окружения 984 и представление микшированного с понижением сигнала 988.

Суммируя сказанное, могут использоваться различные понятия для того, чтобы расшифровать SAOC-закодированные аудиосигналы. В некоторых случаях декодер SAOC используется, чтобы обеспечить сигналы канала повышающего микширования (например, сигналы 928, 958 канала повышающего микширования) в зависимости от представления сигнала понижающего микширования и связанной с объектом параметрической сторонней информации. Примеры этой концепции представлены на фиг.9а и 9b. Альтернативно, SAOC-закодированная аудио информация может быть транскодирована, чтобы получить представление микшированного с понижением сигнала (например, представление микшированного с понижением сигнала 988) и связанной с каналом сторонней информации (например, связанный с каналом MPEG окружения битовый поток 984), который может использоваться декодером MPEG окружения, чтобы обеспечить желаемые сигналы канала повышающего микширования.

В MPEG SAOC системе 800, системный краткий обзор которой дан на фиг.8, общая обработка выполнена путем частотного отбора и может быть описана следующим образом в пределах каждого диапазона частот:

- N входных сигналов аудио объекта от x₁ до x_N сокращаются как часть обработки кодирующего устройства SAOC. Для моно сокращения коэффициенты сокращения обозначены от d₁ до d_N. В дополнение, кодирующее устройство SAOC 810 извлекает стороннюю информацию 814 описаний особенностей входных аудио объектов. Для MPEG SAOC отношения мощности объектов относительно друг друга - наиболее каноническая форма такой сторонней информации.

- Сокращенный сигнал (или сигналы) 812 и сторонняя информация 814 передаются и/или сохраняются. С этой целью сокращенный аудиосигнал может быть сжат с использованием известных перцепционных аудио кодеров, таких как MPEG-1 уровней II или III (также известный как ".mp3"), MPEG Advanced Audio Coding (AAC) или любой другой аудио кодер.

- На стороне получения декодер SAOC 820 стремится концептуально восстановить оригинальный сигнал объекта ("разделение объекта"), используя переданную стороннюю информацию 814 (и, естественно, один или более сокращенных сигналы 812). Эти приближенные сигналы объекта (также определяемые как восстановленные сигналы объекта 820b) затем смешиваются в целевую сцену, представленную каналами звукового выхода М (которые могут, например, быть представлены сигналами повышающего микширования от до канала), используя матрицы обработки (рендеринга). Для моно выходного сигнала коэффициенты матрицы обработки даны от r₁ до r_N.

- Для эффективности разделение сигналов объекта редко выполняется (или даже никогда не выполняется), поскольку оба шага: шаг разделения (обозначенный сепаратором объекта 820а) и шаг смешения (обозначенный миксером 820 с) объединены в единственный транскодирующий шаг, что часто приводит к большому сокращению вычислительной сложности.

Было установлено, что такая схема чрезвычайно эффективна, как с точки зрения битрейта передачи (необходимо передать только некоторые сокращенные каналы плюс некоторую стороннюю информацию вместо дискретных аудиосигналов объекта N, или дискретной системы), так и с точки зрения вычислительной сложности (сложность обработки определяется, главным образом, числом выходных каналов, а не числом аудио объектов). Дальнейшие преимущества для пользователя на стороне получения заключаются в свободе выбора установки обработки (моно, стерео, окружение, виртуальное воспроизведение наушников, и так далее), и в особенности пользовательской интерактивности: матрица обработки, и таким образом выходная сцена, могут быть установлены и изменены в интерактивном режиме пользователем согласно желанию, личному предпочтению или другим критериям. Например, возможно определить местонахождение говорящих в одной группе вместе в одной пространственной области, чтобы максимизировать разделение от других оставшихся говорящих. Эта интерактивность достигается путем использования пользовательского интерфейса декодера.

Для каждого переданного звукового объекта его относительный уровень и (для не моно обработки) пространственное положение может быть подстроено. Это может происходить в режиме реального времени, поскольку пользователь изменяет положение связанных ползунков графического интерфейса пользователя (GUI) (например, уровень объекта=+5dB, положение объекта=-30deg).

Однако было обнаружено, что выбор на стороне декодера параметров обработки представления сигнала повышающего микширования (например, сигналы канала повышающего микширования от до ) вносит с собой в некоторых случаях ухудшение аудио.

Ввиду этой ситуации задача данного изобретения заключается в создании концепции, которая приводит к сокращению или даже устранению слышимого искажения, обеспечивая представление сигнала повышающего микширования (например, в форме сигналов канала повышающего микширования от до ).

Эта проблема решена устройством, обеспечивающим один или несколько подстроенных параметров для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и параметрической сторонней информации, связанной с представлением сигнала понижающего микширования. Устройство включает подстройщик параметра, выполненный с возможностью получить один или несколько параметров (которые могут быть входными параметрами в некоторых воплощениях) и сформировать на их основе один или несколько подстроенных параметров. Подстройщик параметра выполнен с возможностью сформировать один или более подстроенных параметров в зависимости от среднего значения среди множества значений параметра (которые в некоторых воплощениях могут быть величинами входного параметра), так что искажение представления сигнала повышающего микширования, вызванное неоптимальными параметрами, уменьшается, по крайней мере, для параметров (или входных параметров), отклоняющихся от оптимальных параметров больше, чем предопределенное отклонение.

Это воплощение согласно изобретению основано на идее, что среднее значение множества входных значений параметра составляет значимую величину, которая учитывает подстройку параметров, используемых для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и параметрической сторонней информации, связанной с представлением сигнала понижающего микширования, потому что искажения часто вызываются чрезмерными отклонениями от такого среднего значения. Использование среднего значения учитывает подстройку одного или более параметров, чтобы избежать таких чрезмерных отклонений от среднего значения и, следовательно, избежать чрезмерно ухудшенного качества звука.

Описанное выше решение обеспечивает концепцию сохранения субъективного качества звука сцены, предоставленной SAOC, для которой вся обработка может быть выполнена полностью в пределах декодера/транскодера SAOC, потому что декодер/транскодер SAOC включает полную информацию, требуемую для регулирования параметров. Кроме того, вышеописанное решение не приводит к большим вычислениям сложных мер воспринимаемого качества звука обрабатываемой сцены, потому что было обнаружено, что ограничение отклонения между величиной параметра и его средним значением, как правило, приводит к хорошему впечатлению от слушания, в то время как большие отклонения между величиной параметра и его средним значением, как правило, приводят к слышимым искажениям. Таким образом, вышеупомянутое – обсужденное воплощение предусматривает особенно эффективный механизм, а именно использование среднего значения, для того, чтобы соответственно приспособить параметры, которые рассматривают для предоставления представления сигнала повышающего микширования.

В предпочтительном воплощении устройство подстройщика параметра выполнено с возможностью обеспечения одного или более подстроенных параметров в зависимости от среднего значения, которое является взвешенным средним числом множества значений параметра. Используемое взвешенное среднее значение обеспечивает высокую степень свободы, потому что возможно использовать различные веса для различных величин параметра. Однако использование одинаковых весов к значениям параметра также возможно.

В предпочтительном воплощении устройство подстройки параметра выполнено с возможностью обеспечить один или более подстроенных параметров, таким образом, что один или более подстроенных параметров отклоняются от среднего значения меньше, чем соответствующие полученные параметры. Приводя подстроенные параметры близко к среднему значению или даже устанавливая подстроенные параметры равными среднему значению, может быть достигнуто значительное сокращение искажений.

В предпочтительном воплощении устройство выполнено с возможностью получения одного или нескольких коэффициентов обработки (также определяемых как параметры обработки), описывающих вклады аудио объектов в один или более каналов обработки микшированного с повышением сигнала. В этом случае устройство предпочтительно выполнено с возможностью формирования одного или нескольких подстроенных коэффициентов обработки как подстроенных параметров. Было обнаружено, что подстройка параметров обработки в зависимости от среднего значения среди множества значений параметров, которые служат входными значениями параметра, приносит с собой возможность получить подходящие подстроенные параметры обработки, которые устраняют чрезмерные слышимые искажения.

В предпочтительном воплощении подстройщик параметра выполнен с возможностью получения в виде входных параметров множества коэффициентов обработки. В этом случае подстройщик параметра выполнен с возможностью вычисления среднего значения среди коэффициентов обработки, связанных со множеством аудио объектов. Кроме того, подстройщик параметра выполнен с возможностью сформировать подстроенные коэффициенты обработки, таким образом, что отклонение подстроенного коэффициента обработки от среднего значения среди коэффициентов обработки, связанных с множеством аудио объектов, ограничено. Это воплощение, согласно изобретению, основано на обнаруженном положении, заключающемся в том, что искажение представления микшированного с повышением сигнала, полученное из-за неоптимальных параметров обработки, как правило, уменьшается, по крайней мере, для параметров обработки, отклоняющихся от оптимальных параметров обработки больше, чем предопределенное отклонение, если отклонение подстроенного коэффициента обработки от среднего значения среди значений коэффициентов обработки, связанных с множеством аудио объектов, ограничено. Таким образом, простой механизм, а именно подстройка коэффициентов обработки так, что отклонение подстроенных коэффициентов обработки от среднего значения среди коэффициентов обработки, связанных с множеством аудио объектов, ограничено, позволяет избегать чрезмерных слышимых искажений.

В предпочтительном воплощении подстройщик параметра выполнен с возможностью оставить неизменным коэффициент обработки, который находится в пределах допустимого интервала, определенного в зависимости от среднего по коэффициентам обработки, и выборочно установить коэффициент обработки, который больше, чем верхнее граничное значение допустимого интервала, равным величине, которая меньше, чем или равна верхнему граничному значению, и выборочно установить коэффициент обработки, который меньше, чем более низкое граничное значение допустимого интервала, равным величине, которая больше, чем или равна более низкому граничному значению. Соответственно, установлен очень простой механизм для того, чтобы подстроить коэффициенты обработки, причем этот простой механизм позволяет получать подстроенные коэффициенты обработки, которые избегают чрезмерного искажения представления микшированного с повышением сигнала, которое было бы вызвано из-за неоптимальных параметров обработки, которые существенно отличаются от среднего значения.

В привилегированном воплощении подстройщик параметра выполнен с возможностью многократно выбрать соответствующий из коэффициентов обработки, который имеет максимальное отклонение от среднего значения среди коэффициентов обработки в соответствующей итерации, и привести выбранный из коэффициентов обработки ближе к среднему значению среди значений коэффициентов обработки. Соответственно, параметры обработки, которые находятся за пределами допустимого интервала, определенного в зависимости от среднего по коэффициентам обработки, многократно приводятся в допустимый интервал. Таким образом, параметры обработки подстроены в зависимости от оценки среднего таким образом, что искажение представления микшированного с повышением сигнала, полученное из-за неоптимальных параметров обработки, как правило уменьшается (по крайней мере, для входных параметров, отклоняющихся от оптимальных параметров обработки больше, чем предопределенное отклонение). В предпочтительном воплощении подстройщик параметра выполнен с возможностью повторения итеративного выбора соответствующего из коэффициентов обработки и итеративной модификации выбранного из коэффициентов обработки, пока все параметры обработки не подстроены, чтобы быть в пределах допустимых интервалов. Соответственно, это обеспечивает достаточно малые слышимые искажения в представлении микшированного с повышением сигнала. В предпочтительном воплощении устройство выполнено с возможностью получить один или несколько коэффициентов транскодирования (далее транскодирующих коэффициентов), описывающих отображение одного или более каналов представления микшированного с понижением сигнала на один или несколько каналов представления микшированного с повышением сигнала. В этом случае устройство выполнено с возможностью обеспечить один или несколько подстроенных транскодирующих коэффициентов в качестве подстроенных параметров. Это воплощение согласно изобретению основано на открытии, что транскодирующие коэффициенты также подходят для регулирования в зависимости от среднего значения, потому что большие отклонения транскодирующих коэффициентов от среднего значения, как правило, вызывают слышимые искажения. Соответственно, возможно уменьшить искажения представления микшированного с повышением сигнала, полученные из-за неоптимальных транскодирующих коэффициентов (по крайней мере, для входных транскодирующих коэффициентов, отклоняющихся от оптимальных транскодирующих коэффициентов больше, чем на предопределенное отклонение), путем регулирования, или ограничения транскодирующих параметров в зависимости от оценки среднего. В предпочтительном воплощении подстройщик параметра выполнен с возможностью получить в качестве входных параметров временную последовательность коэффициентов транскодирования (также определяемую как параметры транскодирования). В этом случае подстройщик параметра выполнен с возможностью вычислить среднее по времени (также определяемое как среднее по времени значение) в зависимости от множества коэффициентов транскодирования. Кроме того, подстройщик параметра выполнен с возможностью обеспечить подстроенные транскодирующие коэффициенты таким образом, что отклонение подстроенных транскодирующих коэффициентов от среднего по времени ограничено. Таким образом, создан простой механизм для того, чтобы избежать чрезмерных слышимых искажений представления микшированного с повышением сигнала, вызванных из-за неоптимальных транскодирующих коэффициентов.

В предпочтительном воплощении подстройщик параметра выполнен с возможностью оставить неизменным транскодирующий коэффициент, который находится в пределах допустимого интервала, определенного в зависимости от среднего по времени (которое определяет среднее значение). Кроме того, подстройщик параметра выполнен с возможностью выборочно установить транскодирующий коэффициент, который больше чем верхнее граничное значение допустимого интервала, равным величине, которая меньше, чем или равна верхнему граничному значению допустимого интервала, и выборочно установить транскодирующий коэффициент, который меньше чем более низкое граничное значение допустимого интервала, равным величине, которая больше чем или равна более низкому граничному значению. Соответственно, транскодирующие коэффициенты могут быть приведены к четкому допустимому интервалу, что позволяет уменьшать искажения представления микшированного с повышением сигнала, вызванные неоптимальными транскодирующими коэффициентами, по крайней мере, для транскодирующих коэффициентов, отклоняющихся от оптимальных транскодирующих коэффициентов больше, чем предопределенное отклонение. Допустимый интервал выбирается адаптивным способом, поскольку используется среднее по времени. Эта концепция основана на открытии того, что сильные временные изменения транскодирующих коэффициентов, как правило, вносят слышимые искажения и поэтому должны быть до некоторой степени ограничены.

В предпочтительном воплощении подстройщик параметра выполнен с возможностью вычисления среднего по времени, используя низкочастотную фильтрацию последовательности коэффициентов транскодирования. Согласно этой концепции надо выделять очень четко среднее по времени, в котором учитывается долгосрочное изменение транскодирующих коэффициентов. Кроме того, было обнаружено, что такое рекурсивное низкочастотное фильтрование последовательности коэффициентов транскодирования может быть осуществлено с небольшими вычислительными затратами по памяти, что помогает уменьшить требования к памяти. В частности, возможно получить значащее среднее по времени, не храня историю коэффициентов транскодирования в течение длительного периода времени.

В предпочтительном воплощении подстройщик параметра выполнен с возможностью обеспечить требуемый параметр из одного или более подстроенных параметров, таким образом, что требуемый параметр был в пределах допустимого интервала, границы которого определены в зависимости от значения среднего на множестве входных значений параметра и одного или более значений пределов допустимых параметров, и, следовательно, отклонение между входным параметром и соответствующим подстроенным параметром минимизировано или осталось в рамках предопределенного максимального допустимого диапазона. Было найдено, что подстроенные параметры, приносящие хорошее впечатление от слушания, могут быть получены путем ограничения подстроенных параметров допустимым интервалом, кроме этого, принимая во внимание задачу избежать чрезмерных различий между входным параметром и соответствующим подстроенным параметром. Соответственно, искажение представления микшированного с повышением сигнала, вызванного неоптимальными параметрами, может быть уменьшено без ненужного компромисса требуемых аудио установок, определяемых входными параметрами.

В предпочтительном воплощении, чтобы получить подстроенное значение входного параметра, подстройщик параметра выполнен с возможностью выборочно установить входной параметр, который оказывается за пределами допустимого интервала, к верхнему граничному значению или к низкому граничному значению допустимого интервала, границы которого определены в зависимости от среднего значения множества входных значений параметра.

В другом предпочтительном воплощении подстройщик параметра выполнен с возможностью многократно выбрать один из входных параметров, который имеет максимальное отклонение от среднего значения в соответствующей итерации, и привести выбранный из входных параметров ближе к среднему значению, для того чтобы итеративно привести входные параметры, которые находятся за пределами допустимого интервала (границы которого определены в зависимости от оценки среднего), в допустимый интервал.

В предпочтительном воплощении подстройщик параметра выполнен с возможностью выбрать размер шага, используемого для приведения параметра, выбранного из входных параметров ближе к среднему значению.

Другое решение согласно изобретению создает устройство для того, чтобы обеспечить представление микшированного с повышением сигнала на основе представления микшированного с понижением сигнала и параметрической сторонней информации. Указанное устройство включает устройство для того, чтобы обеспечить один или несколько подстроенных параметров на основе одного или нескольких входных параметров, как было обсуждено ранее. Устройство для того, чтобы обеспечить представление микшированного с повышением сигнала, также включает процессор сигнала, выполненный с возможностью получить представление микшированного с повышением сигнала на основе представления микшированного с понижением сигнала и параметрической сторонней информации. Устройство для того, чтобы обеспечить один или несколько подстроенных параметров, выполнено с возможностью обеспечить подстроенные версии одного или более обрабатываемых процессором сигнала параметров, например параметров обработки на входе процессора сигнала или параметров транскодирования, вычисленных в процессоре сигнала и использованных процессором сигнала, чтобы получить представление микшированного с повышением сигнала.

Это решение основано на открытии, что есть большое количество параметров, которые используются процессором сигнала и/или введены в процессор сигнала или даже вычислены в процессоре сигнала и которые могут быть оптимизированы с использованием вышеупомянутой подстройки параметра на основе среднего значения. Было найдено, что процессор сигнала, как правило, обеспечивает хорошее качество представления микшированного с повышением/микшированного с понижением сигнала с небольшими искажениями, если ряд параметров (например, ряд коэффициентов обработки, связанных с различными аудио объектами или ряд величин параметров транскодирования, связанных с различными временными промежутками) хорошо сбалансирован, так что индивидуальные величины такого набора величин не включают чрезмерно большие отклонения от среднего значения. Таким образом, с применением устройства для того, чтобы обеспечить один или несколько подстроенных параметров в сочетании с устройством для того, чтобы обеспечить представление микшированного с повышением сигнала, может быть осуществлена выгода изобретенных решений.

В предпочтительном воплощении процессор сигнала выполнен с возможностью обеспечить представление микшированного с повышением сигнала в зависимости от подстроенных коэффициентов обработки, описывающих вклады аудио объектов в один или более каналов представления микшированного с повышением сигнала. Устройство для того, чтобы обеспечить один или несколько подстроенных параметров, выполнено с возможностью получить множество определенных пользователями параметров обработки в качестве входных параметров и обеспечить на основе этого один или несколько подстроенных параметров обработки для использования процессором сигнала (предпочтительно процессором сигнала). Было обнаружено, что хорошо сбалансированные параметры обработки, которые могут быть получены, используя устройство для того, чтобы обеспечить один или несколько подстроенных параметров, как правило, приводят к хорошему впечатлению от прослушивания.

В другом воплощении устройство для того, чтобы обеспечить один или более подстроенных параметров, выполнено с возможностью получить один или несколько элементов матрицы смешения в качестве одного или более входных параметров и сформировать на их основе один или несколько подстроенных элементов матрицы смешения для использования процессором сигнала. В этом случае процессор сигнала выполнен с возможностью обеспечить представление микшированного с повышением сигнала в зависимости от подстроенных элементов матрицы смешения, где матрица смешения (микширования) описывает отображение одного или более аудио сигналов канала представления микшированного с понижением сигнала (представления, например, в форме представления временного интервала или в форме представления частотно-временной области) на один или несколько аудио сигналов канала представления микшированного с повышением сигнала. Было найдено, что элементы матрицы смешения должны также быть хорошо подстроены к среднему значению, например, при этом ограничиваются временные изменения элементов матрицы смешения.

В другом решении согласно изобретению аудио процессор выполнен с возможностью получить величину «произвольного усиления сигнала, микшированного с понижением» MPEG окружения. В этом случае устройство для того, чтобы обеспечить один или несколько подстроенных параметров, выполнено с возможностью получить множество величин «произвольного усиления сигнала, микшированного с понижением» в качестве входных параметров и обеспечить множество подстроенных величин «произвольного усиления сигнала, микшированного с понижением». Было обнаружено, что применение устройства для того, чтобы обеспечить подстроенные параметры «произвольного усиления сигнала, микшированного с понижением», также приводит к хорошему впечатлению слушания и позволяет ограничивать слышимые искажения.

Дальнейшие решения согласно изобретению создают способ и компьютерную программу для того, чтобы обеспечить один или несколько подстроенных параметров. Описанные решения основаны на тех же самых результатах, что и описанное выше устройство, и могут быть расширены любой из обсужденных здесь функциональных особенностей относительно изобретенного устройства.

Краткое описание иллюстраций

На фиг.1 показана блок схема устройства для того, чтобы обеспечить согласно решению изобретения один или несколько подстроенных параметров;

на фиг.2 показана блок схема устройства для того, чтобы обеспечить согласно решению изобретения представление микшированного с повышением сигнала;

на фиг.3 показана блок схема устройства для того, чтобы обеспечить представление микшированного с повышением сигнала согласно другому решению изобретения;

на фиг.4 показано схематическое представление схем ограничения параметра, используя косвенный контроль и прямое управление;

на фиг.5а показана таблица тестовых условий прослушивания;

на фиг.5b показана таблица с элементами теста прослушивания;

на фиг.6 представлены тестируемые чрезвычайные условия обработки;

на фиг.7 показано графическое представление результатов MUSHRA испытаний прослушивания для различных схем ограничений параметра (PLS);

на фиг.8 показана блок схема MPEG SAOC системы;

на фиг.9а показана блок схема системы SAOC с использованием отдельных декодера и миксера;

на фиг.9b показана блок схема системы SAOC с использованием интегрированных декодера и миксера;

на фиг.9с показана блок схема системы SAOC с использованием транскодера от SAOC в MPEG;

и на фиг.10 показана таблица, описывающая, какие коэффициенты транскодирования могут быть изменены предложенной схемой ограничения параметра.

1. Устройство для того, чтобы обеспечить один или несколько подстроенных параметров, согласно фиг.1

Далее будет описано устройство для того, чтобы обеспечить один или несколько подстроенных параметров для обработки представления микшированного с повышением сигнала на основе представления микшированного с понижением сигнала и параметрической сторонней информации, связанной с сокращенным представлением сигнала. На фиг.1 показана блок-схема такого устройства 100.

Устройство 100 выполнено с возможностью получить один или несколько входных параметров 110 и сформировать на их основе один или несколько подстроенных параметров 120. Устройство 100 включает подстройщика параметра 130, который выполнен с возможностью получить один или более входных параметра 110 и обеспечить на их основе один или более подстроенных параметров 120. Подстройщик параметра 130 выполнен с возможностью сформировать один или более подстроенных параметров 120 в зависимости от среднего значения 132 из множества входных значений параметра, таких, что искажение представления микшированного с повышением сигнала, вызванное неоптимальностью параметров (например, один или более входных параметров 110), уменьшено, по крайней мере, для входных параметров (например, входных параметров 110), отклоняющихся от оптимальных параметров больше, чем на предопределенное отклонение. Например, подстройщик параметра 130 может быть выполнен с возможностью выполнения того, что один или более подстроенных параметров 120 "ближе" (в смысле порождения меньших искажений) к оптимальным параметрам (которые привели бы к представлению микшированного с повышением сигнала без искажений), чем один или более входных параметров 110.

С этой целью подстройщик параметра 130 осуществляет вычисление среднего значения, чтобы получить среднее значение 132 (например, как среднее по времени число или среднее число внутри объекта) ряда связанных входных параметров 110 (например, входных параметров, связанных на общем временном интервале, или входных параметров одного типа, связанных с различными моментами времени). Относительно эксплуатации устройства 100 нужно отметить, что предоставление одного или более подстроенных параметров 120 на основе одного или более входных параметров 110 сделано в зависимости от оценки среднего значения 132, потому что было найдено, что среднее значение 132 является значащей (существенной) величиной для того, чтобы подстроить параметры. В частности, было найдено, что ограниченные параметры (относительно среднего значения), как правило, вносят с собой умеренные искажения. Более подробная информация будет дана далее.

2. Устройство для того, чтобы обеспечить представление микшированного с повышением сигнала, представленное на фиг.2

Далее будет описано устройство для того, чтобы обеспечить представление микшированного с повышением сигнала согласно фигуре 2. На фиг.2 показана блок-схема устройства 200, которое можно рассмотреть как декодер аудиосигнала. Например, устройство 200 может включить функциональность декодера SAOC или транскодера SAOC.

Устройство 200 выполнено с возможностью получить представление микшированного с понижением сигнала 210 и параметрическую стороннюю информацию 212. Кроме того, устройство 200 выполнено с возможностью получить определенные пользователями параметры обработки 214. Устройство выполнено с возможностью обеспечить представление микшированного с повышением сигнала 220.

Представление микшированного с понижением сигнала 210 может, например, быть представлением аудиосигнала с одним каналом или аудиосигнала с двумя каналами. Представление микшированного с понижением сигнала 210 может, например, быть представлением временного интервала или закодированным представлением. В некоторых решениях представление микшированного с понижением сигнала 210 может быть представлением в частотно-временной области, где один или более каналов представления микшированного с понижением сигнала 210 представлены последовательностью наборов спектральных составляющих.

Представление микшированного с повышением сигнала 220 может быть, например, представлением индивидуальных аудио каналов, например, в форме представления на временном интервале или представления в частотно-временной области. Альтернативно, представление микшированного с повышением сигнала 220 может быть закодированным представлением, включающим и сокращенное представление сигнала, и связанную с каналом стороннюю информацию, например стороннюю информацию MPEG окружения.

Устройство 200 включает процессор сигнала 230, который выполнен с возможностью обеспечить представление микшированного с повышением сигнала 220 на основе микшированного с понижением представления сигнала 210 и параметрической сторонней информации 212. Процессор сигнала 230 включает блок смешения 232, чтобы обеспечить представление микшированного с повышением сигнала 220 на основе микшированного с понижением представления сигнала 210. Например, блок смешения 232 может быть выполнен с возможностью линейно объединить множество каналов микшированного с понижением представления сигнала 212, чтобы получить один или больше каналов представления микшированного с повышением сигнала 220. В этом смешивании вклады каналов микшированного с понижением представления сигнала 210 в каналы представления микшированного с повышением сигнала 220 могут быть определены элементами матрицы смешения G, где первое измерение (например, множество строк) матрицы смешения G может быть определено числом каналов представления микшированного с повышением сигнала 220, и где второе измерение (например, множество столбцов) матрицы смешения G может быть определено множеством каналов микшированного с понижением представления сигнала 210.

Например, блок смешения 232 может использоваться, чтобы обеспечить один или несколько векторов, включающих спектральные компоненты, связанные с одним или более каналами представления микшированного с повышением сигнала 220, путем умножения одного или нескольких векторов, включающих спектральные компоненты одного или более каналов микшированного с понижением представления сигнала 210, на матрицу смешения G.

Процессор сигнала 230 может также включать вычислитель параметра смешения 236, который формирует матрицу смешения G (или эквивалентно, элементы этой матрицы). Элементы матрицы смешения определяются в зависимости от параметрической сторонней информации 212 и модифицированных параметров обработки 252 вычислителем параметра смешения 236. Элементы матрицы смешения G, например, формируются таким образом, что один или более каналов представления микшированного с повышением сигнала 220 описывают аудио объекты, которые представлены одним или более каналами микшированного с понижением представления сигнала 210, в соответствии с модифицированными параметрами обработки 252. С этой целью параметрическая сторонняя информация 212 оценивается вычислителем параметра смешения 236, где параметрическая сторонняя информация 212 включает, например, информацию о различии на уровне объекта OLD, информацию о межобъектовой корреляции IOK, информацию о передаче DMG при сокращении и (возможно) информацию о различии на уровне микшированного с понижением канала DCLD. Информация о различии уровня объекта может быть описана, например, в частотном диапазоне как различия в уровнях между множеством аудио объектов. Точно так же информация о межобъектовой корреляции может быть описана, например, в частотном диапазоне как корреляция между множеством аудио объектов. Информация о передаче и (возможно) информация о различии уровня микшированного с понижением канала может описывать сокращение, которое выполняется, чтобы объединить аудио сигналы от множества аудио объектов в один или больше каналов микшированного с понижением представления сигнала, где, как правило, число аудио объектов больше, чем число каналов микшированного с понижением представления сигнала 210.

Соответственно, вычислитель параметра смешения 236 может вычислить элементы матрицы смешения, чтобы получить представление микшированного с повышением сигнала 220, включающего ожидаемые статистические свойства на основе параметрической сторонней информации 212 и модифицированных параметров обработки 252.

Процессор сигнала 230 может включать модификатор сторонней информации или преобразователь сторонней информации 240, который выполнен с возможностью получить параметрическую стороннюю информацию 212 и сформировать модифицированную стороннюю информацию (например, стороннюю информацию MPEG окружения) так, что модифицированная сторонняя информация и смешение, связанное с сокращенным представлением сигнала, осуществленное процессом 232, описывают желаемую аудио сцену.

Суммируя сказанное, процессор сигнала 230 может, например, иметь функциональность декодера SAOC 820, где сокращенное представление сигнала 210 играет роль одного или более сокращенных сигналов 812, где параметрическая сторонняя информация 212 играет роль сторонней информации 814 и где представление микшированного с повышением сигнала 220 эквивалентно сигналам выходного канала от до .

Альтернативно, процессор сигнала 230 может включать функциональность отдельного декодера и миксера 920, где сокращенное представление сигнала 210 может играть роль одного или более сокращенных сигналов, где параметрическая сторонняя информация 212 может играть роль объекта мета данных и где представление микшированного с повышением сигнала 220 может играть роль одного или более сигналов выходного канала 928.

Альтернативно, процессор сигнала 230 может включать функциональность интегрированного декодера и миксера 950, где сокращенное представление сигнала 210 может играть роль одного или более сокращенных сигналов, где параметрическая сторонняя информация 212 может играть роль объекта мета данных и где представление микшированного с повышением сигнала 220 может играть роль одного или более сигналов выходного канала 958.

Альтернативно, процессор сигнала 230 может включать функциональность транскодера SAOC-to-MPEG окружения 980, где сокращенное представление сигнала 210 может играть роль одного или более сокращенных сигналов, где сторонняя параметрическая информация 212 может играть роль объекта метаданных и где представление микшированного с повышением сигнала может быть эквивалентным одному или более сокращенным сигналам 988, взятым в сочетании с битовым потоком MPEG окружения 984.

В любом случае модифицированные параметры обработки 252 могут играть роль пользовательской информации о взаимодействии/контроле 822 или информации об обработке.

Устройство 200 также включает устройство 250 для того, чтобы обеспечить подстроенные параметры обработки. Устройство 250 для того, чтобы обеспечить подстроенные параметры обработки, получает определенные пользователями параметры обработки 214 и обеспечивает на их основе модифицированные параметры обработки 252. Устройство 250, как правило, выполнено с возможностью вычислить среднее значение по множеству определенных пользователями параметров обработки, связанных с различными аудио объектами, чтобы получить среднее значение. Кроме того, устройство 250 выполнено с возможностью ограничения параметра обработки в зависимости от среднего значения, чтобы получить модифицированные параметры обработки 252, ограничивая определенные пользователями параметры обработки 214. Допустимый интервал, которым ограничены модифицированные параметры обработки 252, как правило, определяется в зависимости от оценки среднего, так, что сильных отклонений модифицированных параметров обработки 252 от среднего значения не будет, даже если один или больше определенных пользователями параметров обработки 214 включает такое сильное отклонение от среднего значения. Таким способом, как правило, избегают чрезмерных искажений в пределах представления микшированного с повышением сигнала 220, потому что модифицированные параметры обработки 252, которые включают ограниченное отклонение внутри объекта, приведут к представлению микшированного с повышением сигнала с низкими искажениями, в то время как значительные различия между предоставлением параметров, связанных с различными аудио объектами, как правило, приводят к слышимым искажениям.

Нужно отметить, что устройство 250 для того, чтобы обеспечить подстроенные коэффициенты обработки, может полностью включать ту же самую функциональность, что и устройство 100, для того, чтобы обеспечить один или несколько подстроенных параметров, где определенные пользователями параметры обработки 214 могут играть роль одного или нескольких входных параметров 110 и где подстроенные параметры обработки 252 могут играть роль одного или более подстроенных параметров 120.

Детали относительно обработки подстроенных параметров обработки 252 будут обсуждены ниже в соответствии с фиг.4.

3. Устройство для обеспечения представления микшированного с повышением сигнала согласно фигуре 3

Далее будет описано устройство для обеспечения представления микшированного с повышением сигнала согласно другому примеру изобретения согласно фиг.3, на которой показана блок-схема такого устройства 300.

Устройство 300, как правило, получает тот же самый тип входных сигналов и обеспечивает тот же самый тип выходных сигналов, как и устройство 200, так, что здесь используются идентичная справочная нумерация, чтобы описать идентичные или эквивалентные сигналы. Подводя итог, устройство 300 получает микшированное с понижением представление сигнала 210, параметрическую стороннюю информацию 212 и определенные пользователями параметры обработки 214, и устройство 300 обеспечивает на основе этого представление микшированного с повышением сигнала 220.

Устройство 300 включает процессор сигнала 330, функциональность которого может быть по существу эквивалентна функциональности процессора сигнала 230. Процессор сигнала 330 включает блок смешения 332, делающего смешение, который идентичен блоку смешения 232 процессора сигнала 230, который обеспечивает смешение аудио сигналов канала на основе микшированного с понижением представления сигнала. Однако в блоке смешения 332 используется подстроенная матрица смешения, а не матрица смешения, полученная непосредственно путем вычисления параметра смешения.

Процессор сигнала 330 также включает вычислитель параметров смешения 336, который может быть функционально идентичным вычислителю параметров смешения 236 из процессора сигнала 230. Соответственно, вычислитель параметров смешения 336 получает параметрическую стороннюю информацию 212 и определенные пользователями параметры обработки 214 и формирует на основе этого матрицу смешения G (или эквивалентно, элементы матрицы смешения G, которые также определяются 337).

Процессор сигнала 330 возможно также включает модификатор сторонней информации 338, функциональность которого идентична функциональности модификатора сторонней информации 240.

Кроме того, устройство 300 включает устройство 350 для того, чтобы обеспечить подстроенные элементы матрицы смешения. Устройство 350 может быть или может не быть частью процессора сигнала 330. Устройство 350 выполнено с возможностью сформировать матрицу смешения G или, эквивалентно, элементы этой матрицы смешения 337, которые формируются вычислителем параметра смешения 336, и обеспечить на основе этого подстроенную матрицу смешения G’ или, эквивалентно, подстроенные элементы этой матрицы смешения 352. Например, один набор элементов матрицы смешения и один набор подстроенных элементов матрицы смешения могут быть обеспечены в частотном диапазоне и в аудио фрейме. Другими словами, матрица смешения G и модифицированная матрица смешения G’ могут быть обновлены один раз за аудио фрейм микшированного с понижением представления сигнала 210, если выбрана обработка фреймов. Однако в некоторых случаях интервал обновления может отличаться. Кроме того, нет необходимости многократного перемножения матриц и подстроенных матриц смешения G, G’ для различных диапазонов частот.

Заметим, что устройство 350 выполнено с возможностью формировать подстроенные элементы матрицы смешения подстроенной матрицы смешения 352, обеспеченные вычислением параметра смешения 336, на основе элементов матрицы смешения 337. Например, обработка может быть выполнена индивидуально для состояния матрицы смешения (или подстроенной матрицы смешения) так, что последовательность подстроенных элементов матрицы смешения данного состояния матрицы смешения может зависеть от последовательности элементов матрицы смешения 337 в том же самом состоянии, но может быть независимой от элементов матрицы смешения в других состояниях матрицы смешения.

Устройство 350 для того, чтобы сформировать подстроенный элемент матрицы смешения, выполнено с возможностью сформировать один или более приспособленный элемент матрицы смешения подстроенной матрицы смешения 352 в зависимости от одного или более средних значений (например, одного или более средних значений матрицы в данном состоянии), вычисленных на основе матрицы смешения 337. Устройство 350 для того, чтобы сформировать подстроенные элементы матрицы смешения подстроенной матрицы смешения 352, предпочтительно выполнено с возможностью вычислить среднее значение элементов матрицы смешения в данном состоянии матрицы смешения в течение длительного времени. Таким образом, для данного состояния матрицы смешения среднее значение (предпочтительно, но необязательно, среднее значение по времени, как, например, плавающее среднее значение или среднее значение квази-бесконечной импульсной характеристики или среднее значение, полученное рекурсивным низкочастотным фильтрованием или подобными математическими операциями, хорошо известными для усреднения по времени) может быть вычислено на основе последовательности элементов матрицы смешения данного состояния матрицы смешения. Например, чтобы получить такое среднее значение (также определяемое как средняя величина) может использоваться последовательность элементов матрицы смешения, описывающих вклад данного канала микшированного с понижением представления сигнала 210 в данный канал микшированного с повышением представления сигнала 220, где элементы матрицы смешения связаны с множеством аудио структур, где среднее значение может быть средним значением конечной импульсной характеристики или средним значением квази-бесконечной импульсной характеристики (полученной, например, с использованием рекурсивного низкочастотного фильтрования или подобных математических операций, хорошо известных для усреднения по времени). Текущий подстроенный элемент матрицы смешения данного состояния матрицы смешения (описывающий вклад данного канала представления микшированного с понижением сигнала 210 на данный канал представления микшированного с повышением сигнала 220) может быть ограничен устройством 350 в допустимом интервале, который определен в зависимости от оценки среднего связанной с данным состоянием матрицы смешения.

Соответственно, чрезмерные временные колебания элементов матрицы смешения устраняются, потому что подстроенные элементы матрицы смешения ограничены допустимым интервалом, который определен, например, средним значением (среднее значение конечной импульсной характеристики или среднее значение бесконечной импульсной характеристики) предыдущих элементов матрицы смешения в том же самом состоянии матрицы смешения. Было найдено, что такое ограничение подстроенных элементов матрицы смешения подстроенной матрицы смешения 352, как правило, приводит к ограничению искажений микшированного с повышением сигнала 220, полученного с использованием неоптимальных параметров (например, неоптимальных определенных пользователями параметров обработки), по крайней мере, если определенные пользователями неоптимальные параметры обработки отклоняются от определенных пользователями оптимальных параметров обработки больше, чем предопределенное отклонение.

Здесь необходимо отметить, что устройство 350 для того, чтобы сформировать подстроенные элементы матрицы смешения, может иметь ту же самую полную функциональность, что и устройство 100 для того, чтобы сформировать один или несколько подстроенных параметров, где элементы матрицы смешения матрицы смешения 337 могут играть роль одного или нескольких входных параметров 110, и где подстроенные элементы матрицы смешения подстроенной матрицы смешения 352 могут играть роль одного или более подстроенных параметров 120.

4. Схемы ограничения параметра согласно фиг.4

Далее согласно изобретению в соответствии с фиг.4, на которой показано схематическое представление схем ограничения параметра, будут описаны схемы таких ограничителей параметра.

На фиг.4 показано применение схем ограничения параметра в сочетании с декодером SAOC 410. Однако схемы ограничения параметра могут быть применены в сочетании с различными типами аудио декодеров или аудио транскодеров, как, например, транскодера SAOC.

Декодер SAOC 410 получает сокращенный 420 и SAOC битовые потоки 422. Кроме того, декодер SAOC обеспечивает один или несколько выходных каналов от 430а до 430М.

В первой реализации, определяемой ссылкой (а), схема ограничения параметра 440 осуществляет косвенный контроль. Схема ограничения параметра 440 получает входную матрицу обработки R, например определенную пользователем матрицу обработки, и формирует на ее основе подстроенную матрицу обработки для декодера SAOC. В этом случае декодер SAOC использует подстроенную матрицу обработки для получения матрицы смешения G, как описано выше. Схема ограничения параметра 440 может также получать параметры Λ_R-, Λ_R+, которые могут определить границы допустимого интервала.

Альтернативно, кроме того может быть применена вторая схема ограничения параметра 450. Вторая схема ограничения параметра получает транскодирующие параметры Т и обеспечивает на их основе подстроенные транскодирующие параметры . Транскодирующие параметры Т могут быть вычислены в декодере SAOC 410, и подстроенные транскодирующие параметры могут быть применены декодером SAOC 410. Например, транскодирующие параметры T могут быть эквивалентными элементам матрицы смешения матрицы смешения G, как обсуждено ранее, и подстроенные транскодирующие параметры могут быть эквивалентными подстроенным элементам матрицы смешения подстроенной матрицы смешения G’.

Схема ограничения параметра 450 может получить один или несколько параметров parameters Λ_T-, Λ_T+, которые могут определить границы допустимых интервалов.

4.1. Краткий обзор

Далее будет дан краткий обзор схемы ограничения параметра контроля искажения.

Общая обработка SAOC осуществляется селективным образом во времени/частоте и будет описана далее.

Кодирующее устройство SAOC извлекает физикоакустические особенности (например, соотношения мощности объекта и корреляции) нескольких входных сигналов аудио объекта и затем сокращает их в объединенный моно или стерео канал (который может определяться, например, как представление микшированного с понижением сигнала). Этот сокращенный сигнал и извлеченная сторонняя информация передаются (или сохраняются) в сжатом формате, используя известные перцепционные аудио кодеры. На стороне приема декодер SAOC концептуально пытается восстановить оригинальный сигнал объекта (то есть, отдельные сокращенные объекты), используя переданную стороннюю информацию (например, информацию о различии на уровне объекта OLD, информацию о межобъектовой корреляции IOK, информацию о передаче DMG при сокращении и (возможно) информацию о различии на уровне микшированного с понижением канала DCLD). Эти приближенные сигналы объекта затем смешиваются в целевую сцену, используя матрицу обработки (где матрица обработки, как правило, описывает вклады различных аудио объектов в различные каналы представления микшированного с повышением сигнала). Матрица обработки составлена из относительных коэффициентов обработки RCs (или передачи объекта), определенных для каждого переданного аудио объекта и расширенной установки громкоговорителя. Эта передача объекта определяет пространственное положение всех разделенных/обработанных объектов. Разделение сигналов объекта редко выполняется эффективно (или даже никогда не выполняется), поэтому разделение и смешивание выполняется в единственном объединенном шаге обработки, который приводит к большому сокращению вычислительной сложности. Единственный объединенный шаг обработки может, например, быть выполнен, используя транскодирующие коэффициенты, которые описывают комбинацию разделения объекта и смешения разделенных объектов.

Было найдено, что эта схема чрезвычайно эффективна как с точки зрения битрейта передачи (требуется передавать только один или два сокращенных канала плюс некоторую стороннюю информацию вместо многих индивидуальных аудиосигналов объекта), так и с точки зрения вычислительной сложности (сложность обработки определяется главным образом числом выходных каналов, а не числом аудио объектов).

Декодер SAOC преобразовывает (на параметрическом уровне) коэффициенты передачи объекта и другую стороннюю информацию непосредственно в транскодирующие коэффициенты (TCs), которые прикладываются к сокращенному сигналу, чтобы создать соответствующие сигналы для обработанной выходной аудио сцены (или предварительно обработанный сокращенный сигнал для дальнейшей операции по расшифровке, то есть обычно операции обработки многоканального MPEG окружения).

Было найдено, что субъективно воспринятое качество звука обработанной выходной сцены может быть улучшено применением мер контроля искажения или DCM, как описано в неопубликованном патенте US 61/173,456. Это улучшение может быть достигнуто ценой принятия умеренной динамической модификации целевых параметров настройки обработки. Модификация информации обработки имеет временную и частотную изменяющуюся природу, которая при определенных обстоятельствах может привести к неестественным звуковым окраскам и временным искажениям колебания.

В альтернативном подходе контроля искажения (DCMs), описанном в [6], решения согласно данному изобретению используют много схем ограничения параметра, которые сфокусированы на сокращении аудио искажений (звуковые окраски, временные колебания, и т.д.) и в то же самое время на сохранении естественного качества звука.

Предложенные и описанные здесь концепции схем ограничения параметра не подстраивают коэффициенты обработки (RCs), основываясь на мере искажения, вычисленной, используя сложные алгоритмы, основанные на физикоакустических моделях. Вместо этого предложенные концепции построения схемы ограничения параметра показывают низкую вычислительную и структурную сложность и поэтому привлекательны для интеграции в технологию SAOC. Однако они могут также быть объединены с пользой, дополняя друг друга, со схемами, описанными в [6], чтобы достигнуть лучшего в целом качества выходного сигнала.

В пределах полной системы SAOC схемы ограничения параметра могут быть включены в цепь обработки декодера SAOC двумя способами. Например, схема ограничения параметра может быть помещена у входа для косвенной (внешней) модификации выходных данных SAOC путем управления коэффициентами обработки (RCs) R, что показано как вариант (а) на фиг.4. Альтернативно, внутренние транскодирующие коэффициенты (TCs) Т напрямую (внутри) изменяются на выходе декодера SAOC, прежде чем коэффициенты прикладываются к сокращенному сигналу, чтобы создать на выходе сигналы канала микширования с повышением, как показано на фиг.4, вариант (b).

4.2. Косвенный контроль

Далее понятие косвенного управления будет обсуждено более подробно.

Основная гипотеза косвенного способа управления рассматривает отношения между уровнем искажения и отклонениями RC от усредненной по объекту величины. Это основано на наблюдении, что чем более специфичное ослабление/усиление применено через RC к отдельному объекту относительно других объектов, тем более агрессивная модификация переданного микшированного с понижением сигнала должна быть выполнена декодером/транскодером SAOC. Другими словами, чем выше отклонение величин "передачи объекта" относительно друг друга, тем выше шанс, что произойдет недопустимое искажение (принимая во внимание идентичные коэффициенты сокращения). Было найдено, что это может быть проверено путем исследования отклонения RC от среднего значения RC по всем объектам (например, средняя величина обработки).

Без потери общности последующее описание основано на конфигурации, включающей моно сокращенный сигнал с едиными сокращенными передачами для всех объектов. В случае нетривиального сокращения (с различными и/или динамическими передачами объекта) алгоритм может быть соответственно изменен. Кроме того, RCs, как предполагается, является инвариантом частоты, чтобы упростить описание.

Основываясь на определенном пользователем сценарии обработки, представленном коэффициентами R(i) с индексом объекта i, PLS предотвращает чрезвычайные значения обработки, формируя модифицированные RC величины , которые фактически используются обработчиком SAOC. Они могут быть получены как следующая функция

где Λ - параметр контроля за PLS (то есть пороговое значение). Параметр контроля за PLS можно рассмотреть как допустимый параметр.

Отклонение R_d(i) коэффициента обработки R(i) от среднего значения обработки (например, среднее арифметическое) может быть получено как

где

Соответственно, R_d(i) отношение между коэффициентом обработки R(i) и средним значением обработки . Среднее значение обработки - это среднее значение, усредненное по аудио объектам, имеющим индексы аудио объекта i для коэффициентов обработки R(i).

Ограниченное отклонение ограничено определенным допустимым диапазоном Λ как

для ,

для .

Следует обратить внимание на то, что это соответствует операции, ограничивающей RC, которая выполнена относительно справочной величины, например , которая вычислена динамически на входе RC, а не является заданной предопределенной величиной.

Для описанного PLS подхода оптимальное решение может быть сформулировано как проблема минимизации, для которой различие между данным RC R(i) и измененной (ограниченной) величиной минимизировано

Далее будут описаны некоторые алгоритмические решения для того, чтобы обеспечить подстроенные коэффициенты обработки, где подстроенные коэффициенты обработки можно рассмотреть как подстроенные параметры.

Следующие два алгоритмических решения основаны на отклонении тех величин обработки, которые лежат вне допустимого диапазона, то есть

для .

4.2.1. Решение с одним шагом

Может использоваться простое и быстрое решение с одним шагом, чтобы ограничить все величины обработки, лежащие вне допустимого диапазона

для ,

для .

Напротив, величины обработки в допустимом диапазоне можно оставить нетронутыми, так что

для таких величин обработки.

4.2.2. Итеративное решение

Может использоваться другой прямой метод, в котором величины обработки вне диапазона, которые связаны с отклонениями R_d,out(i), постепенно ограничиваются. При каждом повторении этого алгоритма максимальное отклонение обработки определено как

для ,

для .

Соответствующий коэффициент обработки ограничен так, что

Эта обработка может быть выполнена, пока все величины не окажутся в допустимой области или с предопределенным числом повторений.

Соответственно, в каждом повторении выбирается коэффициент обработки R(i_max), для которого отклонение (например, от среднего значения) имеет максимальное значение. Другими словами, выбирается коэффициент обработки R(i_max), который включает максимальное отклонение (с точки зрения величины отклонения R_d,oui) от среднего значения по коэффициентам обработки в соответствующей итерации. Кроме того, выбранный коэффициент обработки R(i_max) приближен к среднему числу по коэффициентам обработки, используя вышеупомянутую линейную комбинацию R(i) и (которая может быть применена выборочно для i=i_max). На каждом шаге повторяющейся процедуры может быть выполнен выбор нового коэффициента обработки, имеющего максимальное отклонение от среднего значения, так, что различные коэффициенты обработки могут быть изменены на различных шагах повторяющегося алгоритма. Другими словами, i_max, как правило, обновляется на каждом повторении. Кроме того, рассматривая ранее измененный коэффициент обработки, среднее значение возможно может быть вычислено повторно для каждого шага повторяющегося алгоритма.

4.3. Прямое управление

Основная гипотеза способа прямого управления рассматривает отношения между уровнем искажения и отклонениями ТС от их среднего по времени. Это основано на наблюдении того, что чем более специфичное ослабление/усиление применено к индивидуальному объекту относительно других объектов, тем более агрессивная модификация переданного микшированного с понижением сигнала с использованием ТС должна быть выполнена декодером/транскодером SAOC. Другими словами, если величина ТС необычно большая, можно прийти к заключению, что алгоритм SAOC пытается изменить сигнал объекта с небольшой мощностью в выходной сигнал другого сигнала(ов) объекта с большой мощностью, применяя сильное усиление. Наоборот, если ТС необычно маленький, можно прийти к заключению, что алгоритм SAOC пытается изменить сигнал объекта с большой мощностью в выходной сигнал другого сигнала(ов) объекта с маленькой мощностью, применяя сильное ослабление. В обоих случаях есть высокий риск создания сигнала неприемлемо низкого качества на выходе SAOC. Таким образом, центральная идея состоит в том, чтобы предотвратить большие отклонения ТС от среднего значения.

Этот PLS можно рассматривать как временное и частотное изменение, так как оно включает все зависимости от параметров сигнала SAOC (например OLD, IOC) и эвристические элементы процесса транскодирования/декодирования.

Без потери общности последующее описание основано на рассмотрении моно микшированного с повышением сигнала.

PLS, основанный на выходном SAOC сигнале ТС T(k) с индексом частоты k, предотвращает экстремумы ТС, заменяя их (например, транскодируя коэффициенты за пределами допустимого интервала) на измененные величины ТС, которые используются фактическим процессом SAOC обработки. Измененные значения ТС могут быть получены следующей функцией

где Λ - параметр контроля за PLS (то есть пороговое значение). Параметр контроля за PLS можно рассмотреть как параметр допустимости.

Так как ТС различны во времени, применяется рекурсивный фильтр нижних частот, чтобы вычислить среднее

рассматривают как среднее значение, где веса индивидуальных транскодирующих величин вводятся применением рекурсивного низкочастотного проходного фильтрования.

Здесь, n представляет индекс времени ТС и μ∈(0,1] - параметр усреднения.

Допустимый диапазон для измененных значений ТС определен как

Заметим, что это соответствует операции ограничения ТС, которая выполнена относительно справочной величины, которая вычислена динамически из ТС, а не заданной предопределенной величины.

Для описанного PLS подхода оптимальное решение может быть сформулировано как проблема минимизации, для которой различие между данным ТС T(k) и измененным (ограниченным) значением ТС минимизировано

Далее будет описан алгоритм возможного решения этой проблемы.

4.3.1. Алгоритм решения

Измененная величина ТС может быть получена как

для ,

для .

4.3.2. Примеры коэффициентов транскодирования (транскодирующих коэффициентов)

Описанная ранее схема ограничения параметра для коэффициентов транскодирования может быть применена к различным коэффициентам транскодирования, которые используются, например, в декодерах SAOC и транскодерах, обсужденных выше.

Например, схема ограничения параметра для коэффициентов транскодирования может быть применена, чтобы ограничить параметры матрицы смешения G, которые используются в процессоре сигнала 330 устройства 300. В этом случае элемент матрицы смешения в данном состоянии матрицы G может играть роль коэффициента транскодирования T(k), где k - индекс частоты. Соответствующий элемент матрицы смешения матрицы смешения G’ может соответствовать подстроенному коэффициенту транскодирования . Схема ограничения параметра транскодирования может быть применена, например, индивидуально к различным состояниям матрицы смешения. Например, если матрица смешения G включает элементы матрицы смешения g₁₁, g₁₂, g₂₁ и g₂₂ и подстроенная матрица смешения G’ включает соответствующие матричные элементы g₁₁’ g₁₂’ g₂₁’ и g₂₂’, подстроенный элемент матрицы смешения g₁₁’(n₀) может быть получен из последовательности от g₁₁(1) до g₁₁(n₀). Аналогичные вычисления могут использоваться для других элементов матрицы смешения g₁₂’, g₂₁’ и g₂₂’ подстроенной матрицы смешения G’.

Таблица на фиг.10 обеспечивает список коэффициентов транскодирования, которые могут быть изменены, например, ограничены предложенными схемами ограничения параметра всех режимов работы SAOC. В таблице на фиг.10 в первой колонке 1010 показаны различные способы SAOC. В таблице на фиг.10 далее во второй колонке 1020 показано, какие параметры могут быть изменены (например, ограничены) предложенной схемой ограничения параметра. Третья колонка 1030 показывает ссылку на соответствующие подпункты документа MPEG SAOC FCD [8]. Суммируя сказанное, в таблице на фиг.10 показан список коэффициентов транскодирования, которые могут быть изменены (например, ограничены) предложенными схемами ограничения параметра для всех режимов работы SAOC со ссылками на соответствующие подпункты документа MPEG SAOC FCD [8].

4.4. Обобщенная формулировка схемы ограничения параметра относительного его отклонения

Существует обобщенная формулировка для ранее обсужденного PLS. Эта формулировка может быть выражена в форме следующей задачи минимизации обобщенной переменной параметра

Здесь, величина X_i дана первоначально, и "справочная" величина может быть вычислена как функция измененной переменной .

Вышеупомянутая переменная параметра X_i может, например, быть идентичной R(i) или T(i). Точно так же подстроенная переменная параметра может быть идентичной подстроенному коэффициенту обработки или приспособленному коэффициенту транскодирования . Переменные X_i, могут также, например, быть эквивалентными элементам матрицы смешения g_mn(i) and g_mn’(i).

Далее будут обсуждены два алгоритма решения.

Вообще, аналитические подходы получения точного решения таких проблем минимизации затратны в вычислительном отношении. Однако существуют простые и быстрые альтернативные способы обеспечить квазиоптимальные результаты, которые, тем не менее, подходят для целей PLS. Здесь описаны два таких простых подхода.

4.4.1. Решение за один шаг

Решение за один шаг, основанное на предположении того, что , ограничивает все величины вне допустимого диапазона так, чтобы они попадали в него, следующим образом

, для ,

для .

Величины, которые лежат в допустимом диапазоне (который можно рассмотреть как допустимый интервал), можно, например, оставить неизменными.

4.4.2. Итеративное (повторяющееся) решение

Итеративное решение изменяет на каждом шаге одну выбранную величину из диапазона от X_i* до

, где λ∈(0,1).

Например, рабочий индекс i* может быть выбран, используя выражения

и , или

и .

Число итераций может быть определено заданной величиной или неявно получено из алгоритма.

Нужно отметить, что все эти способы могут быть применены для того, чтобы ограничить RC и ТС, как было описано выше.

4.5. Обобщенная линейная формулировка

Существует обобщенная линейная формулировка для обсужденного ранее PLS. В предыдущем разделе отклонение обобщенного параметра X_i описано как отношение .

С другой стороны, это отклонение может также быть определено как , приводя к следующей задаче минимизации обобщенной переменной параметра

Здесь, величина X_i первоначально дана, и "справочная" величина может быть вычислена как функция измененной переменной .

Далее будут описаны два алгоритма решения этой проблемы. Вообще, аналитические подходы получения точного решения таких проблем минимизации затратны в вычислительном отношении. Однако существуют простые и быстрые альтернативные способы обеспечить квазиоптимальные результаты, которые, тем не менее, подходят для целей PLS. Здесь описаны два таких простых подхода.

4.5.1. Решение за один шаг

Решение за один шаг, основанное на предположении , которое ограничивает все величины вне допустимого диапазона, чтобы привести их к нему, путем вычисления

4.5.2. Итеративное решение

Итеративное решение изменяет на каждом шаге выбранную величину X_i*, приводя ее к X_i*, если X_i* находится вне допустимого диапазона:

и ,

и .

Например, рабочий индекс i* может быть выбран, используя выражение: и размер шага модификации величины, как , где λ∈(0,1). Число итераций может быть задано или косвенно выводится из алгоритма.

Этот алгоритм обеспечивает гибкий способ использования допустимого диапазона, то есть он динамически изменяется (в зависимости от X_i*). Нужно отметить, что все эти способы могут быть применены для того, чтобы ограничить RC и ТС, как описано выше.

Альтернативно может использоваться следующий алгоритм:

если и то

В этом варианте алгоритма используется фиксированный (статический) допустимый диапазон Λ_X-, Λ_X+.

4.6. Дальнейшие замечания

Нужно отметить, что все эти способы могут быть применены для того, чтобы ограничить коэффициенты обработки и коэффициенты транскодирования, как описано выше.

5. Применение схем ограничения параметра к многоканальным сценариям сокращения/расширения

Единственный PLS ТС (например, прямое управление) сценарий моно сокращения/моно расширения распространяется на матрицу ТС при рассмотрении любой комбинации сокращения/расширения каналов. Следовательно, прямое управление может быть применено к каждому ТС индивидуально. Многоканальный сценарий расширения для RC PLS (например, косвенный контроль) может быть осуществлен, например, в простом многократном моно подходе, где все индивидуальные коэффициенты обработки обработаны независимо.

6. Результаты испытаний прослушивания

6.1. Порядок проведения испытаний

Чтобы оценить перцепционную роль предложенной концепции меры контроля искажения (DCM) и сравнить его с регулярной эталонной моделью декодирования SAOC (RM SAOC), был проведен субъективный тест прослушивания.

Порядок проведения испытаний включает случаи индивидуального применения прямых и косвенных подходов контроля предложенной схемой ограничения параметра и их комбинацию. Выходной сигнал регулярного (необработанный схемой ограничения параметра PLS) SAOC декодера включен в тест, чтобы продемонстрировать базовое исполнение SAOC. Кроме того, случай тривиальной обработки, которая соответствует сокращенному сигналу, используется в тесте прослушивания в целях сравнения. Таблица на фиг.5а описывает условия испытания прослушивания.

Четыре пункта, представляющие типичные и самые критические типы искажения для чрезвычайных условий обработки, были выбраны для текущего теста прослушивания из материала CfP(call-for-proposals).

Таблица на фиг.5b описывает аудио пункты теста прослушивания.

Передачи рендеринга объекта согласно таблице на фиг.6 были применены для рассмотренных сценариев расширения.

Так как предложенный PLS работает с использованием регулярных битовых потоков SAOC и сокращенных сигналов (нет необходимости деятельности на стороне кодирующего устройства SAOC никакого PLS) и не связан с остаточной информацией, базовые кодировщики не были использованы для соответствующих сокращенных сигналов SAOC.

Для всех тестовых пунктов и рассмотренных условий обработки глобальные параметры настройки для PLS взяты как

6.2. Методология испытаний

Субъективные тесты прослушивания проводились в акустически изолированной комнате, которая разработана, чтобы обеспечить высококачественное прослушивание. Воспроизведение было осуществлено с использованием наушников (STAX SR Lambda Pro с Lake-People D/A-конвертором и STAX SRM-монитором).

Метод испытаний включал процедуру, используемую в пространственных аудио тестах, основанных на MUSHRA методе для субъективной оценки промежуточного качественного аудио [7]. Метод испытаний был соответственно изменен, чтобы оценить перцепционную роль предложенных понятий DCM. В соответствии с принятой методологией проведения испытаний слушателям необходимо было сравнить все условия испытания друг с другом согласно следующим испытательным инструкциям прослушивания:

Для каждого аудио пункта, пожалуйста:

- сначала прочитайте описание желаемых звуковых смесей, которые Вы как системный пользователь хотели бы получить:

Пункт "BlackCoffee":	Звук отделения духовых инструментов со звуковым смешением
Пункт "Fanta4":	Громкий звук барабана со звуковым смешением
Пункт "LovePop":	Звук отделения струнных инструментов со звуковым смешением
Пункт "Audition":	Звук мягкой музыки и резкого вокала

- тогда оцените сигналы, используя одну общую градацию, чтобы описать их

- достижение цели желаемого звукового смешения

- полное качество звуковой сцены (рассматриваются искажения, артифакты, неестественность…)

В общей сложности 9 слушателей участвовали в каждом из выполненных тестов. Всех их можно рассматривать как опытных слушателей. Условия испытания были рандомизированы автоматически для каждого тестового пункта и для каждого слушателя. Субъективные ответы были зарегистрированы компьютерной программой MUSHRA в масштабе в пределах от 0 до 100. Было позволено мгновенное переключение между пунктами в тесте.

6.3. Результаты испытаний прослушивания

Краткий обзор диаграмм, демонстрирующих полученные результаты испытаний прослушивания, может быть найден в приложении. Эти диаграммы показывают среднюю MUSHRA оценку за пункт по всем слушателям и статистическую среднюю величину по всем оцененным пунктам вместе со связанными 95%-ыми доверительными интервалами.

На результатах проведенных тестов прослушивания могут быть сделаны следующие выводы:

Для всех проведенных тестов прослушивания полученное множество MUSHRA доказывает, что предложенная функциональность PLS обеспечивает лучшую работу по сравнению с регулярной системой RM SAOC в смысле статистически полных средних величин. Нужно отметить, что качество всех тестов, проведенных с регулярным декодером SAOC (показывающих сильные аудио искажения для рассмотренных чрезвычайных условий обработки), классифицировано немного выше по сравнению с качеством аналогичных установок обработки с сокращением, которые не выполняют желаемый сценарий обработки в целом. Следовательно, можно прийти к заключению, что предложенный PLS приводит к значительному улучшению субъективного качества сигнала для всех рассмотренных сценариев прослушивания. Можно также прийти к заключению, что самая многообещающая ограничивающая система состоит из комбинации RC и ТС PLS.

Детали относительно результатов испытаний прослушивания могут быть замечены в графическом представлении на фиг.7.

7. Альтернативы использования

Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствуют шагу способа или особенности шага способа. Аналогично, аспекты, описанные в контексте шага способа, также представляют описание соответствующего блока или модуля или особенности соответствующего устройства. Некоторые или все шаги способа могут быть выполнены (или использованы) в виде аппаратурных средств, как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых воплощениях несколько или более самых важных шагов способа могут быть выполнены таким устройством.

Закодированный согласно изобретению аудиосигнал может быть сохранен на цифровом носителе данных или может быть передан в среде передачи, такой как беспроводная среда передачи или проводная среда передачи, такая как Интернет.

В зависимости от определенных требований использования, решения изобретения могут быть осуществлены в аппаратурных средствах или в программном обеспечении.

Приложение может быть выполнено с использованием цифрового носителя данных, например, дискеты, DVD, Blue-Ray, CD, ROM, PROM, EPROM, EEPROM или Флэш-памяти, на которых сохранены в электронном виде управляющие сигналы с возможностью считывания, которые выполняются (или способны к выполнению) программируемой компьютерной системой, таким образом, что выполняется соответствующий способ. Поэтому цифровой носитель данных может быть читаемым компьютером.

Некоторые воплощения согласно изобретению включают носители информации, имеющие в электронном виде читаемые управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой, так, что выполняется один из описанных здесь способов.

Вообще, воплощения данного изобретения могут быть осуществлены результат компьютерной программы с кодом программы, кодом программы, который выполняется для того, чтобы реализовать один из способов, когда компьютерный программный продукт выполняется на компьютере. Код программы может быть, например, сохранен на машиночитаемом носителе информации.

Другие воплощения включают компьютерную программу для того, чтобы выполнить один из описанных здесь способов, сохраненных на машиночитаемом носителе информации.

Другими словами, воплощением изобретенного способа является компьютерная программа, имеющая код программы для того, чтобы выполнить один из описанных здесь способов, когда компьютерная программа выполняется на компьютере.

Дальнейшим воплощением изобретенных способов является носитель информации (или цифровой носитель данных или читаемая компьютером среда), включающий записанную на нем компьютерную программу для того, чтобы выполнить один из описанных здесь способов. Носитель информации, цифровой носитель данных или зарегистрированная среда обычно материальны и/или неперемещаемы.

Дальнейшим воплощением изобретенного способа является поток данных или последовательность сигналов, представляющих компьютерную программу для того, чтобы выполнить один из описанных здесь способов. Поток данных или последовательность сигналов могут, например, быть переданными через систему передачи данных, например через Интернет.

Дальнейшее воплощение включает средство обработки, например компьютер или программируемое логическое устройство, выполненное с возможностью реализовать один из описанных здесь способов.

Дальнейшее воплощение включает компьютер с установленной компьютерной программой для того, чтобы выполнить один из описанных здесь способов.

В некоторых воплощениях может использоваться программируемое логическое устройство (например, программируемая интегральная логическая схема), чтобы выполнить некоторые или все функциональности описанных здесь способов. В некоторых воплощениях программируемая интегральная логическая схема может взаимодействовать с микропроцессором, чтобы выполнить один из описанных здесь способов. Вообще, способы предпочтительно выполняются любым аппаратурным средством.

Вышеупомянутые воплощения являются просто иллюстрациями принципов данного изобретения. Подразумевается, что модификация и вариации описанных здесь систем и деталей будут очевидны для лиц, квалифицированных в технике. Намерением поэтому является ограничиться только областью формулы изобретения, а не определенными деталями, представленными посредством данного здесь описания и объяснения решений.

8. Выводы

Решения согласно изобретению создают схемы ограничения параметра контроля за искажением в аудио декодерах. Некоторые решения согласно изобретению сосредоточены на пространственном аудио кодировании объекта (SAOC), которое обеспечивает средства для пользовательского интерфейса для выбора желаемой установки воспроизведения (например, моно, стерео, 5.1, и т.д.) и интерактивной модификации в реальном времени желаемой обрабатываемой сцены путем управления матрицей обработки согласно личному предпочтению или другим критериям. Однако прямой задачей является приспособление предложенного способа к параметрическим способам вообще.

Из-за параметрического подхода сокращение/разделение/смешение, субъективное качество обработанного аудио выходного сигнала зависит от установки параметров обработки. Свобода пользовательского выбора параметров настройки обработки влечет за собой риск выбора несоответствующих вариантов обработки объекта, таких как чрезмерные манипуляции передачи объекта в полной звуковой сцене.

Для коммерческого продукта недопустимо произвести плохое качество звука и/или аудио искажения для любых параметров настройки в пользовательском интерфейсе. Чтобы контролировать чрезмерное ухудшение созданного выходного сигнала SAOC, были описаны несколько вычислительных способов, которые основаны на идее вычислить меру перцепционного качества обработанной сцены и в зависимости от этой меры (и другой информации) изменить фактически используемые коэффициенты обработки (см., например, ссылку [6]).

Данное изобретение создает альтернативные идеи сохранения субъективного качества звука обработанной сцены SAOC:

- для которых вся обработка выполнена полностью в пределах декодера/транскодера SAOC и

- которые не вовлекают явное вычисление сложных мер воспринятого качества звука обработанной звуковой сцены.

Эти идеи могут таким образом быть реализованы структурно простым и чрезвычайно эффективным способом в пределах структуры декодера/транскодера SAOC. Так как предложенные механизмы контроля за искажениями (DCMs) стремятся ограничивать внутренние для декодера SAOC параметры, а именно коэффициенты обработки (RCs) и коэффициенты транскодирования (TCs), их называют схемами ограничения параметра (PLS) согласно данному описанию.

Однако схемы ограничения параметра могут быть также применены к любым другим аудио декодерам.

Использованная литература

[1] С.Faller and F.Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans. on Speech and Audio Proc., vol.11, no.6, Nov. 2003.

[2] С.Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752.

[3] J.Herre, S.Disch, J.Hilpert, O.Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.

[4] J.Engdegård, B.Resch, C.Falch, O.Hellmuth, J.Hilpert, A.Hölzer, L.Terentiev, J.Breebaart, J.Koppens, E.Schuijers and W.Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377.

[5] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC), "ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.

[6] US patent application 61/173.456. METHODS, APPARATUS, AND COMPUTER PROGRAMS ДЛЯ DISTORTION AVOIDING AUDIO SIGNAL PROCESSING.

[7] EBU Technical recommendation: "MUSHRA-EBU Method для Subjective Listening Tests of Intermediate Audio Quality", Doc. B/AIM022, October 1999.

[8] ISO/IEC JTC1/SC29/WG11 (MPEG), Document N10843, "Study on ISO/IEC 23003-2:200x Spatial Audio Object Coding (SAOC)", 89th MPEG Meeting, London, UK, July 2009.

1. Устройство (100; 250; 350; 440; 450), для формирования одного или нескольких подстроенных параметров (120; 252; 352; ; ) для формирования представления сигнала повышающего микширования (220; 430а-430М) на основе представления сигнала понижающего микширования (210; 420) и связанного с этим представлением сигнала понижающего микширования служебной параметрической информации (212; 422) с использованием среднего значения параметров, включающее подстройщик параметра, выполненный с возможностью получения одного или нескольких параметров (110; 214; 337) и формирования на их основе одного или нескольких подстроенных параметров (120; 252; 352), где подстройщик параметра выполнен с возможностью сформировать один или более подстроенных параметров в зависимости от среднего значения (132; ; ) из множества значений параметра (110; 214; 337; R; Т), так, что искажение представления микшированного с повышением сигнала, вызываемое при использовании неоптимальных параметров для обработки представления микшированного с повышением сигнала, уменьшено, по крайней мере, для одного или более параметров, отклоняющихся от оптимальных параметров больше, чем на предопределенное отклонение.

2. Устройство (100; 250; 350; 440; 450) по п. 1, где подстройщик параметра выполнен с возможностью сформировать один или более подстроенных параметров в зависимости от среднего значения, которое является взвешенным средним числом множества значений параметра.

3. Устройство (100; 250; 350; 440; 450) по п. 1, где подстройщик параметра выполнен с возможностью сформировать один или более подстроенных параметров, таким образом, что один или более подстроенных параметров отклоняются от среднего значения меньше, чем соответствующие полученные параметры.

4. Устройство (100; 250; 440) по п. 1, где устройство выполнено с возможностью сформировать один или несколько коэффициентов рендеринга (214; R), описывающих требуемые вклады аудио объектов в один или более канал представления микшированного с повышением сигнала (220; 430а-430М), и где устройство выполнено с возможностью сформировать один или несколько подстроенных коэффициентов рендеринга (252;) в качестве подстроенных параметров.

5. Устройство (100; 250; 440) по п. 4, где подстройщик параметра выполнен с возможностью получить в качестве входных параметров множество коэффициентов рендеринга (214; R); и где подстройщик параметра выполнен с возможностью вычислить среднее значение (R) среди коэффициентов рендеринга, связанных со множеством аудио объектов; и где подстройщик параметра выполнен с возможностью сформировать подстроенные коэффициенты рендеринга (252; ) таким образом, что ограничено отклонение подстроенного коэффициента обработки от среднего числа среди коэффициентов обработки, связанных со множеством аудио объектов.

6. Устройство (100; 250; 440) по п. 5, где подстройщик параметра выполнен с возможностью оставить неизменным коэффициент рендеринга (214; R) в пределах допустимого интервала, определенного в зависимости от среднего значения () среди коэффициентов рендеринга, и выборочно установить коэффициент рендеринга (214; R), который больше чем верхнее граничное значение допустимого интервала, к величине, которая меньше чем или равна верхнему граничному значению, и выборочно установить коэффициент рендеринга (214; R), который меньше чем более низкое граничное значение допустимого интервала, к величине, которая больше чем или равна более низкому граничному значению.

7. Устройство (100; 250; 440) по п. 5, где подстройщик параметра выполнен с возможностью итерационно выбрать из коэффициентов рендеринга соответствующий (R(i_max)), который имеет максимальное отклонение (R_d,max) от среднего значения () среди коэффициентов рендеринга в соответствующей итерации, и привести выбранный среди коэффициентов рендеринга коэффициент (R(i_max)) ближе к среднему значению () среди коэффициентов рендеринга, чтобы итерационно привести коэффициенты рендеринга, которые находятся за пределами допустимого интервала, определенного в зависимости от среднего среди коэффициентов рендеринга, в допустимый интервал.

8. Устройство (100; 250; 440) по п. 7, где подстройщик параметра выполнен с возможностью повторить итерационный выбор соответствующего коэффициента (R(i_max)) из коэффициентов рендеринга и итерационной модификации выбранного коэффициента из коэффициентов рендеринга до тех пор, пока все коэффициенты обработки не подстроены, чтобы быть в пределах примененных допустимых интервалов.

9. Устройство (100; 350; 450) по п. 1, где устройство выполнено с возможностью получить один или несколько коэффициентов транскодирования (337; Т), описывающих разложение одного или более каналов представления микшированного с понижением сигнала (210; 420) на один или несколько каналов представления микшированного с повышением сигнала (220; 430а-430М), и где устройство выполнено с возможностью сформировать один или несколько подстроенных коэффициентов транскодирования(352; ) в качестве подстроенных параметров.

10. Устройство (100; 350; 450) согласно п. 9, где подстройщик параметра выполнен с возможностью получить в качестве входных параметров временную последовательность коэффициентов транскодирования (337; Т); и где подстройщик параметра выполнен с возможностью вычислить среднее по времени () значение в зависимости от множества коэффициентов транскодирования; и где подстройщик параметра выполнен с возможностью сформировать подстроенные коэффициенты транскодирования (352; ) таким образом, что отклонение подстроенных транскодирующих коэффициентов от среднего по времени значения ограничено.

11. Устройство (100; 350; 450) согласно п. 10, где подстройщик параметра выполнен с возможностью оставить неизменным коэффициент транскодирования (337; Т), который находится в пределах допустимого интервала, определенного в зависимости от среднего по времени () значения, и выборочно установить коэффициент транскодирования, который больше чем верхнее граничное значение допустимого интервала к величине, которая меньше чем или равна верхнему граничному значению допустимого интервала, и выборочно установить коэффициент транскодирования, который меньше чем более низкое граничное значение допустимого интервала к величине, которая больше чем или равна более низкому граничному значению.

12. Устройство (100; 350; 450) по п. 10, где подстройщик параметра выполнен с возможностью вычислить среднее по времени () значение, используя рекурсивное низкочастотное фильтрование последовательности транскодирующих коэффициентов (337; Т).

13. Устройство (100; 250; 350; 440; 450) по п. 1, где подстройщик параметра выполнен с возможностью сформировать заданный один из одного или более подстроенных параметров, таким образом, что заданный один из подстроенных параметров лежит в пределах допустимого интервала, границы которого определены в зависимости от оценки среднего (132; ; ; ) среди множества входных величин параметра и одного или более допустимых параметров (Λ_R-; Λ_R+; Λ_T-; Λ_T+; Λ_X-; Λ_X+), и таким образом, что отклонение между входным параметром и соответствующим подстроенным параметром минимизировано или осталось в рамках предопределенного максимального допустимого диапазона.

14. Устройство (100; 250; 350; 440; 450) по п. 13, где подстройщик параметра выполнен с возможностью выборочно установить входной параметр, который находится за пределами допустимого интервала, границы которого определены в зависимости от оценки среднего значения (132; ; ; ) множества входных величин параметра, к верхнему граничному значению (; ; ; ) или более низкому граничному значению (; ; ; ) допустимого интервала, чтобы получить подстроенную версию (; ; ) входного параметра.

15. Устройство (100; 250; 350; 440; 450) согласно п. 13, где подстройщик параметра выполнен с возможностью итерационно выбрать из входных параметров соответствующий параметр (R(i_max); X_i*), который имеет максимальное отклонение от среднего значения (132; ; ; ) в соответствующей итерации, и привести параметр, выбранный из входных параметров, ближе к среднему значению, чтобы итерационно привести в допустимый интервал входные параметры, которые могут быть за пределами допустимого интервала, границы которого определены в зависимости от оценки среднего.

16. Устройство (100; 350; 450) согласно п. 15, где подстройщик параметра выполнен с возможностью выбрать размер шага модификации, чтобы привести выбранный параметр (R(i_max); X_i**) среди входных параметров ближе к среднему значению множества входных значений параметра, чтобы предопределить часть различия между выбранным из входных параметров и средним значением.

17. Устройство (200; 300; 410) для представления сигнала повышающего микширования (220; 430а-430М) на основе представления микшированного с понижением сигнала (210; 420) и параметрической служебной информации (212; 422), включающее устройство (100; 250; 350; 440; 450), выполненное с возможностью сформировать один или несколько подстроенных параметров (120; 252; 352; ; ) на основе одного или нескольких полученных параметров (110; 214; 337; R; Т) согласно п. 1; процессор сигнала (230; 330), выполненный с возможностью получить представление микшированного с повышением сигнала на основе представления микшированного с понижением сигнала и параметрической служебной информации, где устройство, выполненное с возможностью сформировать один или несколько подстроенных параметров, выполнено с возможностью подстроить один или несколько параметров рендеринга (252; 352; R; Т) процессора сигнала.

18. Устройство (200; 300; 410) по п. 17, где процессор сигнала (230) выполнен с возможностью сформировать представление микшированного с повышением сигнала (220; 430а-430М) в зависимости от подстроенных коэффициентов рендеринга (252; ), описывающих вклады аудио объектов в один или более каналов представления микшированного с повышением сигнала; и где устройство (100; 250; 440), выполненное с возможностью сформировать один или несколько подстроенных параметров, выполнено с возможностью получить множество определенных пользователями параметров рендеринга (214; R) в качестве входных параметров и сформировать на основе этого один или несколько подстроенных параметров рендеринга (252; ) для использования процессором сигнала.

19. Устройство (300; 410) по п. 17, где устройство (100; 350; 450), выполненное с возможностью сформировать один или более подстроенных параметров, выполнено с возможностью получить один или несколько элементов матрицы смешения (337; Т) в качестве одного или более входных параметров и сформировать на основе этого один или несколько подстроенных элементов матрицы смешения (352; ) для использования процессором (330) сигнала; и где процессор (330) сигнала выполнен с возможностью сформировать представление микшированного с повышением сигнала (220; 430а-430М) в зависимости от подстроенных элементов матрицы смешения (352; ), где матрица смешения описывает отображение одного или более аудио сигналов канала представления микшированного с понижением сигнала на один или несколько аудио сигналов канала представления микшированного с повышением сигнала.

20. Устройство (200; 300; 410) по п. 17, где процессор сигнала выполнен с возможностью получить величину произвольного усиления сигнала, микшированного с понижением MPEG окружения, и когда устройство, выполненное с возможностью сформировать один или несколько подстроенных параметров, выполнено с возможностью получить множество величин произвольного усиления сигнала, микшированного с понижением, в качестве входных параметров и сформировать множество подстроенных величин произвольного усиления сигнала, микшированного с понижением.

21. Способ формирования одного или нескольких подстроенных параметров для формирования представления микшированного с повышением сигнала на основе представления микшированного с понижением сигнала и параметрической служебной информации, связанной с сокращенным представлением сигнала, включающий получение одного или более параметров; и формирование на их основе одного или нескольких подстроенных параметров, где один или более подстроенных параметров сформированы в зависимости от среднего значения среди множества величин параметра, так, что искажение представления микшированного с повышением сигнала, вызванное использованием неоптимальных параметров, уменьшено, по крайней мере, для одного или более параметров, отклоняющихся от оптимальных параметров больше, чем предопределенное отклонение.

22. Цифровой носитель данных, содержащий компьютерную программу для выполнения способа по п. 21, когда компьютерная программа выполняется на компьютере.

Изобретение относится к средствам кодирования и декодирования звукового сигнала. Технический результат заключается в повышении эффективности кодирования при наличии колебаний основной частоты.

Устройство и способ для кодирования и декодирования кодированного аудиосигнала с использованием временного формирования шума/наложений // 2607263

Изобретение относится к средствам для кодирования и декодирования кодированного аудиосигнала. Технический результат заключается в предоставлении усовершенствованного принципа кодирования/декодирования, позволяющего уменьшить скорость передачи битов.

Устройство и способ для воспроизведения аудиосигнала, устройство и способ для генерирования кодированного аудиосигнала, компьютерная программа и кодированный аудиосигнал // 2607262

Изобретение относится к средствам для генерирования и воспроизведения аудиосигнала. Технический результат заключается в обеспечении возможности генерирования и воспроизведения аудиосигнала при уменьшении доступной скорости передачи данных.

Системы и способы для определения набора коэффициентов интерполяции // 2607260

Изобретение относится к системам и способам определения набора коэффициентов интерполяции. Технический результат изобретения заключается в оптимизировании пропускной способности, уравновешивая тем самым желаемую среднюю битовую скорость восстанавливаемого речевого сигнала. Способ для определения набора коэффициентов интерполяции посредством электронного устройства включает в себя определение значения на основе свойства текущего кадра и свойства предыдущего кадра, определение того, находится или нет значение за пределами диапазона, определение набора коэффициентов интерполяции на основе значения и индикатора режима прогнозирования, если значение находится за пределами диапазона.

Устройство для квантования коэффициентов кодирования с линейным предсказанием, устройство кодирования звука, устройство для деквантования коэффициентов кодирования с линейным предсказанием, устройство декодирования звука и электронное устройство для этого // 2606552

Изобретение относится к области квантования коэффициентов кодирования с линейным предсказанием. Технический результат – обеспечение повышения эффективности квантования аудио или речевого сигнала посредством выбора оптимального модуля квантования.

Аудио кодер, аудио декодер, способ кодирования аудио информации, способ декодирования аудио информации и компьютерная программа, использующая итеративное уменьшение размера интервала // 2605677

Группа изобретений относится к технологиям кодирования/декодирования аудио информации. Техническим результатом является повышение эффективности кодирования/декодирования аудио информации.

Система и способ возбуждения смешанной кодовой книги для кодирования речи // 2604425

Изобретение относится к средствам возбуждения смешанной кодовой книги для кодирования речи. Технический результат заключается в повышении воспринимаемого качества речевого сигнала по сравнению с системами кодирования, использующими только импульсное возбуждение или только шумовое возбуждение.

Декодер и способ многоэкземплярного пространственного кодирования аудиообъектов с применением параметрической концепции для случаев многоканального понижающего микширования/повышающего микширования // 2604337

Изобретение относится к аудиосистемам и предназначено для генерирования сигнала вывода аудио. Технический результат - повышение точности воспроизведения аудиосигнала.

Звуковые кодирующее устройство и декодирующее устройство // 2602988

Изобретение относится к области многоканального звукового кодирования. Техническим результатом является повышение качества кодированного и декодированного звукового сигнала.

Перекодировка метаданных // 2602332

Изобретение относится к обработке метаданных и предназначено для перекодировки метаданных с пониженной вычислительной сложностью. Технический результат - повышение точности перекодировки метаданных.

Устройство для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал, способы, компьютерные программы и битовый поток, представляющий многоканальный звуковой сигнал посредством использования параметра линейной комбинации // 2607267

Изобретение относится к средствам для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования. Технический результат заключается в обеспечении высокого качества звука даже в случае выбора пользователем матрицы аудиокодирования при сохранении низкого уровня вычислительной эффективности на стороне аудиокодера. Устройство включает ограничитель искажения, формируемый, чтобы получить измененную матрицу визуализации посредством использования линейной комбинации определенной пользователем матрицы визуализации и заданной матрицы визуализации в зависимости от параметра линейной комбинации. Устройство также включает процессор сигнала, формируемый, чтобы получить представление сигнала повышающего микширования на основе представления сигнала понижающего микширования и связанной с объектом параметрической информации посредством использования измененной матрицы визуализации. 6 н. и 15 з.п. ф-лы, 19 ил.

Эффективное ослабление опережающих эхо-сигналов в цифровом звуковом сигнале // 2607418

Изобретение относится к средствам ослабления опережающих эхо-сигналов в цифровом звуковом сигнале. Технический результат заключается в обеспечении возможности ослабления высоких частот и паразитных опережающих эхо-сигналов при декодировании без передачи кодирующим устройством какой-либо вспомогательной информации. Ослабляют опережающие эхо-сигналы в цифровом звуковом сигнале, получаемом путем кодирования посредством преобразования. В декодированном сигнале обнаруживают положение атаки. Определяют зону опережающего эхо-сигнала, предшествующую положению атаки, обнаруженному в декодированном сигнале. Вычисляют коэффициенты ослабления на каждый подблок зоны опережающего эхо-сигнала в зависимости, по меньшей мере, от кадра, в котором была обнаружена атака, и от предыдущего кадра. Производят ослабление опережающего эхо-сигнала в подблоках зоны опережающего эхо-сигнала при помощи соответствующих коэффициентов ослабления. Способ ослабления опережающего эхо-сигнала дополнительно содержит этап применения адаптивной фильтрации для придания спектральной формы зоне опережающего эхо-сигнала на текущем кадре до обнаруженного положения атаки. 4 н. и 9 з.п. ф-лы, 12 ил.

Кодирование звуковых сцен // 2608847

Изобретение относится к кодированию и декодированию звука. Технический результат – обеспечение менее сложного и более гибкого восстановления звуковых объектов. Примерные варианты осуществления предлагают способы кодирования и декодирования и соответствующие кодеры и декодеры для кодирования и декодирования звуковой сцены, которая содержит по меньшей мере один или несколько звуковых объектов. Кодер генерирует битовый поток, который содержит сигналы понижающего микширования и дополнительную информацию, которая содержит отдельные матричные элементы матрицы восстановления, которая обеспечивает возможность восстановления одного или нескольких звуковых объектов в декодере. 6 н. и 27 з.п. ф-лы, 9 ил.

Регулировка уровня во временной области для декодирования или кодирования аудиосигналов // 2608878

Изобретение относится к кодированию, декодированию и обработке аудиосигналов. Технический результат – возможность регулировки уровня сигнала в динамическом диапазоне без потери точности данных. Декодер аудиосигнала для предоставления декодированного представления аудиосигнала на основе кодированного представления аудиосигнала содержит каскад предварительной обработки декодера для получения множества сигналов полосы частот из кодированного представления аудиосигнала, модуль оценки срезания, модуль сдвига уровня, преобразователь частотной области во временную и компенсатор сдвига уровня. Модуль оценки срезания анализирует кодированное представление аудиосигнала и/или дополнительную информацию касательно усиления сигналов полосы частот для определения текущего коэффициента сдвига уровня. Модуль сдвига уровня сдвигает уровни сигналов полосы частот в соответствии с коэффициентом сдвига уровня. Преобразователь частотной области во временную преобразует сигналы полосы частот со сдвинутым уровнем в представление временной области. Компенсатор сдвига уровня воздействует на представление временной области для частичной компенсации соответствующего сдвига уровня и для получения существенно компенсированного представления временной области. 4 н. и 12 з.п. ф-лы, 17 ил.

Генерация комфортного шума // 2609080

Изобретение относится к средствам для генерации комфортного шума. Технический результат заключается в повышении воспринимаемого качества звука. Буфер заранее определенного размера сконфигурирован, чтобы хранить CN-параметры для кадров SID (Silence Insertion Descriptor – Дескриптор добавления тишины) и активных кадров затягивания. Устройство выбора подмножества сконфигурировано для определения подмножества CN-параметров, релевантного для SID-кадров, на основе возраста сохраненных CN-параметров и на основе остаточных энергий. Устройство извлечения параметров управления комфортного шума сконфигурировано, чтобы использовать определенное подмножество CN-параметров для определения параметров управления CN для первого SID-кадра, следующего за активным кадром сигнала. 6 н. и 10 з.п. ф-лы, 12 ил.

Устройство и способы для адаптации аудиоинформации при пространственном кодировании аудиообъектов // 2609097

Изобретение относится к средствам для адаптации входной аудиоинформации, кодирующей один или более аудиообъектов. Технический результат заключается в повышении эффективности адаптации аудиоинформации к конкретному целевому сценарию применения. Входная аудиоинформация содержит два или более входных аудиоканалов понижающего микширования и дополнительно содержит входную параметрическую побочную информацию. Адаптированная аудиоинформация содержит один или более адаптированных аудиоканалов понижающего микширования и дополнительно содержит адаптированную параметрическую побочную информацию. Устройство содержит модификатор сигнала понижающего микширования для адаптации, в зависимости от адаптационной информации, двух или более входных аудиоканалов понижающего микширования для получения одного или более адаптированных аудиоканалов понижающего микширования. Кроме того, устройство содержит средство адаптации параметрической побочной информации для адаптации, в зависимости от адаптационной информации, входной параметрической побочной информации для получения адаптированной параметрической побочной информации. 4 н. и 9 з.п. ф-лы, 9 ил.

Устройство и способ для совмещения потоков пространственного аудиокодирования на основе геометрии // 2609102

Изобретение относится к средствам для формирования совмещенного потока аудиоданных. Технический результат заключается в обеспечении возможности формирования совмещенного потока аудиоданных. Устройство содержит демультиплексор для получения множества одноуровневых потоков аудиоданных, где демультиплексор приспособлен для приема одного или более входных потоков аудиоданных, где каждый входной поток аудиоданных содержит один или более уровней, где демультиплексор приспособлен для демультиплексирования каждого из входных потоков аудиоданных, имеющих один или более уровней, на два или более демультиплексированных потоков аудиоданных, имеющих ровно один уровень, так что упомянутые два или более демультиплексированных потоков аудиоданных вместе содержат упомянутый один или более уровней входного потока аудиоданных. Кроме того, устройство содержит модуль совмещения для формирования совмещенного потока аудиоданных, имеющего один или более уровней, на основе упомянутого множества одноуровневых потоков аудиоданных. 3 н. и 15 з.п. ф-лы, 44 ил.

Способ распознавания протоколов низкоскоростного кодирования // 2610285

Изобретение предназначено для распознавания протоколов низкоскоростного кодирования речи (НСКР). Технический результат заключается в повышении точности распознавания протоколов НСКР. Технический результат достигается благодаря увеличению размерности измеренного вектора коэффициентов избыточности ϕZ до ϕL, L=Z+2 и учету эффекта сдвига элементов вектора ϕL путем формирования квадратной эталонной матрицы ΦLj эт для всех J известных протоколов НСКР, j=1, 2 …, J. Для этого принимают цифровой поток Y в течение заданного интервала времени ΔT. Формируют прямоугольную информационную матрицу YK×L, строками которой являются последовательно размещенные друг под другом информационные блоки. Вычисляют вектор коэффициентов избыточности ϕL, поэлементно сравнивают измеренный вектор ϕL со строками всех J квадратных эталонных матриц ΦLj эт, определяют отклонение между измеренным вектором ϕL и строками всех J эталонных матриц ΦLj эт, принимают решение в пользу j-го протокола НСКР, для которого обеспечивается минимальное отклонение измеренного вектора ϕL от строки j-й квадратной эталонной матрицы ΦLj эт. 2 з.п. ф-лы, 9 ил.

Расширение полосы частот гармонического аудиосигнала // 2610293

Изобретение относится к средствам для управления усилениями в полосах в расширенной области полосы частот на основе информации о положениях пиков. Технический результат заключается в повышении качества расширения полосы частот гармонических аудиосигналов. Принимают множество значений усиления, ассоциированных с полосой b частот, и множество соседних полос частот для полосы b. Определяют, содержит ли реконструированная соответствующая полоса b’ частот спектральный пик. Когда полоса b’ содержит спектральный пик, значение усиления, ассоциированное с полосой b’, устанавливают как первое значение на основе принятого множества значений усиления; и в противном случае, значение усиления устанавливают как второе значение на основе принятого множества значений усиления. 4 н. и 8 з.п. ф-лы, 10 ил.

Воспроизведение многоканального аудио // 2610416

Изобретение относится к воспроизведению многоканального аудио и используется, в частности, в системе воспроизведения домашнего кинотеатра/объемного звучания с использованием беспроводных блоков динамиков. Технический результат – увеличение гибкости и облегчение эксплуатации путем сокращения потребности в проводных соединениях. Система воспроизведения многоканального аудио содержит модуль воспроизведения аудио, который генерирует аудиосигналы для множества аудиоканалов. Множество взаимозаменяемых блоков динамиков содержит аккумулятор и аудиопреобразователь для воспроизведения аудиосигнала. Зарядный блок связан с конкретным аудиоканалом и содержит источник зарядки, который может заряжать аккумулятор присоединенного блока динамика. Связующая схема может связать блок динамика, когда он присоединен к зарядному блоку, с первым аудиоканалом. Система может непрерывно ассоциировать конкретные каналы с зарядными блоками (или пассивными основаниями динамиков, которые не могут осуществлять зарядку), а взаимозаменяемые блоки динамиков могут адаптироваться в зависимости от их присоединения. Данный подход может позволить осуществлять зарядку блока динамика (возможно, беспроводного) просто путем замены данного блока динамика на присоединенный к зарядному блоку. 2 н. и 13 з.п. ф-лы, 16 ил.