Управление громкостью для пользовательской интерактивности в системах аудиокодирования

Изобретение относится к средствам для управления громкостью. Технический результат заключается в повышении эффективности манипулирования громкостью для ее компенсации. Модифицируют аудиосигнал в ответ на пользовательский ввод. Определяют усиление компенсации громкости, с одной стороны, на основе опорной громкости или опорного усиления, а с другой стороны, на основе модифицированной громкости или модифицированного усиления. Модифицированная громкость или модифицированное усиление зависит от пользовательского ввода. Усиление компенсации громкости определяется на основе метаданных аудиосигнала, указывающих, должна ли группа, содержащаяся в аудиосигнале, использоваться или не использоваться для определения усиления компенсации громкости, причем группа содержит один или несколько аудиоэлементов; и/или усиление компенсации громкости определяется на основе метаданных аудиосигнала, относящихся к предустановке, причем предустановка относится к набору по меньшей мере из одной группы, содержащей один или несколько аудиоэлементов. Манипулируют громкостью сигнала с использованием усиления компенсации громкости. 10 н. и 27 з.п. ф-лы, 3 ил.

 

Изобретение относится к аудиопроцессору и аудиокодеру. Изобретение также относится к соответствующим способам.

Современные системы аудио кодирования не только обеспечивают средства для эффективной передачи аудио контента в представлении на основе канала динамика, которое просто воспроизводится на стороне декодера. Они дополнительно включают в себя более сложные функции, позволяющие пользователям взаимодействовать с контентом и, таким образом, влиять на то, как аудио воспроизводится и представляется в декодере. Это обеспечивает возможность реализации новых типов пользовательского опыта по сравнению с унаследованными системами аудиокодирования.

Примером усовершенствованных систем аудиокодирования является стандарт MPEG-H 3D Audio standard (J. Herre at al., ʺMPEG-H Audio - The New Standard for Universal Spatial/3D Audio Codingʺ, 137th AES Convention, 2014, Los Angeles). Он позволяет передавать иммерсионный аудио контент в трех разных форматах: на основе канала, на основе объекта и на основе сцены, с использованием амбиофонии более высокого порядка (HOA). Он был разработан, чтобы предлагать новые возможности, такие как взаимодействие с пользователем для персонализации и адаптации аудио для различных сценариев использования.

Три различные категории для форматов контента могут быть описаны следующим образом:

- На основе канала: Традиционно, пространственный аудио контент (начиная с простого двухканального стерео) доставлялся в виде набора канальных сигналов, которые предназначены для воспроизведения динамиками в точно определенном, фиксированном целевом местоположении относительно слушателя.

- На основе объекта: Аудио объектами являются сигналы, которые должны воспроизводиться как исходящие из конкретного целевого местоположения, которое задано ассоциированной вспомогательной информацией, предоставленной в виде метаданных вместе с аудио. В отличие от канальных сигналов, фактическое размещение аудио объектов может изменяться во времени и не обязательно предварительно определяется во время процесса формирования звука, а определяется представления его целевому динамику, установленному во время воспроизведения. Это может также включать пользовательскую интерактивность по местоположению или уровню объекта или групп объектов.

- Амбиофония более высокого порядка (HOA) является альтернативным подходом для захвата трехмерного звукового поля путем передачи ряда 'сигналов коэффициентов', которые не имеют прямого отношения к каналам или объектам. Фактические аудиосигналы для воспроизведения генерируются в декодере с учетом данной конфигурации динамиков.

Способ компенсации громкости в основанных на объектах системах аудиокодирования, включая взаимодействие с пользователем, представлен в ЕР 2 879 131 А1. Декодер принимает сигнал аудиовхода, содержащий сигналы аудио объектов, и генерирует сигнал аудиовыхода. Процессор сигналов определяет значение компенсации громкости для сигнала аудиовыхода на основе информации о громкости, ассоциированной с сигналом аудиовхода, и на основе информации представления. Информация представления (рендеринга) указывает, должен ли один или несколько сигналов аудио объектов быть усилен или ослаблен и может быть скорректирован по желанию пользователя.

Задачей изобретения является улучшение возможности компенсации громкости.

Указанная задача решается посредством аудиопроцессора для обработки аудиосигнала, содержащего: модификатор аудиосигнала, причем модификатор аудиосигнала сконфигурирован, чтобы изменять аудиосигнал в ответ на пользовательский ввод; контроллер громкости, причем контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости, с одной стороны, на основе опорной громкости или опорного усиления, и с другой стороны, на основе модифицированной громкости или модифицированного усиления, причем модифицированная громкость или модифицированное усиление зависит от пользовательского ввода, причем контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости на основе метаданных аудиосигнала, указывающих, какая группа должна использоваться или не должна использоваться для определения усиления компенсации громкости, и причем группа содержит один или несколько аудио элементов; и манипулятор громкости, причем манипулятор громкости сконфигурирован, чтобы манипулировать громкостью сигнала с использованием усиления компенсации громкости.

Аудиопроцессор - или декодер или устройство для обработки аудиосигнала - принимает аудиосигнал и генерирует в одном варианте осуществления выходной сигнал, который содержит аудио объекты и аудио элементы и т.д. аудиосигнала, подлежащего воспроизведению, например, динамиками или наушниками, или подлежащего сохранению на носителе и т.д.

Аудиопроцессор реагирует на пользовательский ввод через модификатор аудиосигнала, который сконфигурирован, чтобы модифицировать аудиосигнал в ответ на пользовательский ввод. Пользовательский ввод относится в одном варианте осуществления к усилению или ослаблению группы и/или к выключению группы или к включению группы. Группы содержат один или несколько аудио элементов, например аудио объектов, каналов, объектов или компонентов HOA. Пользовательский ввод также относится, в зависимости от варианта осуществления, к данным, касающимся конфигурации воспроизведения, используемой для воспроизведения сигнала. Еще один пользовательский ввод относится к выбору предустановки. Предустановка относится к набору из по меньшей мере одной группы и определяет - в зависимости от варианта осуществления - конкретно измеренные значения громкости группы и/или значения усиления для соответствующих групп. Пользовательский ввод используется модификатором аудиосигнала для соответствующей модификации аудиосигнала. В одном варианте осуществления, метаданные содержат данные, принадлежащие множеству предустановок.

Предустановка относится в одном варианте осуществления к набору группы и определяет в другом варианте осуществления группы, которые не принадлежат к предустановке.

Аудиопроцессор также содержит контроллер громкости, который сконфигурирован для определения усиления компенсации громкости. Усиление компенсации громкости - здесь называется C - позволяет уравновесить эффект пользовательского ввода, чтобы обеспечить сигнал с общей громкостью, как требуется или как установлено пользователем. Усиление компенсации громкости определяется, с одной стороны, на основе опорной громкости или опорного усиления, а с другой стороны, на основе модифицированной громкости или модифицированного усиления. Таким образом, усиление компенсации громкости определяется на основе опорной громкости или опорного усиления и модифицированной громкости или модифицированного усиления. Модифицированная громкость или модифицированное усиление зависят от пользовательского ввода.

Контроллер громкости дополнительно сконфигурирован, чтобы определять усиление компенсации громкости на основе метаданных аудиосигнала. Метаданные, которые ассоциированы с аудиосигналом, содержат информацию об аудиосигнале и отдельных группах и в одном варианте реализации увязаны с самим аудио сигналом.

Данные метаданных, в обсуждаемом здесь варианте осуществления аудиопроцессора, указывают, должна ли группа, особенно содержащаяся в аудиосигнале, использоваться, например, должна учитываться или не использоваться, например, должна игнорироваться при определении усиления компенсации громкости. Следовательно, информация о соответствующих группах либо учитывается, либо игнорируется при определении усиления компенсации громкости. По меньшей мере в одном варианте осуществления, то, учитывается(-ются) ли или игнорируется(-ются) группа или группы, дополнительно зависит от пользовательского ввода.

В одном варианте осуществления, учет или игнорирование групп также включает в себя учет или игнорирование их частично в том смысле, что группы и их соответствующие значения используются только для части определения усиления компенсации громкости, например, только для вычисления опорной или модифицированной громкости.

Усиление компенсации громкости используется манипулятором громкости, содержащимся в аудиопроцессоре. Манипулятор громкости манипулирует громкостью сигнала с использованием усиления компенсации громкости. Применяемое усиление компенсации громкости испытывает воздействие не только от пользовательского ввода, но также является результатом данных метаданных, ассоциированных с или даже принадлежащих к аудиосигналу.

Сигнал, обработанный манипулятором громкости, в соответствии с вариантом осуществления, является выходным сигналом, обеспечиваемым аудиопроцессором и основанным на аудиосигнале. Манипулятор громкости в этом варианте осуществления обеспечивает выходные сигналы и манипулирует громкостью выходного сигнала с использованием усиления компенсации громкости.

В другом варианте осуществления, манипулятор громкости манипулирует громкостью сигнала, подаваемого в манипулятор громкости и предпочтительно уже модифицированного в соответствии с пользовательским вводом. В этом варианте осуществления, часть аудиопроцессора обеспечивает или генерирует сигнал, который подается на манипулятор громкости и соответственно обрабатывается, то есть модифицируется относительно его громкости манипулятором громкости.

В другом варианте осуществления, сигнал, громкостью которого манипулирует манипулятор громкости, является аудиосигналом. В этом случае манипулятор громкости модифицирует метаданные аудиосигнала посредством модификации. Этот вариант осуществления ассоциирован с другим вариантом осуществления, в котором аудиопроцессор предоставляет модифицированный аудиосигнал. Модифицированный аудиосигнал модифицирован в соответствии с пользовательским вводом и в соответствии с модификацией громкости. Этот модифицированный аудиосигнал потом также является битовым потоком.

В соответствии с вариантом осуществления аудиопроцессора, контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости на основе по меньшей мере одного флага, содержащегося в данных метаданных, причем флаг указывает, следует ли учитывать или как учитывать группу для определения усиления компенсации громкости. В этом варианте осуществления, метаданные содержат флаги, имеющие, например, ʺистинноеʺ или ʺложноеʺ значение, указывающее, следует ли учитывать ассоциированную группу для вычисления усиления компенсации громкости или нет, соответственно. Учет группы относится в одном варианте осуществления также к вопросу о том, на каком этапе вычисления должна использоваться группа. Это относится, например, к вычислению опорной громкости и модифицированной громкости. Опорная громкость и модифицированная громкость представляют собой вычисленные полные громкости до и после учета пользовательского ввода, соответственно. Флаг указывает в другом варианте осуществления, что соответствующая группа присутствует только в течение короткого интервала и, таким образом, может игнорироваться при определении усиления компенсации громкости.

Согласно варианту осуществления аудиопроцессора, контроллер громкости сконфигурирован, чтобы использовать только группы для определения усиления компенсации громкости, когда группы принадлежат якорю (анкеру, привязке), содержащемуся в метаданных аудиосигнала. Анкер относится в одном варианте осуществления, например, к аудиоэлементам, принадлежащим голосам, диалогам или специальным звуковым эффектам.

Обработка групп, принадлежащих к анкеру, дополнительно конкретизируется в следующих вариантах осуществления.

В одном варианте осуществления, контроллер громкости сконфигурирован, чтобы использовать только группы, принадлежащие к анкеру, для определения усиления компенсации громкости, когда модифицированное усиление по меньшей мере одной группы, принадлежащей к анкеру, больше, чем соответствующее опорное усиление. Таким образом, только группы анкера используются для вычисления усиления компенсации громкости, когда значение усиления по меньшей мере одной группы из этих ʺанкерных группʺ увеличивается вследствие пользовательского ввода, то есть когда пользователь усилил по меньшей мере одну из этих групп.

В альтернативном или дополнительном варианте осуществления, контроллер громкости сконфигурирован, чтобы использовать группы, принадлежащие к анкеру, и группы, пропавшие из анкера, для определения усиления компенсации громкости, когда модифицированное усиление по меньшей мере одной группы, принадлежащей анкеру, ниже, чем соответствующее опорное усиление. Таким образом, в этом варианте осуществления, для вычисления используются не только группы, принадлежащие анкеру, но также группы, которые не принадлежат анкеру, когда значение усиления по меньшей мере одной анкерной группы уменьшается вследствие пользовательского ввода.

В одном варианте осуществления, два предшествующих варианта осуществления объединены. Таким образом, изменение усиления по меньшей мере одной группы, принадлежащей анкеру, определяет, используются ли только анкерные группы или анкерные группы и не-анкерные группы для определения усиления компенсации громкости.

Вышеуказанная задача также решается аудиопроцессором для обработки аудиосигнала, содержащим: модификатор аудиосигнала, причем модификатор аудиосигнала сконфигурирован, чтобы модифицировать аудиосигнал в ответ на пользовательский ввод; контроллер громкости, причем контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости, с одной стороны, на основе опорной громкости или опорного усиления, а с другой стороны, на основе модифицированной громкости или модифицированного усиления, причем модифицированная громкость или модифицированные усиление зависит от пользовательского ввода, причем контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости на основе метаданных аудиосигнала, относящихся по меньшей мере к одной предустановке, причем предустановка относится к набору по меньшей мере из одной группы, содержащей один или несколько аудио элементов; и манипулятор громкости, причем манипулятор громкости сконфигурирован, чтобы манипулировать громкостью сигнала с использованием усиления компенсации громкости.

Относительно общего описания аудиопроцессора, см. приведенное выше обсуждение.

Контроллер громкости аудиопроцессора обращается к данным метаданных, ассоциированных с аудиосигналом или принадлежащих ему. Данные относятся к предустановке, причем предустановка относится к набору по меньшей мере из одной группы, содержащей один или несколько аудио элементов. В этом варианте осуществления, принимается во внимание случай, когда комбинации групп ассоциированы с конкретной громкостью и/или значениями усиления для конкретной предустановки. Следовательно, метаданные содержат данные для групп, зависящие от различных предустановок или по меньшей мере от предустановки, установленной по умолчанию. Поэтому контроллер громкости использует данные, которые ассоциированы с предустановкой, выбранной пользователем, или предустановкой, установленной по умолчанию.

Аудиопроцессор в одном варианте осуществления сконфигурирован в соответствии с по меньшей мере одним из предыдущих вариантов осуществления. Следовательно, рассмотренные выше варианты осуществления по меньшей мере частично также реализованы с вышеупомянутым аудиопроцессором.

В соответствии с вариантом осуществления аудиопроцессора, контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости на основе громкостей групп и/или значений усиления по меньшей мере одной группы набора, указанной предустановкой. Предустановка относится к конкретному набору групп аудио элементов, содержащихся в аудиосигнале. Для этих групп, метаданные содержат конкретные данные - т.е. громкости групп и/или значения усиления - подлежащие использованию для определения усиления компенсации громкости, когда соответствующая предустановка выбрана или задана в качестве предустановки по умолчанию.

В другом варианте осуществления, контроллер громкости сконфигурирован, чтобы определять опорную громкость для набора, указанного предустановкой, с использованием соответствующих громкостей группы и соответствующих значений усиления. Контроллер громкости также сконфигурирован, чтобы определять модифицированную громкость для набора, указанного предустановкой, с использованием соответствующих громкостей группы и соответствующих модифицированных значений усиления. Модифицированные значения усиления модифицированы посредством пользовательского ввода. В этом варианте осуществления, опорная громкость и модифицированная громкость определяются на основе значений, ассоциированных с предустановкой, и для групп, принадлежащих к предустановке. При определении также учитывается указание того, должны ли и каким образом использоваться группы, - например, для определения опорной или модифицированной громкости.

В дополнительном варианте осуществления, контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости на основе данных, содержащихся в метаданных аудиосигнала, относящихся к выбранной предустановке, причем предустановка выбирается посредством пользовательского ввода. В этом варианте осуществления, предустановка выбирается пользователем посредством пользовательского ввода.

В соответствии с вариантом осуществления аудиопроцессора, контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости на основе данных, содержащихся в метаданных аудиосигнала, относящихся к предустановке, установленной по умолчанию. Предустановка, установленная по умолчанию, устанавливается до пользовательского ввода или независимо от него. В этом варианте осуществления рассматривается ситуация, когда пользователь не выбирает предустановку. Для этого используется предустановка, установленная по умолчанию, например, до любого пользовательского ввода, чтобы гарантировать, что даже без взаимодействия пользователя набор данных, в данном случае охватывающий предустановку по умолчанию, используется для определения усиления компенсации громкости.

Указанная задача также решается посредством аудиопроцессора для обработки аудиосигнала, содержащего: модификатор аудиосигнала, причем модификатор аудиосигнала сконфигурирован, чтобы модифицировать аудиосигнал в ответ на пользовательский ввод; контроллер громкости, причем контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости, с одной стороны, на основе опорной громкости или опорного усиления, а с другой стороны, на основе модифицированной громкости или модифицированного усиления, причем модифицированная громкость или модифицированное усиление зависят от пользовательского ввода, причем контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости на основе метаданных аудиосигнала, указывающих, является ли группа выключенной или включенной, причем группа содержит один или несколько аудио элементов; и манипулятор громкости, причем манипулятор громкости сконфигурирован, чтобы манипулировать громкостью сигнала с использованием усиления компенсации громкости.

Относительно общего описания аудиопроцессора данного варианта осуществления см. приведенное выше обсуждение.

Контроллер громкости здесь сконфигурирован, чтобы определять усиление компенсации громкости на основе метаданных аудиосигнала, указывающих, является ли группа выключенной или включенной. В одном примере, аудиосигнал может содержать в качестве аудио объектов разные звуковые дорожки, принадлежащие разным версиям языка фильма. Предустановки также могут относиться к разным версиям языка. Следовательно, в разных предустановках звуковая дорожка одного языка будет включена, а остальные версии будут выключены. Этот пример также показывает, что пользователь может переключаться между различными версиями языка, включая желательную и предлагаемую версию языка и, таким образом, выключая звуковую дорожку, ассоциированную с предустановкой, установленной по умолчанию. Тем не менее, включение одной группы не всегда означает выключение другой группы и наоборот.

Аудиопроцессор в одном варианте осуществления сконфигурирован согласно по меньшей мере одному из предшествующих вариантов осуществления.

Аудиопроцессор в одном варианте осуществления сконфигурирован согласно по меньшей мере одному из предшествующих вариантов осуществления. Следовательно, рассмотренные выше варианты осуществления по меньшей мере частично также реализованы с упомянутым ранее аудиопроцессором. Это справедливо также и в ином случае, когда один аудиопроцессор, описанный выше, по меньшей мере в одном варианте осуществления реализован с учетом последующих вариантов осуществления.

Согласно варианту осуществления, контроллер громкости определяет усиление компенсации громкости на основе пользовательского ввода в зависимости от того, является ли группа включенной или выключенной посредством пользовательского ввода. Здесь взаимодействие пользователя влияет на определение усиления контроллера громкости.

В соответствии с вариантом осуществления аудиопроцессора, контроллер громкости сконфигурирован так, чтобы отбрасывать группу для определения модифицированной громкости, когда группа выключена в ответ на пользовательский ввод. Если пользователь выключает группу, в этом варианте осуществления, группа не используется для определения модифицированной громкости, которая возникает в результате значений громкости, представляющих предпочтения пользователя.

В другом варианте осуществления, контроллер громкости сконфигурирован, чтобы отбрасывать группу для определения опорной громкости, когда группа выключена в метаданных, и включать группу для определения модифицированной громкости, когда группа включается посредством пользовательского ввода. В этом варианте осуществления, группа выключается в метаданных и не используется для определения опорной громкости. Если пользователь включает группу, она добавляется для оценки модифицированной громкости.

В соответствии с вариантом осуществления аудиопроцессора, контроллер громкости сконфигурирован, чтобы включать группу для определения опорной громкости, когда группа включена в метаданных, и исключать группу для определения модифицированной громкости, когда группа выключена посредством пользовательского ввода. В этом варианте осуществления, принимается во внимание случай, обратный предшествующему варианту осуществления.

Указанная задача также решается аудиопроцессором для обработки аудиосигнала, содержащим: модификатор аудиосигнала, причем модификатор аудиосигнала сконфигурирован, чтобы модифицировать аудиосигнал в ответ на пользовательский ввод; контроллер громкости, причем контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости, с одной стороны, на основе опорной громкости или опорного усиления, а с другой стороны, на основе модифицированной громкость или модифицированного усиления, причем модифицированная громкость или модифицированное усиление зависит от пользовательского ввода, при этом контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости на основе метаданных аудиосигнала с по меньшей мере одной громкостью группы, отсутствующей в метаданных группы, содержащейся в аудиосигнале; и манипулятор громкости, причем манипулятор громкости сконфигурирован, чтобы манипулировать громкостью сигнала с использованием коэффициента усиления громкости.

Относительно общего описания аудиопроцессора этого варианта осуществления см. приведенное выше обсуждение.

В этом аудиопроцессоре (или декодере), контроллер громкости учитывает ситуацию, когда для группы, присутствующей в аудиосигнале, отсутствует громкость соответствующей группы. Громкость группы может отсутствовать для конкретной конфигурации предустановки или воспроизведения, и поэтому она или метаданные могут быть полностью лишены какой-либо громкости группы для этой группы.

Аудиопроцессор в одном варианте осуществления сконфигурирован в соответствии с по меньшей мере одним из предшествующих вариантов осуществления. Следовательно, рассмотренные выше варианты осуществления по меньшей мере частично также реализованы с вышеупомянутым аудиопроцессором. Это справедливо также в ином случае, когда аудиопроцессор, описанный выше, по меньшей мере в одном варианте осуществления реализован с учетом последующих вариантов осуществления.

В соответствии с вариантом осуществления аудио процессора, контроллер громкости сконфигурирован, чтобы вычислять отсутствующую громкость группы, используя громкость предустановки, опорное усиление группы с отсутствующей громкостью группы, а также громкости групп и опорные усиления для групп, имеющих громкость группы. Громкость предустановки является полной громкостью групп предустановки.

В другом варианте осуществления, контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости в случае, когда в метаданных аудио сигнала отсутствует по меньшей мере одна громкость группы, для слепой компенсации громкости с использованием только по меньшей мере одного опорного усиления и по меньшей мере одного модифицированного усиления. В этом варианте осуществления, случай по меньшей мере одной отсутствующей громкости группы обрабатывается идентично случаю, когда отсутствуют все громкости групп.

В соответствии с вариантом осуществления аудиопроцессора, контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости в случае, когда метаданные аудиосигнала лишены громкостей групп, для слепой компенсации громкости с использованием только по меньшей мере одного опорного усиления и по меньшей мере одного модифицированного усиления.

Указанная задача также решается посредством аудиопроцессора для обработки аудиосигнала, содержащего: модификатор аудио сигнала, причем модификатор аудиосигнала сконфигурирован, чтобы модифицировать аудиосигнал в ответ на пользовательский ввод; контроллер громкости, причем контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости, с одной стороны, на основе опорной громкости или опорного усиления, а с другой стороны, на основе модифицированной громкости или модифицированного усиления, причем модифицированная громкость или модифицированное усиление зависят от пользовательского ввода, при этом контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости на основе метаданных аудиосигнала, относящихся к конфигурации воспроизведения для воспроизведения сигнала; и манипулятор громкости, причем манипулятор громкости сконфигурирован, чтобы управлять громкостью сигнала с использованием усиления компенсации громкости.

Относительно общего описания аудиопроцессора этого варианта осуществления см. приведенное выше обсуждение.

Аудиопроцессор определяет усиление компенсации громкости на основе данных, относящихся к конкретной конфигурации воспроизведения. Таким образом, метаданные, ассоциированные с аудиосигналом, и в одном варианте осуществления содержащиеся в аудиосигнале, содержат данные, заданные по меньшей мере для одной конфигурации воспроизведения. В одном варианте осуществления, для каждой конфигурации воспроизведения, метаданные содержат данные, соответствующие соответствующей конфигурации воспроизведения или репродуцирования (восстановления).

Аудиопроцессор в одном варианте осуществления сконфигурирован в соответствии с по меньшей мере одним из предшествующих вариантов осуществления. Следовательно, этот аудиопроцессор в одном варианте осуществления объединен по меньшей мере с одним из предшествующих вариантов осуществления.

В соответствии с вариантом осуществления аудиопроцессора, контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости на основе данных метаданных, относящихся к конфигурации воспроизведения и содержащихся ассоциированные громкости групп и/или опорные значения усиления. Следовательно, различные конфигурации воспроизведения ассоциированы с различными значениями усиления и/или громкостями групп для соответствующих групп.

В одном варианте осуществления, метаданные содержат данные для различных предустановок и различных конфигураций воспроизведения.

В другом варианте осуществления, аудиопроцессор содержит преобразователь конфигурации для преобразования данных, содержащихся в метаданных и относящихся к конфигурации воспроизведения, в данные, относящиеся к текущей конфигурации воспроизведения, причем контроллер громкости сконфигурирован, чтобы определять усиление компенсации громкости с использованием данных, предоставленных преобразователем конфигурации. В этом варианте осуществления, аудиопроцессор учитывает ситуацию, когда текущая конфигурация воспроизведения для репродуцирования сигнала отличается от конфигураций воспроизведения, предоставляемых метаданными. Следовательно, данные метаданных преобразуются для приведения в соответствие с текущей конфигурацией воспроизведения, и преобразованные данные используются для определения усиления компенсации громкости.

В варианте осуществления, аудиопроцессор содержит преобразователь формата для преобразования сигнала в предопределенную конфигурацию воспроизведения. В другом варианте осуществления, контроллер громкости сконфигурирован, чтобы выбирать конкретное значение громкости для конкретной конфигурации воспроизведения, используемой преобразователем формата.

Следующие варианты осуществления могут быть реализованы с любым из предшествующих вариантов осуществления.

В одном варианте осуществления, аудиосигнал содержит битовый поток с метаданными, и метаданные содержат опорное усиление по меньшей мере для одной группы.

В соответствии с вариантом осуществления аудиопроцессора, метаданные аудиосигнала содержат громкость группы по меньшей мере для одной группы. В другом варианте осуществления, метаданные содержат громкости групп для множества групп, принадлежащих к аудиосигналу.

В еще одном варианте осуществления, контроллер громкости сконфигурирован, чтобы определять опорную громкость по меньшей мере для одной группы с использованием громкости группы и значения усиления для по меньшей мере одной группы, причем контроллер громкости сконфигурирован, чтобы определять модифицированную громкость для по меньшей мере одной группы с использованием громкости группы и модифицированного значения усиления, и причем модифицированное значение усиления модифицируется посредством пользовательского ввода.

В одном варианте осуществления, контроллер громкости сконфигурирован, чтобы определять опорную громкость, обозначенную Lref, для множества групп с использованием соответствующих громкостей групп, обозначенных Li, и значений усиления, обозначенных gi, для групп. Кроме того, контроллер громкости сконфигурирован, чтобы определять модифицированную громкость, обозначенную Lmod, для множества групп с использованием соответствующей громкости Li группы и модифицированных значений усиления, обозначенных hi, для групп. В одном варианте осуществления, два множества групп идентичны, а в другом варианте осуществления - различны. Множества также зависят от соответствующих данных метаданных.

В другом варианте осуществления, контроллер громкости сконфигурирован, чтобы выполнять операцию ограничения усиления компенсации громкости так, что усиление компенсации громкости ниже, чем верхний порог, и/или так, что усиление компенсации громкости больше, чем нижний порог.

Согласно варианту осуществления аудиопроцессора, манипулятор громкости сконфигурирован, чтобы применять скорректированное усиление к сигналу, определяемое усилением компенсации громкости и усилением нормализации, определяемым целевым уровнем громкости, установленным посредством пользовательского ввода, и уровнем громкости метаданных, содержащимся в метаданных аудиосигнала. В одном варианте осуществления, усиление нормализации определяется с использованием отношения уровня громкости соответствующих групп аудиосигнала и уровня громкости, установленного пользователем для восприятия пользователем для репродуцирования аудиосигнала.

Предшествующие варианты осуществления аудиопроцессоров позволяют компенсировать громкость после пользовательского ввода. Компенсация громкости улучшается путем учета данных, описывающих группы аудиосигнала и их релевантность или вид использования для компенсации громкости. Информация о группах уточняет компенсацию громкости.

Предшествующие варианты осуществления относятся к аудиопроцессору или аудиодекодеру. Далее будет описан кодер, обеспечивающий аудиосигнал с ассоциированными или даже содержащимися метаданными, подлежащими использованию аудиопроцессором.

Указанная задача решается посредством аудиокодера для генерации аудиосигнала, содержащего метаданные. Аудиокодер содержит: определитель громкости для определения значения громкости для по меньшей мере одной группы, имеющей один или несколько аудио элементов; и блок записи метаданных для введения определенного значения громкости в качестве громкости группы в метаданные.

В соответствии с вариантом осуществления аудиокодера, определитель громкости сконфигурирован, чтобы определять различные значения громкости и/или различные значения усиления для различных конфигураций воспроизведения, причем блок записи метаданных сконфигурирован, чтобы вводить определенные различные значения громкости и/или различные значения усиления в ассоциации с соответствующей конфигурацией воспроизведения в метаданные. В этом варианте осуществления, метаданные содержат различные данные для соответствующих групп для различных конфигураций воспроизведения, таким образом, улучшая воспроизведение групп аудиосигнала.

В одном варианте осуществления, определитель громкости сконфигурирован, чтобы определять различные значения громкости и/или различные значения усиления для различных предустановок, относящихся к наборам по меньшей мере из одной группы, содержащей один или несколько аудиоэлементов. Кроме того, блок записи метаданных сконфигурирован, чтобы вводить определенные различные значения громкости и/или различные значения усиления в ассоциации с соответствующей предустановкой в метаданные. В этом варианте осуществления, предустановки относятся к конкретным наборам групп, которые ассоциированы с конкретными громкостями групп и/или опорными значениями усиления.

В другом варианте осуществления, аудиокодер дополнительно содержит контроллер, причем контроллер сконфигурирован, чтобы определять, какая группа должна использоваться для определения усиления компенсации громкости или должна игнорироваться, и причем блок записи метаданных сконфигурирован для записи указания в метаданные, указывающего, какая группа должна использоваться или должна игнорироваться для определения усиления компенсации громкости. Указание в одном варианте осуществления является флагом. В некоторых вариантах осуществления, указание относится к предустановкам, конфигурациям воспроизведения, анкерам и/или длительностям и, следовательно, к релевантности группы.

По меньшей мере в одном варианте осуществления, метаданные содержат по меньшей мере для одной группы аудиосигнала различные данные (например, громкость группы или опорное усиление) с различными значениями.

В соответствии с вариантом осуществления аудиокодера, аудиокодер дополнительно содержит блок оценки, причем блок оценки сконфигурирован для вычисления значения громкости группы для группы, где значение громкости группы для группы не определено определителем громкости. Блок записи метаданных сконфигурирован для ввода вычисленного значения громкости группы в метаданные, так что все группы аудиосигнала имеют ассоциированные громкости групп. В этом варианте осуществления, аудиокодер компенсирует отсутствующую громкость группы путем вычисления ее на основе доступных данных.

Указанная задача также решается посредством способа обработки аудиосигнала.

Способ содержит по меньшей мере следующие этапы:

- Модифицирование аудио сигнала в ответ на пользовательский ввод.

- Определение усиления компенсации громкости, с одной стороны, на основе опорной громкости (как полной громкости ассоциированных отдельных групп перед модификацией пользователем) или опорного усиления, а с другой стороны, на основе модифицированной громкости (в качестве аналога опорной громкости, являясь объединенной громкостью релевантных групп после пользовательского ввода) или модифицированного усиления, причем модифицированная громкость или модифицированное усиление зависит от пользовательского ввода.

Определение усиления компенсации громкости, обозначенного C, выполняется с использованием по меньшей мере одного или комбинации следующих вариантов осуществления, в которых усиление компенсации громкости определяется на основании данных метаданных, ассоциированных с аудиосигналом или даже содержащихся в нем. В различных вариантах осуществления, данные представляют собой следующее, причем соответствующие группы содержат один или несколько аудиоэлементов:

данные указывают, должна ли учитываться группа, содержащаяся в аудиосигнале, или она должна игнорироваться при определении усиления компенсации громкости;

данные относятся к предустановке, при этом предустановка относится к набору из по меньшей мере одной группы;

данные указывают, является ли группа выключенной или включенной;

в данных отсутствует по меньшей мере одна громкость группы для группы, содержащейся в аудиосигнале;

данные относятся к конфигурации воспроизведения для репродуцирования сигнала.

- Манипулирование громкостью выходного сигнала, ассоциированного с аудиосигналом, с использованием усиления компенсации громкости.

Указанная задача также решается посредством способа генерации аудиосигнала, содержащего метаданные. Способ содержит определение значения громкости для группы, имеющей один или несколько аудио элементов, и введение определенного значения громкости для группы в качестве громкости группы в метаданные.

Указанная задача также решается посредством компьютерной программы для выполнения, при ее исполнении на компьютере или процессоре, одного из предшествующих способов.

Варианты осуществления устройства (аудиопроцессора или аудиокодера) также могут выполняться посредством этапов способа и соответствующих вариантов осуществления способа. Поэтому пояснения, приведенные для вариантов осуществления устройства, также справедливы для способа.

Изобретение будет пояснено ниже по отношению к приложенным чертежам и вариантам осуществления, изображенным на приложенных чертежах, на которых:

Фиг. 1 показывает общий вид аудиодекодера,

Фиг. 2 показывает общий вид аудиопроцессора в соответствии с изобретением, и

Фиг. 3 показывает общий вид аудиокодера, соответствующего изобретению.

На фиг. 1 показан общий вид MPEG-H 3D аудиодекодера в качестве примера аудиопроцессора, иллюстрирующий все основные конструктивные блоки системы:

- В качестве первого этапа, принятый аудио поток 500 (включая передаваемые аудиосигналы, будь то каналы, объекты или компоненты HOA вместе с ассоциированными метаданными) декодируется декодером 501, предоставляющим аудио контент 502 и ассоциированные метаданные 503.

- Сигналы каналов отображаются на целевую установку динамиков воспроизведения с использованием преобразователя 504 формата, который служит в качестве рендерера (средства представления) каналов и преобразователя формата.

- Сигналы объектов представляются на целевую установку динамиков воспроизведения посредством рендерера 505 объектов с использованием ассоциированных метаданных объектов.

- Контент амбиофонии высокого порядка предоставляется рендерером 506 HOA на целевую установку динамиков воспроизведения с использованием ассоциированных метаданных HOA.

- Сигналы динамиков, соответствующие различным компонентам (каналам, объекту, HOA), в форме аудиосигналов 507 в качестве выходов преобразователя 504 формата, рендерера 505 объектов и рендерера 506 HOA затем микшируются на стадии микширования. Это делается с помощью микшера 508, обеспечивающего микшированный аудиосигнал 509.

- Выход 509 микшера 508 затем обрабатывается стадией управления громкостью, где аудио нормализуется до желательного целевого уровня громкости. Контроллер 510 громкости выполняет нормализацию, а также компенсацию громкости. Для этой цели, контроллер 510 громкости принимает пользовательский ввод 511. Пользовательский ввод 511 в качестве результата пользовательского взаимодействия относится также к информации о конфигурации динамиков, подлежащей использованию для воспроизведения, и также представляется в преобразователь 504 формата, рендерер 505 объектов и рендерер 506 HOA. На контроллер громкости 510 подаются метаданные 503, в частности, относящиеся к информации воспроизведения и/или громкости, извлеченной декодером 501 из принятого аудио потока 500. Результирующий сигнал 512 в показанном варианте осуществления представляется на динамики конфигурации динамиков, доступной для воспроизведения.

Возможную интерактивность пользователя можно разделить, например, на две различные категории:

- Выбор предустановок передаваемой аудио программы.

- Манипулирование воспроизведением по умолчанию групп аудио элементов.

Значение предустановок и групп в контексте MPEG-H 3D аудио и настоящего изобретения представлено ниже.

Отдельные каналы, объекты и сцены HOA, доступные для передаваемой аудио программы, упоминаются как аудио элементы. Группа относится к конкретной совокупности отдельных аудио элементов. Конкретная группировка информации аудио элементов включена в метаданные MPEG-H 3D аудио, которые передаются вместе с аудио контентом в аудио потоке. Элементы группы не могут быть интерактивно модифицированы сами по себе. Можно манипулировать только всей группой, то есть всеми включенными элементами вместе. Примером может служить группа, состоящая из каналов, соответствующих стерео или конфигурации 5.1 канальных динамиков. В крайнем случае, группа может состоять только из одного элемента, например, диалогового объекта программы. Затем пользователь может изменить, например, уровень этого диалогового объекта в аудио сцене.

Предустановки определяют комбинацию групп в аудио сцене. Предустановки могут использоваться для эффективной сигнализации различных представлений одной и той же аудио программы в пределах одного и того же аудио потока. Определение предустановки также включает в себя информацию по умолчанию или информацию исходного воспроизведения отдельных групп, которая используется в случае, если пользователь не применяет никакой модификации. Наиболее важным примером этой информации воспроизведения является усиление, которое применяется к группе при воспроизведении всей аудио сцены. Информация о конфигурации, которая определяет предустановку, определяется в кодере и является частью метаданных, например, метаданных MPEG-H 3D аудио.

Следует отметить, что основная или установленная по умолчанию аудио сцена может рассматриваться как специальный тип предустановки, который включает в себя все аудио элементы, без необходимости указывать информацию группировки. Тем не менее, установленная по умолчанию или информация исходного воспроизведения (например, усиление) для отдельных аудио элементов обычно предоставляется в метаданных также для основной аудио сцены.

Одной из наиболее важных характеристик для доставки аудио следующего поколения является расширенное управление громкостью, то есть надлежащая сигнализация информации о громкости и нормализация громкости. Управление громкостью особенно важно в приложениях вещания, где оно представляет собой важную характеристику для выполнения применимых норм и рекомендаций вещания.

Концепция управления громкостью, включенная в MPEG-H 3D аудио, основана на метаданных, представляющих измеренную громкость аудио программы. Метаданные передаются в аудио потоке как вариант осуществления аудиосигнала, который должен обрабатываться аудиопроцессором вместе с фактическим аудио контентом. В декодере согласно одному варианту осуществления, усиление нормализации громкости вычисляется на основе переданной информации о громкости и целевого уровня громкости. Усиление нормализации громкости в одном варианте осуществления затем применяется к аудиосигналу после микшера 508, как показано, например, на фиг. 1.

Чтобы учесть конкретную особенность предоставления нескольких предустановок одной и той же аудио программы с одним и тем же аудио потоком, включены дополнительные метаданные громкости, соответствующие измеренной громкости различных предустановок. Этапы обработки, такие как преобразование формата (понижающее микширование) или обработка динамического диапазона, потенциально могут изменять громкость аудио. Таким образом, в одном варианте осуществления, дополнительная информация о громкости включена, чтобы гарантировать корректную нормализацию громкости также в таких случаях.

В другом варианте осуществления передается информация о громкости отдельных групп или даже отдельных аудио элементов. Информация громкости группы представлена в одном варианте осуществления в отношении различных конфигураций динамиков. Например, если группа состоит из сигналов каналов, другая информация громкости группы может быть включена в случае воспроизведения для стерео или конфигурации 5.1 динамиков. Информация громкости групп будет использоваться для управления громкостью в интерактивных сценариях, как предлагается в настоящем изобретении.

Информация о громкости, упомянутая выше, относится к большому разнообразию конфигураций для программы (например, различным предустановкам или различным схемам воспроизведения динамиков). Поскольку эти конфигурации являются статическими, один вариант осуществления предусматривает измерение их громкости в кодере (или перед процессом кодирования) и заполнение соответствующих полей метаданных, например, в потоке MPEG-H 3DA.

Однако, как уже упоминалось выше, важной особенностью современных систем аудиокодирования, таких как MPEG-H 3DA, является поддержка интерактивности пользователя в декодере: пользователь может, например, настраивать громкость конкретных групп или даже включать и выключать их. Важный случай использования обеспечивается расширением диалога, когда пользователь может манипулировать уровнем объекта диалога или группой, ассоциированной с диалогом. В другом примере, пользователь повышает уровень иммерсионного (создающего эффект присутствия) акустического тракта, представленного группой на основе HOA. В другом примере, пользователю желательно включить определенные группы, например, представляющие видео описание для слабослышащих или звуковые дорожки с закадровым голосом.

Изменение уровня групп также подразумевает, что полная громкость воспроизводимой аудио сцены изменяется по сравнению со случаем без модификации. Таким образом, постоянная громкость воспроизведения больше не может быть гарантирована после усиления интерактивности. Так как пользователь может изменять уровни разных объектов также более часто, уровень громкости аудиовыхода может меняться со временем даже для одной и той же программы.

Весьма желательно обеспечить управление громкостью не только для статических представлений аудио программы, но и учитывать интерактивность пользователя, которая изменяет громкость аудио сцены. Изобретение позволяет улучшить управление громкостью в декодере, чтобы обеспечить согласованную нормализацию громкости также в случае взаимодействия пользователя на уровнях групп аудио элементов.

Громкость программы или предустановка сохраняется, когда пользователь меняет уровень определенных аудио элементов или групп в воспроизводимой аудио сцене. Усиление компенсации громкости определяется в одном варианте осуществления на основе опорной громкости, соответствующей исходной аудио сцене, и модифицированной громкости, учитывающей интерактивность усиления пользователя. Усиление компенсации громкости затем применяется к воспроизводимому аудиосигналу вместе с обычным усилением нормализации громкости для достижения желательной целевой громкости декодера.

На фиг. 2 схематично показан пример аудиопроцессора 1, который также называется декодером или просто устройством 1 для обработки аудиосигнала, принимающим аудиосигнал 100 и обеспечивающим выходной сигнал 101. Выходной сигнал 101 в показанном примере представляет собой аудиосигнал, подходящий для подачи на усилитель (не показан), соединенный с динамиками в ситуации воспроизведения, или для подачи непосредственно на динамики или наушники. Аудиосигнал 100 содержит битовый поток с аудиосигналами отдельных аудио объектов и метаданными, предоставляющими информацию об аудио элементах и способах их обработки.

Аудиосигнал 100 подается в модификатор 2 аудиосигнала, который принимает пользовательский ввод 200. Пользовательский ввод 200 относится, в показанном примере, по меньшей мере к выбору определенной предустановки. Предустановки относятся к конкретным комбинациям групп аудио элементов с ассоциированными опорными усилениями gi и/или громкостями Li групп для соответствующих групп аудио элементов. Если пользователь не выбрал предустановку, в показанном варианте осуществления будет использоваться предустановка, установленная по умолчанию со значениями, установленными по умолчанию.

Кроме того, пользователь устанавливает через вход 200 значения усиления отдельных групп. Модифицированные значения усиления hi означают, что соответствующая группа будет усилена или ослаблена в соответствии с опорными значениями усиления gi, содержащимися в метаданных. Например, пользователь может предпочесть слушать усиленный фоновый хор, а не, как обычно, ведущий голос. Следовательно, пользователь увеличит значение усиления фонового хора и уменьшит значение усиления ведущего голоса или выключит этот голос.

Пользователь также имеет возможность включить или выключить группу. Следовательно, если пользователь не хочет слышать группу, группа может быть выключена. В противном случае, если метаданные содержат флаг, подразумевающий, что группа выключена для определенной предустановки, пользователь может ее включить. Это, например, может иметь место, когда аудиосигнал содержит различные версии языка голосового текста, и предустановки относятся к разным языкам. Следовательно, включение или выключение группы относится к тому, используется ли группа в воспроизведении или нет.

В итоге, модификатор 2 сигнала изменяет аудиосигнал 100 в соответствии с пользовательским вводом 200 посредством усиления или ослабления групп аудио элементов, принадлежащих к аудиосигналу 100, и в соответствии с выбранной или установленной по умолчанию предустановкой, охватываемой соответствующими данными метаданных.

Далее следует преобразователь 3 конфигурации, который преобразует данные в текущую конфигурацию воспроизведения, посредством которой будет восстанавливаться аудиосигнал 100. То, какая конфигурация воспроизведения задана и, таким образом, представляет текущую ситуацию, также охватывается пользовательским вводом 200, например, путем выбора из списка. Например, метаданные могут относиться к ситуации с объемным звуком (звуковым окружением), тогда как текущая ситуация воспроизведения допускает стерео воспроизведение. Это преобразование относится в одном варианте осуществления к значениям усиления, а также к значениям громкости.

Преобразователь 3 конфигурации передает преобразованные данные в контроллер 6 громкости, который также принимает пользовательский ввод 200. На основе этих данных, контроллер 6 громкости вычисляет усиление C компенсации громкости, которое подается на манипулятор 5 громкости.

Манипулятор 5 громкости устанавливает полную громкость выходного сигнала 101 с использованием усиления C компенсации громкости и сигнала, принимаемого от микшера 4. Микшер 4 принимает в показанном варианте осуществления через преобразователь 3 конфигурации аудиосигнал 100 после модификации модификатором 2 аудиосигнала и преобразования преобразователем 3 конфигурации и объединяет различные группы аудио элементов (см. для сравнения фиг. 1).

Для пояснения, в иллюстративном примере рассматривается случай, когда конкретная аудио сцена определяется предустановкой, то есть конкретной комбинацией групп. Каждая из групп имеет ассоциированное исходное/по умолчанию усиление, определенное для данной предустановки. Кроме того, предполагается, что громкость каждой группы в предустановке будет доступной. Предустановка может быть выбрана пользователем или задана в качестве предустановки, установленной по умолчанию. Будут использоваться следующие обозначения:

Li - громкость i-ой группы предустановки.

gi - исходное/по умолчанию усиление i-ой группы (заданной, например, по шкале дБ).

hi - модифицированное усиление интерактивности i-ой группы (например, по шкале дБ)

Mref обозначает набор индексов, относящихся к группам, которые включены для вычисления опорной громкости предустановки (или аудио сцены по умолчанию).

Mmod обозначает набор индексов, относящихся к группам, которые включены для вычисления модифицированной громкости предустановки (или модифицированной аудио сцены).

В случае, когда группа состоит из совокупности канальных сигналов, соответствующих конкретной конфигурации динамиков или, например, аудио сцене HOA, в метаданные может быть включено несколько значений громкости групп. Эти различные значения громкости ассоциированы с различными конфигурациями динамиков, используемыми для воспроизведения. Например, если группа представляет собой канальный тракт с конфигурацией 5.1 или 22.2 динамиков, то может быть измерена различная громкость для воспроизведения группы для исходной конфигурации 5.1 или 22.2 динамиков по сравнению со случаем, когда канальный тракт должен быть отображен на систему стерео воспроизведения с использованием преобразователя формата. В этом случае, громкость группы, ассоциированная со стерео воспроизведением, выбирается в одном варианте осуществления, если она доступна в переданных метаданных. В противном случае, используется громкость группы, ассоциированная с исходной конфигурацией динамиков. Аналогичная стратегия для выбора подходящей громкости группы предложена в случае, когда группа представляет аудио сцену на основе HOA. В этом случае необходимо использовать громкость группы, ассоциированную с текущей конфигурацией динамиков воспроизведения (если она доступна в метаданных), вместо громкости группы, ассоциированной с опорной схемой динамиков.

В некоторых вариантах осуществления, информация о громкости не предоставляется для каждой группы отдельно, а такое значение громкости относится к совокупности групп.

В общем, обоснованным является предположение, что аудиосигналы в разных группах не коррелированы. Тогда опорная громкость предустановки может быть вычислена как

Аналогично, громкость модифицированной аудио сцены вычисляется как

В случае, когда группа выключается в настройке по умолчанию предустановки, группа отбрасывается при вычислении опорной громкости Lref. Аналогично, если пользователь отключает группу, эта группа отбрасывается при вычислении модифицированной громкости Lmod. Если группа выключена в предустановке, установленной по умолчанию, но включена пользователем в модифицированной сцене, соответствующая громкость Li группы исключается из вычисления опорной громкости Lref, но включается в вычисление модифицированной громкости Lmod и наоборот. Отметим, что отбрасывание группы, которая выключена, может эквивалентным образом интерпретироваться как установка ее усиления (gi или hi) в -∞. В этом случае Mref=Mmod. Следовательно, обе громкости Lref и Lmod вычисляются в отношении тех же самых наборов групп.

Усиление C компенсации громкости получается из отношения опорной громкости Lref предустановки к модифицированной громкости Lmod предустановки:

Усиление С компенсации громкости ограничено в одном варианте в пределах диапазона допустимых усилений, чтобы избежать нежелательного поведения для экстремальных случаев:

Усиление GN нормализации громкости, используемое для нормализации громкости в соответствии с уровнем техники (см., например, EP 2 879 1 31 A1), затем корректируется согласно

обеспечивая согласованную громкость после интерактивности усиления, вводимой пользователем. Альтернативно, нормализация громкости выполняется на основе исходного усиления GN нормализации, и компенсация громкости выполняется отдельно на аудиосигналах с использованием ограниченной версии усиления Clim компенсации.

Вышеприведенное обсуждение было основано на предустановке аудио программы. Следует отметить, что для программы не всегда доступны предустановки, но определена только одна глобальная сцена по умолчанию. Данный случай обрабатывается аналогично случаю предустановки, описанному выше, где набор индексов Mref и Mmod относятся к группам сцены по умолчанию и ее модифицированной версии, соответственно.

Бывают ситуации, когда допускается намеренное исключение некоторых групп из процесса компенсации громкости. Например, некоторая группа может быть активна только в течение очень короткого периода времени в рамках программы, и она полностью отключается в течение оставшегося времени. Вследствие процесса стробирования во время измерения громкости, например, согласно ITU-R BS.1770-3-ITU - Сектором Радиосвязи ITU (ITU-R) в качестве одного из трех секторов Международного союза электросвязи (ITU) - такая группа может по-прежнему иметь значительную измеренную громкость. Эта громкость группы будет тогда влиять на усиление компенсации громкости в течение всей продолжительности программы, хотя группа активна только в течение очень короткого промежутка времени. С другой стороны, сигнал такой редкой группы имеет лишь незначительный вклад в измерение громкости всего микширования программы/предустановки.

Например, если пользователь хочет усилить такую редкую группу/объект, компенсация громкости приведет к ослаблению всех остальных аудио элементов в течение всей продолжительности программы. Такое поведение нежелательно, и процесс компенсации громкости должен игнорировать эту конкретную редкую группу. Следовательно, метаданные содержат соответствующий флаг для этой группы, которую следует игнорировать при вычислении компенсации громкости.

Для того чтобы обеспечить функциональные возможности, описанные выше, в метаданные, включенные в аудио поток или в аудиосигнал, добавляется информация, которая указывает, должна ли группа исключаться из компенсации громкости, то есть из вычисления опорной и модифицированной громкости предустановки или глобальной аудио сцены. Эта информация в одном варианте осуществления представляет собой простой флаг для каждой группы, указывающий, включена ли группа в процесс компенсации громкости или нет.

Различные правила вещания по управлению громкостью используют разные подходы к определению громкости программы. В то время как EBU-R128 требует измерения громкости полного микширования программы, ATSC A/85 рекомендует измерять только громкость анкерного элемента программы, который обычно представлен диалогом.

Такие разные подходы к измерению громкости для программы также учитываются для компенсации громкости. Компенсация громкости на основе анкера быть непосредственно выведена из компенсации громкости полного микширования, как обсуждалось ранее.

Для основанной на анкере опорной и модифицированной громкости предустановки (или микширования по умолчанию программы) включаются только те группы, которые вносят вклад в анкер программы. Информация о том, какая группа является частью анкера программы, в одном варианте осуществления, включена в метаданные аудиопотока/аудиосигнала. Опорная громкость получается, как

где Aref обозначает набор индексов, относящихся к группам, которые являются частью анкерного элемента аудио сцены или предустановки, установленных по умолчанию.

Аналогично, модифицированная громкость для компенсации громкости на основе анкера с использованием набора индексов Amod групп (относящихся к группам, которые являются частью анкерного элемента модифицированной аудио сцены или предустановки) определяется как

Из чего прямо следует, что усиление компенсации получается как:

Остальные этапы для выполнения компенсации громкости не изменяются по сравнению со случаем полного микширования программы (см. приведенное выше обсуждение).

В некоторых случаях, комбинация обоих подходов компенсации громкости - на основе анкера и на основе полного микширования программы - полезна для пользовательского опыта в компенсации громкости.

В одном варианте осуществления, подход на основе анкера используется для случая, когда одна или все из анкерных групп усиливаются пользователем, т.е. hi>gi. С другой стороны, если анкерные группы ослабляются, то используется компенсация громкости в отношении громкости полного микширования, т.е. для случая, когда hi<gi. Информация об анкерных группах содержится в метаданных.

Подход компенсации громкости, представленный в вышеизложенном, требует информации о громкости каждой группы в предустановке или глобальной аудио сцене. В некоторых сценариях, информация о громкости может быть доступна только для некоторых групп и может отсутствовать для других. Следовательно, в одном варианте осуществления, отсутствующая информация о громкости группы вычисляется из громкости предустановки (или аудио сцены по умолчанию) и доступных значений громкости групп.

Пусть Lp обозначает измеренную громкость рассматриваемой предустановки аудио программы, т.е. измеренную совместную громкость аудио объектов, принадлежащих соответствующей предустановке. Кроме того, пусть В обозначает набор индексов для групп, для которых доступна информация о громкости. Остаточная громкость Lres предустановки вычисляется из громкости предустановки, доступной информации о громкости групп и усилений по умолчанию/исходных усилений этих групп:

Альтернативное представление остаточной громкости может быть получено с учетом недоступных значений громкости групп и соответствующих усилений по умолчанию/исходных усилений:

На практике разумно предположить, что громкость каждой группы, для которой отсутствует информация о громкости, равна:

В этом случае, остаточная громкость может быть выражена как

Отсюда можно прямо получить оценку отсутствующих значений громкости групп:

Опорная громкость и модифицированная громкость, требуемые для компенсации громкости, могут быть затем вычислены, как уже обсуждалось, где любая отсутствующая громкость Li группы заменяется соответствующей оценкой LA.

Оценка отсутствующей информации о громкости группы выполняется либо на стороне кодера, либо на стороне декодера системы аудиокодирования.

Если оценка выполняется в кодере, информация о громкости группы в передаваемых метаданных в аудиопотоке может быть либо измерена, либо вместо нее может быть включена соответствующая оценка, как описано выше. Тогда стадия компенсации громкости в декодере имеет всю необходимую информацию о громкости и может выполнять обработку в соответствии со случаем, когда все громкости групп были заранее измерены кодером.

Если оценка выполняется в декодере, отсутствующие значения громкости групп в метаданных аудиопотока оцениваются, как описано выше, а затем компенсация громкости основывается на оцененных значениях громкости групп.

Специальный случай использования имеет место, если в метаданных аудиопотока не предоставлена информация о громкости любой группы. В этом случае, компенсация громкости должна работать только на основе доступной релевантной информации воспроизведения, т.е. усиления по умолчанию или исходного усиления gi группы и его модифицированной версии hi после пользовательского взаимодействия. Это упоминается как слепая компенсация громкости, поскольку информация о громкости группы неизвестна в декодере. В другом варианте осуществления, слепая компенсация громкости выполняется, даже если только одна громкость группы отсутствует в метаданных.

Для компенсации используется предположение о том, что значения громкости всех групп в предустановке одинаковы. В варианте осуществления слепой компенсации громкости, вводится предположение о том, что Li=LA для всех групп, включенных в Mref и Mmod, соответственно. Таким образом, правило для вычисления усиления компенсации громкости получается согласно

Отметим, что коэффициент усиления для слепой компенсации громкости требует только информации об усилениях групп, но не информации, связанной с громкостью.

В еще одном варианте осуществления, слепая компенсация громкости выполняется в случае отсутствия по меньшей мере одной громкости группы. Следовательно, даже одна отсутствующая громкость группы вызывает слепую компенсацию громкости.

В этом разделе вышеизложенное будет резюмировано следующим образом:

В одном варианте осуществления, задается общий набор индексов, относящийся к группам, которые должны быть включены для вычисления опорной громкости предустановки или аудио сцены по умолчанию. Этот набор выводится из информации в метаданных аудиопотока, должна ли группа включаться для выполнения компенсации громкости для аудио сцены по умолчанию или предустановки. Эта информация обычно вводится в метаданные аудиопотока в кодере.

В кодере, процесс компенсации громкости управляется путем соответствующего определения этих элементов битового потока. Например, если определенную группу следует исключить, соответствующий элемент битового потока устанавливается в значение ʺложноʺ. Компенсация громкости на основе анкера реализуется в одном варианте осуществления путем включения только групп, которые являются частью анкерного элемента аудио сцены по умолчанию или определенной предустановки, и установки соответствующих элементов битового потока в значение ʺистинноʺ. Другие способы предоставления этой информации могут использоваться в разных реализациях.

Как уже упоминалось в одном варианте осуществления, группы не учитываются для вычисления опорной громкости Lref, если они выключены в аудио сцене по умолчанию или в предустановке. Полученный в результате набор индексов обозначается как Kref.

Аналогично, любая группа, которая выключена в модифицированной сцене, исключается из вычисления модифицированной громкости Lmod. Если группа выключена в сцене по умолчанию, но включена пользователем в модифицированной сцене, соответствующая громкость группы исключается из вычисления опорной громкости Lref, но включается в вычисление модифицированной громкости Lmod, и наоборот. Набор индексов группы для модифицированной громкости Lmod обозначается как Kmod.

Усиление компенсации громкости затем вычисляется аналогично тому, как обсуждалось выше, путем замены Mref на Kref и путем замены Mmod на Kmod.

Для случая, когда какая-либо информация о громкости группы, которая требуется для вычисления либо опорной громкости, либо модифицированной громкости, отсутствует в декодере, слепая компенсация громкости используется в качестве резервного режима. Тот же подход в отношении выбора индексов групп для компенсации громкости (Kref и Kmod), как описано выше, применяется в резервном режиме.

На фиг. 3 показан вариант осуществления аудиокодера 20, который генерирует цифровой аудиосигнал 100 на основе различных источников аудио. Аудиосигнал 100 содержит метаданные, которые должны использоваться, например, аудиопроцессором, описанным выше.

Аудиокодер 20 содержит определитель 21 громкости для определения значения громкости для по меньшей мере одной группы, имеющей один или несколько аудио элементов 50. В показанном примере присутствуют три источника X1, X2 и X3 аудио, каждый из которых состоит из одной группы. Значения громкости двух из них X2 и X3 определяются как L2 и L3 и передаются в блок 22 записи метаданных. Блок 22 записи метаданных вводит определенные значения громкости для двух групп X2 и X3 в качестве соответствующей информации опорной громкости L2 и L3 групп в метаданные аудиосигнала 100.

Значения усиления как опорные усиления g1, g2, g3 для групп X1, X2 и X3 также вводятся блоком 22 записи метаданных в метаданные аудиосигнала 100. Согласно еще одному варианту осуществления, громкости групп и опорные значения усиления определяются для конкретных предустановок и/или различных конфигураций воспроизведения. Также измеряется громкость для различных предустановок как соответствующая полная громкость Lp.

Громкость первого аудио элемента 50, обозначенного как X1, не измеряется определителем 21 громкости, а вычисляется или оценивается блоком 24 оценки (см. приведенное выше обсуждение) и выдается как соответствующая опорная громкость L1 в блок 22 записи метаданных для записи в метаданные.

Контроллер 23 в показанном варианте осуществления соединен с определителем 21 громкости, а также с блоком 22 записи метаданных. Контроллер 23 определяет, какую группу или какие группы следует учитывать или игнорировать для определения усиления C компенсации громкости. Для данных об использовании групп, указание записывается блоком 22 записи метаданных в метаданные. Соответствующие данные, например, в форме флагов, указывают, какая группа должна использоваться или какая группа должна игнорироваться для определения усиления С компенсации громкости аудиопроцессором или декодером.

Результирующий аудиосигнал 100 содержит фактические сигналы, принимаемые от аудио объектов 50, и метаданные, характеризующие фактические сигналы и их предполагаемую обработку аудиодекодером 1. Данные метаданных относятся к группам аудио объектов, причем также возможно, что группа охватывает только один аудио объект/элемент.

Метаданные содержат по меньшей мере некоторые из следующих данных:

- измеренные значения громкости Li для отдельных групп,

- опорные значения усиления gi для отдельных групп, которые описывают громкость или заметность групп по отношению к другим соответствующим группам вместе,

- опорная громкость Lref как результирующая громкость объединенных групп для данной предустановки и/или данной конфигурации воспроизведения,

- указатель, используется ли (например, независимо от того, принадлежит ли группа анкеру, или является ли длительность группы настолько малой, что ею можно пренебречь и т.д.) или каким образом используется (например, для вычисления опорной и/или модифицированной громкости) группа или ее соответствующие значения для определения усиления C компенсации громкости.

Для каждой группы, метаданные предпочтительно содержат различные наборы данных для различных предустановок и/или различных конфигураций воспроизведения. Следовательно, учитываются различные записи и различные ситуации воспроизведения, приводящие к различным наборам данных для релевантных групп.

Изобретение поясняется далее с помощью различных примеров для реализации компенсации громкости для интерактивности пользователя с помощью системы аудиокодирования.

- На стороне кодера определяется громкость каждой группы, включенной в аудио сцену по умолчанию и/или предустановки. Информация о громкости вводится в метаданные, содержащиеся как часть аудиопотока или аудиосигнала.

- Несколько значений громкости включены по меньшей мере для одной группы, где различные значения ассоциированы с различными конфигурациями воспроизведения динамиков (например, стерео, 5.1 или другие).

- На стороне кодера создаются дополнительные метаданные, соответствующие информации о том, должна ли группа быть включена для выполнения компенсации громкости, то есть следует ли ее учитывать для вычисления опорной громкости и модифицированной громкости, соответственно. Например, компенсация громкости на основе анкера реализуется путем конфигурирования метаданных так, чтобы включать только группы, которые являются частью анкерного элемента аудио сцены по умолчанию или определенной предустановки.

- Декодер принимает этот аудиопоток, представляющий аудиосигнал и ассоциированные метаданные. Декодер декодирует аудиопоток для генерации декодированных аудиосигналов, соответствующих каналам и/или объектам, и/или форматам амбиофонии более высокого порядка.

- На основе метаданных, декодер выбирает индексы всех групп, которые должны быть включены для компенсации громкости для данной аудио сцены или предустановки.

- В декодере, опорная громкость Lref аудио сцены или предустановки вычисляется на основе усилений gi по умолчанию каждой выбранной группы и соответствующей информации о громкости. Если для группы передаются несколько значений громкости, то выбирается значение громкости, ассоциированное с данной конфигурацией динамиков воспроизведения.

- Аналогично, модифицированная громкость Lmod вычисляется из информации о громкости выбранных групп и модифицированных усилений hi после пользовательского взаимодействия.

- Усиление С компенсации громкости для аудио сцены по умолчанию или предустановки вычисляется на основе опорной громкости Lref и модифицированной громкости Lmod.

- Усиление С компенсации громкости применяется к аудиосигналу перед воспроизведением, обеспечивающим выходной сигнал.

В некоторых вариантах осуществления, невозможно измерить требуемую информацию о громкости для всех групп в кодере. Тогда кодер вычисляет оценки отсутствующих значений громкости групп. Кодер может также применять различные методы для оценки отсутствующей (не измеренной) информации о громкости групп. Компенсация громкости в декодере затем выполняется, как в случае, когда информация о громкости была измерена для всех групп.

В других вариантах осуществления, аудиопоток включает в себя информацию о громкости только для ограниченного числа групп. В этом случае, отсутствующая информация о громкости групп оценивается в декодере. Компенсация громкости в декодере затем выполняется так же, как в случае, когда вся необходимая информация о громкости включена в метаданные аудиопотока.

Другой вариант осуществления включает в себя слепую компенсацию громкости в качестве резервного режима, если в декодере отсутствует требуемая информация о громкости групп для выполнения корректной компенсации громкости. Тот же механизм для определения набора индексов Kref и Kmod для выбора групп, которые должны быть включены в вычисление опорной и модифицированной громкости, как описано выше, используется в резервном режиме. Другими словами, выбор набора индексов Kref и Kmod групп по-прежнему основан на соответствующей информации, генерируемой на стороне кодера, которая снабжена метаданными аудиопотока.

Ниже будут описаны некоторые варианты осуществления изобретения, которые могут быть объединены с вышеизложенными:

Первый вариант осуществления относится к аудиопроцессору для обработки аудиосигнала, содержащему: модификатор аудио сигнала для модифицирования аудиосигнала в ответ на пользовательский ввод; контроллер громкости для определения усиления компенсации громкости на основе опорной громкости или опорного усиления и модифицированной громкости или модифицированного усиление, причем модифицированная громкость или модифицированное усиление зависит от пользовательского ввода; и манипулятор громкости для манипулирования громкостью сигнала с использованием усиления компенсации громкости.

Второй вариант осуществления, зависящий от первого варианта осуществления, относится к устройству, причем аудиосигнал содержит битовый поток с метаданными, причем метаданные содержат громкость группы для группы и значение усиления для группы.

Третий вариант осуществления, зависящий от первого или второго варианта осуществления, относится к устройству, в котором контроллер громкости сконфигурирован, чтобы вычислять опорную громкость для группы или набора групп с использованием громкости группы или громкостей групп и значения усиления или значений усиления для группы или набора групп, и вычислять модифицированную громкость для группы или набора групп с использованием громкости группы или громкостей групп и модифицированного значения усиления или модифицированных значений усиления для группы или набора групп, причем модифицированное значение усиления или модифицированные значения усиления модифицируются посредством пользовательского ввода.

Четвертый вариант осуществления, зависящий от одного из предыдущих вариантов осуществления, относится к устройству, в котором контроллер громкости сконфигурирован, чтобы отбрасывать группу для определения опорной громкости, когда группа отброшена в метаданных аудиосигнала, или контроллер громкости сконфигурирован, чтобы отбрасывать группу при определении опорной громкости, когда группа выключается в ответ на пользовательский ввод, или контроллер громкости сконфигурирован, чтобы исключать группу из вычисления опорной громкости, когда группа выключена в метаданных и включается посредством пользовательского ввода, или наоборот.

Пятый вариант осуществления, зависящий от одного из предыдущих вариантов осуществления, относится к устройству, в котором контроллер громкости сконфигурирован, чтобы вычислять усиление компенсации громкости путем связывания опорной громкости с громкостью предустановки, причем предустановка содержит одну или несколько групп, и причем группа содержит один или несколько объектов.

Шестой вариант осуществления, зависящий от одного из предыдущих вариантов осуществления, относится к устройству, в котором контроллер громкости сконфигурирован, чтобы выполнять операцию ограничения на усилении компенсации громкости так, что усиление компенсации громкости ниже, чем верхний порог, или так, что усиление компенсации громкости выше, чем нижний порог.

Седьмой вариант осуществления, зависящий от одного из предыдущих вариантов осуществления, относится к устройству, в котором манипулятор громкости сконфигурирован, чтобы применять усиление к сигналу, определяемое усилением компенсации громкости и исходным усилением нормализации, определяемым целевым уровнем, установленным аудиопроцессором, и уровнем метаданных, указанным в метаданных аудиосигнала.

Восьмой вариант осуществления, зависящий от одного из предыдущих вариантов осуществления, относится к устройству, в котором аудиосигнал содержит информацию метаданных компенсации, указывающую, какая группа должна использоваться для определения усиления компенсации громкости, или какая группа не должна использоваться для определения усиления компенсации громкости, и в котором контроллер громкости сконфигурирован, чтобы использовать только группу для определения коэффициента усиления громкости, указанную для использования в информации метаданных компенсации, или чтобы не использовать группу для определения усиления компенсации громкости, указанную, чтобы не использоваться, в информации метаданных компенсации.

Девятый вариант осуществления, зависящий от одного из предыдущих вариантов осуществления, относится к устройству, в котором аудиосигнал указан как имеющий анкерный элемент, причем контроллер громкости сконфигурирован, чтобы использовать только информацию для аудио объекта или группы аудио объектов анкерного элемента для определения усиления компенсации громкости.

Десятый вариант осуществления, зависящий от одного из первого по восьмой вариант осуществления, относится к устройству, в котором аудиосигнал указан как имеющий анкерный элемент, причем контроллер громкости сконфигурирован, чтобы использовать только информацию для аудио объекта или группы аудио объектов анкерного элемента для определения усиления компенсации громкости, когда один или несколько аудио объектов анкерного элемента усиливаются посредством пользовательского ввода, и использовать информацию из одного или нескольких аудио объектов анкерного элемента и информацию одного или нескольких аудио объектов, не включенных в анкерный элемент, когда один или несколько аудио объектов анкерного элемента ослабляются посредством пользовательского ввода.

Одиннадцатый вариант осуществления, зависящий от одного из предыдущих вариантов осуществления, относится к устройству, в котором контроллер громкости сконфигурирован, чтобы вычислять громкость группы, отсутствующую в аудиосигнале, с использованием громкости предустановки, содержащей по меньшей мере две группы, и информации об усилении и громкости, которая не отсутствует в предустановке.

Двенадцатый вариант осуществления, зависящий от одного из предыдущих вариантов осуществления, относится к устройству, в котором контроллер громкости сконфигурирован, чтобы выполнять слепую компенсацию громкости с использованием одного или нескольких значений усиления для одной или нескольких групп и одного или нескольких модифицированных значений усиления для одной или нескольких групп.

Тринадцатый вариант осуществления, зависящий от одного из предыдущих вариантов осуществления, относится к устройству, в котором контроллер громкости сконфигурирован, чтобы проверять, содержит ли аудиосигнал информацию опорной громкости, и если аудиосигнал не содержит информацию опорной громкости, выполнять слепую компенсацию громкости с использованием одного или нескольких значений усиления для одной или нескольких групп и одного или нескольких модифицированных значений усиления для одной или нескольких групп, или проверять, действительно ли невозможно вычислить информацию модифицированной громкости, и выполнять слепую компенсацию громкости, когда информацию модифицированной громкости невозможно вычислить, при этом слепая компенсация громкости содержит использование одного или нескольких значений усиления для одной или нескольких групп и одного или нескольких модифицированных значений усиления для одной или нескольких групп.

Четырнадцатый вариант, зависящий от одного из предыдущих вариантов осуществления, относится к устройству, в котором аудиосигнал включает в себя различные значения информации опорной громкости для различных конфигураций воспроизведения, причем устройство дополнительно содержит преобразователь формата для преобразования сигнала в предопределенную конфигурацию воспроизведения, причем контроллер громкости сконфигурирован, чтобы выбирать конкретное значение громкости для конкретной конфигурации воспроизведения, используемой преобразователем формата.

Пятнадцатый вариант осуществления относится к аудиокодеру для генерации аудиосигнала, содержащего метаданные, содержащему: определитель громкости для определения громкости для группы, имеющей один или несколько аудио объектов; и блок записи метаданных для введения громкости для группы в качестве информации опорной громкости в метаданные.

Шестнадцатый вариант осуществления, зависящий от пятнадцатого варианта осуществления, относится к аудиокодеру, в котором определитель громкости сконфигурирован, чтобы определять различные значения громкости для различных конфигураций воспроизведения, причем блок записи метаданных сконфигурирован для введения различных значений громкости в ассоциации с различными конфигурациями воспроизведения в метаданные.

Семнадцатый вариант осуществления, зависящий от пятнадцатого или шестнадцатого варианта осуществления, относится к аудиокодеру, дополнительно содержащему контроллер для определения, какая группа должна или не должна использоваться для компенсации громкости, и в котором блок записи метаданных сконфигурирован для записи указания в метаданные, указывающего, какая группа должна использоваться или какая группа не должна использоваться для компенсации громкости.

Восемнадцатый вариант осуществления, зависящий от одного из пятнадцатого по семнадцатый вариант осуществления, относится к аудиокодеру, в котором определитель громкости сконфигурирован, чтобы вычислять значение громкости группы, где значение громкости группы для группы отсутствует в метаданных, и блок записи метаданных сконфигурирован, чтобы вводить отсутствующее значение громкости в метаданные, так что все группы аудиосигнала имеют ассоциированную информацию опорной громкости.

Девятнадцатый вариант осуществления относится к способу обработки аудиосигнала, содержащему: модифицирование аудиосигнала в ответ на пользовательский ввод; определение усиления компенсации громкости на основе опорной громкости или опорного усиления и модифицированной громкости или модифицированного усиления, причем модифицированная громкость или модифицированное усиление зависит от пользовательского ввода; и манипулирование громкостью сигнала с использованием усиления компенсации громкости.

Двадцатый вариант осуществления относится к способу генерации аудиосигнала, содержащего метаданные, содержащему: определение громкости для группы, имеющей один или несколько аудио объектов; и введение громкости для группы в качестве информации опорной громкости в метаданные.

Двадцать первый вариант осуществления относится к компьютерной программе для выполнения, при ее исполнении на компьютере или процессоре, способа в соответствии с девятнадцатым вариантом осуществления или способа в соответствии с двадцатым вариантом осуществления.

Хотя некоторые аспекты были описаны в контексте устройства, очевидно, что эти аспекты также представляют собой описание соответствующего способа, где блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего блока или элемента или функции соответствующего устройства. Некоторые или все из этапов способа могут выполняться аппаратным устройством (или с его использованием), таким как микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах осуществления, некоторые из одного или нескольких наиболее важных этапов способа могут выполняться таким устройством.

Передаваемый или кодированный в соответствии с изобретением сигнал может быть сохранен на цифровом носителе хранения данных или может передаваться по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, например, Интернет.

В зависимости от определенных требований реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может быть выполнена с использованием цифрового носителя хранения данных, например гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющих считываемые электронным способом управляющие сигналы, сохраненные на них, которые взаимодействуют (или могут взаимодействовать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ. Таким образом, цифровой носитель хранения данных может считываться компьютером.

Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий считываемые электронным способом управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой таким образом, что выполняется один из способов, описанных в настоящем документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код работает для выполнения одного из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных здесь способов, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления способа, соответствующего изобретению, представляет собой, следовательно, компьютерную программу, имеющую программный код для выполнения одного из описанных здесь способов, когда компьютерная программа исполняется на компьютере.

Таким образом, другим вариантом осуществления способа изобретения является носитель данных (или не-временный носитель хранения данных, такой как цифровой носитель хранения данных или считываемый компьютером носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Носитель данных, цифровой носитель хранения данных или записываемый носитель обычно являются осязаемыми и/или не-временными.

Другим вариантом осуществления способа, соответствующего изобретению, является, следовательно, поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Например, поток данных или последовательность сигналов могут быть сконфигурированы для передачи через соединение передачи данных, например, через Интернет.

Другой вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, сконфигурированное или адаптированное для выполнения одного из способов, описанных в настоящем документе.

Другой вариант осуществления содержит компьютер, на котором установлена компьютерная программа для выполнения одного из способов, описанных в настоящем документе.

Другой вариант осуществления в соответствии с изобретением содержит устройство или систему, сконфигурированную для передачи (например, в электронном или оптическом виде) компьютерной программы для выполнения одного из способов, описанных в настоящем документе, к приемнику. Приемник может, например, быть компьютером, мобильным устройством, устройством памяти и т.п. Устройство или система могут, например, содержать файловый сервер для передачи компьютерной программы в приемник.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в настоящем документе. В некоторых вариантах осуществления, программируемая вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в настоящем документе. В общем, способы предпочтительно выполняются любым аппаратным устройством.

Вышеописанные варианты осуществления являются просто иллюстративными для пояснения принципов настоящего изобретения. Понятно, что модификации и варианты компоновок и деталей, описанные в настоящем документе, будут очевидны для специалистов в данной области техники. Поэтому целью является ограничение только объемом приложенной формулы изобретения, а не конкретными деталями, представленными посредством описания и пояснение вариантов осуществления настоящего изобретения.

1. Аудиопроцессор (1) для обработки аудиосигнала (100), содержащий:

модификатор (2) аудиосигнала,

причем модификатор (2) аудиосигнала сконфигурирован, чтобы модифицировать аудиосигнал (100) в ответ на пользовательский ввод;

контроллер (6) громкости,

причем контроллер (6) громкости сконфигурирован, чтобы определять усиление (С) компенсации громкости на основе, с одной стороны, опорной громкости (Lref) или опорного усиления (gi), а с другой стороны, на основе модифицированной громкости (Lmod) или модифицированного усиления (hi),

причем модифицированная громкость (Lmod) или модифицированное усиление (hi) зависит от пользовательского ввода,

причем контроллер (6) громкости сконфигурирован, чтобы определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100), указывающих, какая группа должна использоваться или не должна использоваться для определения усиления (С) компенсации громкости, и

причем группа содержит один или несколько аудио элементов; и

манипулятор (5) громкости,

причем манипулятор (5) громкости сконфигурирован, чтобы манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости.

2. Аудиопроцессор (1) по п. 1,

в котором контроллер (6) громкости сконфигурирован, чтобы определять усиление (C) компенсации громкости на основе по меньшей мере одного флага, содержащегося в данных метаданных, и

причем флаг указывает, должна ли и каким образом должна учитываться группа для определения усиления (С) компенсации громкости.

3. Аудиопроцессор (1) по п. 1,

в котором контроллер (6) громкости сконфигурирован, чтобы использовать только группы для определения усиления (С) компенсации громкости, когда группы принадлежат анкеру, содержащемуся в метаданных аудиосигнала (100).

4. Аудиопроцессор (1) по п. 3,

в котором контроллер (6) громкости сконфигурирован, чтобы использовать только группы, принадлежащие анкеру, для определения усиления (С) компенсации громкости, когда модифицированное усиление (hi) по меньшей мере одной группы, принадлежащей анкеру, больше, чем соответствующее опорное усиление (gi), и/или

в котором контроллер громкости (6) сконфигурирован, чтобы использовать группы, принадлежащие анкеру, и группы, отсутствующие в анкере, для определения усиления (С) компенсации громкости, когда модифицированное усиление (hi) по меньшей мере одной группы, принадлежащей анкеру, ниже, чем соответствующее опорное усиление (gi), и причем модифицированное усиление (hi) зависит от пользовательского ввода.

5. Аудиопроцессор (1) для обработки аудиосигнала (100), содержащий:

модификатор (2) аудиосигнала,

причем модификатор (2) аудиосигнала сконфигурирован, чтобы модифицировать аудиосигнал (100) в ответ на пользовательский ввод;

контроллер (6) громкости,

причем контроллер (6) громкости сконфигурирован, чтобы определять усиление (С) компенсации громкости, с одной стороны, на основе опорной громкости (Lref) или опорного усиления (gi), а с другой стороны, на основе модифицированной громкости (Lmod) или модифицированного усиления (hi),

причем модифицированная громкость (Lmod) или модифицированное усиление (hi) зависит от пользовательского ввода,

причем контроллер (6) громкости сконфигурирован, чтобы определять усиление (С) компенсации громкости на основе метаданных аудиосигнала (100), относящихся по меньшей мере к одной предустановке,

причем предустановка относится к набору по меньшей мере из одной группы, содержащей один или несколько аудио элементов; и

манипулятор (5) громкости,

причем манипулятор (5) громкости сконфигурирован, чтобы манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости.

6. Аудиопроцессор (1) по п. 5,

причем контроллер (6) громкости дополнительно сконфигурирован, чтобы определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100), указывающих, какая группа должна использоваться или не должна использоваться для определения усиления (С) компенсации громкости, и причем группа содержит один или несколько аудио элементов; и

причем манипулятор (5) громкости дополнительно сконфигурирован, чтобы манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости.

7. Аудиопроцессор (1) по п. 1 или 5,

в котором контроллер (6) громкости сконфигурирован, чтобы определять усиление (С) компенсации громкости на основе громкостей (Li) групп и/или значений усиления (gi) по меньшей мере одной группы набора, указываемой предустановкой.

8. Аудиопроцессор (1) по п. 1 или 5,

в котором контроллер (6) громкости сконфигурирован, чтобы определять опорную громкость (Lref) для набора, указываемого предустановкой, с использованием соответствующих громкостей (Li) групп и соответствующих значений усиления (gi),

причем контроллер (6) громкости сконфигурирован, чтобы определять модифицированную громкость (Lmod) для набора, указываемого предустановкой, с использованием соответствующих громкостей (Li) групп и соответствующих модифицированных значений усиления (hi), и

причем модифицированные значения усиления (hi) модифицированы посредством пользовательского ввода.

9. Аудиопроцессор (1) по п. 5,

в котором контроллер (6) громкости сконфигурирован, чтобы определять усиление (C) компенсации громкости на основе данных метаданных, относящихся к выбранной предустановке, и

причем предустановка выбрана посредством пользовательского ввода.

10. Аудиопроцессор (1) по п. 5,

в котором контроллер (6) громкости сконфигурирован, чтобы определять усиление (С) компенсации громкости на основе данных метаданных, относящихся к предустановке по умолчанию, и

причем предустановка по умолчанию установлена до пользовательского ввода или независимо от него.

11. Аудиопроцессор (1) для обработки аудиосигнала (100), содержащий:

модификатор (2) аудиосигнала,

причем модификатор (2) аудиосигнала сконфигурирован, чтобы модифицировать аудиосигнал (100) в ответ на пользовательский ввод;

контроллер (6) громкости,

причем контроллер (6) громкости сконфигурирован, чтобы определять усиление (С) компенсации громкости, с одной стороны, на основе опорной громкости (Lref) или опорного усиления (gi), а с другой стороны, на основе модифицированной громкости (Lmod) или модифицированного усиления (hi),

причем модифицированная громкость (Lmod) или модифицированное усиление (hi) зависит от пользовательского ввода,

причем контроллер (6) громкости сконфигурирован, чтобы определять усиление (С) компенсации громкости на основе метаданных аудиосигнала (100), указывающих, является ли группа выключенной или включенной,

причем группа содержит один или несколько аудио элементов; и

манипулятор (5) громкости,

причем манипулятор (5) громкости сконфигурирован, чтобы манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости.

12. Аудиопроцессор (1) по п. 11,

причем контроллер (6) громкости дополнительно сконфигурирован, чтобы определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100), указывающих, какая группа должна использоваться или не должна использоваться для определения усиления (С) компенсации громкости, и причем группа содержит один или несколько аудио элементов; и причем манипулятор (5) громкости дополнительно сконфигурирован, чтобы манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости, или

причем контроллер (6) громкости сконфигурирован, чтобы дополнительно определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100), относящихся по меньшей мере к одной предустановке, причем предустановка относится к набору по меньшей мере из одной группы, содержащей один или несколько аудио элементов; и причем манипулятор (5) громкости сконфигурирован, чтобы дополнительно манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости.

13. Аудиопроцессор (1) по п. 11,

в котором контроллер (6) громкости сконфигурирован, чтобы отбрасывать группу для определения модифицированной громкости (Lmod), когда группа выключена в ответ на пользовательский ввод.

14. Аудиопроцессор (1) по п. 11,

в котором контроллер (6) громкости сконфигурирован, чтобы отбрасывать группу для определения опорной громкости (Lref), когда группа выключена в метаданных, и включать группу для определения модифицированной громкости (Lmod), когда группа включена посредством пользовательского ввода,

и/или

в котором контроллер (6) громкости сконфигурирован, чтобы включать группу для определения опорной громкости (Lref), когда группа включена в метаданные, и исключать группу для определения модифицированной громкости (Lmod), когда группа выключена посредством пользовательского ввода.

15. Аудиопроцессор (1) для обработки аудиосигнала (100), содержащий:

модификатор (2) аудиосигнала,

причем модификатор (2) аудиосигнала сконфигурирован, чтобы модифицировать аудиосигнал (100) в ответ на пользовательский ввод;

контроллер (6) громкости,

причем контроллер (6) громкости сконфигурирован, чтобы определять усиление (С) компенсации громкости, с одной стороны, на основе опорной громкости (Lref) или опорного усиления (gi), а с другой стороны, на основе модифицированной громкости (Lmod) или модифицированного усиления (hi),

причем модифицированная громкость (Lmod) или модифицированное усиление (hi) зависит от пользовательского ввода,

причем контроллер (6) громкости сконфигурирован, чтобы определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100) с по меньшей мере одной громкостью группы, отсутствующей в метаданных группы, содержащейся в аудиосигнале (100); и

манипулятор (5) громкости,

причем манипулятор (5) громкости сконфигурирован, чтобы манипулировать громкостью сигнала (101) с использованием усиления (С) компенсации громкости.

16. Аудиопроцессор (1) по п. 15,

причем контроллер (6) громкости дополнительно сконфигурирован, чтобы определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100), указывающих, какая группа должна использоваться или не должна использоваться для определения усиления (С) компенсации громкости, и причем группа содержит один или несколько аудио элементов; и причем манипулятор (5) громкости дополнительно сконфигурирован, чтобы манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости, или

причем контроллер (6) громкости сконфигурирован, чтобы дополнительно определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100), относящихся по меньшей мере к одной предустановке, причем предустановка относится к набору по меньшей мере из одной группы, содержащей один или несколько аудио элементов; и причем манипулятор (5) громкости сконфигурирован, чтобы дополнительно манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости, или

причем контроллер (6) громкости сконфигурирован, чтобы дополнительно определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100), указывающих, является ли группа выключенной или включенной, и причем манипулятор (5) громкости сконфигурирован, чтобы дополнительно манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости.

17. Аудиопроцессор (1) по п. 15,

в котором контроллер (6) громкости сконфигурирован, чтобы вычислять отсутствующую громкость (LA) группы с использованием громкости предустановки (Lp), опорного усиления (gi) группы с отсутствующей громкостью группы, а также громкостей (Li) групп и опорных усилений (gi) для групп, имеющих громкость (Li) группы.

18. Аудиопроцессор (1) по п. 15,

в котором контроллер (6) громкости сконфигурирован, чтобы определять усиление (C) компенсации громкости в случае, когда в метаданных аудиосигнала (100) опущена по меньшей мере одна громкость группы, для слепой компенсации громкости с использованием только по меньшей мере одного опорного усиления (gi) и по меньшей мере одного модифицированного усиления (hi).

19. Аудиопроцессор (1) по п. 15,

в котором контроллер (6) громкости сконфигурирован, чтобы определять усиление (C) компенсации громкости в случае, когда метаданные аудиосигнала (100) не имеют громкостей групп, для слепой компенсации громкости с использованием только по меньшей мере одного опорного усиления (gi) и по меньшей мере одного модифицированного усиления (hi).

20. Аудиопроцессор (1) для обработки аудиосигнала (100), содержащий:

модификатор (2) аудиосигнала,

причем модификатор (2) аудиосигнала сконфигурирован, чтобы модифицировать аудиосигнал (100) в ответ на пользовательский ввод,

контроллер (6) громкости,

причем контроллер (6) громкости сконфигурирован, чтобы определять усиление (С) компенсации громкости, с одной стороны, на основе опорной громкости (Lref) или опорного усиления (gi), а с другой стороны, на основе модифицированной громкости (Lmod) или модифицированного усиления (hi),

причем модифицированная громкость (Lmod) или модифицированное усиление (hi) зависит от пользовательского ввода,

причем контроллер (6) громкости сконфигурирован, чтобы определять усиление (С) компенсации громкости на основе метаданных аудиосигнала (100), относящихся к конфигурации воспроизведения для воспроизведения сигнала (100); и

манипулятор (5) громкости,

причем манипулятор (5) громкости сконфигурирован, чтобы манипулировать громкостью сигнала (101) с использованием усиления (С) компенсации громкости.

21. Аудиопроцессор (1) по п. 20,

причем контроллер (6) громкости дополнительно сконфигурирован, чтобы определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100), указывающих, какая группа должна использоваться или не должна использоваться для определения усиления (С) компенсации громкости, и причем группа содержит один или несколько аудио элементов; и причем манипулятор (5) громкости дополнительно сконфигурирован, чтобы манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости, или

причем контроллер (6) громкости сконфигурирован, чтобы дополнительно определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100), относящихся по меньшей мере к одной предустановке, причем предустановка относится к набору по меньшей мере из одной группы, содержащей один или несколько аудио элементов; и причем манипулятор (5) громкости сконфигурирован, чтобы дополнительно манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости, или

причем контроллер (6) громкости сконфигурирован, чтобы дополнительно определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100), указывающих, является ли группа выключенной или включенной, и причем манипулятор (5) громкости сконфигурирован, чтобы дополнительно манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости, или

причем контроллер (6) громкости сконфигурирован, чтобы дополнительно определять усиление (C) компенсации громкости на основе метаданных аудиосигнала (100), относящихся к конфигурации воспроизведения для воспроизведения сигнала (100), и причем манипулятор (5) громкости сконфигурирован, чтобы дополнительно манипулировать громкостью сигнала с использованием усиления (С) компенсации громкости.

22. Аудиопроцессор (1) по п. 20,

причем контроллер (6) громкости сконфигурирован, чтобы определять усиление (С) компенсации громкости на основе данных метаданных, относящихся к конфигурации воспроизведения и содержащих ассоциированные громкости (Li) групп и/или опорные значения усиления (gi).

23. Аудиопроцессор (1) по п. 1,

в котором аудиосигнал (100) содержит битовый поток с метаданными и

в котором метаданные содержат опорное усиление (gi) по меньшей мере для одной группы.

24. Аудиопроцессор (1) по п. 1, или 5, или 11, или 15, или 20,

в котором метаданные аудиосигнала (100) содержат громкость (Li) группы по меньшей мере для одной группы.

25. Аудиопроцессор (1) по п. 1, или 5, или 11, или 15, или 20,

в котором контроллер (6) громкости сконфигурирован, чтобы определять опорную громкость (Lref) по меньшей мере для одной группы с использованием громкости (Li) группы и значения усиления (gi) для группы,

причем контроллер (6) громкости сконфигурирован, чтобы определять модифицированную громкость (Lmod) для группы с использованием громкости (Li) группы и модифицированного значения усиления (hi), и

причем модифицированное значение усиления (hi) модифицировано посредством пользовательского ввода.

26. Аудиопроцессор (1) по п. 1, или 5, или 11, или 15, или 20,

в котором контроллер (6) громкости сконфигурирован, чтобы определять опорную громкость (Lref) для множества групп с использованием соответствующих громкостей (Li) групп и значений усиления (gi) для групп,

причем контроллер (6) громкости сконфигурирован, чтобы определять модифицированную громкость (Lmod) для множества групп с использованием соответствующей громкости (Li) группы и модифицированного значения усиления (hi) для групп.

27. Аудиопроцессор (1) по п. 1, или 5, или 11, или 15, или 20,

в котором контроллер (6) громкости сконфигурирован, чтобы выполнять операцию ограничения на усилении (C) компенсации громкости так, что усиление (С) компенсации громкости ниже, чем верхний порог (Cmax), и/или так, что усиление (С) компенсации громкости больше, чем нижний порог (Cmin).

28. Аудиопроцессор (1) по п. 1, или 5, или 11, или 15, или 20,

в котором манипулятор (5) громкости сконфигурирован, чтобы применять скорректированное усиление (Gcorrected) к сигналу, определяемому усилением (С) компенсации громкости и усилением (GN) нормализации, определенным целевым уровнем громкости, установленным пользовательским вводом, и уровнем громкости метаданных, содержащимся в метаданных аудиосигнала (100).

29. Аудиокодер (20) для генерации аудиосигнала (100), содержащего метаданные, содержащий:

определитель (21) громкости для определения значения громкости по меньшей мере для одной группы, имеющей один или несколько аудио элементов (50); и

блок (22) записи метаданных для введения определенного значения громкости как громкости (Li) группы в метаданные.

30. Аудиокодер (20) по п. 29,

в котором определитель (21) громкости сконфигурирован, чтобы определять различные значения громкости и/или различные значения усиления для различных конфигураций воспроизведения, и

в котором блок (22) записи метаданных сконфигурирован, чтобы вводить определенные различные значения громкости и/или различные значения усиления в ассоциации с соответствующей конфигурацией воспроизведения в метаданные.

31. Аудиокодер (20) по п. 29,

в котором определитель (21) громкости сконфигурирован, чтобы определять различные значения громкости и/или различные значения усиления для различных предустановок, относящихся к наборам по меньшей мере из одной группы, содержащей один или несколько аудио элементов, и

в котором блок (22) записи метаданных сконфигурирован, чтобы вводить определенные различные значения громкости и/или различные значения усиления в ассоциации с соответствующей предустановкой в метаданные.

32. Аудиокодер (20) по п. 29,

дополнительно содержащий контроллер (23),

причем контроллер (23) сконфигурирован, чтобы определять, какая группа должна использоваться для определения усиления (С) компенсации громкости или должна игнорироваться, и

причем блок (22) записи метаданных сконфигурирован для записи указания в метаданные, указывающего, какая группа должна использоваться или должна игнорироваться для определения усиления (С) компенсации громкости.

33. Аудиокодер (20) по п. 29,

дополнительно содержащий блок (24) оценки,

причем блок (24) оценки сконфигурирован, чтобы вычислять значение громкости группы для группы,

причем значение громкости группы для группы не определено определителем (21) громкости и

причем блок (22) записи метаданных сконфигурирован для введения вычисленного значения громкости группы в метаданные, так что все группы аудиосигнала (100) имеют ассоциированные громкости групп.

34. Способ обработки аудиосигнала (100), содержащий:

модифицирование аудиосигнала (100) в ответ на пользовательский ввод;

определение усиления (С) компенсации громкости, с одной стороны, на основе опорной громкости (Lref) или опорного усиления (gi), а с другой стороны, на основе модифицированной громкости (Lmod) или модифицированного усиления (hi),

причем модифицированная громкость (Lmod) или модифицированное усиление (hi) зависит от пользовательского ввода,

причем усиление (C) компенсации громкости определяется на основе метаданных аудиосигнала (100), указывающих, должна ли группа, содержащаяся в аудиосигнале (100), использоваться или не использоваться для определения усиления (С) компенсации громкости, причем группа содержит один или несколько аудиоэлементов,

и/или

усиление (C) компенсации громкости определяется на основе метаданных аудиосигнала (100), относящихся к предустановке, причем предустановка относится к набору по меньшей мере из одной группы, содержащей один или несколько аудио элементов,

и/или

усиление (C) компенсации громкости определяется на основе метаданных аудиосигнала (100), указывающих, является ли группа выключенной или включенной, причем группа содержит один или несколько аудиоэлементов,

и/или

усиление (C) компенсации громкости определяется на основе метаданных аудиосигнала (100) с по меньшей мере одной громкостью (LA), опущенной в метаданных группы, содержащейся в аудиосигнале (100),

и/или

усиление (C) компенсации громкости определяется на основе метаданных аудиосигнала (100), относящихся к конфигурации воспроизведения для воспроизведения сигнала (100); и

манипулирование громкостью сигнала с использованием усиления (С) компенсации громкости.

35. Способ генерации аудиосигнала (100), содержащего метаданные, содержащий:

определение значения громкости для группы, имеющей один или несколько аудиоэлементов; и

ввод определенного значения громкости для группы как громкости (Li) группы в метаданные.

36. Считываемый компьютером носитель, хранящий компьютерную программу для выполнения, при ее исполнении на компьютере или процессоре, способа по п. 34.

37. Считываемый компьютером носитель, хранящий компьютерную программу для выполнения, при ее исполнении на компьютере или процессоре, способа по п. 35.



 

Похожие патенты:

Изобретение относится к средствам для кодирования векторов, разложенных из коэффициентов амбиофонии высшего порядка. Технический результат заключается в повышении качества представления звукового поля.

Изобретение относится к высокочастотной реконструкции (HFR), усиленной перекрестными произведениями, где новая составляющая с частотой QΩ+rΩ0 генерируется на основе существующих составляющих с частотами Ω и Ω+Ω0.

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при низкоскоростном кодировании речевого сигнала.

Изобретение относится к средствам для генерации высокополосного сигнала возбуждения. Технический результат заключается в уменьшении количества артефактов в невокализованной области высокополосного сигнала.

Изобретение относится к области вычислительной техники для декодирования аудиоданных. Технический результат заключается в повышении точности аудиодекодирования.

Изобретение относится к акустике. Устройство содержит процессор метаданных объекта и средство рендеринга объекта.

Изобретение относится к средствам стереофонического кодирования на основе MDCT с комплексным предсказанием. Технический результат заключается в повышении эффективности стереофонического кодирования при передаче данных с высокой битовой скоростью.

Изобретение относится к обработке аудиосигналов. Технический результат – уменьшение разрыва аудио при восстановлении пакета в начальной точке аудио и повышение субъективного качества аудио.

Изобретение относится к области обработки звуковых сигналов. Технический результат заключается в повышении качества обработки звукового сигнала при расширении частотного диапазона звукового сигнала.

Изобретение относится к вычислительной технике для обработки цифрового аудиосигнала. Технический результат заключается в повышении качества аудиосигнала после коррекции потери кадра.

Изобретение относится к обработке звуковых сигналов, в частности к декодерам. Устройство содержит демультиплексор, формирующий из кадров аудиоинформации базовый сигнал и набор параметров, повышающий дискретизатор для повышающей дискретизации базового сигнала и выдачи первого спектра с повышенной дискретизацией и следующего по времени второго спектра с повышенной дискретизацией. Как первый спектр с повышенной дискретизацией, так и второй спектр с повышенной дискретизацией имеют то же самое содержимое, что и базовый сигнал, и имеют вторую ширину спектра, являющуюся большей, чем первая ширина спектра базового спектра. Преобразователь параметров для преобразования параметров упомянутого набора параметров упомянутого элемента доступа для получения преобразованных параметров и процессор заполнения спектральных промежутков для обработки упомянутого первого спектра с повышенной дискретизацией и упомянутого второго спектра с повышенной дискретизацией, с использованием упомянутых преобразованных параметров. Технический результат – высокая точность декодирования параметров, минимизация искажений сигналов, уменьшение вычислительной сложности. 2 н. и 20 з.п. ф-лы, 15 ил., 1 табл.

Изобретение относится к средствам для расширения диапазона частот для акустических сигналов. Технический результат заключается в повышении эффективности расширения диапазона частот входных сигналов для повышения качества аудио. Демультиплексируют параметры кодирования, индексную информацию, идентифицирующую наиболее коррелированную часть из низкочастотного спектра для одного или более высокочастотных поддиапазонов, и информацию коэффициентов масштаба из кодированной информации, переданной от устройства кодирования, которое кодирует аудиосигнал. Дублируют спектр высокочастотного поддиапазона на основании индексной информации, используя синтезированный низкочастотный спектр, причем синтезированный низкочастотный спектр получен декодированием параметров кодирования. Регулируют амплитуды дублированного спектра высокочастотного поддиапазона, используя информацию коэффициентов масштаба. Оценивают частоты гармонической составляющей в синтезированном низкочастотном спектре. Регулируют частоты гармонической составляющей в спектре высокочастотного поддиапазона, используя оцененный спектр гармонической частоты. 2 н. и 6 з.п. ф-лы, 14 ил.

Изобретение относится к средствам для обработки сигналов. Технический результат заключается в повышении эффективности кодирования и декодирования сигналов. Определяют, согласно значению энергетической характеристики и значению спектральной характеристики первого поднабора N поддиапазонов текущего кадра аудио сигнала, следует ли устанавливать в первый поднабор квантованные энергетические огибающие поддиапазонов в первом поднаборе. Первый поднабор имеет М поддиапазонов и второй поднабор имеет К поддиапазонов, первый поднабор и второй поднабор не имеют огибающей по частоте и оба поднабора являются положительными целыми числами, и N=M+K. Устанавливают квантованные энергетические огибающие М поддиапазонов в первом поднаборе индивидуально для получения установленных энергетических огибающих М поддиапазонов. Выделяют биты кодирования для N поддиапазонов текущего кадра, при этом каждый из N поддиапазонов является или имеющим выделенные биты кодирования или не имеющим выделенные биты кодирования. Квантуют спектральные коэффициенты каждого поддиапазона, который имеет выделенные биты кодирования. 2 н. и 22 з.п. ф-лы, 4 ил.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении скорости передачи битов для кодирования НОА-аудио сигналов при разложении V-вектора на взвешенную сумму кодовых векторов. Технический результат достигается за счет векторного деквантования относительно векторно квантованного пространственного компонента с использованием выбранной одной из множества кодовых книг, чтобы получить векторно деквантованный пространственный компонент звукового поля, причем каждая из множества кодовых книг указывает значения весовых коэффициентов, каждое из которых соответствует соответственному одному из множества весовых коэффициентов во взвешенной сумме кодовых векторов, используемых при выполнении векторного деквантования, а взвешенная сумма кодовых векторов кодируется с k+1 индексами, которые указывают на k+1 кодовых векторов, одним индексом, который указывает на k квантованных весовых коэффициентов в выбранной кодовой книге, и k+1 значениями знаков числа. 4 н. и 21 з.п. ф-лы, 30 ил.

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования аудио. Кодируют низкополосный сигнал из речевого или аудио входного сигнала, чтобы генерировать первый кодированный сигнал. Декодируют первый кодированный сигнал, чтобы генерировать низкополосный декодированный сигнал. Кодируют, на основе низкополосного декодированного сигнала, высокополосный сигнал, имеющий полосу, более высокую, чем полоса низкополосного сигнала, чтобы генерировать высокополосный кодированный сигнал. Вычисляют отношение энергии между первой энергией, относящейся к энергии высокополосной компоненты шума, которая является компонентой шума высокополосного сигнала, и второй энергией, относящейся к энергии высокополосной нетональной компоненты высокополосного декодированного сигнала, сгенерированного из низкополосного декодированного сигнала. Мультиплексируют первый кодированный сигнал и высокополосный кодированный сигнал. 8 н. и 7 з.п. ф-лы, 10 ил.
Наверх