Способы, аппараты и системы кодирования и декодирования направленных источников звука

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности обработки аудиоданных. Технический результат достигается за счет приема монофонического звукового сигнала, соответствующего звуковому объекту, и представления схемы излучения, соответствующей звуковому объекту, причем схема излучения содержит уровни звука, соответствующие нескольким периодам дискретизации, нескольким полосам частот и нескольким направлениям; кодирования монофонического звукового сигнала; кодирования по меньшей мере одного из изменяющейся во времени информации об ориентации источника 3 степеней свободы (DoF) или 6DoF звукового объекта для определения метаданных звукового объекта и кодирования схемы излучения источника для определения метаданных схемы излучения. 3 н. и 22 з.п. ф-лы, 13 ил.

 

[001] Настоящее изобретение испрашивает приоритет заявки на патент США № 62/658067, поданной 16 апреля 2018 г.; заявки на патент США № 62/681429, поданной 6 июня 2018 г., и заявки на патент США № 62/741419, поданной 4 октября 2018 г., которые включены в настоящий документ посредством ссылки во всей полноте.

ОБЛАСТЬ ТЕХНИКИ

[002] Настоящее изобретение относится к кодированию и декодированию направленных источников звука и слуховых сцен на основе множества динамических и/или движущихся направленных источников.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

[003] Источники звука реального мира, являются ли они естественными или созданными человеком (громкоговорители, музыкальные инструменты, голос, механические устройства), испускают звук анизотропным способом. Характеризация схем излучения (или «направленности») источников звука может быть важной для должного рендеринга, в частности в контексте интерактивных сред, таких как видеоигры и приложения виртуальной/дополненной реальности (VR/AR). В этих средах пользователи, как правило, взаимодействуют с направленными звуковыми объектами посредством хождения по ним, таким образом изменяя свою акустическую перспективу относительно сгенерированного звука (также известно как рендеринг с 6 степенями свободы (DoF)). Пользователь также может захватывать и динамически вращать виртуальные объекты, что опять же требует рендеринга разных направлений в схеме излучения соответствующего источника (источников) звука. В дополнение к более реалистичному рендерингу прямых эффектов распространения из источника к слушателю, характеристики излучения также будут играть важную роль в акустической связи более высокого порядка между источником и его средой (например, виртуальная среда в игре), тем самым воздействуя на реверберированный звук (то есть звуковые волны, перемещающиеся вперед и назад, как при эхо). В результате, такая реверберация может влиять на другие пространственные метки, такие как воспринимаемое расстояние.

[004] Большинство звуковых игровых движков обеспечивает некоторый способ представления и рендеринга направленных источников звука, но, как правило, ограничено простым индексом направленности, полагаясь на определение простых косинусных функций 1-го порядка или «звуковых конусов» (например, косинусные функции в степени) и простые высокочастотные фильтры с плавным спадом. Этих представлений недостаточно для представления схем излучения в реальном мире, и они также являются не очень подходящими для упрощенного/комбинированного представления множества направленных источников звука.

КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ

[005] В настоящем документе раскрыты различные способы обработки звука. Некоторые такие способы могут включать кодирование направленных звуковых данных. Например, некоторые способы могут включать прием монофонического звукового сигнала, соответствующего звуковому объекту, и представление схемы излучения, соответствующей звуковому объекту. Схема излучения может, например, содержать уровни звука, соответствующие нескольким периодам дискретизации, нескольким полосам частот и нескольким направлениям. Некоторые способы могут включать кодирование монофонического звукового сигнала и кодирование схемы излучения источника для определения метаданных схемы излучения. Кодирование схемы излучения может включать определение преобразования сферических гармоник представления схемы излучения и сжатие преобразования сферических гармоник для получения метаданных кодированной схемы излучения.

[006] Некоторые такие способы могут включать кодирование нескольких направленных звуковых объектов на основании кластера звуковых объектов. Схема излучения может представлять центроид, который отражает среднее значение уровня звука для каждой полосы частот. В некоторых подобных реализациях несколько направленных звуковых объектов закодированы в качестве одного направленного звукового объекта, направленность которого соответствует изменяющемуся во времени энергетически взвешенному среднему коэффициентов сферических гармоник каждого звукового объекта. Метаданные кодированной схемы излучения могут указывать на положение кластера звуковых объектов, то есть среднее положения каждого звукового объекта.

[007] Некоторые способы могут включать кодирование метаданных группы, относящихся к схеме излучения группы направленных звуковых объектов. В некоторых примерах масштаб схемы излучения источника может быть изменен до амплитуды схемы входного излучения в направлении по частоте для определения схемы нормализованного излучения. Согласно некоторым реализациям сжатие преобразования сферических гармоник может включать способ разложения по сингулярным числам, анализ основных компонентов, дискретные косинусные преобразования, не зависящие от данных базисы и/или устранение коэффициентов сферических гармоник преобразования сферических гармоник, которые выше порогового порядка коэффициентов сферических гармоник.

[008] Некоторые альтернативные способы могут включать декодирование звуковых данных. Например, некоторые такие способы могут включать прием кодированного базового звукового сигнала, метаданных кодированной схемы излучения и метаданных кодированного звукового объект и декодирование кодированного базового звукового сигнала для определения базового звукового сигнала. Некоторые такие способы могут включать декодирование метаданных кодированной схемы излучения для определения декодированной схемы излучения, декодирование метаданных схемы излучения и рендеринга базового звукового сигнала на основании метаданных звукового объекта и декодированной схемы излучения.

[009] В некоторых случаях метаданные звукового объекта могут содержать по меньшей мере одно из изменяющейся во времени информации об ориентации источника 3 степеней свободы (3DoF) или 6 степеней свободы (6DoF). Базовый звуковой сигнал может содержать несколько направленных объектов на основании кластера объектов. Декодированная схема излучения может представлять центроид, который отражает среднее значение для каждой полосы частот. В некоторых примерах рендеринг может быть основан на применении коэффициентов усиления поддиапазона, основанных по меньшей мере частично на декодированных данных излучения, к декодированному базовому звуковому сигналу. Метаданные кодированной схемы излучения могут соответствовать переменному во времени и по частоте набору коэффициентов сферических гармоник.

[0010] Согласно некоторым реализациям метаданные кодированной схемы излучения могут включать метаданные типов звукового объекта. Метаданные типов звукового объекта могут, например, указывать на параметрические данные схемы направленности. Параметрические данные схемы направленности могут содержать косинусную функцию, синусную функцию и/или кардиоидную функцию. В некоторых примерах метаданные типов звукового объекта могут указывать на данные схемы направленности базы данных. Декодирование метаданных кодированной схемы излучения для определения декодированной схемы излучения может включать запрашивание структуры данных направленности, которая содержит типы звуковых объектов и соответствующие данные схемы направленности. В некоторых примерах метаданные типов звукового объекта могут указывать на динамические данные схемы направленности. Динамические данные схемы направленности могут соответствовать переменному во времени и по частоте набору коэффициентов сферических гармоник. Некоторые способы могут включать прием динамических данных схемы направленности до приема кодированного базового звукового сигнала.

[0011] Некоторые или все способы, описанные в настоящем документе, могут быть выполнены посредством одного или более устройств в соответствии с командами (например, программным обеспечением), хранящимися в одном или более постоянных носителях данных. Такие постоянные носители данных могут содержать запоминающие устройства, такие как те, что описаны в настоящем документе, включая, но без ограничения, оперативные запоминающие устройства (RAM), постоянные запоминающие устройства (ROM) и т. д. Соответственно, различные изобретательские особенности объекта, описанные в настоящем изобретении, могут быть реализованы в одном или более постоянных носителях данных, имеющих программное обеспечение, хранящееся в них. Программное обеспечение может, например, содержать команды для управления по меньшей мере одним устройством для обработки звуковых данных. Программное обеспечение может, например, быть выполнено с возможностью исполнения посредством одного или более компонентов системы управления, таких как те, что описаны в настоящем документе. Программное обеспечение может, например, содержать команды для выполнения одного или более способов, раскрытых в настоящем документе.

[0012] По меньшей мере некоторые аспекты настоящего изобретения могут быть реализованы посредством аппарата. Например, одно или более устройств могут быть приспособлены для выполнения, по меньшей мере частично, способов, раскрытых в настоящем документе. В некоторых реализациях аппарат может содержать интерфейсную систему и систему управления. Интерфейсная система может содержать один или более сетевых интерфейсов, один или более интерфейсов между системой управления и системой памяти, один или более интерфейсов между системой управления и другим устройством и/или один или более интерфейсов для внешних устройств. Система управления может содержать по меньшей мере одно из одно- или многокристального процессора общего назначения, процессора цифровой обработки сигналов (DSP), интегральной схемы специального назначения (ASIC), программируемой пользователем вентильной матрицы (FPGA) или другого программируемого логического устройства, схемы на дискретных компонентах или транзисторной логической схемы, или компонентов дискретного аппаратного обеспечения. Соответственно, в некоторых реализациях система управления может содержать один или более процессоров и один или более постоянных носителей данных, функционально соединенных с одним или более процессорами.

[0013] Согласно некоторым таким примерам система управления может быть выполнена с возможностью приема посредством интерфейсной системы звуковых данных, соответствующих по меньшей мере одному звуковому объекту. В некоторых примерах звуковые данные могут содержать монофонический звуковой сигнал, метаданные положения звукового объекта, метаданные размера звукового объекта и параметр рендеринга. Некоторые такие способы могут включать определение, указывает ли параметр рендеринга на режим положения или режим направленности, и при определении, что параметр рендеринга указывает на режим направленности, рендеринг звуковых данных для воспроизведения посредством по меньшей мере одного громкоговорителя в соответствии со схемой направленности, указанной метаданными положения и/или метаданными размера.

[0014] В некоторых примерах рендеринг звуковых данных может включать интерпретацию метаданных положения звукового объекта в качестве метаданных ориентации звукового объекта. Метаданные положения звукового объекта могут, например, включать данные координат x,y,z, данные сферических координат и/или данные цилиндрических координат. В некоторых случаях метаданные ориентации звукового объекта могут включать данные рыскания, тангажа и крена.

[0015] Согласно некоторым примерам рендеринг звуковых данных может включать интерпретацию метаданных размера звукового объекта в качестве метаданных направленности, которые соответствуют схеме направленности. В некоторых реализациях рендеринг звуковых данных может включать запрашивание структуры данных, которая содержат несколько схем направленности, и соотнесение метаданных положения и/или метаданных размера с одной или более схемами направленности. В некоторых случаях система управления может быть выполнена с возможностью приема структуры данных посредством интерфейсной системы. В некоторых примерах структура данных может быть принята перед звуковыми данными. При этом в некоторых реализациях звуковые данные могут быть приняты в формате Dolby Atmos. Метаданные положения звукового объекта могут, например, соответствовать мировым координатам или модельным координатам.

[0016] Подробности одной или более реализаций объекта изобретения, описываемого в данном описании, изложены в сопроводительных графических материалах и в приведенном ниже описании. Другие признаки, аспекты и преимущества будут очевидны из описания, графических материалов и формулы изобретения. Следует отметить, что относительные размеры на нижеследующих фигурах могут быть приведены не в масштабе. Подобные ссылочные позиции и обозначения в разных графических материалах, как правило, указывают подобные элементы.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ

[0017] На фиг. 1A приведена блок-схема, на которой показаны блоки способа кодирования звука согласно одному примеру.

[0018] На фиг. 1B показаны блоки процесса, который может быть реализован посредством системы кодирования для динамического кодирования информации покадровой направленности для направленного звукового объекта согласно одному примеру.

[0019] На фиг. 1C показаны блоки процесса, который может быть реализован посредством системы декодирования согласно одному примеру.

[0020] На фиг. 2A и 2B показаны схемы излучения звукового объекта в двух разных полосах частот.

[0021] На фиг. 2C представлен график, на котором показаны примеры схем нормализованного и ненормализованного излучения согласно одному примеру.

[0022] На фиг. 3 показан пример иерархии, в которую включены звуковые данные и различные типы метаданных.

[0023] На фиг. 4 приведена блок-схема, на которой показаны блоки способа декодирования звука согласно одному примеру.

[0024] На фиг. 5A показана тарелка ударной установки.

[0025] На фиг. 5B показан пример системы динамиков.

[0026] На фиг. 6 приведена блок-схема, на которой показаны блоки способа декодирования звука согласно одному примеру.

[0027] На фиг. 7 показан один пример кодирования множества звуковых объектов.

[0028] На фиг. 8 приведена блок-схема, на которой показаны примеры компонентов аппарата, которые могут быть приспособлены для выполнения по меньшей мере некоторых способов, описанных в настоящем документе.

[0029] Подобные ссылочные позиции и обозначения в разных графических материалах указывают подобные элементы.

ПОДРОБНОЕ ОПИСАНИЕ

[0030] Аспект настоящего изобретения относится к представлению сложных схем излучения и их эффективному кодированию. Некоторые такие реализации могут включать одно или более из следующего:

1. Представление общих схем излучения звука в качестве зависящих от времени и от частоты коэффициентов N-го порядка разложения по действительнозначным сферическим гармоникам (SPH) (N>=1). Это представление также может быть расширено таким образом, чтобы зависеть от уровня сигнала воспроизведения звука. В отличие от случая, при котором сам сигнал направленного источника представляет собой подобное HOA представление PCM, монофонический сигнал объекта может быть закодирован отдельно от его информации о направленности, причем он представлен как набор зависящих от времени скалярных коэффициентов SPH в поддиапазонах.

2. Схема эффективного кодирования для уменьшения битовой скорости, необходимой для представления этой информации.

3. Решение, заключающееся в динамическом объединении схем излучения, чтобы сцена, созданная за счет нескольких источников излучения звука, могла быть представлена посредством эквивалентного уменьшенного количества источников, в то же время сохраняя качество восприятия во время рендеринга.

[0031] Аспект настоящего изобретения относится к представлению общих схем излучения, чтобы дополнить метаданные для каждого монофонического звукового объекта посредством набора зависящих от времени/частоты коэффициентов, представляющих направленность монофонического звукового объекта, спроецированную на базис сферических гармоник N-го порядка (N>=1).

[0032] Схемы излучения первого порядка могут быть представлены набором из 4 скалярных коэффициентов усиления для заданного набора полос частот (например, 1/3-октавных). Набор полос частот также может называться интервалом или подполосой. Интервалы или подполосы могут быть определены на основе оконного преобразования Фурье (STFT) или перцепционного банка фильтров для одного кадра данных (например, 512 отсчетов как в Dolby Atmos). Полученная в результате схема может быть подвергнута рендерингу посредством оценки разложения по сферическим гармоникам в требуемых направлениях вокруг объекта.

[0033] В целом, эта схема излучения представляет собой характеристику источника и может оставаться постоянной с течением времени. Однако для представления динамической сцены, в которой объекты вращаются или изменяются, или для обеспечения того, что доступ данным может быть получен случайным образом, может быть выгодным обновлять этот набор коэффициентов через регулярные промежутки времени. В контексте динамических слуховых сцен с движущимися объектами результат поворота объекта может быть непосредственно закодирован в переменных во времени коэффициентах без необходимости явного отдельного кодирования ориентации объекта.

[0034] Каждый тип источника звука имеет характерную схему излучения/испускания, которая, как правило, отличается полосой частот. Например, скрипка может иметь схему излучения, очень отличную от схемы излучения трубы, барабана или колокола. Более того, источник звука, такой как музыкальный инструмент, может создавать разные излучения на уровнях исполнения, таких как очень тихо (pianissimo) и очень громко (fortissimo). В результате, схема излучения также может представлять собой функцию не только направления вокруг объекта звучания, но и уровня давления звукового сигнала, который он излучает, при этом уровень давления также может быть переменным во времени.

[0035] Соответственно, вместо простого представления звукового поля в точке в пространстве в некоторых реализациях применяют кодирование звуковых данных, которые соответствуют схемам излучения звуковых объектов, таким образом их рендеринг может быть осуществлен с другой выгодной точки. В некоторых случаях схемы излучения могут представлять собой переменные во времени и по частоте схемы излучения. Ввод звуковых данных в процесс кодирования может, в некоторых случаях, включать несколько каналов (например, 4, 6, 8, 20 или более каналов) звуковых данных из направленных микрофонов. Каждый канал может соответствовать данным из микрофона в конкретном положении в пространстве вокруг источника звука, из которого может быть получена схема излучения. Предполагая, что относительное положение от каждого микрофона до источника известно, этого можно достичь путем численного подбора набора коэффициентов сферических гармоник, таким образом полученная сферическая функция лучше всего соответствует обнаруженным уровням энергии в разных поддиапазонах каждого входного сигнала микрофона. Например, см. способы и системы, описанные в связи с заявкой на патент № PCT/US2017/053946 «Method, Systems and Apparatus for Determining Audio Representations» авторов Nicolas Tsingos и Pradeep Kumar Govindaraju, которая включена в настоящий документ посредством ссылки. В других примерах схема излучения звукового объекта может быть определена посредством численного моделирования.

[0036] Вместо простого кодирования звуковых данных с направленных микрофонов на уровне отсчетов некоторые реализации включают кодирование монофонических сигналов звуковых объектов посредством соответствующих метаданных схемы излучения, которые представляют схемы излучения для по меньшей мере некоторых из кодированных звуковых объектов. В некоторых реализациях метаданные схемы излучения могут быть представлены в качестве данных сферических гармоник. Некоторые такие реализации могут включать процесс сглаживания и/или процесс сжатия/сокращения объема данных.

[0037] На фиг. 1A приведена блок-схема, на которой показаны блоки способа кодирования звука согласно одному примеру. Способ 1 может, например, быть реализован посредством системы управления (такой как система 815 управления, которая описана ниже со ссылкой на фиг. 8), которая содержит один или более процессоров и одно или более постоянных запоминающих устройств. Как и для других описанных способов, не все блоки способа 1 обязательно выполняют в порядке, показанном на фиг. 1A. Кроме того, альтернативные способы могут включать большее или меньшее количество блоков.

[0038] В этом примере блок 5 включает прием монофонического звукового сигнала, соответствующего звуковому объекту, и также прием представления схемы излучения, соответствующей звуковому объекту. Согласно настоящей реализации схема излучения содержит уровни звука, соответствующие нескольким периодам дискретизации, нескольким полосам частот и нескольким направлениям. Согласно настоящему примеру блок 10 включает кодирование монофонического звукового сигнала.

[0039] В примере, показанном на фиг. 1A, блок 15 включает кодирование схемы излучения источника для определения метаданных схемы излучения. Согласно настоящей реализации кодирование представления схемы излучения включает определение преобразования сферических гармоник представления схемы излучения и сжатие преобразования сферических гармоник для получения метаданных кодированной схемы излучения. В некоторых реализациях масштаб представления схемы излучения может быть изменен до амплитуды схемы входного излучения в направлении по частоте для определения схемы нормализованного излучения.

[0040] В некоторых случаях сжатие преобразования сферических гармоник может включать отбрасывание некоторых коэффициентов сферических гармоник более высокого порядка. Некоторые такие примеры могут включать исключение коэффициентов сферических гармоник преобразования сферических гармоник, которые находятся выше порогового порядка коэффициентов сферических гармоник, например, выше 3-го порядка, выше 4-го порядка, выше 5-го порядка и т. д.

[0041] Однако некоторые реализации могут включать альтернативные и/или дополнительные способы сжатия. Согласно некоторым таким реализациям сжатие преобразования сферических гармоник может включать способ разложения по сингулярным числам, анализ основных компонентов, дискретные косинусные преобразования, не зависящие от данных базисы и/или другие способы.

[0042] Согласно некоторым примерам способ 1 также может включать кодирование нескольких направленных звуковых объектов в качестве группы или «кластера» звуковых объектов. Некоторые реализации могут включать кодирование метаданных группы, относящихся к схеме излучения группы направленных звуковых объектов. В некоторых случаях несколько направленных звуковых объектов могут быть закодированы в качестве одного направленного звукового объекта, направленность которого соответствует изменяющемуся во времени энергетически взвешенному среднему коэффициентов сферических гармоник каждого звукового объекта. В некоторых таких примерах метаданные кодированной схемы излучения могут представлять центроид, который соответствует среднему значению уровня звука для каждой полосы частот. Например, метаданные кодированной схемы излучения (или связанные метаданные) могут указывать на положение кластера звуковых объектов, то есть среднее положения каждого направленного звукового объекта в кластере.

[0043] На фиг. 1B показаны блоки процесса, который может быть реализован посредством системы 100 кодирования для динамического кодирования информации покадровой направленности для направленного звукового объекта согласно одному примеру. Процесс может, например, быть реализован посредством системы управления, такой как система 815 управления, которая описана ниже со ссылкой на фиг. 8. Система 100 кодирования может принимать монофонический звуковой сигнал 101, который может соответствовать монофоническому сигналу объекта, как описано выше. Монофонический звуковой сигнал 101 может быть закодирован в блоке 111 и предоставлен в блок 112 сериализации.

[0044] В блоке 102 могут обрабатывать статические или изменяющиеся во времени направленные энергетические отсчеты на разных уровнях звука в наборе полос частот относительно эталонной системы координат. Эталонная система координат может быть определена в конкретной пространственной системе координат, такой как модельная пространственная система координат или мировая пространственная система координат.

[0045] В блоке 105 могут выполнять зависящее от частоты изменение масштаба изменяющихся во времени направленных энергетических отсчетов из блока 102. В одном примере зависящее от частоты изменение масштаба могут выполнять в соответствии с примером, проиллюстрированным на фиг. 2A–2C, как описано ниже. Нормализация может быть основана на изменении масштаба амплитуды, например, направления высокой частоты относительно низкой частоты.

[0046] Зависящее от частоты изменение масштаба может быть повторно нормализовано на основе предполагаемого направления захвата базового сигнала. Такое предполагаемое направление захвата базового сигнала может представлять направление слушания относительно источника звука. Например, это направление слушания могут называть направлением просмотра, причем направление просмотра может находиться в конкретном направлении относительно системы координат (например, направлении вперед или направлении назад).

[0047] В блоке 106 выходные данные перемасштабированной направленности из блока 105 могут спроецировать на базис сферических гармоник, в результате чего получают коэффициенты сферических гармоник.

[0048] В блоке 108 сферические коэффициенты из блока 106 обрабатывают на основании мгновенного значения уровня 107 звука и/или информации от блока 109 поворота. Мгновенное значение уровня 107 звука может быть измерено в конкретное время в конкретном направлении. Информация от блока 109 поворота может указывать на (необязательный) поворот изменяющейся во времени ориентации 103 источника. Например, в блоке 109 сферические коэффициенты могут быть отрегулированы, чтобы учитывать зависящую от времени модификацию ориентации источника относительно первоначально записанных входных данных.

[0049] В блоке 108 могут дополнительно выполнять определение целевого уровня на основе выравнивания, которое определяют относительно направления для предполагаемого направления захвата базового звукового сигнала. Блок 108 может выводить набор повернутых сферических коэффициентов, которые выровнены на основе определения целевого уровня.

[0050] В блоке 110 кодирование схемы излучения может быть основано на проецировании на меньшее подпространство сферических коэффициентов относительно схемы излучения источника, что обеспечивает метаданные кодированной схемы излучения. Как показано на фиг. 1A, в блоке 110 алгоритм разложения SVD и сжатия могут выполнять для выходных данных сферических коэффициентов посредством блока 108. В одном примере алгоритм разложения SVD и сжатия из блока 110 могут выполнять в соответствии с принципами, описанными в связи с уравнениями 11–13, которые описаны ниже.

[0051] Альтернативно блок 110 может включать возможность использования других способов, таких как анализ основных компонентов (PCA) и/или не зависящие от данных базисы, такие как 2D дискретное косинусное преобразование (DCT), для проецирования представления сферических гармоник в пространство, что приводит к сжатию с потерями. Выходные данные из блока 110 могут представлять собой матрицу T, которая представляет проекцию данных в меньшее подпространство входных данных, т. е. кодированную схему излучения T. Кодированная схема излучения T, кодированный монофонический базовый звуковой сигнал 111 и любые другие метаданные 104 объекта (например x,y,z, необязательная ориентация источника и т. д.) могут быть сериализованы в блоке 112 сериализации для вывода кодированного битового потока. В некоторых примерах структура излучения может быть представлена посредством следующей структуры синтаксиса битового потока в каждом кодированном аудиокадре:

Байт freqBandModePreset (например широкополосный, октавный, широкополосный, 1/3-октавный, обычный).

Он определяет количество N и значения средней частоты поддиапазонов)

Байт order (порядок N сферических гармоник)

Int * coefficients ( (N+1) *(N+1) * значения K)

[0052] Такой синтаксис может охватывать разные наборы коэффициентов для разных уровней давления/интенсивности источника звука. Альтернативно, если информация о направленности доступна на разных уровнях сигнала и если уровень источника не может быть больше определен во время воспроизведения, может быть динамически сгенерирован единственный набор коэффициентов. Например, такие коэффициенты могут быть сгенерированы посредством интерполяции между коэффициентами низкого уровня и коэффициентами высокого уровня на основании изменяющегося во времени уровня звукового сигнала объекта во время кодирования.

[0053] Схема входного излучения относительно монофонического сигнала звукового объекта также может быть «нормализована» по заданному направлению, такому как основная ось отклика (которая может представлять собой направление, от которого ее записывают, или среднее нескольких записей) и кодированной направленности, и может потребоваться согласование окончательного рендеринга с этой «нормализацией». В одном примере эта нормализация может быть указана как метаданные. Как правило, является желательным кодирование базового звукового сигнала, за счет чего передают хорошее представление тембра объекта, если не применяют информацию о направленности.

Кодирование направленности

[0054] Аспект настоящего изобретения относится к реализации эффективных схем кодирования для информации о направленности, поскольку количество коэффициентов квадратично растет с порядком разложения. Схемы эффективного кодирования для информации о направленности могут быть реализованы для окончательной доставки испускания слуховой сцены, например по сети с ограниченной шириной полосы, в конечное устройство рендеринга.

[0055] Предполагая, что 16 бит используют для представления каждого коэффициента, представление сферических гармоник 4-го порядка в 1/3-октавных полосах потребует 25*31 ~= 12 кбит на кадр. Обновление этой информации при 30 Гц потребует скорости передачи информации, составляющей по меньшей мере 400 кбит/с, больше, чем текущим основанным на объекте аудиокодекам в настоящий момент требуется для передачи как звуковых метаданных, так и метаданных объекта. В одном примере схема излучения может быть представлена следующим образом:

уравнение № (1)

[0056] В уравнении № (1) представляет дискретный меридиональный угол и азимутальный угол относительно звукового источника, представляет общее количество дискретных углов и представляет спектральную частоту. На фиг. 2A и 2B показаны схемы излучения звукового объекта в двух разных полосах частот. На фиг. 2A можно, например, увидеть схему излучения звукового объекта в полосе частот от 100 до 300 Гц, тогда как на фиг. 2B можно, например, увидеть схему излучения того же звукового объекта в полосе частот от 1 кГц до 2 кГц. Низкие частоты, как правило, являются относительно в большей степени всенаправленными, таким образом схема излучения, показанная на фиг. 2A, является относительно более круглой, чем схема излучения, показанная на фиг. 2B. На фиг. 2A представляет схему излучения в направлении основной оси 200 отклика, тогда как представляет схему излучения в произвольном направлении 205.

[0057] В некоторых примерах схема излучения может быть захвачена и определена посредством множества микрофонов, физически расположенных вокруг источника звука, соответствующего звуковому объекту, тогда как в других примерах схема излучения может быть определена посредством численного моделирования. В примере с множеством микрофонов схема излучения может быть изменяющейся во времени, отражая, например, живую запись. Схема излучения может быть захвачена на различных частотах, включая низкие (например, <100 Гц), средние (100 Гц< и >1 кГц) и высокие (>10 КГц) частоты. Схему излучения также могут называть пространственным представлением.

[0058] В другом примере схема излучения может отражать нормализацию на основании захваченной схемы излучения на конкретной частоте в конкретном направлении , как например:

уравнение № (2)

[0059] В уравнении № (2) представляет схему излучения в направлении основной оси отклика. Снова обратимся к фиг. 2B, в одном примере можно увидеть схему излучения и схему нормализованного излучения . На фиг. 2C представлен график, на котором показаны примеры схем нормализованного и ненормализованного излучения согласно одному примеру. В этом примере схема нормализованного излучения в направлении основной оси отклика, которая представлена как на фиг. 2C, имеет по существу одинаковую амплитуду в пределах проиллюстрированных полос частот. В этом примере схема нормализованного излучения в направлении 205 (показано на фиг. 2A), которая представлена как на фиг. 2C, имеет относительно более высокие амплитуды с более высокими частотами, чем схема ненормализованного излучения, которая представлена как на фиг. 2C. Для данной полосы частот, можно предположить, что схема излучения может быть постоянной для удобства обозначений, но на практике она может изменяться со временем, например, для разных техник владения смычком, применяемых на струнных инструментах.

[0060] Может быть передана схема излучения, или ее параметрическое представление. Предварительную обработку схемы излучения могут выполнить до ее передачи. В одном примере схему излучения или параметрическое представление могут предварительно обработать посредством вычислительного алгоритма, примеры которого показаны на фиг. 1A. После предварительной обработки схему излучения могут разложить на ортогональный сферический базис на основании, например, следующего:

уравнение № (3)

[0061] В уравнении № (3) представляет пространственное представление и представляет представление сферических гармоник, которое имеет меньшее количество элементов, чем пространственное представление. Преобразование между и может быть основано на использовании, например, реальных полностью нормализованных сферических гармоник:

уравнение № (4)

[0062] В уравнении № (4) представляет связанные многочлены Лежандра, порядок , степень и

уравнение № (5)

[0063] Также могут быть использованы другие сферические базисы. Может быть использован любой подход для выполнения преобразования сферических гармоник дискретных данных. В одном примере может быть использован метод наименьших квадратов посредством первоначально определения матрицы преобразования :

уравнение № (6)

тем самым выполняя соотношение представления сферических гармоник и пространственного представления как

, уравнение № (7)

[0064] В уравнении № (7) . Представления сферических гармоник и/или пространственные представления могут быть сохранены для дальнейшей обработки.

[0065] Псевдоинверсия может представлять собой метод решения с использованием взвешенных наименьших квадратов в форме:

уравнение № (8)

[0066] Упорядоченные решения также могут применять в случаях, где распределение сферических отсчетов включает большие количества потерянных данных. Потерянные данные могут соответствовать областям или направлениям, для которых отсутствуют доступные отсчеты направленности (например вследствие неравномерного покрытия микрофонами). Во многих случаях распределение пространственных отсчетов является достаточно равномерным, вследствие чего матрица тождественности весовых коэффициентов дает приемлемые результаты. Также часто предполагают, что , таким образом представление сферических гармоник содержит меньшее количество элементов, чем пространственное представление , за счет чего обеспечивают первый этап сжатия с потерями, в рамках которого сглаживают данные схемы излучения.

[0067] Далее будут рассмотрены дискретные полосы частот . Матрица может быть уложена в столбец, таким образом каждая полоса частот представлена столбцом матрицы

. уравнение № (9)

[0068] То есть пространственное представление может быть определено на основании интервалов/полос/наборов частот. Следовательно, представление сферических гармоник может быть основано на следующем:

уравнение № (10)

[0069] В уравнении № (10) представляет схему излучения для всех дискретных частот в области сферических гармоник. Ожидается, что соседние столбцы являются высоко коррелированными, что приводит к избыточности представления. Некоторые реализации включают дальнейшее разложение посредством факторизации матрицы в виде

. уравнение № (11)

[0070] Некоторые варианты осуществления могут включать выполнение разложения по сингулярным числам (SVD), где и представляют левую и правую сингулярные матрицы и представляет матрицу сингулярных чисел, уменьшающихся по их диагонали. Могут принимать или хранить информацию о матрице V. Альтернативно анализ основных компонентов (PCA) и не зависящие от данных базисы, такие как 2D DCT, могут быть использованы для проецирования в пространство, что приводит к сжатию с потерями.

[0071] Допустим . В некоторых примерах для достижения сжатия кодер может отбрасывать компоненты, соответствующие меньшим сингулярным числам, посредством вычисления результата на основании следующего:

уравнение № (12)

[0072] В уравнении № (12) представляет усеченную копию . Матрица T может представлять проекцию данных в меньшее подпространство входных данных. T представляет данные кодированной схемы излучения, которые затем передают для дальнейшей обработки. На стороне кодирования, приема, в некоторых примерах матрица T может быть принята и низкоранговая аппроксимация для может быть воссоздана на основании:

уравнение № (13)

В уравнении № (13) представляет усеченную копию . Матрицу V могут хранить на стороне декодера или передавать на нее.

[0073] Далее представлены три примера передачи усеченного разложения и усеченных правосторонних сингулярных векторов:

1. Передатчик может передавать кодированное излучение и усеченные правосторонние сингулярные векторы для каждого объекта независимо.

2. Объекты могут быть сгруппированы, например, по степени сходства, и и могут быть вычислены в качестве репрезентативных базисов для множества объектов. Кодированное излучение , следовательно, может быть передано для каждого объекта, и и могут быть переданы для группы объектов.

3. Левая и правая сингулярные матрицы и могут быть предварительно вычислены посредством большой базы репрезентативных данных (например, данных для обучения), и информация, относящаяся к, может храниться на стороне приемника. В некоторых таких примерах на каждый объект может быть передано только кодированное излучение. DCT представляет собой другой пример базиса, который может храниться на стороне приемника.

Пространственное кодирование направленных объектов

[0074] Когда сложную слуховую сцену, содержащую множество объектов, кодируют и передают, можно применить методы пространственного кодирования, где отдельные объекты заменяют меньшим количеством репрезентативных кластеров таким образом, за счет которого наилучшим образом сохраняется слуховое восприятие сцены. В целом замена группы источников звука посредством репрезентативного «центроида» требует вычисления совокупного/среднего значения для каждого поля метаданных. Например, положение кластера источников звука может представлять собой среднее положения каждого источника. За счет представления схемы излучения каждого источника с использованием разложения по сферическим гармоникам, как описано выше (например, со ссылкой на уравнения №1–12), существует возможность линейно комбинировать набор коэффициентов в каждом поддиапазоне для каждого источника с целью построения схемы среднего излучения для кластера источников. За счет вычисления громкости или энергетически взвешенного среднего коэффициентов сферических гармоник в течение некоторого времени существует возможность построить изменяющееся во времени представление с оптимизированным восприятием, с помощью которого лучше сохраняется оригинальная сцена.

[0075] На фиг. 1C показаны блоки процесса, который может быть реализован посредством системы декодирования согласно одному примеру. Блоки, показанные на фиг. 1C, могут, например, быть реализованы посредством системы управления декодирующего устройства (такой как система 815 управления, которая описана ниже со ссылкой на фиг. 8), которая содержит один или более процессоров и одно или более постоянных запоминающих устройств. В блоке 150 метаданные и кодированный монофонический базовый звуковой сигнал могут быть приняты и десериализированы. Десериализованная информация может содержать метаданные 151 объекта, кодированный базовый звуковой сигнал и кодированные сферические коэффициенты. В блоке 152 кодированный базовый звуковой сигнал может быть декодирован. В блоке 153 кодированные сферические коэффициенты могут быть декодированы. Информация о кодированной схеме излучения может содержать кодированную схему T излучения и/или матрицу V. Матрица V будет зависеть от способа, используемого для проецирования в пространстве. Если в блоке 110 на фиг. 1B используют алгоритм SVD, матрица V может быть принята или сохранена посредством системы декодирования.

[0076] Метаданные 151 объекта могут содержать информацию об относительном направлении от источника к слушателю. В одном примере метаданные 151 могут содержать информацию о расстоянии и направлении слушателя и расстоянии и направлении одного или более объектов относительно пространства 6DoF. Например, метаданные 151 могут содержать информацию, относящуюся к относительному повороту, расстоянию и направлению источника в пространстве 6DoF. В примере с множеством объектов в кластерах поле метаданных может отображать информацию, относящуюся к репрезентативному «центроиду», которая отражает совокупное/среднее значение кластера объектов.

[0077] Затем модуль 154 рендеринга может осуществлять рендеринг декодированного базового звукового сигнала и декодированных коэффициентов сферических гармоник. В одном примере модуль 154 рендеринга может осуществлять рендеринг декодированного базового звукового сигнала и декодированных коэффициентов сферических гармоник на основании метаданных 151 объекта. Модуль 154 рендеринга может определять усиления поддиапазонов для сферических коэффициентов схемы излучения на основании информации из метаданных 151, например, относительных направлений от источника к слушателю. Модуль 154 рендеринга затем может осуществлять рендеринг базовых сигналов звукового объекта на основании определенных коэффициентов усиления поддиапазона соответствующей декодированной схемы (схем) излучения, информации 155 о позиции источника и/или слушателя (например, x, y, z, рыскание, тангаж, крен). Информация о позиции слушателя может соответствовать положению пользователя и направлению обзора в пространстве 6DoF. Информация о позиции слушателя может быть принята от источника, находящегося вблизи системы воспроизведения VR, такой как, например, аппарат оптического отслеживания. Информация о позиции слушателя соответствует положению объекта звучания и ориентации в пространстве. Она также может быть выведена из локальной системы отслеживания, например, если отслеживают руки пользователя и интерактивно управляют виртуальным объектом звучания или если используют отслеживаемые физическое свойство/промежуточный объект.

[0078] На фиг. 3 показан пример иерархии, в которую включены звуковые данные и различные типы метаданных. Как и на других фигурах, представленных в настоящем документе, ссылочные позиции и типы звуковых данных и метаданных, показанные на фиг. 3, представлены лишь в качестве примера. Некоторые кодеры могут обеспечивать полный набор звуковых данных и метаданных, показанных на фиг. 3 (набор 345 данных), тогда как другие кодеры могут предоставлять только положение метаданных, показанных на фиг. 3, например, только набор 315 данных, только набор 325 данных или только набор 335 данных.

[0079] В этом примере звуковые данные содержат монофонический звуковой сигнал 301. Монофонический звуковой сигнал 301 представляет собой один пример того, что иногда в настоящем документе называют «базовым звуковым сигналом». Однако в некоторых примерах базовый звуковой сигнал может содержать звуковые сигналы, соответствующие нескольким звуковым объектам, которые включены в кластер.

[0080] В этом примере метаданные 305 положения звукового объекта выражены в качестве декартовых координат. Однако в некоторых альтернативных примерах метаданные 305 положения звукового объекта могут быть выражены посредством координат других типов, таких как сферические или полярные координаты. Соответственно, метаданные 305 положения звукового объекта могут включать информацию о положении трех степеней свободы (3 DoF). Согласно этому примеру метаданные звукового объекта содержат метаданные 310 размера звукового объекта. В альтернативных примерах метаданные звукового объекта могут содержать метаданные звукового объекта одного или более других типов.

[0081] В этой реализации набор 315 данных включает монофонический звуковой сигнал 301, метаданные 305 положения звукового объекта и метаданные 310 размера звукового объекта. Набор 315 данных может, например, быть предоставлен в формате звуковых данных Dolby Atmos™.

[0082] В этом примере набор 315 данных также включает необязательный параметр R рендеринга. Согласно некоторым раскрытым реализациям необязательный параметр R рендеринга может указывать, должны ли по меньшей мере некоторые метаданные звукового объекта из набора 315 данных быть интерпретированы в своем «нормальном» смысле (например, метаданные положения или размера) или в качестве метаданных направленности. В некоторых раскрытых реализациях «нормальный» режим могут называть в настоящем документе «режимом положения», а альтернативный режим могут называть в настоящем документе «режимом направленности». Некоторые примеры описаны ниже со ссылкой на фиг. 5A–6.

[0083] Согласно этому примеру метаданные 320 ориентации содержат информацию об угловых координатах для выражения рыскания, тангажа и крена звукового объекта. В этом примере метаданные 320 ориентации обозначают рыскание, тангаж и крен как ф, ϴ и ψ. Набор 325 данных содержит достаточную информацию для ориентации звукового объекта для применений с шестью степенями свободы (6 DoF).

[0084] В этом примере набор 335 данных содержит метаданные 330 типа звукового объекта. В некоторых реализациях метаданные 330 типа звукового объекта могут использовать для указания на соответствующие метаданные схемы излучения. Метаданные кодированной схемы излучения могут быть использованы (например, посредством декодера или устройства, которое принимает звуковые данные от декодера) для определения декодированной схемы излучения. В некоторых примерах метаданные 330 типа звукового объекта могут указывать, по существу, на следующее: «Я труба», «Я скрипка» и т. п. В некоторых примерах декодирующее устройство может получать доступ к базе данных типов звукового объекта и соответствующих схем направленности. Согласно некоторым примерам база данных может быть предоставлена вместе с кодированными звуковыми данными или до передачи звуковых данных. Такие метаданные 330 типа звукового объекта могут быть названы в настоящем документе «данные схемы направленности базы данных».

[0085] Согласно некоторым примерам метаданные типов звукового объекта могут указывать на параметрические данные схемы направленности. В некоторых примерах метаданные 330 типов звукового объекта могут указывать на схему направленности, соответствующую косинусной функции указанной степени, могут указывать на кардиоидную функцию и т. д.

[0086] В некоторых примерах метаданные 330 типов звукового объекта могут указывать, что схема излучения соответствует набору коэффициентов сферических гармоник. Например, метаданные 330 типов звукового объекта могут указывать, что коэффициенты 340 сферических гармоник предоставлены в наборе 345 данных. В некоторых таких примерах коэффициенты 340 сферических гармоник могут представлять собой переменный во времени и/или по частоте набор коэффициентов сферических гармоник, например, как описано выше. Такая информация может требовать наибольшего количества данных по сравнению с остальной частью иерархии метаданных, показанной на фиг. 3. Следовательно, в некоторых таких примерах коэффициенты 340 сферических гармоник могут быть предоставлены отдельно от монофонического звукового сигнала 301 и соответствующих метаданных звукового объекта. Например, коэффициенты 340 сферических гармоник могут быть предоставлены в начале передачи звуковых данных до инициации операций в реальном времени (например, операции рендеринга в реальном времени для игры, фильма, музыкального исполнения и т. п.).

[0087] Согласно некоторым реализациям устройство на стороне декодера, такое как устройство, которое предоставляет звук на систему воспроизведения, может определять возможности системы воспроизведения и предоставлять информацию о направленности в соответствии с этими возможностями. Например, даже если весь набор 345 данных предоставлен на декодер, в некоторых таких реализациях только используемая часть информации о направленности может быть предоставлена в систему воспроизведения. В некоторых примерах декодирующее устройство может определять, какой тип (типы) информации о направленности использовать в соответствии с возможностями декодирующего устройства.

[0088] На фиг. 4 приведена блок-схема, на которой показаны блоки способа декодирования звука согласно одному примеру. Способ 400 может, например, быть реализован посредством системы управления декодирующего устройства (такой как система 815 управления, которая описана ниже со ссылкой на фиг. 8), которая содержит один или более процессоров и одно или более постоянных запоминающих устройств. Как и для других описанных способов, не все блоки способа 400 обязательно выполняют в порядке, показанном на фиг. 4. Кроме того, альтернативные способы могут включать большее или меньшее количество блоков.

[0089] В этом примере блок 405 включает прием кодированного базового звукового сигнала, метаданных кодированной схемы излучения и метаданных кодированного звукового объекта. Метаданные кодированной схемы излучения могут включать метаданные типов звукового объекта. Кодированный базовый звуковой сигнал может, например, включать монофонический звуковой сигнал. В некоторых примерах метаданные звукового объекта могут включать информацию о положении 3DoF, информацию о положении 6DoF и ориентации источника, метаданные размера звукового объекта и т. д. Метаданные звукового объекта в некоторых случаях могут быть изменяющимися во времени.

[0090] В этом примере блок 410 включает декодирование кодированного базового звукового сигнала для определения базового звукового сигнала. В данном документе блок 415 включает декодирование метаданных кодированной схемы излучения для определения декодированной схемы излучения. В этом примере блок 420 включает декодирование по меньшей мере некоторых из других метаданных кодированного звукового объекта. В настоящем документе блок 430 включает рендеринг базового звукового сигнала на основании метаданных звукового объекта (например, метаданных положения, ориентации и/или размера звукового объекта) и декодированной схемы излучения.

[0091] Блок 415 может включать операции различных типов в зависимости от конкретной реализации. В некоторых случаях метаданные типа звукового объекта могут указывать на данные схемы направленности базы данных. Декодирование метаданных кодированной схемы излучения для определения декодированной схемы излучения может включать запрашивание структуры данных направленности, которая содержит типы звуковых объектов и соответствующие данные схемы направленности. В некоторых примерах метаданные типа звукового объекта могут указывать на параметрические данные схемы направленности, такие как данные схемы направленности, соответствующие косинусной функции, синусной функции или кардиоидной функции.

[0092] Согласно некоторым реализациям метаданные типа звукового объекта могут указывать на динамические данные схемы направленности, такие как переменный во времени и/или по частоте набор коэффициентов сферических гармоник. Некоторые такие реализации могут включать прием динамических данных схемы направленности до приема кодированного базового звукового сигнала.

[0093] В некоторых случаях базовый звуковой сигнал, принятый в блоке 405, может содержать звуковые сигналы, соответствующие нескольким звуковым объектам, которые содержатся в кластере. Согласно некоторым таким примерам базовый звуковой сигнал может быть основан на кластере звуковых объектов, который может содержать несколько направленных звуковых объектов. Декодированная схема излучения, определенная в блоке 415, может соответствовать центроиду кластера и может представлять среднее значение для каждой полосы частот каждого из нескольких направленных звуковых объектов. Процесс рендеринга блока 430 может включать применение коэффициентов усиления поддиапазона, по меньшей мере частично основанных на декодированных данных излучения, к декодированному базовому звуковому сигналу. В некоторых примерах после декодирования и применения обработки направленности к базовому звуковому сигналу сигнал может быть дополнительно виртуализирован к его назначенному положению относительно положения слушателя с использованием метаданных положения звукового объекта и известных процессов рендеринга, таких как бинауральный рендеринг через наушники, рендеринг с использованием динамиков среды воспроизведения и т. д.

[0094] Как обсуждалось выше со ссылкой на фиг. 3, в некоторых реализациях звуковые данные могут сопровождаться параметром рендеринга (показан как R на фиг. 3). Параметр рендеринга может указывать, должны ли по меньшей мере некоторые данные звукового объекта, такие как метаданные Dolby Atmos, быть интерпретированы обычным образом (например, в качестве метаданных положения или размера) или как метаданные направленности. Нормальный режим могут называть «режимом положения», а альтернативный режим могут называть в настоящем документе «режимом направленности». Соответственно, в некоторых примерах параметр рендеринга может указывать, интерпретировать ли по меньшей мере некоторые метаданные звукового объекта в качестве метаданных направленности относительно динамика, или положения относительно комнаты или другой среды воспроизведения. Такие реализации могут быть особенно полезными для рендеринга направленности с использованием интеллектуальных динамиков с множеством драйверов, например, как описано ниже.

[0095] На фиг. 5A показана тарелка ударной установки. В этом примере показано, что тарелка 505 ударной установки испускает звук со схемой 510 направленности, которая имеет по существу вертикальную основную ось 515 отклика. Сама схема 510 направленности также является преимущественно вертикальной с некоторой степенью распространения относительно основной оси 515 отклика.

[0096] На фиг. 5B показан пример системы динамиков. В этом примере система 525 динамиков содержит несколько динамиков/преобразователей, выполненных с возможностью испускания звука в различных направлениях, включая направление вверх. Динамик, расположенный в самом верху, может, например, быть использован обычным для Dolby Atmos образом («режим положения») для рендеринга положения, например для обеспечения отражения звука от потолка для имитации верхних/потолочных динамиков (z=1). В некоторых подобных случаях соответствующий рендеринг Dolby Atmos может включать дополнительную виртуализационную обработку, посредством которой улучшают восприятие звукового объекта, имеющего определенное положение.

[0097] В других случаях использования один и тот же направленный вверх динамик (динамики) может работать в «режиме направленности», например для имитации схемы направленности, например, барабана, символов или другого звукового объекта, имеющего схему направленности, подобную схеме 510 направленности, показанной на фиг. 5A. Некоторые системы 525 динамиков могут быть способны к лучеформированию, что может способствовать построению требуемой схемы направленности. В некоторых примерах виртуализационную обработку не выполняют, чтобы снизить восприятие звукового объекта, имеющего определенное положение.

[0098] На фиг. 6 приведена блок-схема, на которой показаны блоки способа декодирования звука согласно одному примеру. Способ 600 может, например, быть реализован посредством системы управления декодирующего устройства (такой как система 815 управления, которая описана ниже со ссылкой на фиг. 8), которая содержит один или более процессоров и одно или более постоянных запоминающих устройств. Как и для других описанных способов, не все блоки способа 600 обязательно выполняют в порядке, показанном на фиг. 6. Кроме того, альтернативные способы могут включать большее или меньшее количество блоков.

[0099] В этом примере блок 605 включает прием звуковых данных, соответствующих по меньшей мере одному звуковому объекту, при этом звуковые данные включают монофонический звуковой сигнал, метаданные положения звукового объекта, метаданные размера звукового объекта и параметр рендеринга. В данной реализации блок 605 включает прием этих данных посредством интерфейсной системы декодирующего устройства (такой как интерфейсная система 810 по фиг. 8). В некоторых случаях звуковые данные могут быть приняты в формате Dolby Atmos™. Метаданные положения звукового объекта могут соответствовать мировым координатам или модельным координатам в зависимости от конкретной реализации.

[00100] В этом примере блок 610 включает определение того, указывает параметр рендеринга на режим положения или режим направленности. В примере, показанном на фиг. 6, если определяют, что параметр рендеринга указывает на режим направленности, в блоке 615 выполняют рендеринг звуковых данных для воспроизведения (например, посредством по меньшей мере одного громкоговорителя, посредством наушников и т. д.) согласно схеме направленности, указанной посредством по меньшей мере одного из метаданных положения или метаданных размера. Например, схема направленности может быть подобна схеме, показанной на фиг. 5A.

[00101] В некоторых примерах рендеринг звуковых данных может включать интерпретацию метаданных положения звукового объекта в качестве метаданных ориентации звукового объекта. Метаданные положения звукового объекта могут включать данные декартовых координат/координат x,y,z, данные сферических координат или данные цилиндрических координат. Метаданные ориентации звукового объекта могут представлять собой метаданные рыскания, тангажа и крена.

[00102] Согласно некоторым реализациям рендеринг звуковых данных может включать интерпретацию метаданных размера звукового объекта в качестве метаданных направленности, которые соответствуют схеме направленности. В некоторых таких примерах рендеринг звуковых данных может включать запрашивание структуры данных, которая содержит несколько схем направленности, и соотнесение по меньшей мере одного из метаданных положения или метаданных размера с одной или более схемами направленности. Некоторые такие реализации могут включать прием структуры данных посредством интерфейсной системы. Согласно некоторым таким реализациям структура данных может быть принята перед звуковыми данными.

[00103] На фиг. 7 показан один пример кодирования множества звуковых объектов. В одном примере может быть закодирована информация 701, 702, 703 об объекте 1-n и т. д. В одном примере репрезентативный кластер для звуковых объектов 701–703 может быть определен в блоке 710. В одном примере группа источников звука может быть собрана и представлена посредством репрезентативного «центроида», который включает вычисление совокупного/среднего значения для поля метаданных. Например, положение кластера источников звука может представлять собой среднее положения каждого источника. В блоке 720 может быть закодирована схема излучения репрезентативного кластера. В некоторых примерах схема излучения для кластера может быть закодирована в соответствии с принципами, описанными выше со ссылкой на фиг. 1A или фиг. 1B.

[00104] На фиг. 8 приведена блок-схема, на которой показаны примеры компонентов аппарата, которые могут быть приспособлены для выполнения по меньшей мере некоторых способов, описанных в настоящем документе. Например, аппарат 805 может быть приспособлен для выполнения одного или более способов, описанных выше со ссылкой на фиг. 1A–1C, фиг. 4, фиг. 6 и/или фиг. 7. В некоторых примерах аппарат 805 может представлять собой, или может включать в себя, персональный компьютер, настольный компьютер или другое локальное устройство, выполненное с возможностью обеспечения обработки звука. В некоторых примерах аппарат 805 может представлять собой, или может включать в себя, сервер. Согласно некоторым примерам аппарат 805 может представлять собой клиентское устройство, которое выполнено с возможностью связи с сервером посредством сетевого интерфейса. Компоненты аппарата 805 могут быть реализованы с помощью аппаратного обеспечения, программного обеспечения, хранящегося на постоянном носителе данных, программно-аппаратного обеспечения и/или их комбинаций. Типы и количество компонентов, показанных на фиг. 8, а также на других фигурах, раскрытых в настоящем документе, представлены лишь в качестве примера. Альтернативные реализации могут включать большее и/или меньшее количество компонентов и/или другие компоненты.

[00105] В этом примере аппарат 805 содержит интерфейсную систему 810 и систему 815 управления. Интерфейсная система 810 может содержать один или более сетевых интерфейсов, один или более интерфейсов между системой 815 управления и системой памяти и/или один или более интерфейсов для внешних устройств (таких как один или более интерфейсов универсальной последовательной шины (USB)). В некоторых реализациях интерфейсная система 810 может содержать систему пользовательского интерфейса. Система пользовательского интерфейса может быть выполнена с возможностью приема ввода от пользователя. В некоторых реализациях система пользовательского интерфейса может быть выполнена с возможностью предоставления обратной связи пользователю. Например, система пользовательского интерфейса может содержать одно или более устройств отображения с соответствующими системами обнаружения касания и/или жестов. В некоторых примерах система пользовательского интерфейса может содержать один или более микрофонов и/или динамиков. Согласно некоторым примерам система пользовательского интерфейса может содержать аппарат для обеспечения тактильной обратной связи, такой как двигатель, вибратор и т. д. Система 815 управления может, например, содержать одно- или многокристальный процессор общего назначения, процессор цифровой обработки сигналов (DSP), интегральную схему специального назначения (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, схему на дискретных компонентах или транзисторную логическую схему, и/или компоненты дискретного аппаратного обеспечения.

[00106] В некоторых примерах аппарат 805 может быть реализован как одно устройство. Однако в некоторых реализациях аппарат 805 может быть реализован как более, чем одно устройство. В некоторых таких реализациях функциональные возможности системы 815 управления могут быть внедрены в более, чем одно устройство. В некоторых примерах аппарат 805 может представлять собой компонент другого устройства.

[00107] Различные примерные варианты осуществления настоящего изобретения могут быть реализованы посредством аппаратного обеспечения или схем специального назначения, программного обеспечения, логического устройства или любой другой их комбинации. Некоторые аспекты могут быть реализованы посредством аппаратного обеспечения, тогда как другие аспекты могут быть реализованы посредством аппаратно-программного обеспечения или программного обеспечения, которые могут исполняться посредством контроллера, микропроцессора или другого вычислительного устройства. В общем, следует понимать, что настоящее изобретение также охватывает аппарат, подходящий для выполнения способов, раскрытых выше, например аппарат (пространственный модуль рендеринга), имеющий запоминающее устройство и процессор, подсоединенный к запоминающему устройству, причем процессор приспособлен для исполнения команд и выполнения способов согласно вариантам осуществления настоящего изобретения.

[00108] Тогда как различные аспекты примерных вариантов осуществления настоящего изобретения проиллюстрированы и описаны в виде структурных диаграмм, блок-схем или с использованием некоторых других графических представлений, следует понимать, что блоки, аппараты, системы, методы и способы, описанные в настоящем документе, могут быть реализованы, в качестве неограниченных примеров, посредством аппаратного обеспечения, программного обеспечения, аппаратно-программного обеспечения, схем специального назначения или логического устройства, аппаратного обеспечения или контроллера общего назначения или других вычислительных устройств или некоторой их комбинации.

[00109] Дополнительно различные блоки, показанные в блок-схемах, можно рассматривать как этапы способа, и/или как операции, которые являются результатами работы компьютерного программного кода, и/или как несколько связанных элементов логической схемы, сконструированных для осуществления связанной функции (функций). Например, варианты осуществления настоящего изобретения включают компьютерный программный продукт, содержащий компьютерную программу, материально воплощенную на машиночитаемом носителе, в котором компьютерная программа, содержащая программные коды, выполнена с возможностью осуществления способов, как описаны выше.

[00110] В контексте настоящего изобретения машиночитаемый носитель может представлять собой любой материальный носитель, который может содержать, или хранить, программу для использования посредством или в связи с системой, аппаратом или устройством для исполнения команд. Машиночитаемый носитель может представлять собой машиночитаемый носитель сигналов или машиночитаемый носитель данных. Машиночитаемый носитель может включать в себя, но без ограничения, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, аппарат или устройство или любую подходящую комбинацию вышепредставленного. Более конкретные примеры машиночитаемого носителя данных будут включать электрическое соединение посредством одного или более проводов, портативный компьютерный гибкий диск, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или флеш-память), оптическое волокно, портативный компактный диск с однократной записью данных (CD-ROM), оптическое устройство для хранения данных, магнитное устройство для хранения информации или любая подходящая комбинация вышепредставленного.

[00111] Компьютерный программный код для осуществления способов настоящего изобретения может быть написан на любой комбинации одного или более языков программирования. Эти компьютерные программные коды могут быть предоставлены на процессор компьютера общего назначения, компьютера специального назначения или другого программируемого аппарата обработки данных, таким образом программные коды при исполнении процессором компьютера или другого программируемого аппарата обработки данных обеспечивают реализацию функций/операций, указанных на блок-схемах и/или структурных диаграммах. Программный код может быть исполнен полностью на компьютере, частично на компьютере в качестве автономного пакета программного обеспечения, частично на компьютере и частично на удаленном компьютере или полностью на удаленном компьютере или сервере.

[00112] Кроме того, несмотря на то, что операции изображены в определенном порядке, это не следует истолковывать как требование того, чтобы для достижения желаемых результатов эти операции выполнялись в определенном показанном порядке или в последовательном порядке, или чтобы выполнялись все проиллюстрированные операции. В некоторых обстоятельствах может оказаться предпочтительной многозадачность или параллельная обработка. Подобным образом, тогда как вышеприведенное раскрытие содержит несколько характерных деталей реализации, их следует истолковывать не как ограничения объема любой части настоящего изобретения или любого пункта формулы изобретения, а как описания признаков, которые могут быть характерными для конкретных вариантов осуществления настоящего изобретения. Конкретные признаки, описанные в данном изобретении в контексте отдельных вариантов осуществления, также могут быть реализованы в комбинации в одном варианте осуществления. И наоборот, различные признаки, которые описаны в контексте одного варианта осуществления, также могут быть реализованы в нескольких вариантах осуществления по отдельности или в любой подходящей субкомбинации.

[00113] Следует отметить, что описание и графические материалы иллюстрируют только принципы предложенных способов и аппаратов. Таким образом, следует принять во внимание, что специалисты в данной области техники будут способны разработать различные схемы, которые, хотя явно не описаны или показаны в настоящем документе, осуществляют принципы настоящего изобретения и включены в его сущность и объем. Кроме того, все примеры, перечисленные в настоящем документе, преимущественно явным образом предназначены только для педагогических целей для того, чтобы помочь читателю в понимании принципов предложенных аппаратов и устройств, а также концепций, внесенных авторами изобретения с целью развития данной области техники, и их следует толковать как имеющие место без ограничения указанными конкретно перечисленными примерами и условиями. Более того, все утверждения в настоящем документе, перечисляющие принципы, аспекты и варианты осуществления настоящего изобретения, а также их конкретные примеры, предполагаются как охватывающие их эквиваленты.

1. Способ кодирования направленных звуковых данных, включающий:

прием монофонического звукового сигнала, соответствующего звуковому объекту, и представления схемы излучения, соответствующей звуковому объекту, причем схема излучения содержит уровни звука, соответствующие нескольким периодам дискретизации, нескольким полосам частот и нескольким направлениям;

кодирование монофонического звукового сигнала;

кодирование по меньшей мере одного из изменяющейся во времени информации об ориентации источника 3 степеней свободы (DoF) или 6DoF звукового объекта для определения метаданных звукового объекта и

кодирование схемы излучения источника для определения метаданных схемы излучения;

при этом кодирование схемы излучения включает определение преобразования сферических гармоник представления схемы излучения и сжатие преобразования сферических гармоник для получения метаданных кодированной схемы излучения.

2. Способ по п. 1, отличающийся тем, что дополнительно включает кодирование нескольких направленных звуковых объектов на основании кластера звуковых объектов, при этом схема излучения представляет центроид, который отражает среднее значение уровня звука для каждой полосы частот.

3. Способ по п. 2, отличающийся тем, что несколько направленных звуковых объектов кодируют в качестве одного направленного звукового объекта, направленность которого соответствует изменяющемуся во времени энергетически взвешенному среднему коэффициентов сферических гармоник каждого звукового объекта.

4. Способ по п. 2 или 3, отличающийся тем, что метаданные кодированной схемы излучения указывают на положение кластера звуковых объектов, то есть среднее положения каждого звукового объекта.

5. Способ по любому из пп. 1–4, отличающийся тем, что дополнительно включает кодирование метаданных группы, относящихся к схеме излучения группы направленных звуковых объектов.

6. Способ по любому из пп. 1–5, отличающийся тем, что масштаб схемы излучения источника изменяют до амплитуды схемы входного излучения в направлении по частоте для определения схемы нормализованного излучения.

7. Способ по любому из пп. 1–6, отличающийся тем, что сжатие преобразования сферических гармоник включает по меньшей мере способ разложения по сингулярным числам, анализ основных компонентов, дискретные косинусные преобразования, не зависящие от данных базисы, или устранение коэффициентов сферических гармоник преобразования сферических гармоник, которые выше порогового порядка коэффициентов сферических гармоник.

8. Способ декодирования звуковых данных, включающий:

прием кодированного базового звукового сигнала, метаданных кодированной схемы излучения и метаданных кодированного звукового объекта, при этом метаданные звукового объекта содержат по меньшей мере одно из изменяющейся во времени информации об ориентации источника 3 степеней свободы (DoF) или 6DoF;

декодирование кодированного базового звукового сигнала для определения базового звукового сигнала;

декодирование метаданных кодированной схемы излучения для определения декодированной схемы излучения;

декодирование метаданных звукового объекта и

рендеринг базового звукового сигнала на основании метаданных звукового объекта и декодированной схемы излучения.

9. Способ по п. 8, отличающийся тем, что базовый звуковой сигнал содержит несколько направленных объектов на основании кластера объектов, и при этом декодированная схема излучения представляет центроид, который отражает среднее значение для каждой полосы частот.

10. Способ по п. 8 или 9, отличающийся тем, что рендеринг основан на применении коэффициентов усиления поддиапазона, основанных по меньшей мере частично на декодированных данных излучения, к декодированному базовому звуковому сигналу.

11. Способ по любому из пп. 8–10, отличающийся тем, что метаданные кодированной схемы излучения соответствуют переменному во времени и по частоте набору коэффициентов сферических гармоник.

12. Способ по любому из пп. 8–11, отличающийся тем, что метаданные кодированной схемы излучения содержат метаданные типа звукового объекта.

13. Способ по п. 12, отличающийся тем, что метаданные типа звукового объекта указывают на параметрические данные схемы направленности, и при этом параметрические данные схемы направленности содержат одну или более функций, выбранных из списка функций, состоящего из косинусной функции, синусной функции или кардиоидной функции.

14. Способ по п. 12, отличающийся тем, что метаданные типа звукового объекта указывают на данные схемы направленности базы данных, и при этом декодирование метаданных кодированной схемы излучения для определения декодированной схемы излучения включает запрашивание структуры данных направленности, которая содержит типы звукового объекта и соответствующие данные схемы направленности.

15. Способ по п. 12, отличающийся тем, что метаданные типа звукового объекта указывают на динамические данные схемы направленности, и при этом динамические данные схемы направленности соответствуют переменному во времени и по частоте набору коэффициентов сферических гармоник.

16. Способ по п. 15, отличающийся тем, что дополнительно включает прием динамических данных схемы направленности до приема кодированного базового звукового сигнала.

17. Аппарат декодирования звука, содержащий:

интерфейсную систему и

систему управления, выполненную с возможностью:

приема посредством интерфейсной системы звуковых данных, соответствующих по меньшей мере одному звуковому объекту, при этом звуковые данные включают монофонический звуковой сигнал, метаданные положения звукового объекта, метаданные размера звукового объекта и параметр рендеринга, при этом метаданные положения звукового объекта содержат по меньшей мере одно из изменяющейся во времени информации об ориентации источника 3 степеней свободы (DoF) или 6DoF;

определения, указывает ли параметр рендеринга на режим положения или режим направленности, и при определении, что параметр рендеринга указывает на режим направленности, рендеринг звуковых данных для воспроизведения посредством по меньшей мере одного громкоговорителя в соответствии со схемой направленности, указанной по меньшей мере одним из метаданных положения или метаданных размера.

18. Аппарат по п. 17, отличающийся тем, что рендеринг звуковых данных может включать интерпретацию метаданных положения звукового объекта в качестве метаданных ориентации звукового объекта.

19. Аппарат по п. 18, отличающийся тем, что метаданные положения звукового объекта содержат по меньшей мере одно из данных координат x, y, z, данных сферических координат или данных цилиндрических координат, и при этом метаданные ориентации звукового объекта содержат данные рыскания, тангажа и крена.

20. Аппарат по любому из пп. 17–19, отличающийся тем, что рендеринг звуковых данных включает интерпретацию метаданных размера звукового объекта в качестве метаданных направленности, которые соответствуют схеме направленности.

21. Аппарат по любому из пп. 17–20, отличающийся тем, что рендеринг звуковых данных включает запрашивание структуры данных, которая содержит несколько схем направленности, и соотнесение по меньшей мере одного из метаданных положения или метаданных размера с одной или более схемами направленности.

22. Аппарат по п. 21, отличающийся тем, что система управления выполнена с возможностью приема структуры данных посредством интерфейсной системы.

23. Аппарат по п. 22, отличающийся тем, что структура данных принимается до звуковых данных.

24. Аппарат по любому из пп. 17–23, отличающийся тем, что звуковые данные принимаются в формате Dolby Atmos.

25. Аппарат по любому из пп. 17–24, отличающийся тем, что метаданные положения звукового объекта соответствуют мировым координатам или модельным координатам.



 

Похожие патенты:

Изобретение относится к области вычислительной техники для обработки аудиоданных на основе карты направленной громкости. Технический результат заключается в повышении точности обработки аудиоданных.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении получения точности фазовой информации для кодирования аудиоданных.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности многосигнального кодирования или декодирования.
Изобретение относится к области медицины, а именно к реабилитологии, и может быть использовано для реабилитации детей с нарушениями слуха. Проводят реабилитацию в 3 этапа: диагностика состояния слуха ребенка и устройства для коррекции слуха, настройка устройства для коррекции слуха, занятия по реабилитации ребенка.

Изобретение относится к области вычислительной техники для кодирования аудиоданных. Технический результат заключается в уменьшении сложности кодирования путем оценки искажения квантования в транспонированном векторном пространстве.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении минимальных искажений аудиоданных с одновременным созданием количества битов ниже бюджета битов.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении минимального искажения аудиоданных с одновременным созданием количества битов ниже бюджета битов.

Изобретение относится к средствам для распределения сигнала по множеству каналов. Технический результат заключается в повышении эффективности получения окружающих сигналов.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в исключении артефактов воспроизведения аудиоданных с отсечением концов последних речевых сегментов, таких как речевой фрагмент, заканчивающийся неречевым взрывом.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в снижении вычислительной нагрузки на кодер и декодер аудиоданных.

Группа решений относится к системам кодирования исходного звукового сигнала, которые используют способ гармонического преобразования для высокочастотной реконструкции (HFR), а также к процессорам цифровых эффектов, например эксайтерам, в которых генерирование гармонического искажения добавляет яркость в обрабатываемый сигнал, и к временным расширителям, в которых длительность сигнала увеличивается при сохранении спектрального состава. Система и способ сконфигурированы для генерирования растянутого во времени и/или преобразованного по частоте сигнала из входного сигнала. Система включает блок анализирующих фильтров, сконфигурированный для создания сигнала анализируемого поддиапазона из входного сигнала; где сигнал анализируемого поддиапазона включает ряд комплекснозначных анализируемых дискретных значений, каждое из которых имеет фазу и амплитуду. Кроме того, система включает модуль обработки поддиапазонов, сконфигурированный для определения сигнала синтезируемого поддиапазона из сигнала анализируемого поддиапазона с использованием коэффициента Q преобразования поддиапазона и коэффициента S растягивания поддиапазона. Модуль обработки поддиапазонов выполняет нелинейную обработку на блочной основе, где амплитуда дискретных значений сигнала синтезируемого поддиапазона определяется из амплитуды соответствующих дискретных значений сигнала анализируемого поддиапазона и предварительно определяемого дискретного значения сигнала анализируемого поддиапазона. Кроме того, система включает блок синтезирующих фильтров, сконфигурированный для генерирования растянутого во времени и/или преобразованного по частоте сигнала из сигнала синтезируемого поддиапазона. Технический результат – снижение вычислительной сложности при сохранении качественного звучания сигнала для различных типов сигналов. 3 н.п. ф-лы, 7 ил.
Наверх