Аудиокодирование

Изобретение относится к аудиокодированию, более конкретно к устройству и способу преобразования входного звукового сигнала в бинауральный выходной сигнал. Сущность изобретения состоит в том, что модуль (23) пространственного декодера выполнен с возможностью преобразования одного или больше аудиоканалов (s; l, r) в пару бинауральных выходных каналов (lb, rb). Устройство содержит модуль (234) преобразования параметра, предназначенный для преобразования пространственных параметров (sp) в бинауральные параметры (bp), содержащие бинауральную информацию. Устройство дополнительно содержит модуль (232) пространственного синтеза, предназначенный для преобразования аудиоканалов (L, R) в пару бинауральных сигналов (Lb, Rb) при использовании бинауральных параметров (bp). Модуль (232) пространственного синтеза, предпочтительно, работает в области преобразования, такой как область QMF. Технический результат - повышение эффективности преобразования звукового сигнала в бинауральный выходной сигнал 5 н. и 7 з.п ф-лы, 9 ил.

 

Настоящее изобретение относится к аудиокодированию. Более конкретно, настоящее изобретение относится к устройству и способу преобразования входного звукового сигнала в бинауральный выходной сигнал, в котором входной сигнал содержит, по меньшей мере, один аудиоканал и параметры, представляющие дополнительные каналы.

Хорошо известны запись и воспроизведение бинауральных аудиосигналов, то есть аудиосигналов, которые содержат специфическую информацию направления, к которой чувствительно ухо человека. Бинауральные записи обычно получают, используя два микрофона, установленные на модели головы человека, таким образом, чтобы записываемый звук соответствовал звуку, воспринимаемому ухом человека, и включал бы в себя все влияния, связанные с формой головы и ушей. Бинауральные записи отличаются от стереозаписей (то есть стереофонических записей) тем, что для воспроизведение бинауральной записи требуются наушники, в то время как стереофоническая запись формируется для воспроизведения с помощью громкоговорителей. В то время как бинауральная запись обеспечивает воспроизведение всей пространственной информации с использованием только двух каналов, стереофоническая запись не позволяет получить такое же пространственное восприятие.

Обычные двухканальные (стереофонические) или многоканальные (например, 5.1) записи могут быть преобразованы в бинауральные записи путем свертки каждого обычного сигнала с набором перцепционных передаточных функций. Такие перцепционные передаточные функции моделируют влияние головы человека и, возможно, других объектов на сигнал. Хорошо известный тип перцепционной передаточной функции представляет собой так называемая передаточная функция с учетом влияния головы (HRTF). Альтернативный тип перцепционной передаточной функции, который также учитывает отражения, связанные со стенами, потолком и полом помещения, представляет собой бинауральный импульсный отклик помещения (BRIR).

В случае многоканальных сигналов преобразование сигналов в сигналы бинауральной записи с набором перцепционных функций обычно подразумевает выполнение свертки перцепционных функций с сигналами всех каналов. Поскольку обычная свертка требует привлечения больших вычислительных ресурсов, сигналы и HRTF обычно преобразуют в область частот (Фурье), в которой свертка заменяется умножением, для которого требуется намного меньшая вычислительная мощность.

Кроме того, хорошо известно уменьшение количества аудиоканалов для передачи или сохранения путем представления исходного количества каналов меньшим количеством каналов и параметрами, обозначающими взаимосвязь между исходными каналами. Набор стереосигналов может, таким образом, быть представлен одним (монофоническим) каналом, а также множеством ассоциированных пространственных параметров, в то время как набор из 5.1 сигналов может быть представлен двумя каналами и набором ассоциированных пространственных параметров, или даже одним каналом и ассоциированными пространственными параметрами. Такое "смешение с уменьшением количества каналов" множества аудиоканалов в пространственных кодерах и соответствующее "смешение с увеличением количества каналов" аудиосигналов в пространственных декодерах обычно осуществляется в области преобразования или в области подполосы, например, в области QMF (КЗФ, квадратурный зеркальный фильтр).

Публикация PCT WO 2004/028204 раскрывает систему для генерации бинауральных сигналов с использованием передаточной функции с учетом влияния головы. Документ "The Reference Model Architecture for MPEG Spatial Audio Coding", Herre et al; Audio Engineering Society Convention Paper, New York; 28 May 2005; XP009059973 раскрывает архитектуру эталонной модели MPEG. Документ "Synthetic Ambiance in Parametric Stereo Coding", Endegard et al; Preprints of papers presented at the AES Convention, 8 May 2004, pages 1-12, XP008048096 раскрывает пример параметрического стереокодирования. Документ "MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio"; Herre et al; Audio Engineering Society, Convention Preprint, 8 May 2004; XP 002338414 раскрывает примеры кодирования объемного звучания МР3.

Когда входные каналы, смешанные с уменьшением количества каналов, необходимо преобразовать в бинауральные выходные каналы, подход предшествующего уровня техники состоит в том, что вначале выполняют смешение с увеличением количества входных каналов, используя пространственный декодер, для получения промежуточных каналов, смешанных с увеличением их количества, и затем преобразуют эти смешанные с увеличенным количеством промежуточные каналы с получением бинауральных каналов. Такая процедура обычно позволяет получить пять или шесть промежуточных каналов, количество которых затем требуется уменьшить до двух бинауральных каналов. Первоначальное увеличение и последующее уменьшение количества каналов, очевидно, является неэффективным и повышает сложность вычислений. Кроме того, уменьшение пяти или шести промежуточных каналов означает, что многоканальные громкоговорители будут воспроизводить только два канала, что означает для бинаурального воспроизведения неизбежный ввод искажений и поэтому снижение качества звука.

Область QMF, упомянутая выше, является аналогичной, но не идентичной области частот (преобразование Фурье). Если пространственный декодер должен формировать бинауральные выходные сигналы, смешанные аудиосигналы с уменьшенным количеством каналов вначале требуется преобразовать в область QMF для смешения с увеличением количества каналов, затем подвергнуть обратному преобразованию QMF для получения промежуточных сигналов в области времени и затем преобразовать в область частот для умножения (после преобразования Фурье) HRTF и, наконец, подвергнуть обратному преобразованию для получения выходных сигналов в области времени. Очевидно, что такая процедура является неэффективной, поскольку необходимо последовательно выполнять несколько преобразований.

Количество вычислений, связанных с подходом предшествующего уровня техники, сильно усложняет конструирование переносных потребительских устройств, таких как портативный MP3-плеер, позволяющий формировать бинауральные выходные сигналы из аудиосигналов, смешанных с уменьшением количества каналов. Даже если бы такое устройство можно было бы воплотить, срок службы его батареи был бы очень коротким из-за требуемой вычислительной нагрузки.

Таким образом, цель настоящего изобретения состоит в преодолении этих и других проблем предшествующего уровня техники и в формировании модуля пространственного декодера, который позволил формировать пары бинауральных выходных каналов из набора аудиоканалов, смешанных с уменьшением количества каналов, представленных одним входным аудиоканалом и ассоциированным набором пространственных параметров, причем этот декодер должен иметь повышенную эффективность.

В соответствии с этим, настоящее изобретение направлено на модуль пространственного декодера, предназначенный для формирования пары бинауральных выходных каналов с использованием пространственных параметров и одного входного аудиоканала, причем устройство содержит модуль преобразования параметров, предназначенный для преобразования пространственных параметров в бинауральные параметры, используя параметризованные перцепционные передаточные функции, причем бинауральные параметры зависят как от пространственных параметров, так и от параметризованных перцепционных передаточных функций; один модуль преобразования, предназначенный для преобразования одного входного аудиоканала в преобразованный аудиоканал; модуль декорреляции, предназначенный для декорреляции преобразованного аудиоканала для формирования преобразованного декоррелированного сигнала; и модуль пространственного синтеза, предназначенный для синтеза пары преобразованных бинауральных каналов путем применения бинауральных параметров к преобразованному аудиоканалу (S) и преобразованному декоррелированному сигналу; и пару модулей обратного преобразования для обратного преобразования преобразованных бинауральных каналов в пару бинауральных выходных каналов.

В результате преобразования пространственных параметров в бинауральные параметры модуль пространственного синтеза может непосредственно синтезировать пару бинауральных каналов, и при этом не требуется использовать дополнительный модуль бинаурального синтеза. Поскольку не формируются добавочные промежуточные сигналы, требования к вычислительной мощности снижаются, и при этом введение искажений, по существу, предотвращается.

В модуле пространственного декодера в соответствии с настоящим изобретением синтез бинауральных каналов может осуществляться в области преобразования, например в области QMF, без необходимости использования дополнительных этапов преобразования в область частоты и последующего обратного преобразования в область времени. Поскольку эти два этапа преобразования могут быть исключены, то объем вычислений и требования к запоминающему устройству существенно снижаются. Поэтому модуль пространственного декодера в соответствии с настоящим изобретением может быть относительно легко воплощен в портативном потребительском устройстве.

Кроме того, в модуле пространственного декодера в соответствии с настоящим изобретением бинауральные каналы формируются непосредственно из канала, полученного в результате смешения с уменьшением количества каналов, и каждый бинауральный канал содержит бинауральные сигналы для бинаурального воспроизведения с использованием наушников или аналогичного устройства. Модуль преобразования параметров получает бинауральные параметры, используемые для формирования бинауральных каналов из пространственных (то есть полученных при смешении с увеличением количества каналов) параметров. Такое получение бинауральных параметров подразумевает использование параметризованных перцепционных передаточных функций, таких как HRTF (передаточная функция с учетом влияния головы) и/или бинауральный импульсной отклик помещения (BRIR). Поэтому, в соответствии с настоящим изобретением, обработка перцепционных передаточных функций выполняется в области параметров, в то время как в предшествующем уровне техники такую обработку выполняли в области времени или в области частот. В результате этого можно дополнительно понизить сложность вычислений, поскольку разрешающая способность в области параметров обычно ниже, чем разрешающая способность в области времени или в области частоты.

Предпочтительно, чтобы модуль преобразования параметров был выполнен с возможностью комбинирования в области параметров для определения бинауральных параметров вкладов от всех перцепционных передаточных функций, которые были бы сделаны входными аудиоканалами (после смешения с уменьшением количества каналов) в бинауральные каналы. Другими словами, пространственные параметры и параметризованные перцепционные передаточные функции комбинируются таким образом, чтобы полученные комбинированные параметры позволяли получить бинауральный выходной сигнал, имеющий статистические свойства, аналогичные получаемым в способе предшествующего уровня техники, в котором используются промежуточные сигналы, полученные в результате смешения с увеличением количества каналов.

В предпочтительном варианте воплощения модуль пространственного декодера в соответствии с настоящим изобретением дополнительно содержит один или больше модулей преобразования, предназначенных для преобразования входных аудиоканалов в преобразованные входные аудиоканалы, и пару модулей обратного преобразования, предназначенных для обратного преобразования синтезированных бинауральных каналов в пару бинауральных выходных каналов, при этом модуль пространственного синтеза выполнен с возможностью работы в области преобразования или в области подполосы, предпочтительно в области QMF.

Модуль пространственного декодера в соответствии с настоящим изобретением может содержать два модуля преобразования, причем модуль преобразования параметров выполнен с возможностью использования параметров перцепционной передаточной функции, в которых подразумевается применение только трех каналов, причем два из этих трех каналов объединяют вклады составных переднего и заднего каналов. В таком варианте воплощения модуль преобразования параметра может быть выполнен с возможностью обработки параметров уровня канала (например, CLD), когерентности канала (например, ICC (когерентность между каналами)), прогнозирования канала (например, CPC) и/или фазы (например, IPD).

Модуль пространственного декодера в соответствии с настоящим изобретением содержит только один модуль преобразования и дополнительно содержит модуль декорреляции, предназначенный для декорреляции преобразованного одиночного канала, выводимого одним модулем преобразования. В таком варианте воплощения модуль преобразования параметра может быть выполнен с возможностью обработки параметров уровня канала (например, CLD), когерентности канала (например, ICC) и/или фазы (например, IPD).

Модуль пространственного декодера в соответствии с настоящим изобретением может дополнительно содержать модуль стереореверберации. Такой модуль стереореверберации может быть выполнен с возможностью работы в области времени или в области преобразования, или в области подполосы (например, QMF).

Настоящее изобретение также направлено на устройство пространственного декодера, предназначенное для формирования пары бинауральных выходных каналов из входного потока битов, причем это устройство содержит модуль демультиплексирования, предназначенный для демультиплексирования входного потока битов с получением одного канала, сформированного в результате смешения с уменьшением количества каналов, и параметров сигнала, модуль декодера смешения с уменьшением количества каналов для декодирования этого одного канала, полученного в результате смешения с уменьшением количества каналов, и модуль пространственного декодера, предназначенный для формирования пары бинауральных выходных каналов с использованием пространственных параметров и этого одного канала, полученного в результате смешения с уменьшением количества каналов.

Кроме того, настоящее изобретение направлено на потребительское устройство и аудиосистему, содержащую модуль пространственного декодера и/или устройство пространственного декодера, как определено выше. Настоящее изобретение дополнительно направлено на способ формирования пары бинауральных выходных каналов с использованием пространственных параметров и одного входного аудиоканала, причем способ содержит этапы преобразования пространственных параметров в бинауральные параметры, используя параметризованные перцепционные передаточные функции; преобразования одного входного аудиоканала в преобразованный аудиоканал; декоррелирования преобразованного аудиоканала для формирования преобразованного декоррелированного сигнала; синтеза пары бинауральных каналов путем применения бинауральных параметров к преобразованному аудиоканалу (S) и преобразованному декоррелированному сигналу и обратного преобразования преобразованных бинауральных каналов в пару бинауральных выходных каналов.

Дополнительные аспекты способа в соответствии с настоящим изобретением будут очевидны из следующего описания.

Настоящее изобретение дополнительно направлено на компьютерный программный продукт, предназначенный для выполнения способа, как определено выше. Компьютерный программный продукт может содержать набор выполняемых компьютером инструкций, сохраненных на носителе данных, таком как CD или DVD. Набор выполняемых компьютерных инструкций позволяет запрограммированному компьютеру выполнять способ, как определено выше, он также может быть доступен для загрузки из удаленного сервера, например, через сеть Интернет.

Настоящее изобретение будет дополнительно поясняться ниже со ссылкой на примерные варианты воплощения, иллюстрируемые на прилагаемых чертежах, на которых:

На фиг.1 схематично представлено применение передаточных функций с учетом влияния головы в соответствии с предшествующим уровнем техники.

На фиг.2 схематично представлено устройство пространственного аудиокодера в соответствии с предшествующим уровнем техники.

На фиг.3 схематично представлено устройство пространственного аудиодекодера в соответствии с предшествующим уровнем техники, соединенное с устройством бинаурального синтеза.

На фиг.4 схематично показан модуль пространственного аудиодекодера в соответствии с предшествующим уровнем техники.

На фиг.5 схематично показан пример модуля пространственного аудиодекодера.

На фиг.6 схематично показано устройство пространственного аудиодекодера в соответствии с настоящим изобретением.

На фиг.7 схематично показан модуль пространственного аудиодекодера по фиг.6, в котором предусмотрен модуль реверберации в области преобразования.

На фиг.8 схематично показан модуль пространственного аудиодекодера по фиг.6, в котором предусмотрен модуль реверберации в области времени.

На фиг.9 схематично показано потребительское устройство, в котором предусмотрено устройство пространственного аудиодекодера в соответствии с настоящим изобретением.

Применение перцепционных передаточных функций, таких как передаточная функция с учетом влияния головы (HRTF), в соответствии с предшествующим уровнем техники схематично иллюстрируется на фиг.1. Устройство 3 бинаурального синтеза представлено на чертеже и содержит шесть модулей 31 HRTF, каждый из которых содержит передаточную функцию для конкретной комбинации входного канала и выходного канала. В представленном примере имеется три входных аудиоканала ch1, ch2 и ch3, которые могут соответствовать каналам l (левый), с (центр) и r (правый). Первый канал ch1 подключен к двум модулям 31 HRTF, содержащим HRTF(l, L) и HRTF(l, R), соответственно. В этом примере HRTF(l, L) представляет собой передаточную функцию с учетом влияния головы, которая определяет вклад первого канала в левый бинауральный сигнал.

Для специалиста в данной области техники будет понятно, что HRTF могут быть определены в результате получения обеих обычных (стерео) записей и бинауральных записей, и получения передаточной функции, которая представляет формирование бинауральной записи относительно обычной записи. Бинауральные записи получают с использованием двух микрофонов, установленных на модели головы человека, поэтому записанный звук соответствует звуку, воспринимаемому ухом человека, и включает в себя любые влияния, связанные с формой головы и ушей, и даже присутствием волос и плеч.

Если обработка HRTF происходит в области времени, выполняют свертку HRTF с аудиосигналами (область времени) для каналов. Как правило, однако, HRTF преобразуют в область частот и полученные в результате передаточные функции и частотные спектры аудиосигналов затем перемножают (модули преобразования Фурье и модули обратного преобразования Фурье, не показанные на фиг.1). Соответствующие методы наложения и суммирования (OLA), включающие в себя временные кадры наложения, можно использовать для размещения HRTF, имеющих большую длину, чем кадры быстрого преобразования Фурье (FFT, БПФ).

После обработки HRTF соответствующим модулем HRTF 31 полученные в результате левый и правый сигналы суммируют с помощью соответствующего сумматора 32 для получения левого (в области времени) бинаурального сигнала lb и правого бинаурального сигнала rb.

Примерное устройство 3 бинаурального синтеза предшествующего уровня техники по фиг.1 имеет три входных канала. Современные аудиосистемы часто имеют пять или шесть каналов, как в случае так называемых систем 5.1. Однако для уменьшения количества данных, предназначенных для передачи и/или сохранения, множество аудиоканалов обычно уменьшают ("смешивают с уменьшением количества каналов") для получения одного или двух каналов. Количество параметров сигнала, обозначающих свойства и взаимное соответствие исходных каналов, обеспечивает возможность разворачивания ("смешения с увеличением количества каналов") одного или двух каналов с получением исходного количества каналов. Примерное устройство 1 пространственного кодера в соответствии с предшествующим уровнем техники схематично представлено на фиг.2.

Устройство 1 пространственного кодера содержит модуль 11 пространственного кодирования (SE), модуль 12 кодирования смешения с уменьшением количества каналов (DE) и мультиплексор (Mux) 13. Модуль 11 пространственного кодирования принимает пять входных аудиоканалов lf (левый передний), lr (левый задний), rf (правый передний), rr (правый задний) и с (центр). Модуль 11 пространственного кодирования выполняет смешение с уменьшением количества каналов этих пяти входных каналов для получения двух каналов l (левый) и r (правый), а также параметров sp сигнала (следует отметить, что модуль 11 пространственного кодирования может формировать один канал вместо двух каналов l и r). В представленном варианте выполнения, когда пять каналов смешивают с уменьшением количества каналов до двух каналов (так называемая конфигурация 5-2-5), параметры sp сигнала могут, например, содержать:

Параметр Описание
CPCl Параметр прогнозирования/энергии для преобразования 2-в-3
CPC2 Параметр прогнозирования/энергии для преобразования 2-в-3
CLDl Разница уровня левого переднего по сравнению с левым задним
CLDr Разница уровня правого переднего по сравнению с правым задним
ICCl Корреляции левого переднего с левым задним
ICCr Корреляции правого переднего с правым задним
ICCf Параметр корреляции для преобразования 2-в-3
CLDlfe Разница уровней в центре по сравнению с lfe (если применимо)

Следует отметить, что "lfe" представляет собой необязательный низкочастотный канал (канал сабвуфера), и что "задние" каналы также известны, как каналы "объемного звучания".

Два канала l и r, полученных в результате смешения с уменьшением количества каналов, формируемых модулем 11 пространственного кодирования, подают в модуль 12 кодирования со смешением с уменьшением количества каналов (DE), который обычно использует такой тип кодирования, который направлен на уменьшение количества данных. Кодированные таким образом каналы l и r, полученные после смешения с уменьшением количества каналов, и параметры sp сигнала мультиплексируют с помощью модуля 13 мультиплексора для получения выходного потока битов bs.

В альтернативном варианте воплощения (не показан) пять (или шесть) каналов смешивают с уменьшением количества каналов до одного (моно) канала (так называемая конфигурация 5-1-5), и параметры sp сигнала могут, например, содержать:

Параметр Описание
CLDfs Разность уровня переднего и заднего
CLDfc Разность уровня переднего и центрального
CLDf Разность уровня переднего левого и переднего правого
CLDs Разность уровня левого заднего и правого заднего
ICCfs Корреляция переднего с задним
ICCfc Корреляция переднего с центральным
ICCf Корреляция переднего левого с передним правым
ICCs Корреляция левого заднего с правым задним
CLDlfe Разность уровня центра по сравнению с lfe (если применимо)

В этом альтернативном варианте воплощения кодированный канал s, полученный после смешения с уменьшением количества каналов, а также параметры sp сигнала также мультиплексируют с помощью модуля 13 мультиплексора для получения выходного потока битов bs.

Если бы этот поток битов bs необходимо было использовать для получения пары бинауральных каналов при подходе предшествующего уровня техники, вначале потребовалось бы выполнить смешение с увеличением количества каналов двух каналов l и r, полученных после смешения с уменьшением количества каналов (или, в качестве альтернативы, одного канала, полученного после смешения с уменьшением количества каналов), для получения пяти или шести исходных каналов, и затем преобразовать эти пять или шесть каналов в два бинауральных канала. Пример такого подхода предшествующего уровня техники иллюстрируется на фиг.3.

Устройство 2' пространственного декодера в соответствии с предшествующим уровнем техники содержит модуль 21' демультиплексора (Demux), модуль 22' декодирования смешения с уменьшением количества каналов и модуль 23' пространственного декодера. Устройство 3 бинаурального синтеза соединено с модулем 23' пространственного декодера устройства 2' пространственного декодера.

Модуль 21' демультиплексора принимает поток битов bs, который может быть идентичным потоку битов bs по фиг.2, и выводит параметры sp сигнала и два кодированных канала, полученных в результате смешения с уменьшением количества каналов. Параметры sp сигнала передают в модуль 23' пространственного декодера, в то время как кодированные каналы, полученные в результате смешения с уменьшением количества каналов, вначале декодируют с использованием модуля 22' декодирования смешения с уменьшением количества каналов для получения декодированных каналов l и r, после смешения с уменьшением количества каналов. Модуль 23' пространственного декодера, по существу, выполняет операции, обратные выполняемым модулем 11 пространственного кодирования по фиг.2, и выводит пять аудиоканалов. Эти пять аудиоканалов подают в устройство 3 бинаурального синтеза, которое может иметь структуру, аналогичную устройству 3 по фиг.1, но с дополнительными модулями 31 HRTF для размещения всех пяти каналов. Как и в примере по фиг.1, устройство 3 бинаурального синтеза выводит два бинауральных канала lb (левый бинауральный) и rb (правый бинауральный).

Примерная структура модуля 23' пространственного декодера предшествующего уровня техники показана на фиг.4. Модуль 23' по фиг.4 содержит модуль 230' смешения с увеличением количества каналов от двух до трех, три модуля 232' пространственного синтеза (SS) и три модуля 239' декорреляции (D). Модуль 230' смешения с увеличением количества каналов от двух до трех принимает каналы l и r, полученные после смешения с уменьшением количества каналов, и параметры sp сигнала и формирует три канала l, r и ce. Каждый из этих каналов подается в модуль 239' декорреляции, который формирует декоррелированную версию соответствующего канала. Каждый канал l, r и ce, его соответствующая версия декорреляции и соответствующие параметры sp сигнала подаются в соответствующий модуль 232' пространственного синтеза (или смешения с увеличением количества каналов). Модуль 232' пространственного синтеза, принимающий, например, канал l, выводит выходной канал lf (левый передний) и lr (левый задний). Модули 232' пространственного синтеза обычно выполняют матричное умножение, при этом параметры матрицы определяются параметрами sp сигнала.

Следует отметить, что в примере по фиг.4 предусмотрены шесть выходных каналов. В некоторых вариантах воплощения третий модуль 239' декорреляции и третий модуль 232' пространственного синтеза могут быть исключены, и при этом формируются, таким образом, только пять выходных каналов. Однако во всех вариантах выполнения модуль 23' пространственного синтеза предшествующего уровня техники будет производить больше, чем два выходных канала. Кроме того, следует отметить, что любые модули преобразования (QMF) и модули обратного преобразования (QMF) были опущены в иллюстративном примере по фиг.4 с целью ясности иллюстрации. В фактических вариантах воплощения пространственное декодирование будет осуществляться в области преобразования, такой как область QMF.

Конфигурация, представленная на фиг.3, является неэффективной. Устройство 2' пространственного декодера преобразует два канала (l и r), полученных в результате смешения с уменьшением количества каналов, в пять каналов, полученных в результате смешения с увеличением количества (промежуточных) каналов, в то время как устройство 3 бинаурального синтеза затем уменьшает пять каналов, полученных в результате смешения с увеличением количества каналов, до двух бинауральных каналов. Кроме того, смешение с увеличением количества каналов в модуле 23' пространственного декодера обычно выполняется в области подполосы, такой как область QMF (квадратурный зеркальный фильтр). Однако устройство 3 бинаурального синтеза обычно обрабатывает сигнал в области частот (то есть преобразование Фурье). Поскольку эти две области не являются идентичными, устройство 2' пространственного декодера вначале преобразует сигналы каналов, полученных в результате смешения с уменьшением количества каналов, в область QMF, обрабатывает преобразованные сигналы и затем переводит сигналы, смешанные с увеличением количества каналов, обратно в область времени. Затем устройство 3 бинаурального синтеза преобразует все (пять в настоящем примере) такие сигналы, полученные в результате смешения с увеличением количества каналов, в область частот, обрабатывает преобразованные сигналы и затем преобразует бинауральные сигналы обратно в область времени. Понятно, что затраты, связанные с вычислениями, будут значительными, и что требуется более эффективная обработка сигналов, в частности, когда их обработка должна осуществляться в переносном устройстве.

Настоящее изобретение обеспечивает намного более эффективную обработку путем интегрирования устройства бинаурального синтеза в устройство пространственного декодера и эффективного выполнения бинауральной обработки в параметре. Пример модуля пространственного декодера схематично представлен на фиг.5, в то время как комбинированное устройство пространственного и бинаурального декодера в соответствии с настоящим изобретением (для краткости называется устройством пространственного декодера) представлено на фиг.6.

Модуль 23 пространственного декодера, показанный на фиг.5, содержит модули 231 преобразования, модуль 232 пространственного синтеза (SS), модули 233 обратного преобразования, модуль 234 преобразования параметра (PC) и модуль 235 памяти (Мem). В примере по фиг.5 модуль 23 пространственного декодера содержит два модуля 231 преобразования, но в других примерах может присутствовать только один модуль 231 преобразования (как на фиг.6), или больше, чем два модуля 231 преобразования, в зависимости от количества каналов, полученных после смешения с уменьшением их количества.

Каждый из модулей 231 преобразования принимает каналы l и r, полученные после смешения с уменьшением количества каналов, соответственно (см. также фиг.3). Каждый модуль 231 преобразования выполнен с возможностью преобразования (сигнала) соответствующего канала в соответствующую область преобразования или в область подполосы, в настоящем примере в область QMF. QMF преобразованные каналы L и R подают в модуль 232 пространственного синтеза, который, предпочтительно, выполняет матричную операцию над сигналами каналов L и R для получения бинауральных каналов Lb и Rb в области преобразования. Модули 233 обратного преобразования выполняют обратное преобразование, в настоящем примере обратное преобразование QMF, для получения бинауральных каналов lb и rb в области времени.

Модуль 232 пространственного синтеза может быть аналогичным или идентичным модулю 232' пространственного синтеза предшествующего уровня техники по фиг.4. Однако параметры, используемые этим модулем, отличаются от параметров, используемых в предшествующем уровне техники. Более конкретно, модуль 234 преобразования параметра преобразует обычные пространственные параметры sp в бинауральные параметры bp, используя параметры hp HRTF, сохраненные в модуле 235 памяти. Эти параметры hp HRTF могут содержать:

- средний уровень на полосу частот для левой передаточной функции как функцию азимута (угла в горизонтальной плоскости), угла места (угла в вертикальной плоскости) и расстояния,

- средний уровень на полосу частот для правой передаточной функции как функцию азимута, угла места и расстояния, и

- среднюю разность фазы или времени на полосу частот как функцию азимута, угла места и расстояния.

Кроме того, могут быть включены следующие параметры:

- мера когерентности левой и правой передаточных функций на полосу частот HRTF как функция азимута, угла места и расстояния, и/или

- параметры абсолютной фазы и/или времени для левой и правой передаточных функций как функция азимута, угла места и расстояния.

Фактически используемые параметры HRTF могут зависеть от конкретного варианта воплощения.

Модуль 232 пространственного синтеза может определять бинауральные каналы Lb и Rb, используя следующую формулу:

, (1)

где индекс k обозначает гибридный индекс полосы (частот) QMF, и индекс m обозначает индекс интервала (времени) QMF. Параметры hij матрицы Hk определяют по бинауральным параметрам (bp на фиг.5). Как обозначено индексом k, матрица Hk может зависеть от гибридной полосы QMF. В одном примере модуль преобразования параметра (234 на фиг.5) формирует бинауральные параметры, которые затем преобразуются в параметры hij матрицы, с использованием модуля 232 пространственного синтеза. В другом примере параметры hij матрицы идентичны бинауральным параметрам, формируемым модулем преобразования параметра (234 на фиг.5), и могут непосредственно применяться модулем 232 пространственного синтеза без преобразования.

Параметры hij матрицы Hk могут быть определены следующим образом в случае двух каналов, полученных после смешения с уменьшением количества каналов (конфигурация 5-2-5). В модуле пространственного декодера предшествующего уровня техники по фиг.4 модуль 230' декодера 2-в-3 преобразует два (входных) канала l и r, полученных после смешения с уменьшением количества каналов, в три (выходных) канала l, r и ce (следует понимать, что выходные каналы l и r обычно не будут идентичными входным каналам l и r, по этой причине входные каналы в следующем описании будут помечены как l0 и r0).

В соответствии с одним примером модуль преобразования параметра (234 на фиг.5 и 6) выполнен с возможностью использования параметров перцепционной передаточной функции, где учитывается вклад только трех каналов (например, l, r и c), при этом два из этих трех каналов (например, l и r) содержат композитные соответствующие передний (lf, rf) и задний (lr, rr) каналы. Таким образом, соответствующие передний и задний каналы сгруппированы для улучшения эффективности.

Операция, выполняемая модулем 230' смешения с увеличением количества каналов два-в-три, может быть описана следующей матричной операцией:

, (2)

в которой входы mij матрицы зависят от пространственных параметров. Взаимосвязь пространственных параметров и входов матрицы идентична декодеру 5.1 MPEG объемного звучания. Для каждого из трех полученных в результате сигналов l, r и c определяют эффект параметров перцепционной передаточной функции (в настоящем примере HRTF), которые соответствуют требуемому (воспринимаемому) положению этих источников звука. Для центрального канала (c) пространственные параметры положения источника звука могут применяться непосредственно, в результате чего получают два выходных сигнала для центра, lB(c) и rB(c):

. (3)

Как можно видеть из уравнения (3), обработка параметра HRTF состоит в умножении сигнала на средние уровни Pl и Pr мощности, которые соответствуют положению источника сигнала центрального канала, в то время как разность фаз распределяется симметрично. Этот процесс выполняется независимо для каждой полосы QMF, используя отображение из параметров HRTF на гребенку фильтров QMF с одной стороны, и отображение от пространственных параметров на полосу QMF с другой стороны.

Для левого (l) канала параметры HRTF из левого переднего и левого заднего каналов комбинируют в единый вклад, используя весовые коэффициенты wlf и wrf. Полученные в результате композитные параметры имитируют эффект обоих переднего и заднего каналов в статистическом смысле. Следующие уравнения используют для генерирования бинауральных выходных пар (lb, rb) для левого канала:

(4)

при

(5)

и

. (6)

Весовые коэффициенты wlf и wrf зависят от параметра CLD модуля 1-в-2 для lf и lr:

(7)
. (8)

Аналогичным образом бинауральный выход для правого канала получают в соответствии с:

(9)

при

(11)
(12)
. (13)

Следует отметить, что член изменения фазы применяется для контралатерального уха в обоих случаях. Кроме того, поскольку система слуха человека в значительной степени нечувствительна к бинауральной фазе для частот, превышающих приблизительно 2 кГц, член изменения фазы требуется применять только в области низких частот. Следовательно, для остального частотного диапазона достаточно выполнить обработку с реальными значениями (предполагая реальные значения mij).

Следует также отметить, что в приведенных выше уравнениях предполагается некогерентное добавление фильтрованных (HRTF) сигналов для lf и lr. Одно из возможных расширений может состоять в том, чтобы включить передаваемые параметры когерентности между каналами (ICC, КМК) для lf и lr (и для lf и rr) в уравнения, также для учета корреляции передний/задний каналы.

Все этапы обработки, описанные выше, могут быть комбинированы в области параметра для получения простой матрицы размером 2×2 в области сигнала:

(14)
с
(15a)
(15b)
(15c)
. (15d)

В настоящем изобретении, по существу, выполняется обработка бинауральной (то есть HRTF) информации в области параметра, вместо обработки в области частоты или в области времени, как в предшествующем уровне техники. Таким образом, можно обеспечить существенную экономию вычислительного ресурса.

Устройство 2 пространственного декодера в соответствии с настоящим изобретением, представленное только в качестве неограничивающего примера на фиг.6, содержит модуль 21 демультиплексора (Demux), модуль 22 декодирования смешения с уменьшением количества каналов и модуль 23 пространственного/бинаурального декодера. Модуль 21 демультиплексора и модуль 22 декодирования смешения с уменьшением количества каналов могут быть аналогичны модулю 21' демультиплексора предшествующего уровня техники и модулю 22' декодирования смешения с уменьшением количества каналов, показанному на фиг.3. Модуль 23 пространственного декодера по фиг.6 идентичен модулю 23 пространственного декодера по фиг.5, за исключением количества каналов смешения с уменьшением количества каналов и ассоциированных модулей преобразования. Поскольку устройство пространственного декодера по фиг.6 выполнено с возможностью получения одного канала s после смешения с уменьшением количества каналов, здесь предусмотрен только один модуль 231 преобразования, в то время как модуль 239 декорреляции (D) был добавлен для получения декоррелированной версии D сигнала S, полученного после смешения с уменьшением количества каналов (область преобразования). Бинауральные параметры bp, получаемые модулем 234 преобразования параметра, обычно отличаются от таких параметров в варианте воплощения по фиг.5, поскольку параметр sp сигнала, ассоциированный с одним каналом s, полученным после смешения с уменьшением количества каналов, обычно отличается от таких параметров, ассоциированных с двумя каналами, получаемыми после смешения с уменьшением количества каналов.

В конфигурации по фиг.6 вход бинаурального декодера содержит монофонический входной сигнал s, сопровождаемый пространственными параметрами sp. Модуль бинаурального синтеза генерирует выходной стереофонический сигнал со статистическими свойствами, которые аппроксимируют свойства, которые были бы результатом обработки HRTF исходного входного сигнала 5.1, который может быть описан следующими уравнениями:

(16)
. (17)

Учитывая пространственные параметры, которые описывают статистические свойства и взаимосвязи каналов, lf, rf, lr, rr и c и параметры импульсных откликов HRTF, также возможно получить оценку статистических свойств (то есть аппроксимацию бинауральных параметров) бинауральной выходной пары lb, rb. Более конкретно, среднее значение энергии (для каждого канала), среднее значение разности фазы и когерентности можно оценить и впоследствии восстановить, используя декорреляцию и матричную обработку монофонического входного сигнала.

Бинауральные параметры содержат (относительное) изменение уровня для каждого из двух бинауральных выходных каналов (и, следовательно, определяют параметр разности уровня в канале), (среднюю) разность фазы и меру когерентности (для элемента время/частота области преобразования).

В качестве первого этапа рассчитывают относительные значения мощности (относительно мощности монофонического входного сигнала) для пяти (или шести) канального (5.1) сигнала, используя переданные параметры CLD. Относительная мощность левого переднего канала определяется по уравнению:

(18)
при
(19)
и
. (20)

Аналогично, относительные мощности других каналов определяются по уравнениям:

(21a)
(21b)
(21c)
. (21d)

Затем можно вычислить ожидаемое значение относительной мощности σL2 левого бинаурального выходного канала (относительно монофонического входного канала), ожидаемое значение относительной мощности σR2 правого бинаурального выходного канала и ожидаемое значение взаимного произведения LBRB*. Когерентность бинаурального выхода (ICCB) затем определяется следующим образом:

(22)

и средний угол фазы (IPDB) определяется уравнением:

. (23)

Разность уровня в канале (CLDB) бинаурального выхода определяется по формуле:

. (24)

Наконец, общий (линейный) коэффициент усиления бинаурального выхода по сравнению с монофоническим входом gB определяется по формуле:

. (25)

Матричные коэффициенты, требуемые для восстановления параметров IPDB, CLDB, ICCB и gB в бинауральной матрице получаются просто из обычного параметрического стереодекодера, расширенного по всему коэффициенту усиления gB:

(26a)
(26b)
(26с)
(26d)
при
(27)
(28)
(29)
. (30)

Дополнительные варианты воплощения модуля пространственного декодера в соответствии с настоящим изобретением могут содержать модуль реверберации. Было определено, что добавление реверберации улучшает воспринимаемое расстояние при формировании бинаурального звука. Поэтому в модуле 23 пространственного декодера по фиг.7 предусмотрен модуль 237 стереореверберации, подключенный параллельно к модулю 232 пространственного синтеза. Модуль 237 стереореверберации по фиг.7 принимает один сигнал S, полученный в результате смешения с уменьшением количества каналов в области преобразования QMF, и выводит два сигнала реверберации, которые добавляются к бинауральным сигналам в области преобразования (каналы Lb и Lr по фиг.6) с помощью модуля 238 суммирования. Комбинированные сигналы затем подвергают обратному преобразованию с использованием модулей 233 обратного преобразования перед выводом.

В варианте воплощения по фиг.8 модуль 237 стереореверберации выполнен с возможностью формирования реверберации в области времени и принимает один сигнал s, полученный в результате смешения с уменьшением количества каналов в области времени. Модуль 237 стереореверберации выводит сигналы реверберации в области времени, которые суммируют с сигналами области времени бинауральных каналов lb и rb с помощью модулей 238 суммирования. В каждом варианте воплощения обеспечивается соответствующая реверберация.

Настоящее изобретение дополнительно направлено на потребительское устройство, такое как портативное потребительское устройство, и на аудиосистему, содержащую модуль пространственного декодера или устройство пространственного декодера, как определено выше. Портативное потребительское устройство может представлять собой MP3-плеер или аналогичное устройство. Потребительское устройство схематично представлено на фиг.9. Потребительское устройство 50, как показано, содержит устройство 2 пространственного декодера в соответствии с настоящим изобретением (см. фиг.6).

Настоящее изобретение основано на понимании того, что сложность расчета комбинированного устройства пространственного декодера и устройства бинаурального синтеза может быть существенно понижена в результате модификации пространственных параметров в соответствии с бинауральной информацией. Это позволяет устройству пространственного декодера эффективно выполнять обработку пространственного декодирования и перцепционной передаточной функции в ходе одной операции обработки сигналов, исключая ввод каких-либо искажений.

Следует отметить, что любые термины, используемые в этом документе, не следует рассматривать как ограничение объема настоящего изобретения. В частности, слова "содержит (содержат)" и "содержащий" не следует понимать как исключающие какие-либо элементы, не указанные конкретно. Одиночные (схемные) элементы могут быть заменены множеством (схемных) элементов или их эквивалентами.

Для специалистов в данной области техники будет понятно, что настоящее изобретение не ограничивается иллюстрируемыми выше вариантами воплощения и что множество модификаций и добавлений могут быть выполнены без отклонения от объема изобретения, как оно определено в приложенной формуле изобретения.

1. Модуль (23) пространственного декодера, предназначенный для формирования пары бинауральных выходных каналов (lb, rb) с использованием пространственных параметров (sp) и одного входного аудиоканала (s), содержащий
модуль (234) преобразования параметров для преобразования пространственных параметров (sp) в бинауральные параметры (bp), используя параметризованные перцепционные передаточные функции (hp), причем бинауральные параметры зависят как от пространственных параметров, так и от параметризованных перцепционных передаточных функций;
один модуль (231) преобразования для преобразования одного входного аудиоканала (s) в преобразованный аудиоканал (S);
модуль (239) декорреляции для декорреляции преобразованного аудиоканала (S) для формирования преобразованного декоррелированного сигнала (D);
модуль (232) пространственного синтеза для синтеза пары преобразованных бинауральных каналов (Lb, Rb) путем применения бинауральных параметров (bp) к преобразованному аудиоканалу (S) и преобразованному декоррелированному сигналу (D); и
пару модулей (233) обратного преобразования для обратного преобразования преобразованных бинауральных каналов (Lb, Rb) в пару бинауральных выходных каналов (lb, rb).

2. Модуль пространственного декодера по п.1, в котором модуль (234) преобразования параметра выполнен с возможностью комбинирования в области параметра, чтобы определить бинауральные параметры вкладов всех перцепционных передаточных функций, которые входные аудиоканалы внесли бы в бинауральные каналы.

3. Модуль пространственного декодера по п.1, в котором модуль (234) преобразования параметров выполнен с возможностью обработки параметров уровня канала (CLD), когерентности канала (ICC) и/или фазы (IPD).

4. Модуль пространственного декодера по п.1, дополнительно содержащий модуль (237) стереореверберации, выполненный с возможностью работы в области времени.

5. Модуль пространственного декодера по п.1, дополнительно содержащий модуль (237) стереореверберации, выполненный с возможностью работы в области преобразования или в области подполосы, такой как область QMF.

6. Модуль пространственного декодера по п.1, в котором модуль (234) преобразования параметров содержит
средство для определения относительных мощностей для множества виртуальных аудиоканалов в ответ на пространственные параметры (sp) и один входной аудиоканал (s);
средство для оценивания статистических свойств бинауральных выходных каналов (lb, rb) в ответ на относительные мощности для множества виртуальных аудиоканалов; и
средство для определения бинауральных параметров (bp) в ответ на оцененные статистические свойства бинауральных выходных каналов (lb, rb).

7. Модуль пространственного декодера по п.6, в котором статистические свойства содержат усредненную энергию преобразованных бинауральных каналов (Lb, Rb), усредненную разность фаз преобразованных бинауральных каналов (Lb, Rb) и когерентность преобразованных бинауральных каналов (Lb, Rb).

8. Устройство (2) пространственного декодера для формирования пары бинауральных выходных каналов (lb, rb) из входного потока (bs) битов, содержащее:
модуль (21) демультиплексора для демультиплексирования входного потока битов в один канал смешения с уменьшенным количеством каналов и параметры (sp) сигнала,
модуль (22) декодера смешения с уменьшенным количеством каналов для декодирования этого одного канала (s) смешения с уменьшенным количеством каналов, и
модуль (23) пространственного декодера по п.1.

9. Устройство по п.8, в котором модуль (23) пространственного декодера содержит модуль (237) реверберации.

10. Аудиосистема, содержащая модуль (23) пространственного декодера по п.1 и/или устройство (2) пространственного декодера по п.8.

11. Потребительское устройство, содержащее модуль (23) пространственного декодера по п.1 и/или устройство (2) пространственного декодера по п.8.

12. Способ формирования пары бинауральных выходных каналов (lb, rb), используя пространственные параметры (sp) и один входной аудиоканал (s), содержащий следующие этапы:
преобразование пространственных параметров (sp) в бинауральные параметры (bp) с использованием параметризованных перцепционных передаточных функций (hp), причем бинауральные параметры зависят как от пространственных параметров, так и от параметризованных перцепционных передаточных функций;
преобразование одного входного аудиоканала (s) в преобразованный аудиоканал (S);
декоррелирование преобразованного аудиоканала (S) для формирования преобразованного декоррелированного сигнала (D);
синтезирование пары преобразованных бинауральных каналов (Lb, Rb) путем применения бинауральных параметров (bp) к преобразованному аудиоканалу (S) и преобразованному декоррелированному сигналу (D); и
обратное преобразование преобразованных бинауральных каналов (Lb, Rb) в пару бинауральных выходных каналов (lb, rb).



 

Похожие патенты:

Изобретение относится к кодированию и/или декодированию звука с использованием структур иерархического кодирования и/или структур иерархического декодирования. .

Изобретение относится к способу и устройству для декодирования аудиосигнала, принятого на цифровом носителе, например сигнала вещания. .

Изобретение относится к способам и устройствам воспроизведения многоканальных звуковых сигналов. .

Изобретение относится к обработке звуковых сигналов, Один или более атрибутов (например, панорамирование, усиление и т.п.), ассоциативно связанных с одним или более объектов (например, инструментов) стереофонического или многоканального звукового сигнала, могут модифицироваться для предоставления возможности повторного микширования.

Изобретение относится к способам обработки сигналов, в частности к методам улучшения качества многоканальных аудиосигналов. .

Изобретение относится к декодированию закодированных мультиканальных аудиосигналов. .

Изобретение относится к кодированию инфомационного сигнала, например, аудио или видео. .

Изобретение относится к устройствам кодирования многоканального аудио. .

Изобретение относится к области техники декодирования звуковых сигналов, в частности к декодированию сигналов, полученных путем параметрического многоканального микширования первоначального многоканального сигнала с сокращением количества каналов.

Изобретение относится к системе связи и может быть использовано при формировании сигнала при восстановлении многоканального аудиосигнала. .

Изобретение относится к декодированию аудиосигналов

Изобретение относится к технике связи и может быть использовано в многоканальных системах воспроизведения звука, воссоздающих точное восприятие таких акустических явлений, как музыкальное исполнение или спортивное соревнование

Изобретение относится к обработке аудиосигналов, в частности к получению компонент сигналов окружения из аудиосигналов источника, получению компонент матрично-декодированных сигналов из аудиосигналов источника и управляемому объединению компонент сигналов окружения с компонентами матрично-декодируемых сигналов

Изобретение относится к способам кодирования/декодирования аудио, в частности к кодированию/декодированию аудио, включающего бинауральный виртуальный пространственный сигнал

Изобретение относится к многоканальному преобразованию параметров, в частности к генерированию параметров когерентности и параметров выходного уровня, которые указывают на пространственные свойства между двумя звуковыми сигналами, основанными на объектно-параметровом базовом представлении звукового воспроизведения в пространстве

Изобретение относится к синтезированию с применением аудиорендеринга выходного стереосигнала или выходного многоканального аудиосигнала, сформированных в результате понижающего микширования с использованием дополнительных управляющих данных

Изобретение относится к способу и устройству для генерирования бинаурального звукового сигнала и, в частности, к генерированию бинаурального звукового сигнала из моносигнала понижающего микширования

Изобретение относится к кодированию и декодированию сигнала посредством схемы согласно характеристике сигнала как аудиосигнала или речевого сигнала

Изобретение относится к обработке аудиосигналов, в частности к матричному декодеру аудиосигнала
Наверх