Извлечение аудиоканала с помощью межканальных амплитудных спектров

Авторы патента:


Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров
Извлечение аудиоканала с помощью межканальных амплитудных спектров

 


Владельцы патента RU 2432607:

ДиТиЭс ЛАЙСЕНЗИНГ ЛИМИТЕД (IE)

Изобретение относится к извлечению множества аудиоканалов из двух или более аудио входных каналов, содержащих смесь аудио источников, и более конкретно к использованию межканальных амплитудных спектров для выполнения такого извлечения. Межканальные амплитудные спектры используются для извлечения множества аудиоканалов из двух или более аудио входных каналов, содержащих смесь аудио источников. Этот подход создает множество аудиоканалов, которые не являются только линейными комбинациями входных каналов, и, таким образом, могут затем использоваться, например, в комбинации с алгоритмом слепого выделения (BSS) источников. Технический результат - эффективное выделение отдельных первоначальных источников из их линейной смеси. 4 н. и 15 з.п. ф-лы, 16 ил.

 

Область техники, к которой относится изобретение

Это изобретение относится к извлечению множества аудиоканалов из двух или более аудио входных каналов, содержащих смесь аудио источников, и более конкретно к использованию межканальных амплитудных спектров для выполнения такого извлечения.

Предшествующий уровень техники

Слепое выделение (BSS) источников является классом способов, которые используются широко в области, где имеется необходимость в оценке индивидуальных первоначальных аудио источников из стерео каналов, которые несут линейную смесь отдельных источников. Трудности в выделении отдельных первоначальных источников из их линейной смеси состоит в том, что во многих конкретных вариантах применения мало известно о первоначальных сигналах или способе их смешивания. Для того чтобы сделать слепое расслоение, обычно делаются некоторые допущения о статистической природе сигналов.

Анализ независимых компонент (ICA) является одним из способов, возможно, самым широко используемым, для выполнения слепого выделения источников. ICA допускает, что аудио источники статистически независимы и имеют негауссовые распределения. Кроме того, число аудио входных каналов должно быть, по меньшей мере, на столько большим, на сколько велико число аудио источников, подлежащих выделению. Кроме того, входные каналы должны быть линейно независимыми, не линейной комбинацией их самих. Другими словами, если целью является извлечение, например, трех или возможно четырех аудио источников, таких как голос, струнный, ударный и т.д., из стерео смеси, формирование третьего или четвертого канала в качестве линейной комбинации левого и правого каналов не будет достаточным. Алгоритм ICA широко известен в уровне технике и описан Aapo Hyvarinen и Erkki Oja, «Independent Component Analysis: Algorithms and Applications», Neural Networks, April 1999, которая включена сюда посредством ссылки.

К сожалению, во многих ситуациях реального мира только стерео смесь является доступной. Это строго ограничивает алгоритмы BSS на основе ICA извлечением максимум двух источников из смеси. Во многих вариантах применения аудио смешивание и воспроизведение переходит от обычного стерео к многоканальному аудио, имеющему 5.1, 6.1 или даже более высоко уровня канальные конфигурации. Имеется большая потребность в способности ремикшировать громадный каталог стереомузыки для многоканального аудио. Для того чтобы сделать это эффективно, часто является сильно предпочтительным, если не необходимым, выделять три или более источников из стерео смеси. Нынешние методы ICA не поддерживают это.

Сущность изобретения

Последующее является кратким изложение сущности изобретения для обеспечения основного понимания некоторых аспектов изобретения. Это краткое изложение сущности изобретения не предполагается для установления ключевых или критических элементов изобретения или для очерчивания объема изобретения. Единственной целью является представление некоторых концепций изобретения в упрощенной форме в качестве прелюдии к более подробному описанию и определяющей объем формуле изобретения, которая представляется позже.

Настоящее изобретение обеспечивает способ извлечения множества аудио выходных каналов из двух или более аудио входных каналов, которые не являются только линейными комбинациями этих входных каналов. Такие выходные каналы могут затем использоваться, например, в комбинации с алгоритмом слепого выделения источников (BSS), который требует множество линейно независимых входных каналов по меньшей мере в количестве, равном количеству источников, подлежащих выделению, либо непосредственно для приложений ремикширования, например, 2.0 в 5.1.

Это выполняется посредством создания по меньшей мере одного межканального амплитудного спектра для соответствующих пар M кодированных аудио входных каналов, которые несут смесь аудио источников. Эти амплитудные спектры могут, например, представлять линейные, логарифмические разности или разности в норме или суммы пар входных спектров. Каждая спектральная линия межканального амплитудного спектра затем отображается на один из N заданных выходов, предпочтительно в M-1-мерном пространстве извлечения каналов. Данные из M входных каналов объединяются в соответствии со спектральными отображениями для формирования N аудио выходных каналов. В варианте осуществления входные спектры объединяются в соответствии с отображением, и объединенные спектры обратно преобразуются, и кадры повторно объединяются для формирования N аудио выходных каналов. В другом варианте осуществления сверточный фильтр создается для каждого из N выходов, используя соответствующее спектральное отображение. Входные каналы пропускаются через N фильтров и повторно объединяются для формирования N аудио выходных каналов.

Эти и другие признаки и преимущества изобретения будут очевидны для специалиста в уровне техники из последующего подробного описания предпочтительных вариантов осуществления, взятых совместно с соответствующими чертежами.

Перечень чертежей

Фиг.1 - блок-схема, включающая в себя средство извлечения каналов и средство выделения источников для выделения множества аудио источников из аудио смеси;

Фиг.2 - блок-схема для извлечения дополнительных аудиоканалов, используя межканальные амплитудные спектры в соответствии с настоящим изобретением;

Фиг. 3а-3с - схемы, показывающие различные отображения из межканальных амплитудных спектров в пространство извлечения каналов;

Фиг.4 - блок-схема примерного варианта осуществления для извлечения трех выходных каналов из стерео смеси, используя спектральный синтез входных каналов, в соответствии со спектральным отображением;

Фиг. 5а-5с - схемы, показывающие применение окна в отношении аудиоканала для формирования последовательности входных аудио кадров;

Фиг.6 - график частотных спектров стерео аудио сигналов;

Фиг.7 - график разностного спектра;

Фиг.8 - таблица, показывающая два разных подхода в объединении входных спектров;

Фиг. 9а-9с - графики объединенных спектров для трех выходных аудио каналов;

Фиг.10 - блок-схема альтернативного варианта осуществления, использующего сверточный фильтр для выполнения синтеза временной области входных каналов в соответствии со спектральным отображением.

Подробное раскрытие изобретения

Настоящее изобретение обеспечивает способ извлечения множества аудиоканалов из двух или более аудио входных каналов, содержащих смесь аудио источников, и, более конкретно, для использования межканальных амплитудных спектров для выполнения такого извлечения. Этот подход создает множество аудиоканалов, которые не являются просто линейными комбинациями входных каналов, и таким образом могут затем использоваться, например, в комбинации с алгоритмом слепого выделения источников (BSS) или для обеспечения дополнительных каналов непосредственно для различных приложений ремикширования.

Только как примерный вариант осуществления, методика извлечения будет описываться в контексте ее использования с алгоритмом BSS. Как описано выше, алгоритм BSS для извлечения Q первоначальных аудио источников из смеси этих источников должен принять в качестве входного сигнала по меньшей мере Q линейно независимых аудио каналов, которые переносят эту смесь. Как показано на фиг.1, M аудио входных каналов 10 вводятся в средство 12 извлечения каналов, которое в соответствии с настоящим изобретением использует межканальные амплитудные спектры входных каналов для формирования N>M аудио выходных каналов 14. Средство 16 выделения источников реализует алгоритм BSS на основе ICA для выделения Q первоначальных аудио источников 18 из N аудио выходных каналов, где Q≤N. Например, когда используемые совместно средство извлечения каналов и средство выделения источников могут выделять три, четыре или более аудио источников из традиционной стерео смеси. Это найдет широкое применение в ремикшировании музыкального каталога, который сейчас существует только в стерео, в многоканальные конфигурации.

Как показано на фиг.2, средство извлечения каналов реализует алгоритм, который использует межканальные амплитудные спектры. Средство извлечения каналов преобразует каждый из M, где M - по меньшей мере два, аудио входных каналов 10 в соответствующие входные спектры (этап 20). Быстрое преобразование Фурье (FFT) или DCT, MDCT или вейвлетное преобразование, например, может использоваться для формирования частотных спектров. Средство извлечения каналов затем создает по меньшей мере один межканальный амплитудный спектр (этап 22) из входных спектров для по меньшей мере пары входных каналов. Эти межканальные амплитудные спектры могут, например, представлять линейные, логарифмические разности или разности в норме разности или суммы спектральных линий для пары входных спектров. Более конкретно, если «A» и «B» являются амплитудами спектральной линии для первого и второго каналов, A-B - линейная разность, Log(A)-Log(B) - логарифмическая разность, (A2-B2) - разность в L2 норме и A+B - сумма. Очевидно для специалиста в уровне техники, что многие другие функции от A и B, f(A,B), могут использоваться для сравнения межканальных амплитудных отношений двух каналов.

Средство извлечения каналов преобразует каждую спектральную линию для межканальных амплитудных спектров в один из N определенных выходов (этап 24), соответственно в M-1-мерном пространстве извлечения каналов. Как показано на фиг.3, логарифмическая разность для пары (L/R) левого/правого, входных каналов ограничивается -3 дБ и +3 дБ для определения выходов S1(-∞, 3 дБ), S2(-3 дБ, +3 дБ) и S3(+3 дБ,∞) в одномерном пространстве 26. Если амплитуда конкретной спектральной линии примерно равна 0 дБ, она отображается на выход сигнала S2 и т.д. Отображение легко расширяется до N>3 посредством определения дополнительных порогов. Как показано на фиг.3b, три входных канала L, R и C отображаются на тринадцать выходных каналов S1, S2 … S13 в двумерном пространстве 28 извлечения каналов. Логарифмическая разность L/C (левый/центральный) задается относительно логарифмической разности (правый/центральный) R/C и ограничивается порогами для определения шестнадцати ячеек. В этом конкретном примере все крайние угловые ячейки отображаются на один и тот же выход S1. Другие комбинации ячеек возможно зависят от, например, желаемого числа выходов или любых предварительных знаний об отношении звуковых полей входных каналов. Для каждой спектральной линии амплитуда логарифмической разности R/C и L/C отображается в пространство и назначается соответствующему выходу. Таким путем, каждая спектральная линия только отображается на единственный выход. Альтернативно, межканальные амплитудные спектры R/C и L/C могут ограничиваться порогами по отдельности в одномерных пространствах, как показано на фиг.3а. Альтернативное отображение для трех входных каналов L, R и C на девять выходов в другом двумерном пространстве 30 извлечения каналов показывается на фиг.3с. Эти три примера предполагаются только для показа того, что межканальные амплитудные спектры могут быть отображены на N выходов множеством разных способов и, кроме того, что принцип распространяется на любое число входных и выходных каналов. Каждая спектральная линия может быть отображена на уникальный выход в M-1-мерном пространстве извлечения каналов.

После того как каждая спектральная линия отображена на один из N выход, средство извлечения каналов объединяет данные M входных каналов для каждого из N выходов в соответствии с этим отображением (этап 32). Например, допускаем случай, показанный на фиг.3а, отображения стереоканалов L и R на выходы S1, S2 и S3, и дополнительно предполагаем, что входной спектр имеет восемь спектральных линий. Если на основе межканального амплитудного спектра линии 1-3 были отображены на S1, 4-6 на S2 и 7-8 на S2, то средство извлечения каналов будет объединять входные данные для каждой из линий 1, 2 и 3 и направлять эти объединенные данные на аудио выходной канал один и т.д. В общем, входные данные объединяются как взвешенное среднее. Веса могут быть равными или изменяться. Например, если конкретная информация касаемо отношения звуковых полей входных каналов, например, L, R и C была известна, она может содействовать выбору веса. Например, если L>>R, то вы можете выбирать вес канала L более тяжелым в комбинации. Кроме того, веса могут быть одинаковыми для всех выходов или могут изменяться по одинаковым или другим причинам.

Входные данные могут объединяться, используя либо синтез частотной области, либо синтез временной области. Как показано на фиг. 4-9, входные спектры объединяются в соответствии с отображениями и объединенные спектры инверсно преобразуются, и кадры повторно объединяются для формирования N аудио выходных каналов. Как показано на фиг.10, сверточный фильтр создается для каждого из N выходов, используя соответствующее спектральное отображение. Входные каналы пропускаются через эти N фильтров и повторно объединяются для формирования N аудио выходных каналов.

Фиг. 4-10 показывают более подробно примерный вариант осуществления алгоритма извлечения каналов для случая извлечения N=3 выходных каналов из стерео (M-2) пары входных каналов. Средство извлечения каналов применяет окно 38, например приподнятый косинус, окно Хемминга или Хеннинга (этап 40, 42), к левому и правому аудио входным сигналам 44, 46 для создания соответствующих последовательностей подлежащим образом наложенных кадров 48 (левый кадр). Каждый кадр подвергается частотному преобразованию (этап 50, 52), используя FFT для формирования левого входного спектра 54 и правого входного спектра 56. В этом варианте осуществления, логарифмическая разность каждой спектральной линии входных спектров 54, 56 вычисляется для создания межканального амплитудного спектра 58 (этап 60). Одномерное пространство 62 извлечения каналов, например, пороги -3 дБ и +3 дБ, которые ограничивают выходы S1, S2 и S3, определяется (этап 64), и каждая спектральная линия в межканальном амплитудном спектре 58 отображается на соответствующий выход (этап 66).

После того как преобразование завершается, средство извлечения каналов объединяет входные спектры 54 и 56, например коэффициенты амплитуд спектральных линий, для каждого из трех выходов в соответствии с отображением (этап 67). Как показано на фиг.8 и 9а-9с, в Случае 1 каналы одинаково взвешиваются, и веса являются одинаковыми для формирования спектра 68, 70 и 72 каждого аудио выходного канала. Как показано, для заданной спектральной линии входные спектры только объединяются для одного выхода. В Случае 2, при возможном наличии предварительных знаний о звуковом поле L/R, если отображена на Выход 1 (L>>R), то только входной канал L пропускается. Если L и R приблизительно равны, они взвешиваются одинаково, и если R>>L, то только входной канал R пропускается. Последовательные кадры каждого выходного спектра инверсно преобразуются (этапы 74, 76, 78), и кадры повторно объединяются (этапы 80, 82, 84), используя стандартную конструкцию по принципу наложение-добавление, для формирования трех аудио выходных каналов 86, 88 и 90.

Фиг.10 показывает альтернативный вариант осуществления, использующий синтез временной области для извлечения трех аудио выходных каналов из стерео пары, в которой левый и правый входные каналы подразделяются на кадры с помощью окна, такого как окно Хеннинга, (этап 100), преобразуются, используя FFT, для формирования входного спектра (этап 102) и разделяются на спектральные линии (этап 104) посредством формирования разностного спектра и сравнения каждой спектральной линии с порогами (-3 дБ и +3 дБ) для создания трех «карт» 106а, 106b и 106с, одна для каждого выходного канала. Элемент карты устанавливается в единицу, если спектральная линейная разность подпадает под соответствующую категорию, и в нуль в противном случае. Эти этапы являются эквивалентными этапам 40-66, показанным на фиг.4.

Входные каналы проходят через сверточные фильтры, созданные для каждого из N выходов, используя соответствующие спектральные карты, и MxN частичных результатов суммируются вместе, и кадры повторно объединяются для формирования N аудио выходных каналов (этап 108). Для уменьшения артефактов сглаживание может применяться к картам до умножения. Сглаживание может быть сделано по соответствующей формуле:

.

Возможны другие способы сглаживания. Как показано на данной фигуре, суммирование (этап 110) входных каналов может быть сделано до фильтрации, если не требуется взвешивание.

Хотя несколько иллюстративных вариантов осуществления изобретения были показаны и описаны, различные изменения и альтернативные варианты осуществления будут очевидны для специалиста. Такие изменения и альтернативные варианты осуществления подпадают под и могут быть сделаны без отхода от сущности и объема изобретения, который определен прилагаемой формулой изобретения.

1. Способ извлечения N аудио выходных каналов из M≤N аудио входных каналов, содержащий этапы, на которых
преобразуют каждый из М аудио входных каналов в соответствующие входные спектры;
создают один или более межканальных амплитудных спектров из входных спектров для соответствующих пар из М аудио входных каналов;
выполняют нелинейное отображение каждой спектральной линии межканальных амплитудных спектров в один единственный из N выходов; и
объединяют данные из М входных каналов в соответствии со спектральными отображениями для формирования N аудио выходных каналов, которые не являются линейными комбинациями М входных каналов, при этом данные из входных каналов объединяются как взвешенное среднее.

2. Способ по п.1, в котором применяют перекрывающиеся окна к аудио входным каналам в качестве пред-преобразования для формирования последовательности кадров и применяют перекрывающиеся инверсные окна к кадрам в качестве инверсного пост-преобразования для повторного объединения их в N аудио выходных каналов.

3. Способ по п.1, в котором межканальные амплитудные спектры создаются как линейная, логарифмическая разность или разность в норме или сумма входных спектров.

4. Способ по п.1, в котором каждая спектральная линия отображается в один единственный из N выходов в М-1-мерном пространстве, в котором оси соответствуют соответствующим межканальным амплитудным спектрам.

5. Способ по п.4, в котором межканальные амплитудные спектры для каждой спектральной линии ограничиваются порогами вдоль соответствующих М-1 осей для отображения этой спектральной линии на один единственный из N выходов.

6. Способ по п.1, в котором веса определяются, по меньшей мере, частично отношением звуковых полей аудио входных каналов.

7. Способ по п.1, в котором данные из входных каналов объединяются посредством:
объединения входных спектров М входных каналов для каждой из спектральных линий, отображенных на каждый из N выходов; и
инверсного преобразования каждого из объединенных спектров для формирования N аудио выходных каналов.

8. Способ по п.1, в котором данные из входных каналов объединяются посредством:
создания фильтра для каждого из N выходов, используя соответствующее отображение;
пропускания каждого из М входных каналов через N фильтров; и
объединения выходных сигналов фильтра для формирования N кадров выходных каналов.

9. Способ по п.1, в котором N аудио выходных каналов линейно независимые.

10. Способ по п.1, в котором аудио входные каналы содержат смесь аудио источников, при этом способ дополнительно содержит этап, на котором используют алгоритм статистического выделения источников для разделения N аудио выходных каналов на такое же или меньшее множество упомянутых аудио источников.

11. Способ выделения Q аудио источников из М аудио входных каналов, содержащих смесь аудио источников, содержащий этапы, на которых
преобразуют каждый из М аудио входных каналов в соответствующие входные спектры;
создают один или более межканальных амплитудных спектров из входных спектров для соответствующих пар из М аудио входных каналов;
выполняют нелинейное отображение каждой спектральной линии межканальных амплитудных спектров на один единственный из N≥Q выходов для создания карты для каждого выхода;
объединяют данные из М входных каналов в соответствии с картами для формирования N аудио выходных каналов, которые не являются линейными комбинациями М входных каналов, при этом данные из входных каналов объединяются как взевешенное среднее; и
используют алгоритм статистического выделения источников для разделения N аудио выходных каналов на Q аудио источниках.

12. Способ по п.11, в котором N аудио выходных каналов линейно независимы.

13. Способ извлечения N аудио выходных каналов из двух аудио выходных каналов, содержащий этапы, на которых
преобразуют каждый из аудио входных каналов в соответствующие входные спектры;
создают межканальный амплитудный спектр из входных спектров;
отображают каждую спектральную линию межканального амплитудного спектра в один единственный из N выходов; и
объединяют данные из двух входных каналов в соответствии со спектральными отображениями для формирования N аудио выходных каналов, которые не являются линейными комбинациями двух входных каналов, при этом данные из входных каналов объединяются как взвешенное среднее.

14. Способ по п.13, в котором межканальный амплитудный спектр создают как линейную, логарифмическую разность или разность в норме или сумму входных спектров.

15. Способ по п.13, в котором число N аудио выходных каналов равно трем.

16. Способ по п.13, в котором аудио входные каналы преобразуются с использованием быстрого преобразования Фурье (FFT).

17. Средство извлечения каналов для извлечения N аудио выходных каналов из M≤N аудио входных каналов, содержащее:
средство для преобразования каждого из М аудио входных каналов в соответствующие входные спектры;
средство для создания одного или более межканальных амплитудных спектров из входных спектров для соответствующих пар из М аудио входных каналов;
средство для нелинейного отображения каждой спектральной линии межканальных амплитудных спектров в один единственный из N выходов в М-1-мерном пространстве, в котором оси соответствуют соответствующим межканальным амплитудным спектрам; и
средство для объединения данных из М входных каналов в соответствии со спектральными отображениями для формирования N аудио выходных каналов, которые не являются линейными комбинациями М входных каналов, при этом данные из входных каналов объединяются как взвешенное среднее.

18. Средство извлечения каналов по п.17, в котором средство для объединения данных содержит:
средство для объединения входных спектров М входных каналов для каждой из спектральных линий, отображенных на каждый из N выходов; и
средство для инверсного преобразования каждого из объединенных спектров для формирования N аудио выходных каналов.

19. Средство извлечения каналов по п.17, в котором средство для объединения данных содержит:
средство для создания фильтра для каждого из N выходов, используя соответствующее отображение;
средство для пропускания каждого из М входных каналов через N фильтров; и
средство для объединения выходных сигналов фильтра для формирования N кадров выходных каналов.



 

Похожие патенты:

Изобретение относится к способу автоматизированного проектирования конструкции панели из композиционного материала, усиленной элементами жесткости. .

Изобретение относится к хранению данных в компьютерных системах и способам отображения данных на устройствах, предназначенных для визуальной передачи данных от компьютера к человеку.

Изобретение относится к области инфраструктуры разработки расширяемого средства управления. .

Изобретение относится к услуге, которая может обеспечиваться сетевым сервером или где услуга может быть запрошена клиентом для определения, был ли аннулирован конкретный цифровой сертификат.

Изобретение относится к способам и устройствам проверки правильности структуры протокола. .

Изобретение относится к области вычислительной техники и информатики, может быть использовано в информационно-поисковых и экспертных системах, ориентированных на параллельную обработку символьных данных, в специализированных устройствах и системах обработки символьной информации.

Изобретение относится к способам и устройствам для обработки данных, а именно к способам и устройствам для выполнения математических операций. .

Изобретение относится к вычислительной технике, в частности к устройствам контроля, и может быть использовано в научных исследованиях и практике эксплуатации технических систем для определения оптимальных программ обслуживания и показателей качества функционирования технических средств этих систем.

Изобретение относится к области обработки данных, а более конкретно к высокопроизводительному и при этом очень гибкому механизму синтаксического анализа/компоновки.
Изобретение относится к области радиотехники, а именно к способам точной оценки радиочастоты. .

Изобретение относится к средствам для синхронизации структурированного содержимого веб-узлов

Изобретение относится к области вычислительной техники, в частности к системе персонализации паспортно-визовых документов нового поколения

Изобретение относится к способу и системе управления расширенными совокупностями присутствия

Изобретение относится к области приложений обеспечения доступности

Изобретение относится к области управления потоком работ

Изобретение относится к объединенному пользовательскому интерфейсу, который позволяет пользователю выполнять фильтрацию результатов поиска для скрытия продвинутых файлов

Изобретение относится к системам интернет-телефонии, а более конкретно к обработке разговора для идентификации представляющих интерес данных разговора или контекста

Изобретение относится к вычислительной технике, в частности к способу формирования структуры агрегированных данных и способу поиска данных посредством структуры агрегированных данных в системе управления базами данных (СУБД), и может быть использовано в СУБД

Изобретение относится к способу поиска информации в нескольких источниках данных для выбранного сообщества пользователей
Наверх