Устройство и способ для обработки аудиосигнала для получения обработанного аудиосигнала с использованием целевой огибающей во временной области

Авторы патента:

ДИШ Саша (DE)

МЮЛЛЕР Майнард (DE)

ДИТТМАР Кристиан (DE)

G10L25/03 - Анализирование или синтезирование речи; распознавание речи (ввод/вывод звука для компьютеров G06F 3/16; способы или устройства для обработки цифровых данных, специально предназначенных для манипулирования данными на естественном языке G06F 17/20; обучение или общение со слепыми, глухими или немыми G09B 21/00; телефонная связь H04M)

G10L21/0388 - Обработка сигналов речи для получения иного слышимого или неслышимого сигнала, например визуального, осязаемого, для того, чтобы модифицировать их качество или их разборчивость (G10L 19/00 имеет преимущество)

G10L19/03 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

G10L13/04 - конструктивные детали систем синтезирования речи, например структуры синтезаторов, управление памятью

Владельцы патента RU 2679254:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к средствам для обработки аудиосигнала. Технический результат заключается в повышении эффективности обработки аудиосигнала. Вычисляют значения фазы для спектральных значений последовательности кадров, представляющих накладывающиеся кадры в частотной области аудиосигнала. Причем значения фазы вычисляются на основе информации целевой огибающей во временной области, относящейся к обработанному аудиосигналу, таким образом, чтобы обработанный аудиосигнал имел, по меньшей мере, в приближении целевую огибающую во временной области и спектральную огибающую, определенную последовательностью кадров в частотной области. 14 н. и 14 з.п. ф-лы, 35 ил.

Настоящее изобретение относится к устройству и способу для обработки аудиосигнала для получения обработанного аудиосигнала. Варианты осуществления дополнительно показывают аудиодекодер, содержащий устройство, и соответствующий аудиокодер, процессор разделения звуковых источников и процессор расширения диапазона, оба из которых содержат устройство. В соответствии с дополнительными вариантами осуществления показано восстановление транзиентов при реконструкции сигнала и восстановление транзиентов при декомпозиции звука с информацией партитуры.

Задача разделения комбинации наложенных друг на друга источников звука на ее составляющие компоненты получила важность в обработке цифровых аудиосигналов. При обработке речи эти компоненты обычно представляют собой высказывания целевых дикторов со вмешательством шума или одновременно говорящих людей. В музыке эти компоненты могут представлять собой отдельные инструментальные или вокальные мелодии, ударные инструменты или даже отдельные ноты. Релевантными темами являются реконструкция сигнала и обеспечение сохранности транзиентов и композиция звука с информацией партитуры (т.е. разделение источников).

Разделение музыкальных источников имеет целью выполнить декомпозицию полифонической многотембровой звукозаписи на компонентные сигналы, такие как певческий голос, инструментальные мелодии, ударные инструменты или индивидуальные нотные события, происходящие в смешанном сигнале. Помимо того, что разделение музыкальных источников является важным этапом во многих задачах анализа и извлечения музыки, оно также является фундаментальным обязательным требованием для таких приложений, как восстановление, микширование с повышением и повторное микширование музыки. В этих целях желательно высокое качество с точки зрения качества восприятия отделенных компонентов. Большинство существующих методик разделения работает над частотно-временным (TF) представлением смешанного сигнала, часто оконным преобразованием Фурье (STFT). Целевые компонентные сигналы обычно реконструируются с использованием подходящего обратного преобразования, которое в свою очередь может внести слышимые артефакты, такие как музыкальный шум, смазанные транзиенты или опережающее эхо. Существующие подходы страдают от слышимых артефактов в виде музыкального шума, фазовых помех и опережающего эха. Эти артефакты часто довольно тревожащие для человеческого слушателя.

Существует много недавних статей о разделении музыкальных источников. В большинстве подходов разделение выполняется в частотно-временной (TF) области посредством модификации спектрограммы магнитуды. Соответствующие сигналы во временной области разделенных компонентов выводятся посредством использования первоначальной информации фазы и применения подходящих обратных преобразований. Борясь за хорошее качество восприятия отделенных сольных сигналов, многие авторы возвращаются к методам декомпозиции с информацией партитуры. Это имеет преимущество в том, что разделением может управлять информация о приблизительном местоположении компонентных сигналов во времени (вступление, затухание) и по частоте (высота, тембр). Меньше публикаций имеют дело с разделением источников транзиентных сигналов, таких как барабаны. Другие сосредоточены на разделении гармонических и ударных компонентов [5].

Кроме того, проблема опережающего эхо была решена в области перцепционного аудиокодирования, где опережающее эхо, как правило, вызвано посредством использования относительно длинных окон анализа и синтеза вместе с промежуточной манипуляцией частотно-временных элементов дискретизации, такой как квантование спектральных магнитуд в соответствии с психоакустической моделью. Существующим уровнем техники может считаться использование переключения блоков около транзиентных событий [6]. Интересный подход был предложен в [13], где спектральные коэффициенты кодируются посредством линейного предсказания вдоль оси частот, автоматически сокращая опережающее эхо. Более поздние работы предложили выполнять декомпозицию сигнала на транзиентные и разностные компоненты и использовать оптимизированные параметры кодирования для каждого потока [3]. Обеспечение сохранности транзиента также было исследовано в контексте способов модификации масштаба времени на основе фазового вокодера. В дополнение к оптимизированной обработке переходных компонентов несколько авторов следуют принципу фазовой синхронизации или повторной инициализации фазы в транзиентных кадрах [8].

Проблема реконструкции сигнала, также известная как инверсия спектрограммы магнитуды или оценка фазы, является хорошо исследованной темой. В своей классической статье [1] Гриффин и Лим предложили так называемый алгоритм LSEE-MSTFTM для итерационной, слепой реконструкции сигнала из модифицированной магнитуды преобразования STFT (MSTFTM) спектрограммы. В [2] Ле Ру и др. развили другое представление относительно этого способа, описывая его с использованием критерия частотно-временной согласованности. Проводя необходимые операции полностью в частотно-временной области, могли быть введены несколько упрощений и приближений, которые понижают вычислительную нагрузку по сравнению с первоначальной процедурой. Поскольку оценки фазы, полученные с использованием LSEE-MSTFTM, могут сходиться только к локальным оптимумам, несколько публикаций касались нахождения хорошей начальной оценки для получения информации фазы [3, 4]. Стермель и Доде [5] обеспечили всесторонний обзор способов реконструкции сигнала и указали на нерешенные проблемы. Расширение LSEE-MSTFTM относительно быстроты сходимости было предложено в [6]. Другие авторы попытались сформулировать проблему оценки фазы как выпуклую схему оптимизации и достигли многообещающих результатов, которым препятствует высокая вычислительная сложность [7]. Другая работа [8] касалась применения структуры согласованности спектрограмм для реконструкции сигнала спектрограмм магнитуды на основе вейвлетов.

Однако описанные подходы для реконструкции сигнала имеют общую проблему в том, что быстрое изменение аудиосигнала, которое, например, типично для транзиентов, может страдать от ранее описанных артефактов, таких как, например, опережающее эхо.

Таким образом, существует потребность в улучшенном подходе.

Задача настоящего изобретения состоит в обеспечении улучшенной концепции для обработки аудиосигнала. Эта задача решается посредством предмета формулы изобретения.

Настоящее изобретение основано на открытии того, что целевая огибающая амплитуды во временной области может быть применена к спектральным значениям последовательности кадров в частотной области во временной или в частотной области. Другими словами, фаза сигнала может быть исправлена после обработки сигнала с использованием временно-частотного и частотно-временного преобразования, при которых амплитуда или магнитуда этого сигнала по-прежнему сохраняются или поддерживаются (неизменными). Фаза может быть восстановлена с использованием, например, итерационного алгоритма, такого как алгоритм, предложенный Гриффином и Лимом. Однако использование целевой огибающей во временной области значительно улучшает качество восстановления фазы, что приводит к сокращенному количеству итераций, если используется итерационный алгоритм. Целевая огибающая во временной области может быть вычислена или аппроксимирована.

Варианты осуществления показывают устройство для обработки аудиосигнала для получения обработанного аудиосигнала. Устройство может содержать калькулятор фазы для вычисления значений фазы для спектральных значений последовательности кадров, представляющих накладывающиеся кадры в частотной области аудиосигнала. Калькулятор фазы может быть выполнен с возможность вычислять значения фазы на основе информации целевой огибающей во временной области, относящейся к обработанному аудиосигналу, таким образом, чтобы обработанный аудиосигнал имел по меньшей мере в приближении целевую огибающую во временной области и спектральную огибающую области, определенную последовательностью кадров в частотной области. Информация целевой огибающей амплитуды во временной области может быть применена к последовательности кадров в частотной области во временной или в частотной области.

Чтобы преодолеть упомянутые выше ограничения известных подходов, варианты осуществления показывают методику, способ или устройство для лучшего обеспечения сохранности транзиентных компонентов в реконструированных сигналах источников. В частности, цель может состоять в том, чтобы ослабить опережающее эхо, которое ухудшает чистоту вступления событий нот от барабанов и ударных, а также фортепиано и гитары.

Варианты осуществления далее показывают расширение или улучшение процедуры реконструкции сигнала Гриффина и Лима [1], которое, например, лучшие обеспечивает сохранность компонентов транзиентного сигнала. Исходный метод итерационно оценивает информацию фазы, необходимую для реконструкции во временной области из магнитуды преобразования STFT (STFTM), проходя туда и обратно между преобразованием STFT и сигналом во временной области, обновляя только информацию фазы, при этом сохраняя преобразование STFTM зафиксированным. Предложенное расширение или улучшение манипулирует промежуточными реконструкциями во временной области, чтобы ослабить опережающее эхо, которое потенциально предшествует транзиентам.

В соответствии с первым вариантом осуществления информация целевой огибающей во временной области применяется к последовательности кадров в частотной области во временной области. Таким образом, модифицированное оконное преобразование Фурье (MSTFT) может быть выведено из последовательности кадров в частотной области. На основе модифицированного оконного преобразования Фурье может быть выполнено обратное оконное преобразование Фурье. Поскольку обратное оконное преобразование Фурье (ISTFT) выполняет процедуру наложения и добавления, значения магнитуды и значения фазы начального MSTFT изменяются (обновляются, адаптируются или корректируются). Это приводит к промежуточной реконструкции во временной области аудиосигнала. Кроме того, целевая огибающая во временной области может быть применена к промежуточной реконструкции во временной области. Например, это может быть выполнено посредством свертки сигнала во временной области посредством импульсного отклика или умножения спектра на функцию переноса. Промежуточная реконструкция во временной области аудиосигнала, имеющего (приближение) целевую огибающую во временной области, может быть преобразовано в частотно-временной области с использованием оконного преобразования Фурье (STFT). Таким образом, могут быть использованы накладывающиеся окна анализа и/или синтеза.

Даже если модуляция целевой огибающей во временной области не применена, преобразование STFT промежуточного представления во временной области аудиосигнала будет отличаться от более раннего преобразования MSTFT вследствие процедуры наложения и добавления в преобразовании ISTFT и преобразовании STFT. Это может быть выполнено в итерационном алгоритме, причем для обновленного преобразования MSTFT используется значение фазы предыдущей операции преобразования STFT, и соответствующее значение амплитуды или магнитуды отбрасывается. Вместо этого в качестве значения амплитуды или магнитуды для обновленного MSTFT могут использоваться начальные значения магнитуды, поскольку предполагается, что значение амплитуды (или магнитуды) (отлично) реконструировано, и имеется только неправильная информация фазы. Таким образом, на каждом шаге итерации значения фазы адаптируются к правильным (или первоначальным) значениям фазы.

В соответствии со вторым вариантом осуществления целевая огибающая во временной области может быть применена к последовательности кадров в частотной области в частотной области. Таким образом, этапы, выполняемые ранее во временной области, могут быть перенесены (преобразованы, применены или конвертированы) в частотную области. Более подробно это может представлять собой временно-частотное преобразование окна синтеза преобразования ISTFT и окна анализа преобразования STFT. Это приводит к представлению частоты соседних кадров, которые будут накладываться на текущий кадр после преобразования ISTFT, и преобразование STFT было преобразовано во временной области. Однако эта секция смещается в правильную позицию в текущем кадре, и выполняется дополнение, чтобы вывести промежуточное представление в частотной области аудиосигнала. Кроме того, целевая огибающая во временной области может быть преобразована в частотной области, например, с использованием преобразования STFT, в результате чего представление частоты целевой огибающей во временной области может быть применено к промежуточному представлению в частотной области. Вновь эта процедура может быть выполнена итерационно с использованием обновленной фазы промежуточного представления в частотной области, имеющего (в приближении) огибающую целевой огибающей во временной области. Кроме того, используется начальная магнитуда MSTFT, поскольку предполагается, что магнитуда уже отлично реконструирована.

С использованием упомянутого выше устройства, может предполагаться, что несколько дополнительных вариантов осуществления имеют различные возможности для вывода целевой огибающей во временной области. Варианты осуществления показывают аудиодекодер, содержащий упомянутое выше устройство. Аудиодекодер может принимать аудиосигнал от (привязанного) аудиокодера. Аудиокодер может проанализировать аудиосигнал, чтобы вывести целевую огибающую во временной области, например, для каждого временного кадра аудиосигнала. Выведенная целевая огибающая во временной области может быть сравнена с предварительно заданным списком иллюстративных целевых огибающих во временной области. Предварительно заданная целевая огибающая во временной области, которая является самой близкой к вычисленной целевой огибающей во временной области аудиосигнала, может быть связана с некоторой последовательностью битов, например, последовательностью из четырех битов, чтобы выделить 16 разных целевых огибающих во временной области. Аудиодекодер может содержать те же самые предварительно заданные целевые огибающие во временной области, например, кодовую книгу или таблицу поиска, и может определять (считывать или вычислять) (закодированную) предварительно заданную целевую огибающую во временной области посредством последовательности битов, переданных от кодера.

В соответствии с дополнительными вариантами осуществления упомянутое выше устройство может являться частью процессора разделения звуковых источников. Процессор разделения звуковых источников может использовать грубое приближение целевой огибающей во временной области, поскольку первоначальный аудиосигнал, имеющий только один источник из нескольких источников аудиосигнала, (обычно) не доступен. Таким образом, специально для восстановления транзиента часть текущего кадра до начальной позиции транзиента может быть принудительно обнулена. Это может эффективно сократить опережающее эхо перед транзиентом, обычно включенное вследствие алгоритма обработки сигналов. Кроме того, общее вступление может использоваться в качестве приближения для целевой огибающей во временной области, например, одинаковое вступление для каждого кадра. В соответствии с дополнительным вариантом осуществления, разные вступления могут использоваться для разных компонентов аудиосигнала, например, выведенные из предварительно заданного списка вступлений. Например, целевая огибающая во временной области или вступление фортепиано могут отличаться от целевой огибающей во временной области или вступления гитары, педальных тарелок или речи. Таким образом, текущий источник или компонент для аудиосигнала может быть проанализирован, например, для обнаружения вида аудиоинформации (инструмент, речь и т.д.), чтобы определить (теоретически) наиболее подходящее приближение целевой огибающей во временной области. В соответствии с дополнительными вариантами осуществления вид аудиоинформации может быть задан (пользователем), если разделение звуковых источников, например, предназначено для отделения одного или более инструментов (например, гитара, педальные тарелки, флейта или фортепиано) или речи от оставшейся части аудиосигнала. На основе предварительной установки может быть выбрано соответствующее вступление для отделенного или изолированного аудиотрека.

В соответствии с дополнительными вариантами осуществления процессор расширения диапазона может использовать упомянутое выше устройство. Процессор расширения диапазона использует базовый кодер, чтобы закодировать представление с высоким разрешением одного или более диапазонов аудиосигнала. Кроме того, диапазоны, которые не закодированы с использованием базового кодера, могут быть аппроксимированы в декодере расширения диапазона с использованием параметра кодера расширения диапазона. Целевая огибающая временной области может быть передана, например, в качестве параметра, кодером. Однако в соответствии с предпочтительным вариантом осуществления целевая огибающая во временной области не передается (в качестве параметра) кодером. Таким образом, целевая огибающая во временной области может быть непосредственно выведена из декодированной посредством базового кодирования части или частотного диапазона (диапазонов) аудиосигнала. Форма или огибающая декодированной посредством базового кодирования части аудиосигнала являются хорошим приближением к целевой огибающей во временной области первоначального аудиосигнала. Однако высокочастотные составляющие могут отсутствовать в декодированной посредством базового кодирования части аудиосигнала, и это приводит к целевой огибающей во временной области, которая может быть менее подчеркнута по сравнению с первоначальной огибающей. Например, целевая огибающая во временной области может быть подобна отфильтрованной посредством низкочастотного фильтра версии аудиосигнала или части аудиосигнала. Однако приближение целевой огибающей во временной области из декодированного посредством базового кодирования аудиосигнала может быть (в среднем) более точным, например, по сравнению с использованием кодовой книги, когда информация целевой огибающей во временной области может быть передана от кодера расширения диапазона декодеру расширения диапазона.

В соответствии с дополнительными вариантами осуществления показано эффективное расширение итерационного сигнального алгоритма реконструкции, предложенного Гриффином и Лимом. Расширение показывает промежуточный этап в рамках итерационной реконструкции с использованием модифицированного оконного преобразования Фурье. Промежуточный этап может принудительно установить желаемую или предварительно заданную форму сигнала, который должен быть реконструирован. Таким образом, предварительно заданная огибающая может быть применена к реконструированному сигналу (во временной области), например, с использованием амплитудной модуляции на каждом шаге итерации. В качестве альтернативы огибающая может быть применена к реконструированному сигналу с использованием свертки преобразования STFT и огибающей в частотно-временной области. Второй подход может быть выгодным или более эффективным, поскольку обратное преобразование STFT и преобразование STFT могут быть эмулированы (выполнены, преобразованы или перенесены) в частотно-временной области, и, таким образом, эти этапы не обязательно должны выполняться явно. Кроме того, могут быть реализованы дополнительные упрощения, например, выборочная по последовательности обработка. Кроме того, инициализация фаз (первого этапа преобразования MSTFT), имеющих целесообразные значения, является выгодной, поскольку достигается более быстрое преобразование.

Перед подробным описанием вариантов осуществления с использованием приложенных чертежей следует указать, что одинаковым или функционально равным элементам даны одинаковые ссылочные номера на чертежах, и что опускается повторное описание для элементов, которым даны одинаковые ссылочные номера. Таким образом, описания, обеспеченные для элементов, имеющих одинаковые ссылочные номера, являются взаимозаменяемыми.

Варианты осуществления настоящего изобретения будут обсуждаться далее со ссылкой на следующие приложенные чертежи.

Фиг. 1 показывает блок-схему устройства для обработки аудиосигнала для получения обработанного аудиосигнала;

Фиг. 2 показывает блок-схему устройства в соответствии с дополнительным вариантом осуществления с использованием обработки в частотно-временной области или в частотной области;

Фиг. 3 показывает устройство в соответствии с дополнительным вариантом осуществления в блок-схеме с использованием обработки в частотно-временной области;

Фиг. 4 показывает блок-схему устройства в соответствии с вариантом осуществления с использованием обработки в частотной области;

Фиг. 5 показывает блок-схему устройства в соответствии с дополнительным вариантом осуществления с использованием обработки в частотно-временной области;

Фиг. 6a-d показывают схематическую диаграмму восстановления транзиента в соответствии с вариантом осуществления;

Фиг. 7 показывает блок-схему устройства в соответствии с дополнительным вариантом осуществления с использованием обработки в частотной области;

Фиг. 8 показывает схематическую диаграмму во временной области, иллюстрирующую один сегмент аудиосигнала;

Фиг. 9a-c иллюстрируют схемы разных компонентных сигналов педальных тарелок, отделенных от иллюстративного барабанного лупа;

Фиг. 10a-b показывают схематическую иллюстрацию комбинации сигналов ударных, содержащей три инструмента в качестве источников для разделения источников барабанных лупов;

Фиг. 11a показывает изменение нормализованного показателя несогласованности в зависимости от количества итераций;

Фиг. 11b показывает изменение энергии опережающего эхо в зависимости от количества итераций;

Фиг. 12a показывает схему изменения нормализованного показателя несогласованности в зависимости от количества итераций;

Фиг. 12b показывает изменение энергии опережающего эхо в зависимости от количества итераций;

Фиг. 13 показывает схему типичного результата декомпозиции NMF, иллюстрирующую, что извлеченные шаблоны (три самых левых графика) действительно напоминают прототипные версии событий вступления в V (нижний правый график).

Фиг. 14a показывает схему изменения нормализованного показателя согласованности в зависимости от количества итераций;

Фиг. 14b показывает схему изменения энергии опережающего эхо в зависимости от количества итераций;

Фиг. 15 показывает аудиокодер для кодирования аудиосигнала в соответствии с вариантом осуществления;

Фиг. 16 показывает аудиодекодер содержащий устройство и входной интерфейс;

Фиг. 17 показывает аудиосигнал, содержащий представление последовательности кадров в частотной области и представление целевой огибающей во временной области;

Фиг. 18 показывает блок-схему процессора разделения звуковых источников в соответствии с вариантом осуществления;

Фиг. 19 показывает блок-схему процессора расширения диапазона в соответствии с вариантом осуществления;

Фиг. 20 показывает схематическую диаграмму в частотной области, иллюстрирующую расширение диапазона;

Фиг. 21 показывает схематическое представление (промежуточной) реконструкции во временной области;

Фиг. 22 показывает блок-схему способа обработки аудиосигнала для получения обработанного аудиосигнала;

Фиг. 23 показывает блок-схему способа аудиодекодирования;

Фиг. 24 показывает блок-схему способа разделения звуковых источников;

Фиг. 25 показывает блок-схему способа расширения диапазона закодированного аудиосигнала;

Фиг. 26 показывает блок-схему способа аудиокодирования.

Далее варианты осуществления изобретения будут описаны более подробно. Элементы, показанные на соответствующих фигурах, имеющие одинаковую или сходную функциональность, будут снабжены одинаковыми ссылочными позициями.

Фиг. 1 показывает блок-схему устройства 2 для обработки аудиосигнала 4 для получения обработанного аудиосигнала 6. Устройство 2 содержит калькулятор 8 фазы для вычисления значений 10 фазы для спектральных значений последовательности кадров 12 в частотной области, представляющих накладывающиеся кадры аудиосигнала 4. Кроме того, калькулятор 8 фазы выполнен с возможностью вычислять значения 10 фазы на основе информации целевой огибающей 14 во временной области, относящейся к обработанному аудиосигналу 6, таким образом, чтобы обработанный аудиосигнал 6 имел по меньшей мере в приближении целевую огибающую 14 амплитуды во временной области и спектральную огибающую, определенную посредством последовательности кадров 12 в частотной области. Таким образом, калькулятор 8 фазы может быть выполненным с возможностью принимать информацию целевой огибающей во временной области или извлекать информацию целевой огибающей во временной области из (представления) целевой огибающей во временной области.

Спектральные значения последовательности кадров 10 в частотной области могут быть вычислены с использованием оконного преобразования Фурье (STFT) аудиосигнала 4. Таким образом, преобразование STFT может использовать окна анализа, имеющие диапазон наложения, например, 50%, 67%, 75% или еще больше. Другими словами, преобразование STFT может использовать размер скачка, равный, например, половине, одной трети или одной четверти части длины окна анализа.

Информация целевой огибающей 14 во временной области может быть выведена с использованием разных или различных подходов, относящихся к текущему или используемому варианту осуществления. В области кодирования, например, кодер может проанализировать (первоначальный) аудиосигнал (перед кодированием) и передать кодеру, например, индекс кодовой книги или таблицы поиска, представляющий предопределенную целевую огибающую в области, близкую к вычисленной целевой огибающей в области. Декодер, имея такую же кодовую книгу или таблицу поиска, как и кодер, может вывести целевую огибающую во временной области с использованием принятого индекса кодовой книги.

В области расширения диапазона огибающая декодированного посредством базового кодирования представления аудиосигнала может являться хорошим приближением к первоначальной целевой огибающей во временной области.

Расширение диапазона охватывает любую форму расширения диапазона обработанного сигнала по сравнению с шириной диапазона входного сигнала перед обработкой. Один способ расширения диапазона представляет собой реализацию заполнения провалов, например, интеллектуальное заполнение провалов, раскрытое в документе WO2015010948, или полупараметрическое заполнение провалов, в котором спектральные провалы во входном сигнале заполняются или "сужаются" посредством других спектральных частей входного сигнала с помощью или без помощи переданной параметрической информации. Дополнительный способ расширения диапазона представляет собой копирование спектральной полосы (SBR), используемое в HE-AAC (MPEG 4), или соответствующие процедуры, в которых диапазон выше частоты перехода генерируется посредством обработки. В отличие от реализации заполнения провалов, ширина диапазона базового сигнала в SBR ограничена, в то время как реализации заполнения провалов имеет базовый сигнал с полным диапазоном. Следовательно, расширение диапазона представляет увеличение ширины диапазона до более высоких частот, чем частота перехода, или увеличение ширины диапазона до спектральных провалов, расположенных относительно частоты ниже максимальной частоты базового сигнала.

Кроме того, в области разделения источников целевая огибающая во временной области может быть выражена приближено. Это может представлять собой заполнение нулями вплоть до начальной позиции транзиента или использование (разных) вступлений в качестве приближения или грубой оценки целевой огибающей во временной области. Другими словами, приближенная целевая огибающая во временной области может быть выведена из текущей огибающей во временной области промежуточного сигнала во временной области, обнуляя текущую огибающую во временной области от начала кадра или части аудиосигнала вплоть до начальной позиции транзиента. В соответствии с дополнительными вариантами осуществления текущая огибающая во временной области является (амплитудно) модулированной посредством одного или более (предопределенных) вступлений. Вступление может быть зафиксировано для (всей) обработки аудиосигнала, или, другими словами, выбрано один раз перед обработкой (или для обработки) первого (временного) кадра или части аудиосигнала.

(Приближение или оценка) целевой огибающей во временной области может использоваться для формирования формы обработанного аудиосигнала, например, с использованием амплитудной модуляции или умножения, в результате чего обработанный аудиосигнал имеет по меньшей мере приближение целевой огибающей во временной области. Однако спектральная огибающая обработанного аудиосигнала определена последовательностью кадров в частотной области, поскольку целевая огибающая во временной области содержит главным образом низкочастотные компоненты по сравнению со спектром последовательности кадров в частотной области, в результате чего большинство частот остаются неизменными.

Фиг. 2 показывает блок-схему устройства 2 в соответствии с дополнительным вариантом осуществления. Устройство на фиг. 2 показывает калькулятор 8 фазы, содержащий итерационный процессор 16 для выполнения итерационного алгоритма для вычисления, начиная с начальных значений 18 фазы, значений 10 фазы для спектральных значений с использованием цели оптимизации, требующей согласованности накладывающихся блоков в диапазоне наложения. Кроме того, итерационный процессор 16 выполнен с возможностью использовать на следующем шаге итерации обновленную оценку 20 фазы в зависимости от целевой огибающей во временной области. Другими словами, вычисление значений 10 фазы может быть выполнено с использованием итерационного алгоритма, выполняемого итерационным процессором 16. Таким образом, значения магнитуд последовательности кадров в частотной области могут быть известны и оставаться неизменными. Начиная с начального значения 18 фазы, итерационный процессор может итерационно обновлять значения фазы для спектральных значений с использованием после каждой итерации обновленной оценки 20 фазы для выполнения итераций.

Цель оптимизации может представлять собой, например, количество итераций. В соответствии с дополнительными вариантами осуществления цель оптимизации может представлять собой порог, причем значения фазы обновляются только в незначительной степени по сравнению со значениями фазы предыдущего шага итерации, или цель оптимизации может представлять собой разность (начальной) постоянной магнитуды последовательности кадров в частотной области по сравнению с магнитудой спектральных значений после итерационного процесса. Таким образом, значения фазы могут быть улучшены или модернизированы таким образом, что индивидуальные частотные спектры этих частей кадров аудиосигнала равны или по меньшей мере отличаются только в незначительной степени. Другими словами, все части кадра накладывающихся кадров аудиосигнала, накладывающихся на друг друга, должны иметь одинаковые или подобные частотные представления.

В соответствии с вариантами осуществления калькулятор фазы выполнен с возможностью выполнять итерационный алгоритм в соответствии с итерационной процедурой реконструкции сигнала Гриффина и Лима. Дополнительные (более подробные) варианты осуществления показаны относительно последующих фигур. В них итерационный процессор будет подразделен или заменен посредством последовательности блоков обработки, а именно, частотно-временного конвертера 22, амплитудный модулятора 24 и временно-частотного 26 конвертера. Для удобства итерационный процессор 16 обычно (не явно) указан на последующих фигурах, однако, упомянутые выше блоки обработки выполняют такие же операции, как итерационный процессор 16, или итерационный процессор контролирует или отслеживает условие завершения (или условие выхода) итерационной обработки, такое как, например, цель оптимизации. Кроме того, итерационный процессор может выполнять операции в соответствии с обработкой в частотной области, показанной, например, относительно фиг. 4 и фиг. 7.

Фиг. 3 показывает устройство 2 в соответствии с дополнительным вариантом осуществления на блок-схеме. Устройство 2 содержит частотно-временной конвертер 22, амплитудный модулятор 24 и временно-частотный конвертер 26, при частотно-временное преобразование и/или временно-частотное преобразование могут выполнить процедуру наложения и добавления. Частотно-временной конвертер 22 может вычислять промежуточную реконструкцию 28 во временной области аудиосигнала 4 из последовательности кадров 12 в частотной области и оценки 18 начального значения фазы или оценок 10 значений фазы из предыдущего шага итерации. Амплитудный модулятор 24 может модулировать промежуточную реконструкцию 28 во временной области с использованием (информации) целевой огибающей 14 во временной области для получения амплитудно-модулированного аудиосигнала 30. Кроме того, временно-частотный конвертер выполнен с возможностью преобразовывать амплитудно-модулированный сигнал 30 в следующую последовательность кадров 32 в частотной области, имеющих значения 10 фазы. Таким образом, калькулятор 8 фазы выполнен с возможностью использовать для следующего шага итерации значения 10 фазы (следующей последовательности кадров в частотной области) и спектральные значения последовательности кадров в частотной области (которая не является следующей последовательностью кадров в частотной области). Другими словами, калькулятор фазы использует обновленные значения фазы следующей последовательности кадров 32 в частотной области после каждого шага итерации. Значения магнитуд следующей последовательности кадров в частотной области могут быть опущены или не использованы для последующей обработки. Кроме того, калькулятор 8 фазы использует значения магнитуд (начальной) последовательности кадров 12 в частотной области, поскольку предполагается, что значения магнитуд уже (отлично) реконструированы.

Более обобщенно, калькулятор 8 фазы выполнен с возможностью применять амплитудную модуляцию, например, в амплитудном модуляторе 22 к промежуточной реконструкции 28 во временной области аудиосигнала 4 на основе целевой огибающей 14 во временной области. Амплитудная модуляция может быть выполнена с использованием модуляции с одной боковой полосой, модуляции с двумя боковыми полосами с передачей с подавлением несущей или без нее, или с использованием умножение целевой огибающей во временной области на промежуточную реконструкцию во временной области аудиосигнала. Оценка начального значения фазы может представлять собой значение фазы аудиосигнала, (произвольно) выбранное значение, такой как, например, ноль, случайное значение или оценку фазы частотного диапазона аудиосигнала, или фазу источника аудиосигнала, например, с использованием разделения звуковых источников.

В соответствии с дополнительными вариантами осуществления калькулятор 8 фазы выполнен с возможностью выдавать промежуточную реконструкцию 28 во временной области аудиосигнала 4 как обработанный аудиосигнал 6, когда выполнено условие определения итерации (например, условие завершения итерации). Условие определения итерации может быть тесно связано с целью оптимизации и может определять максимальное отклонение цели оптимизации к текущему значению оптимизации. Кроме того, условие определения итерации может представлять собой (максимальное) количество итераций, (максимальное) отклонение величины следующей последовательности кадров 32 в частотной области по сравнению с магнитудой последовательности кадров 12 в частотной области, или (максимальное) усилие по обновлению значений 10 фазы между текущим и предыдущим кадром.

Фиг. 4 показывает блок-схему устройства 2 в соответствии с вариантом осуществления, который может представлять собой альтернативный вариант осуществления по сравнению с вариантом осуществления, показанным на фиг. 3. Калькулятор 8 фазы выполнен с возможностью применять свертку 34 спектрального представления 14ʹ по меньшей мере одной целевой огибающей 14 во временной области и по меньшей мере одного промежуточного представления в частотной области, или выбранных частей, или диапазонов, или только высокочастотной части, или только нескольких полосно-пропускающих частей по меньшей мере одной целевой огибающей 14 во временной области, или по меньшей мере одного промежуточного представления 28ʹ в частотной области аудиосигнала 4. Другими словами, обработка на фиг. 3 может быть выполнена в частотной области вместо временной области. Таким образом, целевая огибающая 14 во временной области, более конкретно, ее частотное представление 14ʹ может быть применено к промежуточному представлению 28ʹ в частотной области с использованием свертки вместо амплитудной модуляции. Однако идея состоит в том, чтобы снова использовать (первоначальную) магнитуду последовательности кадров в частотной области для каждой итерации и далее после использования значения 18 начальной фазы на первом шаге итерации с использованием обновленных оценок 10 значений фазы для каждого дополнительного шага итерации. Другими словами, калькулятор фазы выполнен с возможностью использовать значения 10 фазы, полученные посредством свертки 34, как обновленные оценки значений фазы для следующего шага итерации. Кроме того, устройство может содержать конвертер 36 целевой огибающей для преобразования целевой огибающей во временной области в спектральную область. Кроме того, устройство 2 может содержать частотно-временной конвертер 38 для вычисления реконструкции 28 во временной области из промежуточной реконструкции 28ʹ в частотной области с использованием оценок 10 значений фазы, полученных из последнего шага итерации, и последовательности кадров 12 в частотной области. Другими словами, промежуточное представление 28ʹ в частотной области может содержать значения магнитуды последовательности кадров в частотной области и значения 10 фазы из обновленных оценок значений фазы. Реконструкция 28 во временной области может представлять собой обработанный аудиосигнал 6 или по меньшей мере часть обработанного аудиосигнала 6. Часть может относиться, например, к сокращенному количеству частотных диапазонов по сравнению с общим количеством частотных диапазонов обработанного аудиосигнала или аудиосигнала 4.

В соответствии с дополнительными вариантами осуществления калькулятор 8 фазы содержит процессор 40 свертки. Процессор 40 свертки может применять ядро свертки, ядро смещения и/или операцию добавления к центру кадра для получения промежуточного представления 28ʹ в частотной области аудиосигнала 4. Другими словами, процессор свертки может обрабатывать последовательность кадров 12 в частотной области, причем процессор 40 свертки может быть выполнен с возможностью применять эквивалент в частотной области процедуры наложения и добавления во временной области к последовательности кадров 12 в частотной области в частотной области для определения промежуточной реконструкции в частотной области. В соответствии с дополнительными вариантами осуществления процессор свертки выполнен с возможностью определять на основе текущего кадра в частотной области часть смежных кадров в частотной области, которые вносят вклад в текущий кадр в частотной области, после того, как наложение и добавление во временной области выполнено в частотной области. Кроме того, процессор 40 свертки может далее определить позицию наложения части смежного кадра в частотной области в текущем кадре в частотной области и выполнить сложение позиций смежных кадров в частотной области с текущим кадром в частотной области в позиции наложения. В соответствии с дополнительным вариантом осуществления процессор 40 свертки выполнен с возможностью выполнять временно-частотное преобразование окна синтеза во временной области и анализа во временной области, чтобы определить часть смежного кадра в частотной области, которая вносит вклад в текущий кадр в частотной области, после того, как наложение и сложение во временной области выполнено в частотной области. Кроме того, процессор свертки дополнительно выполнен с возможностью смещать часть смежного кадра в частотной области в позицию наложения в текущем кадре в частотной области и применять часть смежного кадра в частотной области к текущему кадру в позиции наложения.

Другими словами, процедура во временной области, показанная на фиг. 3, может быть перенесена (преобразована, применена или конвертирована) в частотную область. Таким образом, окна синтеза и анализа частотно-временного конвертера 22 и временно-частотного конвертера 26 могут быть перенесены (преобразованы, применены или конвертированы) в частотную область. (Полученное в результате) представление в частотной области окон синтеза и анализа определяет (или вырезает) части смежных кадров для текущего кадра, которые накладывались бы в процедуре наложения и добавления во временной области. Кроме того, вырезанные части смещаются в корректные позиции в текущем кадре и добавляются к текущему кадру, в результате чего частотно-временное преобразование во временной области и временно-частотное преобразование выполняются в частотной области. Это выгодно, поскольку явное преобразование сигнала можно опустить или не выполнять, что может увеличить вычислительную эффективность калькулятора 8 фазы и устройства 2.

Фиг. 5 показывает блок-схему устройства 2 в соответствии с дополнительным вариантом осуществления, сосредоточенным на реконструкции сигнала разделенных каналов или диапазонов аудиосигнала 4. Таким образом, аудиосигнал 4 во временной области может быть преобразован в последовательность кадров 12 в частотной области, представляющих накладывающиеся кадры аудиосигнала 4, с использованием временно-частотного конвертера, например, преобразования 42 STFT. Модифицированный блок 44ʹ оценки магнитуды может вывести магнитуду 44 последовательности кадров в частотной области, или компоненты, или компонентные сигналы последовательности кадров в частотной области. Кроме того, оценка 18 начальной фазы может быть вычислена из последовательности кадров 12 в частотной области с использованием блока 18' оценки начальной фазы, или блок 18' оценки начальной фазы может выбрать, например, произвольную оценку 18 фазы, которая не выведена из последовательности кадров 12 в частотной области. На основе магнитуды 44 последовательности кадров 12 в частотной области и оценки 18 начальной фазы преобразование 12' MSTFT может быть вычислено как начальная последовательность кадров 12'' в частотной области, имеющая (отлично) реконструированную магнитуду 44, которая остается неизменной при последующей обработке, и только начальную оценку 18 фазы. Оценка 18 начальной фазы обновляется с использованием калькулятора 8 фазы.

На следующем шаге частотно-временной конвертер 22, например, обратное преобразование STFT (ISTFT), может вычислить промежуточную реконструкцию 28 во временной области из (начальной) последовательности кадров 12ʹ в частотной областиʹ. Промежуточная реконструкция 28 во временной области может быть амплитудно-модулирована, например, умножена на целевую огибающую, или более точно, на целевую огибающую 14 во временной области. Временно-частотный конвертер 26, например, преобразование STFT, может вычислить дополнительную последовательность кадров 32 в частотной области, имеющих значения 10 фазы. Преобразование 12' MSTFT может использовать блок 10 оценки обновленной фазы и магнитуду 44 последовательности кадров 12 в частотной области в обновленной последовательности кадров в частотной области. Этот итерационный алгоритм может быть выполнен или повторен L раз, например, в итерационном процессоре 16, который может выполнить упомянутые выше этапы обработки калькулятора 8 фазы. Например, после того, как итерационный процесс закончен, реконструкция 28ʹʹ во временной области выводится из промежуточной реконструкции 28 во временной области.

Другими словами, далее показаны обозначения и модель сигнала, и описан используемый способ реконструкции сигнала. Затем показано расширение для обеспечения сохранности транзиента в способе LSEE-MSTFTM в связи с иллюстративным примером.

Дискретный сигнал во временной области с действительным значением рассматривается как комбинация одновременных компонентных сигналов. Цель состоит в том, чтобы подвергнуть декомпозиции x на целевой сигнал транзиента и разностный компонентный сигнал таким образом, что

(1ʹ)

Следует отметить, что декомпозиция изложена как приближение, поскольку имеется сосредоточение на улучшенном воспринимаемом качестве транзиентного сигнала x^t, и принимается, что суперпозиция x^t и x^r не может привести точно к первоначальному x. В настоящий момент предполагается, что x^t содержит точно один транзиент, временная позиция которого известна. Пусть X(m, k), где , является частотно-временным элементом дискретизации с комплексным значением в m-ом временном кадре и k-ом спектральном коэффициенте оконного преобразования Фурье. Коэффициент вычисляется как

(2ʹ)

где - подходящая оконная функция с размером блока , и - параметр размера скачка. Для простоты это также можно записать: X=STFT(x). Из X следующим образом выводятся спектрограмма магнитуды A и спектрограмма фазы ϕ:

(3ʹ)

(4ʹ)

где . Предполагается, что через некоторую подходящую процедуру разделения источников возможна оценка модифицированного преобразования STFT (MSTFT) X^t, которая представляет компонентный сигнал транзиента. Более конкретно, устанавливается , где A^t и ϕ^t - оценки спектрограммы магнитуды и фазы, соответственно, и оператор обозначает поэлементное умножение. Реконструкция во временной области для X^t достигается посредством применения сначала обратного дискретного преобразования Фурье (DFT) к каждому спектральному кадру, что приводит к множеству промежуточных временных сигналов , определенных посредством

(5ʹ)

для , и y_m(n):= 0 для . Затем применяется способ реконструкции ошибки наименьших квадратов посредством

(6ʹ)

, где окно анализа w повторно используется как окно синтеза. Для простоты эта процедура обозначена как x^t:= iSTFT(X^t) (называемая LSEE-MSTFT в [8]).

Поскольку оценка для X^t получена в частотно-временной области, нельзя предполагать, что x^t является согласованным сигналом. На практике вероятно встретить смазывание транизиентов и опережающее эхо в x^t. Это особенно верно для большого N. Для устранения этой проблемы предложено итерационное очищение X^t посредством следующей процедуры, в которой вводится индекс итерации l=0, 1, 2,..., L и используется заданное местоположение n₀ транзиента. При заданных A^t и ϕ⁽⁰⁾, начальная оценка MSTFT компонента транзиентного сигнала вводится как , и следующие шаги повторяются для l=0, 1, 2,..., L

1. через (5ʹ) и (6ʹ)

2. Установить для

3. через (2ʹ) и (4ʹ)

Вариант осуществления фиг. 5 может быть описан в более общем виде с использованием компонентных сигналов, обозначенных A_c, вместо ранее описанных транзиентных сигналов, обозначенных A^t. В целом, относительно всех описанных вариантов осуществления, сигналы, обозначенные нижним индексом c, могут быть заменены сигналом, соответствующим сигналу, обозначенному верхним индексом t, и наоборот. Нижний индекс c обозначает компонентный сигнал, тогда как верхний индекс t обозначает транзиентный сигнал, который может являться компонентным сигналом. Тем не менее, сигнал, имеющий верхний индекс t, также может быть заменен (в более общем виде) на сигнал, имеющий нижний индекс c. Варианты осуществления, описанные относительно транзиентных сигналов, не ограничены транзиентным сигналом и, таким образом, могут быть применены к любому другому компонентному сигналу. Например, A^t может быть заменен на A_c и наоборот.

Таким образом, дискретный сигнал во временной области с действительным значением рассматривается как линейная комбинация компонентных сигналов x_c, соответствующих индивидуальным источникам (например, инструментам). Как показано на фиг. 10a, каждый компонентный сигнал содержит по меньшей мере одно звуковое событие транзиента, произведенное соответствующим инструментом (в настоящем иллюстративном случае, ударом в барабан). Кроме того, предполагается, что доступна символическая транскрипция, которая определяет время вступления (т.е., позицию транзиента) и тип инструмента для каждого из звуковых событий. Из этой транскрипции выводится общее количество событий вступления S, а также количество уникальных инструментов C. Цель состоит в том, чтобы извлечь индивидуальные компонентные сигналы x_c из комбинации x, как показано на фиг. 10. В целях оценки предполагается, что имеются доступные "истинные" ("oracle") компонентные сигналы x_c. x подвергается декомпозиции в частотно-временной области, с этой целью преобразование STFT используется следующим образом. Пусть X(m, k) является коэффициентом в частотно-временной области с комплексным значением в m-ом временном кадре и k-ом спектральном элементе дискретизации. Коэффициент вычисляется посредством

(1)

где - подходящая оконная функция с размером блока , и - параметр размера скачка. Количество частотных элементов дискретизации составляет K=N/2, и количество спектральных кадров определяется посредством доступных отсчетов сигнала. Для простоты это можно записать как X=STFT(x). Согласно [2], X называется согласованным преобразованием STFT, поскольку оно представляет собой множество комплексных чисел, которое было получено из реального сигнала во временной области x через (1). Напротив, несогласованное преобразование STFT представляет собой множество комплексных чисел, которое не было получено из реального сигнала во временной области. Из X следующим образом выводятся спектрограмма магнитуды A и спектрограмма фазы ϕ

где .

Пусть - неотрицательная матрица, содержащая транспонированную версию спектрограммы магнитуды A комбинации. Цель состоит в том, чтобы подвергнуть декомпозиции V на спектрограммы V_c компонентных магнитуд, которые соответствуют различным инструментам, как показано на фиг. 10b. В настоящий момент предполагается, что некоторый блок истинной оценки извлекает желаемое . Один возможный подход для оценки компонентных магнитуд с использованием метода декомпозиции существующего уровня техники будет описан позже. Чтобы реконструировать заданный компонентный сигнал x_c, мы устанавливаем , где , и ϕ_c - оценка компонентной спектрограммы фазы. Обычной практикой является использование информации фазы комбинации ϕ в качестве оценки для ϕ_c и инвертирование полученного в результате преобразования MSTFT через способ реконструкции LSEE-MSTFT из [1]. Сначала способ применяет обратное дискретное преобразование Фурье (DFT) к каждому спектральному кадру в x_c, что приводит к множеству промежуточных временных сигналов времени y_m, где , определенных посредством

(4)

для , и y_m(n):= 0 для . Затем применяется реконструкция ошибки наименьших квадратов посредством

(5)

, где окно анализа w повторно используется как окно синтеза. Для простоты эта процедура обозначена как x_c:= iSTFT(X_c) (называемая LSEE-MSTFT в [1]).

Поскольку преобразование MSTFT X_c построено в частотно-временной области, следует предположить, что оно может являться несогласованным преобразование STFT, т.е., может не существовать реальный сигнал во временной области x_c, удовлетворяющий X_c=STFT(x_c). Говоря интуитивно, комплексное взаимодействие между магнитудой и фазой, вероятно, будет испорчено, как только модифицируется магнитуда в некоторых частотно-временных элементах дискретизации. На практике эта несовместимость может привести к смазыванию транзиентов и опережающему эху в x_c, особенно для большого N.

Для устранения этой проблемы предложено итерационным образом минимизировать несогласованность X_c посредством следующего расширения процедуры LSEE-MSTFTM [1]. В настоящий момент можно предположить, что X_c содержит точно одно событие вступления транзиента, точное местоположение которого во времени n₀ известно. Теперь вводим индекс итерации l=0, 1, 2,..., L . При заданных A_c и некоторой оценке начальной фазы (ϕ_c)⁽⁰⁾ вводится начальная оценка преобразования STFT целевого компонентного сигнала , и следующие шаги повторяются для l=0, 1, 2,..., L.

1. через (4) и (5)

2. Установить для

3. через (1) и (3)

В соответствии с вариантами осуществления выгодным пунктом описанных способов, кодера или декодера является промежуточный шаг 2, который принудительно устанавливает ограничения транзиента в процедуре LSEE-MSTFTM.

Фиг. 6a-d показывают схематическую диаграмму восстановления транзиента в соответствии с вариантом осуществления, указывающую сигнал 46 во временной области, аналитическую огибающую 48 сигнала и местоположение 50 транзиента. Фиг. 6 иллюстрирует предложенный способ или устройство с целевым компонентным сигналом 46, на который наложена огибающая его аналитического сигнала 48 на фиг. 6a. Иллюстративный сигнал показывает поведение транзиента или компонента транзиентного сигнала вокруг n₀ 50, когда формы волны переходит от тишины к экспоненциально затухающей синусоиде. Фиг. 6b показывает реконструкцию во временной области, полученную из iSTFT с (ϕ_c)⁽⁰⁾=0 (т.е., нулевая фаза для всех частотно-временных элементов дискретизации). Из-за деструктивных помех накладывающихся кадров транзиент полностью уничтожен, амплитуда синусоиды сильно уменьшена, и огибающая выглядит почти плоской. Фиг. 6c показывает реконструкцию с явно выраженным смазыванием транзиента после L=200 итераций LSEE-MSTFTM. Фигура 6d показывает, что восстановленный транзиент после L=200 итераций предложенного способа намного ближе к первоначальному сигналу. Малая рябь видима в огибающей перед n₀, но в целом восстановление намного ближе к первоначальному сигналу. В реальных записях обычно имеется множество событий вступления транзиента по всему сигналу. В этом случае можно применить предложенный способ к фрагментам сигнала, расположенным между последовательными транзиентами (соответственно, вступлениями), как показано на фиг. 9.

Фиг. 7 показывает блок-схему устройства 2 в соответствии с дополнительным вариантом осуществления. Подобно фиг. 4, калькулятор фазы выполняет вычисление фазы в частотной области. Обработка в частотной области может быть равна обработке во временной области, описанной относительно варианта осуществления, показанного на фиг. 5. Вновь сигнал 4 во временной области может быть подвергнут временно-частотному преобразованию с использованием преобразования 42 (блока выполнения) STFT, чтобы вывести последовательность кадров 12 в частотной области. Модифицированный блок 44' оценки магнитуды может вывести модифицированную магнитуду 44 из последовательности кадров 12 в частотной области. Блок 18' оценки начальной фазы может вывести оценку 18 начальной фазы из последовательности кадров в частотной области, или он может обеспечить, например, произвольную оценку начальной фазы. С использованием модифицированной оценки магнитуды и оценки начальной фазы преобразование 12' MSTFT вычисляет или определяет начальную последовательность кадров 12 в частотной области, которая будет принимать обновленные значения фазы после каждого шага итерации. В отличие от вариантов осуществления на фиг. 5 (начальная) последовательность кадров 12ʹʹв частотной области находится в калькуляторе 8 фазы. На основе окон синтеза и анализа во временной области, например, окна синтеза и анализа, используемого преобразовании 22 ISTFT или в преобразовании 26 STFT на фиг. 5, калькулятор 52' ядра свертки может вычислить ядро 52 свертки с использованием представления в частотной области окон синтеза и анализа. Ядро свертки обрезает (срезает или использует) части соседних или смежных кадров текущего кадра в частотной области, который наложился бы на текущий кадр с использованием наложения и добавления в преобразовании 22 ISTFT. Калькулятор 54ʹ ядра смещения может вычислить ядро 52 смещения и применить ядро 52 смещения к частям смежных кадров в частотной области, чтобы сместить эти части в правильные позиции наложения текущего кадра в частотной области. Это может эмулировать операцию наложения процедуры наложения и добавления преобразования 22 ISTFT. Кроме того, блок 56 выполняет добавление процедуры наложения и добавления и добавляет накладывающиеся части смежных кадров к центральному периоду кадра. Вычисление и применение ядра свертки, вычисление и применение ядра смещения и добавление в блоке 56 могут быть выполнены в процессоре 40 свертки. Выходом из процессора 40 свертки может являться промежуточная реконструкция 28' в частотной области последовательности кадров 12 в частотной области или начальной последовательности кадров 12'' в частотной области. Промежуточная реконструкция 28ʹ в частотной области может быть подвергнута (покадровой) свертке с представлением в частотной области целевой огибающей 14 с использованием свертки 34. Выходом свертки 34 может являться дополнительная последовательность кадров 32ʹ в частотной области, имеющая значения 10 фазы 10. Значения 10 фазы заменяют оценку 18 начальной фазы в преобразовании 12' MSTFT на следующем шаге итерации. Итерация может быть выполнена L раз с использованием итерационного процессора 15. После того, как итерационный процесс останавливается, или в определенный момент времени в рамках итерационного процесса окончательная реконструкция 28''' в частотной области может быть выдана из процессора 40 свертки. Окончательная реконструкция 28''' в частотной области может представлять собой промежуточную реконструкцию 28' в частотной области последнего шага итерации. С использованием частотно-временного конвертера 38, например, преобразования ISTFT, может быть получена реконструкция 28'' во временной области, которая может представлять собой обработанный аудиосигнал 6.

Другими словами, при итерации LSEE-MSTFTM выгодно применять промежуточный этап. Он может принудительно установить все отсчеты перед транзиентом равными нулю перед вычислением преобразования STFT снова, чтобы получить обновленную оценку фаз ϕ⁽^l⁺¹⁾. Это ограничение может также быть принудительно установлено непосредственно в частотно-временной области. Таким образом, установка некоторых предварительных условий может быть выгодной. Сначала нормализация к сумме смещенных во времени и возведенных в квадрат оконных функций в знаменателе уравнения (6) может быть опущена посредством наложения некоторых ограничений на w и H (например, с использованием симметричного окна Ханна и требованием, чтобы избыточность Q=N/H была корнем 4 степени [2]). Количество уникальных (вплоть до сопряжения) спектральных элементов дискретизации на кадр равно K=N/2, и частотный аргумент оценивается для . Если сосредоточиться в настоящий момент на единственном спектральном кадре, операция последовательного применения преобразования iSTFT и преобразования STFT снова может быть выражена в частотно-временной области как суперпозиция взвешенных спектральных вкладов от предыдущего и последующего кадров. Следует рассматривать только кадры, которые накладываются на центральный. Это выражено индексом соседнего кадра . Построены два ядра в частотно-временной области, первое является ядром свертки

(7ʹ)

которое захватывает преобразование DFT поэлементного произведения окна синтеза и усеченной и смещенной во времени версии окна анализа. Второе ядро является мультипликативным ядром

(8ʹ)

которому необходимо сместить вклад от соседних кадров в правильную позицию в центральном кадре. Ядра применяются к каждому частотно-временному элементу дискретизации по очереди

(9ʹ)

Теперь предложенное восстановление транзиента может быть включено прямым образом посредством второй операции свертки, которая должна быть применена только к кадрам, в которых расположен n₀. Соответствующие ядра свертки могут быть взяты покадрово из преобразования STFT должным образом смещенной функции Хевисайда

(10ʹ)

Следует отметить, что в дополнение к использованию этой ступенчатой функции предложено использовать преобразование STFT сигналов огибающей амплитуды во временной области огибающей с произвольной формой. Утверждается, что широкий диапазон ограничений реконструкции может быть наложен посредством подходящей модуляции сигнала во временной области, соответствующей свертки в частотно-временной области.

Как показано в [4], вычислительная нагрузка применения операторов в частотной области может быть сокращена посредством усечения ядра свертки α до меньшего количества центральных коэффициентов. Эвристическим образом мотивировано посредством наблюдения, что самые явно выраженные коэффициенты расположены вокруг k=0. Эксперименты показали, что частотно-временная реконструкция по-прежнему очень близка к реконструкции во временной области, если α усечено в направлении частоты к . Кроме того, α является эрмитовым, если оконные функции выбраны должным образом. На основе этих комплексно-сопряженных симметрий комплексные умножения и, таким образом, вычислительная мощность, могут быть сэкономлены. Кроме того, не является необходимым рассматривать обновление фазы каждого частотного элемента дискретизации. Вместо этого можно выбрать часть элементов дискретизации, которые демонстрируют наиболее высокую магнитуду, и применить (9ʹ) только к ним, поскольку они будут преобладать над реконструкцией. Как будет показано, разумное первое предположение для информации фазы также поможет ускорить сходимость реконструкции.

Для оценки традиционная реконструкция LSEE-MSTFTM (обозначена как GL) сравнивается с предложенным способом (обозначен как TR) в соответствии с двумя разными стратегиями инициализации для (X^t)⁽⁰⁾. Далее описаны используемый набор данных, формирование тестового элемента и используемые метрики оценки.

Во всех экспериментах использован общедоступный набор данных "IDMT-SMT-Drums". В подмножестве "WaveDrum02" имеется 60 барабанных лупов, каждый из которых задан как совершенно изолированная запись с одним треком (т.е., истинные компонентные сигналы) трех инструментов: бас-барабана, малого барабана и педальных тарелок. Все 3×60 записей находятся в несжатом формате PCM WAV с частотой дискретизации 44:1 кГц, 16 битов, моно. Посредством микширования вместе всех трех одиночных треков получены 60 смешанных сигналов. Кроме того, времена вступления и, таким образом, приближение n₀ всех вступлений доступны для каждого индивидуального инструмента. С использованием этой информации построен тестовый набор из 4421 событий вступлений барабанов посредством извлечения фрагментов из комбинаций, каждый из которых расположен между последовательными вступлениями целевого инструмента. При этом N отсчетов перед каждым фрагментом заполняются нулями. Объяснение состоит в том, чтобы произвольно добавить к началу секцию тишины перед локальной позицией транзиента. Внутри той секции может быть исключено влияние затухания вступлений предыдущих нот и может быть измерено потенциально имеющееся опережающее эхо. В свою очередь это приводит к виртуальному смещению локального местоположения транзиента в n₀+N (которое обозначено снова как n₀ для удобства обозначения).

Фиг. 8 показывает схематическую диаграмму во временной области, иллюстрирующую один сегмент или кадр аудиосигнала или тестового элемента. Фиг. 8 показывает смешанный сигнал 61a, целевой сигнал 61b педальных тарелок, реконструкцию 61c с использованием LSEE-MSTFTM по сравнению с восстановлением 61d транзиента, оба получены после 200 итераций, примененных для каждого фрагмента 60 вступления, который является, например, секцией между пунктирными линиями 60ʹ и 60ʹʹ. Смешанный сигнал 61a ясно показывает влияние бас-барабана и малого барабана на целевой сигнал 61b педальных тарелок.

Фиг. 9a-c иллюстрируют схемы разных компонентных сигналов педальных тарелок иллюстративного барабанного лупа. Позиция 62 n₀ обозначена сплошной линией, причем границы 60ʹ и 60ʹʹ фрагмента обозначены пунктирными линиями. Фиг. 9a показывает смешанный сигнал сверху и истинный сигнал педальных тарелок снизу. Фиг. 9b показывает сигнал педальных тарелок, полученный из инициализации с помощью истинной магнитуды и нулевого периода фазы. Реконструкция после L=200 итераций для GL показана сверху на фиг. 9b и для TR снизу на фиг. 9b. Фиг. 9c показывает сигнал педальных тарелок, полученный из инициализации с магнитудой на основе NMFD в нулевой фазе. Обработка на основе NMFD будет описана относительно фиг. 12-14. Реконструкция после L=200 итераций для GL представлена сверху на фиг. 9c и для TR снизу на фиг. 9c. Поскольку декомпозиция работает очень хорошо на иллюстративном барабанном лупе, между фиг. 9b и фиг. 9c нет почти никаких значимых визуальных различий.

Фиг. 10 показывает схематическую иллюстрацию сигнала. Фиг. 10a указывает смешанный сигнал x 64a как сумму из c=3 компонентных сигналов x_c, каждый из которых содержит последовательности звуковых отсчетов синтетических барабанов, например, записанных с помощью драм-машины Roland TR808. x₁ 64aʹʹʹ указывает бас-барабан, x₂ 64aʹʹ указывает малый барабан, и x₃ 64aʹ указывает педальные тарелки. Фиг. 10b показывает временно-частотное представление спектрограммы V магнитуды комбинации и c=3 спектрограмм V_c компонентных магнитуд. Для лучшей видимости дискретизация оси частот заменена на логарифмический интервал, и магнитуды были логарифмически сжаты. Кроме того, временно-частотные представления сигналов 64a обозначены ссылочной позицией 64b. Кроме того, на фиг. 9 скорректированные границы фрагмента визуализированы пунктирными линиями, и виртуально смещенный n₀ - сплошной линией. Поскольку барабанные лупы являются реалистическими ритмами, фрагменты демонстрируют различную степень суперпозиции с остальными барабанными инструментами, игравшими одновременно. На фиг. 9a композиция (сверху) демонстрирует явно выраженное влияние бас-барабана по сравнению с изолированным сигналом педальных тарелок (снизу). Для сравнения два верхних графика на фиг. 10a показывают увеличенному версию комбинации x и компонента x₃ педальных тарелок используемого иллюстративного сигнала. На нижнем графике можно видеть изолированный бас-барабан x₁. Он записан, например, с помощью драм-машины Roland TR808 и напоминает затухающую синусоиду.

Далее будут показаны фигуры оценок для разных тестовых сценариев, причем использованы два тестовых сценария для инициализации преобразования MSTFT. Случай 1 использует оценку начальной фазы и фиксированную оценку магнитуды . В соответствии с обозначением транзиента, случай 1 использует оценку начальной фазы и фиксированную оценку магнитуды . Другими словами, информация фазы разделенного сигнала или частичного сигнала извлечена из фазы смешенного аудиосигнала вместо, например, фазы разделенного сигнала или частичного сигнала. Кроме того, случай 2 использует оценку начальной фазы и фиксированную оценку магнитуды . В соответствии с обозначением транзиента случай 2 использует оценку начальной фазы и фиксированную оценку магнитуды . В настоящем документе оценка начальной фазы инициализируется с использованием (произвольного) значения 0, даже при том, что может быть получен эффект, показанный на фиг. 6b. Кроме того, оба тестовых сценария используют значения амплитуды разделенного или частичного сигнала аудиосигнала. Вновь можно заметить, что обозначение является взаимно применимым.

вводится для обозначения последовательного применения преобразования iSTFT и преобразования STFT (базового для алгоритма LSEE-MSTFTM) к . Согласно [10], на каждой итерации l нормализованный показатель согласованности (NCM) вычисляется как

(6)

для обоих тестовых сценариев. В качестве более специализированного показателя для восстановления транзиента энергия опережающего эха вычисляется как

(7)

из секции между началом фрагмента и местоположением транзиента в промежуточных реконструкциях компонентного сигнала во временной области для обоих тестовых сценариев.

Фиг. 11a показывает изменение нормализованного показателя согласованности в зависимости от количества итераций. Фиг. 11b показывает изменение энергии опережающего эха в зависимости от количества итераций. Кривые показывают среднее по всем тестовым фрагментам. Кроме того, результаты, выведенные из использования алгоритма GL, обозначены пунктирными линиями, при этом результаты, выведенные из алгоритма TR, обозначены с использованием сплошных линий. Кроме того, инициализация случая 1 обозначена ссылочным номером 66a, 66aʹ, при этом кривые, выведенные с использованием инициализации случая 2, обозначены ссылочной позицией 66b, 66bʹ. Кривые на фиг. 11 выведены посредством вычисления преобразования STFT каждого фрагмента комбинации через (1), где h=1024 и n=4096, и обозначены как X_Mix. В качестве опорной цели взят тот же фрагмент и применено то же самое заполнение нулями, но на этот раз из отдельного трека каждого индивидуального барабанного инструмента, и полученное в результате преобразование STFT обозначено как . Соответствующий компонентный сигнал обозначен . Использованы L=200 итераций и для алгоритма LSEE-MSTFTM (GL), и для предложенного способа или устройства (TR).

Изменение обоих качественных показателей из (11) и (12) относительно l показано на фиг. 11. Диаграмма (a) указывает, что в среднем предложенный способ (TR) выполняется в равной степени хорошо, как и LSEE-MSTFTM (GL), с точки зрения сокращения несогласованности. В обоих тестовых сценариях может наблюдаться одинаковое относительное поведение показателей для TR (сплошная линия) и GL (пунктирная линия). Как ожидалось, кривые 66a, 66aʹ (случай 1) начинаются с гораздо меньшей начальной несогласованностью, чем кривые 66b, 66bʹ (случай 2), что явно происходит вследствие инициализации фазы комбинации ϕ_Mix. Диаграмма 11b показывает алгоритма TR для сокращения опережающего эха. В обоих тестовых сценариях показатели для TR 66a 66b (сплошные линии) демонстрируют энергию опережающего эха, которая приблизительно на 20 дБ ниже по сравнению с показателями для GL (пунктирная линия). Вновь более согласованный начальный случая 1 66a, 66aʹ может продемонстрировать значительное преимущество с точки зрения сокращения опережающего эха по сравнению со случаем 2 66b, 66bʹ. Как ни удивительно, предложенная обработка TR, примененная к случаю 2 немного выигрывает у обработки GL, примененной к случаю 1, с точки зрения сокращения опережающего эха для L > 100. На основе этих результатов может быть сделан вывод, что достаточно применить только несколько итераций (например, L > 20) предложенного способа в сценариях, в которых доступна разумная оценка начальной фазы и магнитуды. Однако может быть применено больше итераций (например, L > 200) в случае, если доступна хорошая оценка магнитуды вместе со слабой оценкой фазы и наоборот. На фиг. 8 показаны разные версии сегмента из одного тестового экземпляра тестового сценария 2. Реконструкция 61d TR ясно демонстрирует сокращенное опережающее эхо по сравнению с реконструкцией 61c LSEE-MSTFTM. Опорный сигнал 61b педальных тарелок и смешанный сигнал 61a показаны для упомянутого выше.

Однако следующие фигуры выведены с использованием другого размера скачка и другой длины окна, как описано ниже.

Для каждого фрагмента комбинации преобразование STFT вычисляется через (1), где H=512 и N=2048, и обозначено как X^Mix. Поскольку все тестовые элементы имеют частоту дискретизации 44:1 кГц, частотное разрешение составляет приблизительно 21,5 Гц, и временное разрешение составляет приблизительно 11,6 мс. Симметричное окно Ханна с размером N используется для w. В качестве опорной цели взяты те же самые границы фрагмента, применяется то же самое заполнение нулями, но на этот раз из отдельного трека каждого индивидуального барабанного инструмента, полученное в результате преобразование STFT обозначено как . Затем определяются два разных случая для инициализации , как подробно описано выше. С использованием этих установок несогласованность полученного в результате , как ожидается, будет ниже в случае 1 по сравнению со случаем 2. Зная, что имеется согласованный , проходят L=200 итераций и для LSEE-MSTFTM (GL), и для предложенного способа или устройства (TR).

Фиг. 12a показывает схему изменения нормализованного показателя согласованности в зависимости от количества итераций. Фиг. 12b показывает изменение энергии опережающего эха в зависимости от количества итераций. Кривые показывают среднее количество для всех тестовых фрагментов. Другими словами, фиг. 12 показывает изменение обоих качественных показателей из (6) и (7) относительно l. Фиг. 12a указывает, что в среднем предложенный способ (TR) выполняется одинаковым образом хорошо, как и LSEE-MSTFTM (GL), с точки зрения сокращения несогласованности. В обоих тестовых сценариях кривые для TR (сплошная линия) и GL (пунктирная линия) почти неотличимы, который указывает, что новый подход, означающий способ или устройство, показывает аналогичные свойства сходимости, как исходный метод. Как ожидалось, кривые 66a, 66aʹ (случай 1) начинаются при гораздо более низкой начальной несогласованности, чем кривые 66b, 66bʹ (случай 2), что явно происходит вследствие инициализации фазы комбинации смеси ϕ^Mix. Фиг. 12b показывает выгоду TR для сокращения опережающего эха. В обоих тестовых сценариях энергия опережающего эха для TR (сплошные линии) приблизительно на 15 дБ ниже и демонстрирует более крутое уменьшение во время первых нескольких итераций по сравнению с GL (пунктирная линия). Вновь более согласованный начальный для случая 1 66a, 66aʹ демонстрирует значительное преимущество с точки зрения сокращения опережающего эха по сравнению со случаем 2 66b, 66bʹ. На основе этих результатов сделан вывод, что достаточно применить только несколько итераций (например, L <20) предложенного способа в сценариях, в которых доступна разумная оценка начальной фазы и магнитуды. Однако применение большего количества итераций (например, L < 200) может быть выгодным в случае, если имеется хорошая оценка магнитуды вместе со слабой оценкой фазы и наоборот.

Далее будут описаны варианты осуществления для применения предложенного способа восстановления транзиента или устройства в сценарии звуковой декомпозиции с информацией партитуры. Целью является извлечение изолированных звуков барабана из полифонической записи барабана с улучшенным обеспечением сохранности транзиента. В отличие от идеализированных лабораторных условий, используемых ранее, оцениваются спектрограммы магнитуды компонентных сигналов из комбинации. С этой целью может использоваться NMFD (обратная свертка неотрицательного матричного множителя) [3, 4] в качестве методики декомпозиции. Варианты осуществления описывают стратегию наложения ограничений с информацией партитуры на NMFD. Наконец, эксперименты повторяются при этих более реалистичных условиях и описываются наблюдения.

Далее кратко описан способ NMFD, используемый для разложения представления x в частотно-временной области. Как уже указано, существует большое разнообразие альтернативных подходов разделения. Предыдущие работы [3, 4] успешно применили NMFD, сверточную версию NMF, для разделения звука барабана. Говоря интуитивно, лежащая в основе сверточная модель или модель свертки предполагает, что все звуковые события в одном из компонентных сигналов могут быть описаны посредством прототипного события, которое действует как импульсный отклик на некоторую связанную со вступлением активацию (например, удар конкретного барабана). На фиг. 10b можно видеть этот вид поведения в компоненте V3 педальных тарелок. Там все из 8 случаев событий вступления выглядят более или менее как копии друг друга, и это можно объяснить вставкой прототипного события в каждой позиции вступления.

NMF может использоваться для вычисления разложения на множители , где столбцы представляют спектральные базисные функции (также называемые шаблонами), и строки содержат изменяющиеся во времени коэффициенты усиления (также называемые активациями). NMFD расширяет эту модель на сверточный случай при помощи двумерных шаблонов таким образом, чтобы каждое из C спектральных оснований могло быть интерпретировано как отрывок спектрограммы магнитуды, состоящий из спектральных кадров. С этой целью моделируется сверточное приближение спектрограммы как

где

обозначает оператор смещения кадра. Как прежде, каждый столбец в представляет спектральное основание конкретного компонента, но на этот раз доступны T разных версий W_T. Посредством соединения заданного столбца из всех версий W_T можно получить прототипную спектрограмму магнитуды, как показано на фиг. 13. NMFD, как правило, начинается с подходящей инициализации матриц и . Затем эти матрицы итерационно обновляются, чтобы минимизировать подходящий показатель расстояния между сверточным приближением и .

Фиг. 13 показывает шаблоны и активации NMFD, вычисленные для иллюстративной записи барабана на фиг. 10. Спектрограмма магнитуды V показана на нижнем правом графике. Три элемента слева на этих графиках представляют собой спектральные шаблоны в W_T, которые были извлечены через NMFD. Их соответствующие активации 78 и инициализация 70b с информацией партитуры показаны на трех верхних графиках.

Надлежащая инициализация (W_T)⁽⁰⁾ и (H)⁽⁰⁾ является эффективным средством для ограничения степеней свободы в итерациях NMFD и приведения сходимости к желаемому, музыкально значимому решению. Одна возможность состоит в том, чтобы наложить ограничения с информацией партитуры, выведенные из выровненной по времени символической транскрипции. С этой целью индивидуальные строки (H)⁽⁰⁾ инициализируются следующим образом. Каждый кадр, соответствующий вступлению соответствующего барабанного инструмента, инициализируется с помощью импульса единичной амплитуды, все остальные кадры - с помощью малой константы. Затем применяется нелинейный фильтр экспоненциального скользящего среднего, чтобы смоделировать типичное короткое затухания события звука барабана. Результат 70 этой инициализации показан как кривая 70b на верхних трех графиках на фиг. 13.

Наилучшие результаты разделения могут быть получены посредством инициализации с информацией партитуры и шаблонов и активаций. Для разделения имеющих определенную высоту инструментов (например, фортепиано) может быть построена прототипная последовательность обертонов в (W_T)⁽⁰⁾. Для барабанов труднее смоделировать прототипные спектральные основания. Таким образом, было предложено инициализировать основания с помощью усредненных или разложенных на множители спектрограмм изолированных звуков барабана [21, 22, 4]. Однако используется простая альтернатива, которая сначала вычисляет традиционный NMF, активации H и шаблоны W которого инициализированы с помощью (H)⁽⁰⁾ с информацией партитуры и установки (W_T)⁽⁰⁾:= 1.

С этими установками полученные в результате шаблоны разложения на множители обычно являются довольно достойным приближением среднего спектра каждого использованного барабанного инструмента. Простая репликация этих спектров для всех служит в качестве хорошей инициализации для спектрограмм шаблона. После нескольких итераций NMFD каждая спектрограмма шаблона, как правило, соответствует прототипной спектрограмме соответствующих барабанных инструментов, и каждая функция активации соответствует подвергнутой обратной свертке активации всех вхождений этого конкретного барабанного инструмента в течение записи. Типичный результат разложения показан на фиг. 13, где можно видеть, что извлеченные шаблоны (три самых левых графика) действительно напоминают прототипные версии событий вступления в V (нижний правый график). Кроме того, местоположение импульсов в извлеченном H 70a (три самых верхних графика) очень близки к максимумам инициализации с информацией партитуры.

Далее описывается, как затем обработать результаты NMFD, чтобы извлечь желаемые компоненты. Пусть - матрица активаций, полученная посредством NMFD. Затем для каждого определяется матрица посредством установления равными нулю всех элементов за исключением c-го ряда, который содержит желаемые активации, ранее найденные через NMFD. c-ая спектрограмма компонентной магнитуды имеет приближение посредством . Поскольку модель NMFD приводит к приближению V только низкого качества, спектральные нюансы не могут быть хорошо захвачены. Для исправления этой проблемы обычной практикой является вычисление мягких масок, которые могут интерпретироваться как взвешенная матрица, отражающая вклад в комбинацию V. Маска, соответствующая желаемому компоненту, может быть вычислена как , где обозначает поэлементное деление, и ε является малой положительной константой, чтобы избежать деления на нуль. Основанная на маскировке оценка спектрограммы компонентной магнитуды получена как , где обозначает поэлементное умножение. Эта процедура также часто упоминается как фильтр Винера.

Далее в основном повторяется предыдущий эксперимент, показанный на фиг. 12a, b. Сохраняются те же самые параметры преобразования STFT и границы фрагмента, которые используется в более ранних примерах. На этот раз, однако, спектрограммы компонентной магнитуды выводятся не из идеальных компонентных сигналов, а извлекаются из комбинации с использованием 30 итераций NMFD. Затем вводятся два новых тестовых сценария. Тестовый сценарий 3 66c, 66cʹ использует оценку начальной фазы и фиксированную оценку магнитуды , при этом тестовый сценарий 4 66d использует оценку начальной фазы и фиксированную оценку магнитуды .

Фиг. 14a показывает изменение нормализованного показателя согласованности в зависимости от количества итераций. Фиг. 14b показывает изменение энергии опережающего эха в зависимости от количества итераций. Кривые показывают среднее по всем тестовым фрагментам, пределы осей такие же, как на фиг. 12. Кроме того, на фиг. 14a сокращение несогласованности, полученное с использованием реконструкции TR 66c, 66d (сплошные линии), неотличимо от способа GL 66cʹ, 66dʹ (пунктирные линии). Улучшения менее значительны по сравнению с количествами, которые могут быть получены с использованием идеальной оценки магнитуды (см. фиг. 12a). В среднем реконструкции в случае 3 66c, 66cʹ (инициализированные с помощью ϕ^Mix), кажется, быстро застревают на локальном оптимуме. По-видимому, это происходит из-за несовершенной декомпозиции NMFD соответствующих кадров спектрограммы вступления, где все инструменты демонстрируют более или менее плоское распределение магнитуды и, таким образом, показывают увеличенное спектральное наложение.

В фиг. 14b сокращение опережающего эха с оценками магнитуды на основе NMFD и нулевой фазой (случай 4, график 66d, 66dʹ) работает немного хуже, чем в случае 2 (см. фиг. 12b). Это поддерживает более ранние выводы о том, что слабые оценки начальной фазы приносят больше всего пользы от применения многих итераций предложенного способа. Использование реконструкции GL (случай 3, график 66c, 66cʹ) немного увеличивает энергию опережающего эха по итерациям. Напротив, применение реконструкции TR приводит к хорошему улучшению.

На фиг. 9 подробно показаны разные реконструкции выбранного вступления педальных тарелок из иллюстративного барабанного лупа. Независимо от используемой оценки магнитуды (идеальная на фиг. 9b или на основе NMFD на фиг. 9c) реконструкция предложенного TR (снизу) ясно демонстрирует сокращенное опережающее эхо по сравнению с традиционной реконструкцией GL (сверху). Посредством неформального тестового прослушивания (предпочтительно с использованием наушников), можно ясно определить различия в чистоте вступления, которая может быть достигнута с помощью разных комбинаций инициализаций преобразования MSTFT и способов реконструкции. Даже в случаях, когда несовершенное разложение магнитуды приводит к нежелательным артефактам перекрестных помех в сигналах с единственным компонентом, способ TR в соответствии с вариантами осуществления лучше обеспечивает сохранность характеристик транзиента, чем традиционная реконструкция GL. Кроме того, использование фазы комбинации для инициализации преобразования MSTFT, кажется, является хорошим выбором, поскольку можно часто заметить тонкие различия в реконструкции фазы затухания событий звука барабана по сравнению с идеальными сигналами. Однако различия в тембре, вызванные несовершенным разложением магнитуды, являются намного более явно выраженными.

Варианты осуществления показывают эффективное расширение итерационной процедуры LSEE-MSTFTM Гриффина и Лима для улучшенного восстановления компонентов транзиентного сигнала при разделении музыкальных источников. Устройство, кодер, декодер или способ используют дополнительную вспомогательную информацию о местоположении транзиентов, которая может быть задана в сценарии разделения источников с информацией.

В соответствии с дополнительными вариантами осуществления показано эффективное расширение итерационной процедуры LSEE-MSTFTM Гриффина и Лима для улучшенного восстановления компонентов транзиентного сигнала при разделении музыкальных источников. Способ или устройство используют дополнительную вспомогательную информацию о местоположении транзиентов, которая предполагается заданной в сценарии разделения источников с информацией. Два эксперимента с общедоступным набором данных "IDMTSMT-Drums" показали, что способ, кодер или декодер в соответствии с вариантами осуществления являются выгодными для сокращения опережающего эха и в лабораторных условиях, и для компонентных сигналов, полученных с использованием методики разделения источников существующего уровня техники.

В соответствии с вариантами осуществления качество восприятия компонентов транзиентного сигнала, извлеченных в контексте музыкального разделения источников, улучшается. Многие методики существующего уровня техники основаны на применении подходящего разложения к магнитуде оконного преобразования Фурье (STFT) смешанного сигнала. Информация фазы, используемая для реконструкции индивидуальных компонентных сигналов, обычно извлекается из комбинации, что приводит к модифицированному преобразованию STFT с комплексным значением (MSTFT). Существуют разные способы для реконструкции сигнала во временной области, преобразование STFT которого приближает целевое преобразование MSTFT. Вследствие несогласованностей фазы эти реконструированные сигналы, вероятно, будут содержать артефакты, такие как опережающее эхо перед транзиентными компонентами. Варианты осуществления показывают расширение итерационной процедуры реконструкции сигнала Гриффина и Лима, чтобы исправить эту проблему. Тщательно подготовленный эксперимент с использованием общедоступного набора тестов показывает, что способ или устройство значительно ослабляют опережающее эхо, при этом показывая аналогичные свойства сходимости, как первоначальный подход.

В следующем эксперименте показано, что способ или устройство значительно ослабляют опережающее эхо, при этом показывая аналогичные свойства сходимости, как первоначальный подход Гриффина и Лима. Третий эксперимент, включающий в себя декомпозицию звука с информацией партитуры, также показывает улучшения.

Следующие фигуры будут относиться к дополнительным вариантам осуществления в связи с устройством 2.

Фиг. 15 показывает аудиокодер 100 для кодирования аудиосигнала 4. Аудиокодер содержит процессор аудиосигнала и блок определения огибающей. Процессор 102 аудиосигнала выполнен с возможностью кодировать аудиосигнал во временной области, в результате чего закодированный аудиосигнал 108 содержит представление последовательности кадров в частотной области аудиосигнала во временной области и представление целевой огибающей 106 во временной области. Блок определения огибающей выполнен с возможностью определять огибающую на основе аудиосигнала во временной области, причем блок определения огибающей дополнительно выполнен с возможностью сравнивать огибающую с множеством предварительно заданных огибающих, чтобы определить представление целевой огибающей во временной области на основе сравнения. Огибающая может представлять собой огибающую во временной области части аудиосигнала, например, и огибающую кадра или дополнительной части аудиосигнала. Кроме того, огибающая может быть обеспечена процессору аудиосигнала, который может быть выполнен с возможностью включать огибающую в закодированный аудиосигнал.

Другими словами, (стандартный) аудиокодер может быть расширен до аудиокодера 100 посредством определения огибающей, например, огибающей во временной области части, например, кадра аудиосигнала. Выведенная огибающая может быть сравнена с множеством или с несколькими предварительно заданными огибающими во временной области в кодовой книге или таблице поиска. Позиция наиболее подходящей предопределенной огибающей может быть закодирована с использованием, например, нескольких битов. Таким образом, может использоваться четыре бита для адресации, например, 16 различных предварительно заданных огибающих во временной области, пять битов для адресации, например, 32 предварительно заданных огибающие во временной области или большее количество битов, в зависимости от количества разных предварительно заданных огибающих во временной области.

Фиг. 16 показывает аудиодекодер 110, содержащий устройство 2 и входной интерфейс 112. Входной интерфейс 112 может принимать закодированный аудиосигнал. Закодированный аудиосигнал может содержать представление последовательности кадров в частотной области и представление целевой огибающей во временной области.

Другими словами, декодер 110 может принимать закодированный аудиосигнал, например, от кодера 100. Входной интерфейс 112 или устройство 2, или дополнительное средство может извлекать целевую огибающую 14 во временной области или ее представление, например, последовательность битов, указывающих позицию целевой огибающей во временной области в таблице поиска или кодовой книге. Кроме того, устройство 2 может декодировать закодированный аудиосигнал 108, например, посредством коррекции испорченных фаз закодированного аудиосигнала, имя не испорченные значения магнитуды, или устройство может скорректировать значения фазы декодированного аудиосигнала, например, из блока декодирования, который достаточным образом или даже отлично декодировал спектральную магнитуду закодированного аудиосигнала, и устройство затем корректирует фазу декодированного аудиосигнала, который может быть испорчен блоком декодирования.

Фиг. 17 показывает аудиосигнал 114, содержащий представление последовательности кадров 12 в частотной области и представление целевой огибающей 14 во временной области. Представление последовательности кадров в частотной области аудиосигнала во временной области 12 может представлять собой закодированный аудиосигнал в соответствии со стандартной схемой аудиокодирования. Кроме того, представление целевой огибающей 14 во временной области может представлять собой битовым представлением целевой огибающей во временной области. Битовое представление может быть выведено, например, с использованием дискретизации и квантования целевой огибающей во временной области или дополнительного способа оцифровки. Кроме того, представление целевой огибающей 14 во временной области может представлять собой индекс, например, в кодовой книге или таблице поиска, указанный или закодированный с помощью нескольких битов.

Фиг. 18 показывает блок-схему процессора 116 разделения звуковых источников в соответствии с вариантом осуществления. Процессор разделения звуковых источников содержит устройство 2 и блок 118 спектрального маскирования. Блок 118 спектрального маскирования может маскировать спектр первоначального аудиосигнала 4, чтобы вывести модифицированный аудиосигнал 120. По сравнению с первоначальным аудиосигналом 4 модифицированный аудиосигнал 120 может содержать сокращенное количество частотных диапазонов или временно-частотных элементов дискретизации. Кроме того, модифицированный аудиосигнал может содержать только один источник, или один инструмент, или одного диктора (человека) из аудиосигнала 4, причем частотные вклады других источников, дикторов или инструментов скрыты или замаскированы. Однако, поскольку значения магнитуды модифицированного аудиосигнала 120 могут соответствовать значениям магнитуды (желаемого) обработанного аудиосигнала 6, значения фазы модифицированного аудиосигнала могут быть испорчены. Таким образом, устройство 2 может исправить значения фазы модифицированного аудиосигнала относительно целевой огибающей 14 во временной области.

Фиг. 19 показывает блок-схему процессора 122 расширения диапазона в соответствии с вариантом осуществления. Процессор 122 расширения диапазона выполнен с возможностью обрабатывать закодированный аудиосигнал 124. Кроме того, процессор 122 расширения диапазона содержит процессор 126 расширения и устройство 2. Процессор 126 расширения выполнен с возможностью формировать сигнал 127 расширения из диапазона аудиосигнала, включенного в закодированный сигнал, причем процессор 126 расширения выполнен с возможностью извлекать целевую огибающую 14 во временной области из закодированного представления, включенного в закодированный сигнал 122, или из диапазона аудиосигнала, включенного в закодированный сигнал. Кроме того, устройство 2 может обработать сигнал 126 расширения с использованием целевой огибающей во временной области.

Другими словами, процессор 126 расширения может выполнить базовое кодирование диапазона аудиосигнала или принять закодированный посредством базового кодирования диапазон аудиосигнала закодированного аудиосигнала. Кроме того, процессор 126 расширения может вычислить дополнительные диапазоны с использованием аудиосигнала, например, параметров закодированного аудиосигнала и закодированной посредством базового кодирования части основной полосы частот аудиосигнала. Кроме того, целевая огибающая 14 во временной области может присутствовать в закодированном аудиосигнале 124, или процессор улучшения может быть выполнен с возможностью вычислять целевую огибающую во временной области на основе части основной полосы частот аудиосигнала.

Фиг. 20 иллюстрирует схематическое представление спектра. Спектр подразделен на диапазоны масштабных коэффициентов (SCB), причем в проиллюстрированном примере на фиг. 20 имеется семь диапазонов масштабных коэффициентов SCB1-SCB7. Диапазоны масштабных коэффициентов могут представлять собой диапазоны масштабных коэффициентов AAC, которые определены в стандарте AAC и имеют увеличивающуюся ширину диапазона по направлению к верхним частотам, как схематично проиллюстрировано на фиг. 20. Предпочтительно выполнить интеллектуальное заполнение провалов (IGF) не с самого начала спектра, т.е., на низких частотах, а начать операцию IGF на начальной частоте IGF, проиллюстрированной в позиции 309. Таким образом, базовый частотный диапазон простирается от самой низкой частоты до начальной частоты IGF. Выше начальной частоты IGF применяется анализ спектра, чтобы отделить спектральные компоненты 304, 305, 306, 307 с высоким разрешением (первое множество первых спектральных частей) от компонентов с низким разрешением, представленных вторым множеством вторых спектральных частей. Фиг. 20 иллюстрирует спектр, который в качестве примера вводится в процессор 126 расширения, т.е., базовый кодер может работать на полном диапазоне, но кодирует существенное количество нулевых спектральных значений, т.е., эти нулевые спектральные значения квантуются до нуля, или устанавливаются равными нулю перед квантованием или после квантования. Так или иначе, базовый кодер работает на полном диапазоне, т.е., как если бы спектр был таким, как проиллюстрирован, т.е., базовый декодер не обязательно должен знать о каком-либо интеллектуальном заполнении провалов или кодировании второго множества вторых спектральных частей с более низким спектральным разрешением.

Предпочтительно высокое разрешение определяется посредством кодирования каждой линии из спектральных линий, таких как линии MDCT, в то время как второе разрешение или низкое разрешение определяется, например, посредством вычисления только единственного спектрального значения на диапазон масштабного коэффициента, причем диапазон масштабного коэффициента покрывает несколько частотных линий. Таким образом, второе низкое разрешение относительно его спектрального решения намного ниже, чем первое или высокое разрешение, определенное кодированием каждой линии, как правило, применяемым базовым кодером, таким как базовый кодер AAC или USAC.

Вследствие того, что кодер является базовым кодером, и вследствие того, что в каждом диапазоне могут, но не обязательно должны иметься компоненты первого множества спектральных частей, базовый кодер вычисляет масштабный коэффициент для каждого диапазона не только в базовом диапазоне ниже начальной частоты IGF 309, но также и выше начальной частоты IGF до максимальной частоты f_IGFstop, которая меньше или равна половине частоты дискретизации, т.е., f_s/2. Таким образом закодированные тональные части 302, 304, 305, 306, 307 из фиг. 20 и в этом варианте осуществления вместе с масштабными коэффициентами SCB1-SCB7 соответствуют спектральным данным с высоким разрешением. Спектральные данные с низким разрешением вычисляются, начиная с начальной частоты IGF, и соответствуют значениям E1, E2, E3, E4 информации энергии, которые передаются вместе с масштабными коэффициентами SF4-SF7.

В частности, когда базовый кодер находится в условиях с низкой битовой скоростью, помимо того может быть применена дополнительная операция заполнения шумом в базовом диапазоне, т.е., ниже частоты, чем начальная частота IGF, т.е., в диапазонах масштабных коэффициентов SCB1-SCB3. При заполнении шумом имеется несколько смежных спектральных линий, которые квантованы до нуля. На стороне декодера эти квантованные до нуля спектральные значения повторно синтезируются, и повторно синтезированные спектральные значения корректируются по их магнитуде с использованием энергии заполнения шумом. Энергия заполнения шумом, которая может быть задана в абсолютном выражении или в относительном выражении, в частности, относительно масштабного коэффициента, что характерно для USAC, соответствует энергии множества спектральных значений, квантованных до нуля. Эти спектральные линии заполнения шумом также могут рассматриваться как третье множество третьих спектральных частей, которые повторно формируются посредством прямого синтеза заполнения шумом без IGF-операции на основе повторного формирования частоты с использованием частотных мозаичных фрагментов из других частот для восстановления частотных мозаичных фрагментов с использованием спектральных значений из исходного диапазона и информации энергии E1, E2, E3, E4.

Предпочтительно диапазоны, для которых вычислена информация энергии, совпадают с диапазонами масштабных коэффициентов. В других вариантах осуществления группирование значений информации энергии применяется таким образом, чтобы, например, для диапазонов 4 и 5 масштабных коэффициентов передавалось только единственное значение информации энергии, но даже в этом варианте осуществления границы сгруппированных диапазонов реконструкции совпадают с границами диапазонов масштабных коэффициентов. Если применены разные разделения диапазонов, то могут быть применены некоторые повторные вычисления или вычисления синхронизации, и это может быть целесообразным в зависимости от некоторой реализации.

Закодированная посредством базового кодирования часть или закодированный посредством базового кодирования частотный диапазон закодированного аудиосигнала 124 может содержать представление с высоким разрешением аудиосигнала вплоть до частоты отреза или начальной частоты IGF 309. Выше этой начальной частоты IGF 309 аудиосигнал может содержать диапазоны масштабных коэффициентов, закодированные с низким разрешением, например, с использованием параметрического кодирования. Однако с использованием закодированной посредством базового кодирования части основной полосы частот и, например, параметров закодированный аудиосигнал 124 может быть декодирован. Это может быть выполнено один раз или несколько раз.

Это может обеспечить хорошую реконструкцию значений магнитуды даже выше первой частоты 130 отреза. Однако по меньшей мере вокруг частот отреза между последовательными диапазонами масштабных коэффициентов самая высокая частота закодированной посредством базового кодирования части 128 основной полосы частот может быть смежной с самой низкой частотой закодированной посредством базового кодирования части основной полосы частот вследствие заполнения закодированной посредством базового кодирования части основной полосы частот до более высоких частот выше начальной частоты IGF 309, значения фазы могут быть испорчены. Таким образом, воссозданный аудиосигнал основной полосы частот может быть введен в устройство 2 для повторного построения фаз сигнала с расширенным диапазоном.

Кроме того, расширение диапазона работает, поскольку закодированная посредством базового кодирования часть основной полосы частот содержит много информации относительно первоначального аудиосигнала. Это приводит к заключению, что огибающая закодированной посредством базового кодирования части основной полосы частот по меньшей мере подобна огибающей первоначального аудиосигнала, даже при том, что огибающая первоначального аудиосигнала может быть более подчеркнута вследствие дополнительных высокочастотных составляющих аудиосигнала, которые не присутствуют или отсутствуют в закодированной посредством базового кодирования части основной полосы частот.

Фиг. 21 показывает схематическое представление (промежуточной) реконструкции во временной области после первого количества шагов итерации (сверху) и после второго количества шагов итерации, которое больше, чем первое количество шагов итерации (снизу). Сравнительно высокая рябь 132 получается в результате несогласованности смежных кадров последовательности кадров в частотной области. Обычно, начиная с сигнала во временной области, обратное преобразование STFT преобразования STFT сигнала во временной области приводит снова к сигналу во временной области. При этом смежные кадры в частотной области согласованы после того, как применено преобразование STFT, в результате чего процедура наложения и добавления операции обратного преобразования STFT выдает в итоге первоначальный сигнал. Однако, начиная в частотной области с испорченных значений фаз, смежные кадры в частотной области не согласованы, причем преобразование STFT преобразования ISTFT сигнала в частотной области не приводит к надлежащему или согласованному аудиосигналу, как указано сверху на фиг. 21. Однако математически доказано, что алгоритм при его итерационно применении к первоначальной магнитуде сокращает рябь 132 на каждом шаге итерации и приводит к (почти отличному) воссозданному аудиосигналу, указанному снизу на фиг. 21. При этом рябь 132 сокращается. Другими словами, магнитуда промежуточного сигнала во временной области преобразовывается в начальное значение магнитуды последовательности кадров в частотной области после каждого шага итерации. Следует отметить, что размер скачка 0,5 между последовательными окнами 136 синтеза выбран для удобства и может быть установлен равным любому подходящему значению, например, 0,75.

Фиг. 22 показывает блок-схему способа 2200 для обработки аудиосигнала для получения обработанного аудиосигнала. Способ 2200 содержит этап 2205 вычисления значений фазы для спектральных значений последовательности кадров, представляющих накладывающиеся кадры в частотной области аудиосигнала, причем значения фазы вычисляются на основе информации целевой огибающей во временной области, относящейся к обработанному аудиосигналу, таким образом, чтобы обработанный аудиосигнал имел по меньшей мере в приближении целевую огибающую во временной области и спектральную огибающую, определенную последовательностью кадров в частотной области.

Фиг. 23 показывает блок-схему способа 2300 аудиодекодирования. Способ 2300 содержит на этапе 2305 способ 2200 и на этапе 2310 прием закодированного сигнала, закодированный сигнал содержит представление последовательности кадров в частотной области и представление целевой огибающей во временной области.

Фиг. 24 показывает блок-схему способа 2400 разделения звуковых источников. Способ 2400 содержит этап 2405 для выполнения способа 2200 и этап 2410 маскирования спектра первоначального аудиосигнала для получения модифицированного аудиосигнала, введенного в устройство для обработки, причем обработанный аудиосигнал является разделенным сигналом источника, относящимся к целевой огибающей во временной области.

Фиг. 25 показывает блок-схему способа расширения диапазона закодированного аудиосигнала. Способ 2500 содержит этап 2505 формирования сигнала расширения из диапазона аудиосигнала, включенного в закодированный сигнал, этап 2510 для выполнения способа 2200 и этап 2515, причем общая операция содержит извлечение целевой огибающей во временной области из закодированного представления, включенного в закодированный сигнал, или из диапазона аудиосигнала, включенного в закодированный сигнал.

Фиг. 26 показывает блок-схему способа 2600 аудиокодирования. Способ 2600 содержит этап 2605 кодирования аудиосигнала во временной области, в результате чего закодированный аудиосигнал содержит представление последовательности кадров в частотной области аудиосигнала во временной области и представление целевой огибающей во временной области, и этап 2610 определения огибающей из аудиосигнала во временной области, причем блок определения огибающей дополнительно выполнен с возможностью сравнивать огибающую с множеством предварительно заданных огибающих, чтобы определить представление целевой огибающей во временной области на основе сравнения.

Дополнительные варианты осуществления изобретения относятся к следующим примерам. Это может быть способ, устройство или компьютерная программа для

1) итерационной реконструкции сигнала во временной области из представления в частотно-временной области,

2) формирования начальной оценки для магнитуды и информации фазы и представления в частотно-временной области,

3) применения промежуточных манипуляций сигнала к некоторым свойствам сигнала во время итераций,

4) преобразования представления в частотно-временной области обратно во временную область,

5) модулирования промежуточного сигнала во временной области с произвольной огибающей амплитуды,

6) преобразования модулированного сигнала во временной области обратно в частотно-временную область,

7) использования полученной в результате информации фазы для обновления представления в частотно-временной области,

8) эмуляции последовательности обратного преобразования и прямого преобразования посредством процедуры в частотно-временной области, которая добавляет специальным образом подвергнутые свертке и смещению вклады от смежных кадров в центральный кадр,

9) аппроксимации упомянутой выше процедуры посредством использования усеченных ядер свертки и использования свойств симметрии,

10) эмуляции модуляции во временной области посредством свертки желаемых кадров с частотно-временным представлением целевой огибающей,

11) применения манипуляций в частотно-временной области зависящим от времени и частоты образом, например, применения операций только для выбора частотно-временных элементов дискретизации, или

12) использования описанных выше процедур для перцепционного аудиокодирования, разделения звуковых источников и/или расширения диапазона.

Многие виды оценок в сценарии декомпозиции звука применены к устройству или способу в соответствии с вариантами осуществления, причем цель состоит в том, чтобы извлечь изолированные звуки барабана из полифонической записи барабанов. Может быть использован общедоступный набор тестов, который обогащен всей необходимой вспомогательной информацией, такой как истинные ("oracle") компонентные сигналы и их точные позиции транзиентов. В одном эксперименте в лабораторных условиях выполнено использование всей вспомогательной информации, чтобы сосредоточиться на оценке выгоды предложенного способа или устройства для обеспечения сохранности транзиента в реконструкции сигнала. При этих идеализированных условиях предложенный способ может значительно ослабить опережающее эхо, при этом демонстрируя аналогичные свойства сходимости, как исходный метод или устройство. В дополнительном эксперименте методика декомпозиции существующего уровня техники [3, 4] используется с ограничениями с информацией партитуры, чтобы оценить преобразование STFTM компонентного сигнала из комбинации. При этих (более реалистичных) условиях предложенный способ по-прежнему приводит к существенным улучшениям.

Следует понимать, что в этом описании сигналы на линиях иногда именуются посредством номеров для ссылок для линий или иногда обозначаются самими номерами для ссылок, которые были приписаны линиям. Таким образом, обозначение является таковым, что линия, имеющая некоторый сигнал, указывает сам сигнал. Линия может представлять собой физическую линию в жестко закодированной реализации. Однако в компьютеризированной реализации физическая линия не существует, но сигнал, представленный линией, передается от одного модуля вычисления к другому модулю вычисления.

Хотя настоящее изобретение было описано в контексте блок-схем, в которых блоки представляют фактические или логические аппаратные компоненты, настоящее изобретение также может быть реализовано посредством реализованного с помощью компьютера способа. В последнем случае блоки представляют соответствующие этапы способа, причем эти этапы обозначают функциональности, выполняемые соответствующими логическими или физическими аппаратными блоками.

Хотя некоторые аспекты были описаны в контексте устройства, понятно, что эти аспекты также представляют описание соответствующего способа, в котором блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все этапы способа могут быть исполнены посредством (или с использованием) аппаратного устройства, например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления один или более самых важных этапов способа могут быть исполнены таким устройством.

Переданный или закодированный сигнал изобретения может быть сохранен на цифровом запоминающем носителе или может быть передан на передающем носителе, таком как беспроводной передающий носитель или проводной передающий носитель, такой как Интернет.

В зависимости от конкретных требований реализации варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может быть выполнена с использованием цифрового запоминающего носителя, например гибкого диска, DVD, Blu-Ray, CD, ПЗУ (ROM), ППЗУ (PROM), СППЗУ (EPROM), ЭСППЗУ (EEPROM) или флэш-памяти, имеющего сохраненные на нем электронно-читаемые управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ. Таким образом, цифровой запоминающий носитель может быть машиночитаемым.

Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий электронно-читаемые управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой таким образом, что выполняется один из способов, описанных в настоящем документе.

В целом варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, программный код выполнен с возможностью выполнять один из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код программы, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в настоящем документе, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления способа изобретения, таким образом, является компьютерной программой, имеющей программный код для выполнения одного из способов, описанных в настоящем документе, когда компьютерная программа работает на компьютере.

Дополнительный вариант осуществления способов изобретения, таким образом, является носителем информации (или энергонезависимым запоминающим носителем, таким как цифровой запоминающий носитель или машиночитаемый носитель), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Носитель данных, цифровой запоминающий носитель или носитель с записанными данными обычно являются материальными и/или энергонезависимыми.

Дополнительный вариант осуществления способа изобретения, таким образом, является потоком данных или последовательностью сигналов, представляющими компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов, например, могут быть выполнены с возможностью быть переданными через соединение передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью выполнять один из способов, описанных в настоящем документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.

Дополнительный вариант осуществления в соответствии с изобретением содержит устройство или систему, выполненные с возможностью переносить (например, в электронном виде или оптически) компьютерную программу для выполнения одного из способов, описанных в настоящем документе, к приемнику. Приемник может, например, представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система могут, например, содержать файловый сервер для переноса компьютерной программы к приемнику.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторой или всей функциональности способов, описанных в настоящем документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в настоящем документе. В общем случае способы предпочтительно выполняются любым аппаратным устройством.

Описанные выше варианты осуществления являются лишь иллюстративными для принципов настоящего изобретения. Подразумевается, что модификации и изменения описанных здесь конфигураций и подробностей, будут очевидны для специалистов в области техники. Таким образом, изобретение ограничено только объемом следующей формулы изобретения, а не конкретными деталями, представленными посредством описания и объяснения вариантов осуществления настоящего изобретения.

СПИСОК ЛИТЕРАТУРЫ

[1] Daniel W. Griffin and Jae S. Lim, ʺSignal estimation from modified short-time Fourier transformʺ, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 32, no. 2, pp. 236-243, April 1984.

[2] Jonathan Le Roux, Nobutaka Ono, and Shigeki Sagayama, ʺExplicit consistency constraints for STFT spectrograms and their application to phase reconstructionʺ in Proceedings of the ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition, Brisbane, Australia, September 2008, pp. 23-28.

[3] Xinglei Zhu, Gerald T. Beauregard, and Lonce L. Wyse, ʺReal-time signal estimation from modified short-time Fourier transform magnitude spectraʺ, IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 5, pp. 1645-1653, July 2007.

[4] Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, and Shigeki Sagayama, ʺPhase initialization schemes for faster spectrogram-consistency-based signal reconstructionʺ in Proceedings of the Acoustical Society of Japan Autumn Meeting, September 2010, number 3-10-3.

[5] Nicolas Sturmel and Laurent Daudet, ʺSignal reconstruction from STFT magnitude: a state of the artʺ in Proceedings of the International Conference on Digital Audio Effects (DAFx), Paris, France, September 2011, pp. 375-386.

[6] Nathanaël Perraudin, Peter Balazs, and Peter L. Søndergaard, ʺA fast Griffin-Lim algorithmʺ in Proceedings IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, USA, October 2013, pp. 1-4.

[7] Dennis L. Sun and Julius O. Smith III, ʺEstimating a signal from a magnitude spectrogram via convex optimizationʺ in Proceedings of the Audio Engineering Society (AES) Convention, San Francisco, USA, October 2012, Preprint 8785.

[8] Tomohiko Nakamura and Hiokazu Kameoka, ʺFast signal reconstruction from magnitude spectrogram of continuous wavelet transform based on spectrogram consistencyʺ in Proceedings of the International Conference on Digital Audio Effects (DAFx), Erlangen, Germany, September 2014, pp. 129-135.

[9] Volker Gnann and Martin Spiertz, ʺInversion of shorttime fourier transform magnitude spectrograms with adaptive window lengthsʺ in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, (ICASSP), Taipei, Taiwan, April 2009, pp. 325-328.

[10] Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, and Shigeki Sagayama, ʺFast signal reconstruction from magnitude STFT spectrogram based on spectrogram consistencyʺ in Proceedings International Conference on Digital Audio Effects (DAFx), Graz, Austria, September 2010, pp. 397-403.

1. Устройство (2) для обработки аудиосигнала (49) для получения обработанного аудиосигнала (6), содержащее:

калькулятор (8) фазы для вычисления значений (10) фазы для спектральных значений последовательности кадров (12) в частотной области, представляющих накладывающиеся кадры аудиосигнала (4),

причем калькулятор (8) фазы выполнен с возможностью вычислять значения (10) фазы на основе информации целевой огибающей (14) во временной области, относящейся к обработанному аудиосигналу (6), таким образом, чтобы обработанный аудиосигнал имел, по меньшей мере, в приближении целевую огибающую (14) во временной области и спектральную огибающую, определенную посредством последовательности кадров (12) в частотной области.

2. Устройство (2) по п. 1,

в котором калькулятор (8) фазы содержит:

итерационный процессор (16) для выполнения итерационного алгоритма для вычисления, начиная со значений (18) начальной фазы, значений фазы для спектральных значений с использованием цели оптимизации, требующей согласованности накладывающихся блоков в диапазоне наложения,

причем итерационный процессор (16) выполнен с возможностью использовать на следующем шаге итерации обновленную оценку (20) фазы в зависимости от целевой огибающей (14) во временной области.

3. Устройство (2) по п. 1, в котором калькулятор (8) фазы выполнен с возможностью применять амплитудную модуляцию к промежуточной реконструкции во временной области аудиосигнала на основе целевой огибающей во временной области.

4. Устройство (2) по п. 1, в котором калькулятор (8) фазы выполнен с возможностью применять свертку спектрального представления по меньшей мере одной целевой огибающей (14) во временной области и по меньшей мере одной промежуточной реконструкции (28') в частотной области, или выбранных частей или диапазонов, или только высокочастотной части, или только нескольких полосно-пропускающих частей по меньшей мере одной целевой огибающей во временной области, или по меньшей мере одной промежуточной реконструкции в частотной области аудиосигнала.

5. Устройство (2) по п. 3, в котором калькулятор фазы содержит:

частотно-временной конвертер (22) для вычисления промежуточной реконструкции (28) во временной области аудиосигнала (4) на основе последовательности кадров (12) в частотной области и оценок (18) значений начальной фазы или оценки (20) значений фазы из предыдущего шага итерации,

амплитудный модулятор (24) для модуляции промежуточной реконструкции (28) во временной области с использованием целевой огибающей (14) во временной области для получения амплитудно-модулированного аудиосигнала (30) и

временно-частотный конвертер (26) для преобразования амплитудно-модулированного сигнала (30) в дополнительную последовательность кадров (32) в частотной области, имеющих значения (10) фазы, и

причем калькулятор фазы выполнен с возможностью использовать для следующего шага итерации значения фазы и спектральные значения последовательности кадров (12) в частотной области.

6. Устройство (2) по п. 5,

в котором калькулятор (8) фазы выполнен с возможностью выдавать промежуточную реконструкцию (28) во временной области в качестве обработанного аудиосигнала (6), когда выполнено условие определения итерации.

7. Устройство (2) по п. 4,

в котором калькулятор фазы содержит:

процессор (40) свертки для применения ядра свертки и для применения ядра смещения и для добавления накладывающейся части смежного кадра центрального кадра к центральному кадру, чтобы получить промежуточную реконструкцию (28) в частотной области аудиосигнала (4).

8. Устройство (2) по п. 4,

в котором калькулятор (8) фазы выполнен с возможностью использовать значения (10) фазы, полученные посредством свертки (34), в качестве обновленных оценок (20) значений фазы для следующего шага итерации.

9. Устройство (2) по п. 4,

дополнительно содержащее целевой конвертер (36) огибающей для преобразования целевой огибающей во временной области в спектральную область.

10. Устройство (2) по п. 4, дополнительно содержащее:

частотно-временной конвертер (38) для вычисления реконструкции (28’’) во временной области из промежуточной реконструкции (28', 28''') в частотной области с использованием оценок (10, 20) значения фазы, полученных из последнего шага итерации и последовательности кадров (12) в частотной области.

11. Устройство (2) по п. 4,

в котором калькулятор (8) фазы содержит процессор (40) свертки для обработки последовательности кадров (12) в частотной области, причем процессор свертки выполнен с возможностью применять процедуру наложения и добавления во временной области к последовательности кадров (12) в частотной области, чтобы определить промежуточную реконструкцию в частотной области.

12. Устройство (2) по п. 11,

в котором процессор (40) свертки выполнен с возможностью определять на основе текущего кадра в частотной области часть смежного кадра в частотной области, которая вносит вклад в текущий кадр в частотной области, после того, как наложение и добавление во временной области выполнено в частотной области,

причем процессор свертки дополнительно выполнен с возможностью определять позицию наложения части смежного кадра в частотной области в текущем кадре в частотной области и выполнять добавление частей смежных кадров в частотной области к текущему кадру в частотной области в позиции наложения.

13. Устройство (2) по п. 11, в котором процессор свертки выполнен с возможностью выполнять частотно-временное преобразование окна синтеза во временной области и окна анализа во временной области, чтобы определить часть смежного кадра в частотной области, которая вносит вклад в текущий кадр в частотной области, после того, как наложение и добавление во временной области выполнено в частотной области, причем процессор свертки дополнительно выполнен с возможностью смещать позицию смежного кадра в частотной области в позиции наложения в текущем кадре в частотной области и применять часть смежного кадра в частотной области к текущему кадру в позиции наложения.

14. Устройство (2) по п. 1,

в котором калькулятор (8) фазы выполнен с возможностью выполнять итерационный алгоритм в соответствии с итерационной процедурой реконструкции сигнала Гриффина и Лима.

15. Аудиокодер (100) для кодирования аудиосигнала, содержащий:

процессор (102) аудиосигнала, выполненный с возможностью кодировать аудиосигнал, в результате чего закодированный аудиосигнал (108) содержит представление последовательности кадров в частотной области аудиосигнала и представление целевой огибающей во временной области, и

блок (104) определения огибающей, выполненный с возможностью определять огибающую во временной области из аудиосигнала, причем блок (104) определения огибающей дополнительно выполнен с возможностью сравнивать огибающую с множеством предварительно заданных огибающих, чтобы определить представление целевой огибающей (14) во временной области на основе сравнения.

16. Аудиодекодер (110), содержащий:

устройство (2) по п. 1 и

входной интерфейс (112) для приема закодированного сигнала (108), закодированный сигнал содержит представление последовательности кадров в частотной области и представление целевой огибающей (18) во временной области.

17. Процессор (116) разделения звуковых источников, содержащий:

устройство (2) для обработки по п. 1 и блок (118) спектрального маскирования для маскирования спектра первоначального аудиосигнала для получения модифицированного аудиосигнала, введенного в устройство для обработки,

причем обработанный аудиосигнал (6) является отделенным сигналом источника, относящимся к целевой огибающей (14) во временной области.

18. Процессор (122) расширения диапазона для обработки закодированного аудиосигнала, содержащий:

процессор (126) расширения для формирования сигнала (127) расширения из диапазона аудиосигнала, включенного в закодированный сигнал, и

устройство (2) для обработки по п. 1,

причем процессор (126) расширения выполнен с возможностью извлекать целевую огибающую (14) во временной области из закодированного представления, включенного в закодированный сигнал, или из диапазона аудиосигнала, включенного в закодированный сигнал.

19. Способ (2200) обработки аудиосигнала для получения обработанного аудиосигнала, содержащий этапы, на которых:

вычисляют значения фазы для спектральных значений последовательности кадров, представляющих накладывающиеся кадры в частотной области аудиосигнала,

причем значения фазы вычисляются на основе информации целевой огибающей во временной области, относящейся к обработанному аудиосигналу, таким образом, чтобы обработанный аудиосигнал имел, по меньшей мере, в приближении целевую огибающую во временной области и спектральную огибающую, определенную последовательностью кадров в частотной области.

20. Способ (2300) аудиодекодирования, содержащий этапы, на которых:

выполняют способ по п. 19;

принимают закодированный сигнал, закодированный сигнал содержит представление последовательности кадров в частотной области и представление целевой огибающей во временной области.

21. Способ (2400) разделения звуковых источников, содержащий этапы, на которых:

выполняют способ по п. 19, и

выполняют маскирование спектра первоначального аудиосигнала для получения модифицированного аудиосигнала, введенного в устройство для обработки;

причем обработанный аудиосигнал является разделенным сигналом источника, относящимся к целевой огибающей во временной области.

22. Способ (2500) расширения диапазона закодированного аудиосигнала, содержащий этапы, на которых:

формируют сигнал расширения из диапазона аудиосигнала, включенного в закодированный сигнал;

выполняют способ по п. 19;

причем формирование содержит извлечение целевой огибающей во временной области из закодированного представления, включенного в закодированный сигнал, или из диапазона аудиосигнала, включенного в закодированный сигнал.

23. Способ (2600) аудиокодирования, содержащий этапы, на которых:

кодируют аудиосигнал, в результате чего закодированный аудиосигнал содержит представление последовательности кадров в частотной области аудиосигнала и представление целевой огибающей во временной области; и

определяют огибающую во временной области из аудиосигнала и сравнивают огибающую с множеством предварительно заданных огибающих, чтобы определить представление целевой огибающей во временной области на основе сравнения.

24. Компьютерно-читаемый носитель, на котором сохранена компьютерная программа, содержащая исполняемые компьютером инструкции для выполнения способа (2200) обработки аудиосигнала для получения обработанного аудиосигнала по п. 19.

25. Компьютерно-читаемый носитель, на котором сохранена компьютерная программа, содержащая исполняемые компьютером инструкции для выполнения способа (2300) аудиодекодирования по п. 20.

26. Компьютерно-читаемый носитель, на котором сохранена компьютерная программа, содержащая исполняемые компьютером инструкции для выполнения способа (2400) разделения звуковых источников по п. 21.

27. Компьютерно-читаемый носитель, на котором сохранена компьютерная программа, содержащая исполняемые компьютером инструкции для выполнения способа (2500) расширения диапазона закодированного аудиосигнала по п. 22.

28. Компьютерно-читаемый носитель, на котором сохранена компьютерная программа, содержащая исполняемые компьютером инструкции для выполнения способа (2600) аудиокодирования по п. 23.

Изобретение относится к области декодирования аудиоинформации. Технический результат – обеспечение улучшенного маскирования ошибки аудиоинформации.

Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора // 2676870

Изобретение относится к средствам для кодирования и декодирования аудиосигнала. Технический результат заключается в создании усовершенствованной концепции кодирования/декодирования аудиоданных, позволяющей уменьшить скорость передачи дополнительной информации для схемы направленного декодирования.

Изобретение относится к средствам для кодирования аудиосигнала. Технический результат заключается в повышении эффективности кодирования аудиоданных.

Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи // 2674922

Изобретение относится к средствам для кодирования и декодирования речи. Технический результат заключается в уменьшении опережающего и запаздывающего эха.

Системы и способы передачи избыточной информации кадра // 2673847

Изобретение относится к передаче избыточной информации кадра. Технический результат изобретения заключается в улучшении эффективности кодирования/декодирования данных.

Устройство преобразования коэффициентов линейного предсказания и способ преобразования коэффициентов линейного предсказания // 2673691

Изобретение относится к области кодирования аудио и речи. Технический результат – обеспечение эффективного сокращения объема вычислений при преобразовании коэффициентов линейного предсказания.

Способ и устройство для обнаружения голосовой активности // 2670785

Изобретение относится к области обнаружения речевой активности (VAD). Техническим результатом является уменьшение риска отсечения середины и окончания речевых пакетов путем добавления хвостов сигнала.

Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи // 2668407

Изобретение относится к радиотехнике. Техническим результатом является повышение точности определения момента появления речевого сигнала в условиях наличия помех.

Классификация и кодирование аудиосигналов // 2668111

Изобретение относится к кодированию аудио, более конкретно к анализу и согласованию характеристик входных сигналов для кодирования. Технический результат – повышение качества восстановленного аудиосигнала.

Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты // 2668058

Изобретение относится к средствам для расширения диапазона частот при декодировании аудиосигналов. Технический результат заключается в повышении эффективности расширения диапазона частот без дополнительной информации из кодера.

Способ и устройство для декодирования амбиофонического аудиопредставления звукового поля для проигрывания аудио с использованием 2d-компоновок // 2679230

Изобретение относится к средствам для декодирования аудиопредставления звукового поля. Технический результат заключается в повышении качества локализации звука.

Потоки данных элементов аудиовизуального контента // 2678323

Изобретение относится к обработке потока данных элементов аудиовизуального контента и, в частности, аудиовизуального контента транспортного потока MPEG-2. Техническим результатом является обеспечение улучшенного и более гибкого потока данных для аудиовизуального контента.

Аудиокодер, аудиодекодер, способы и компьютерная программа, использующие совместно кодированные разностные сигналы // 2677580

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования.

Аудиопроцессор и способ для обработки аудиосигнала с использованием горизонтальной фазовой коррекции // 2676416

Изобретение относится к средствам для обработки аудиосигнала с использованием горизонтальной фазовой коррекции. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Аудиопроцессор и способ для обработки аудиосигнала с использованием вертикальной фазовой коррекции // 2676414

Изобретение относится к средствам для обработки аудиосигнала с использованием вертикальной фазовой коррекции. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Способ повышения разборчивости речи // 2676022

Изобретение относится к средствам для разборчивости речи. Технический результат заключается в повышение разборчивости речи.

Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале // 2673390

Изобретение относится к средствам для обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале. Технический результат заключается в повышении эффективности усиления речевого компонента в многоканальном звуковом сигнале.

Передискретизация звукового сигнала для кодирования/декодирования с малой задержкой // 2679228

Изобретение относится к средствам передискретизации сигнала звуковой частоты при кодировании или декодировании сигнала звуковой частоты. Технический результат заключается в повышении эффективности передискретизации.