Устройство и способ изменения звукового сигнала посредством формирования огибающей

Авторы патента:

ДИШ Саша (DE)

G10H1/08 - путем сочетания тонов (G10H 1/14,G10H 1/16 имеют преимущество; аккорд G10H 1/38; анализирование или синтезирование речи G10L)

Владельцы патента RU 2591733:

Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE)

Изобретение относится к акустике, в частности к устройствам для модификации звукового сигнала, и содержит определитель формы огибающей, процессор банка фильтров, процессор сигнала, объединитель и формирователь огибающей. Определитель формы огибающей вычисляет коэффициенты формирования огибающей звукового сигнала, процессор банка фильтров обеспечивает полосовую фильтрацию, процессор сигнала корректирует сигнал с ограниченной полосой частот. Затем множество сигналов с заданными частотными поддиапазона объединяются, чтобы получить звуковой сигнал временного интервала. Формирователь огибающей генерирует огибающую звукового сигнала с учетом коэффициентов формирования огибающей. При этом определитель формы огибающей сконфигурирован, чтобы определить коэффициенты формирования огибающей на основе предсказания частоты. Преобразователь огибающей состоит из преобразователя коэффициентов и множителя. Процессор банка фильтров содержит фильтр с предсказанием, блок вычитания сигнала и банк фильтров, а формирователь огибающей вычисляет энергетическое отношение запаса энергии звукового сигнала частотной области и энергетического содержания остаточного звукового сигнала. Технический результат - улучшение качества звука. 3 н. и 11 з.п. ф-лы, 23 ил., 4 табл.

Осуществления согласно изобретению связаны с обработкой звука и, в частности, с устройством и способом изменения (модификации) звукового сигнала.

Существует возрастающая потребность в способах цифровой обработки сигнала, которые отвечали бы необходимости в предельных манипуляциях сигналом, чтобы приспосабливать записанные заранее звуковые сигналы, например, взятые из базы данных, к новому музыкальному контексту. Чтобы сделать это, семантические свойства сигнала высокого уровня, такие как высота, музыкальная тональность и гамма должны быть адаптированы. Все эти манипуляции объединяются тем, что они стремятся к существенному изменению музыкальных свойств оригинального звукового материала, сохраняя субъективное звуковое качество, насколько возможно хорошим. Другими словами, редактирование сильно изменяет содержание звукового музыкального материала, но, тем не менее, необходимо для сохранения естественности обработанного звукового образца и, таким образом, для поддерживания правдоподобности. В идеале для этого требуются способы обработки сигнала, которые широко применимы к различным классам сигналов, включая полифонический комбинированный музыкальный контент.

Сегодня известно много концепций изменения звуковых сигналов. Некоторые из этих концепций основаны на вокодерах.

Например, в работах С. Диша и Б. Эдлера, «Вокодер амплитудной и частотной модуляции для звуковой обработки сигнала», Докум. междунар. конференции по цифровым звуковым эффектам (DAFx), 2008 г., С. Диша и Б. Эдлера, «Анализ многополосной перцепционной модуляции, обработка и синтез звуковых сигналов», Докум. IEEE-ICASSP, 2009 г., или С. Диша и Б. Эдлера, «Итерационный алгоритм сегментации для спектров звукового сигнала в зависимости от предполагаемых локальных центров тяжести», 12-ая Международная конференция по цифровым звуковым эффектам (DAFx-09), 2009 г., была представлена концепция вокодера модуляции (MODVOC), и было указано на его общую способность выполнить достоверное селективное транспонирование на полифоническом музыкальном контенте. Это делает возможными применения, которые направлены на изменение ключевой тональности заранее записанных музыкальных образцов РСМ (импульсно-кодовая модуляция) (см., например, работу С. Диша и Б. Эдлера, «Анализ многополосной перцепционной модуляции, обработка и синтез звуковых сигналов», Докум. IEEE-ICASSP, 2009 г.). Доступно также первое коммерчески пригодное программное обеспечение, которое может справляться с такой задачей полифонического манипулирования (редактор Melodyne от Celemony). Программное обеспечение реализует технологию, которая была маркирована и продана по условиям прямого доступа к ссылке (DNA). Заявка на патент ЕР 2099024, П. Нойбекер, "Способ акустического объективно-ориентированного анализа и объективно-ориентированная обработка нот при записи полифонических звуков», сентябрь 2009) была недавно опубликована, по-видимому, охватывая и, таким образом, раскрывая существенные функциональные возможности DNA. Независимо от способа, используемого для изменения звукового сигнала, желательно получить звуковой сигнал с высоким перцепционным качеством.

Задачей настоящего изобретения является представление улучшенной концепции изменения звукового сигнала, которая позволит получить улучшенное качество восприятия измененного звукового сигнала.

Это достигается посредством использования устройства по п.1, способа по п.13 или компьютерной программы по п.14.

Реализация изобретения осуществляется при помощи устройства для модификации звукового сигнала, состоящего из процессора с набором фильтров, блока определения основного тона, процессора сигналов и блока сведения. Процессор с набором фильтров предназначен для получения множества полос сигналов, выделенных из входного звукового сигнала. Далее, блок определения основного тона предназначен для выделения сигнала определенной полосы пропускания из множества сигналов для получения сигнала основного тона в полосе частот. Блок определения обертона предназначен идентифицировать сигнал определенной частоты из множества сигналов, удовлетворяющих критериям обертона по отношению к выбранному сигналу основного тона и получения сигнала обертона, связанного с выбранным сигналом основного тона. Далее, процессор сигнала предназначен изменять сигнал основного тона, основываясь на заданной модели модификации. Дополнительно, процессор сигнала предназначен для модификации (изменения) выделенного сигнала обертона, связанного с выбранным сигналом основного тона, зависящим от изменения выбранного сигнала основного тона. Далее, блок сведения предназначен для объединения множества сигналов для получения модифицированного звукового сигнала.

Идентифицируя обертоны основных частот и изменяя обертоны таким же образом, как и соответствующие основные тоны, можно избежать раздельного изменения (модификации) основных тонов и их обертонов так, чтобы тембр измененного звукового сигнала мог быть сохранен более точно по сравнению с оригинальным звуковым сигналом. Таким образом, перцепционное качество измененного звукового сигнала может быть значительно улучшено. Например, если требуется селективное транспонирование высоты (например, изменяя тональность от до мажора до до минора данного музыкального сигнала), изменение идентифицированного обертона сигнала с ограниченной полосой частот коррелируется с изменением основного сигнала с ограниченной полосой частот. Для сравнения, известные способы изменяют частотную область сигнала с ограниченной полосой частот, представляющего обертоны иначе, чем основной сигнал с ограниченной полосой частот. Другими словами, идентифицированный обертон сигнала с ограниченной полосой частот блокируется до основного сигнала с ограниченной полосой частот при использовании описанной концепции.

В некоторых осуществлениях изобретения обертон сигнала с ограниченной полосой частот может быть идентифицирован посредством сравнения частот основного сигнала с ограниченной полосой частот и сигналов с ограниченной полосой частот множества сигналов с ограниченной полосой частот посредством сравнения запаса энергии основного сигнала с ограниченной полосой частот и сигнала с ограниченной полосой частот множества сигналов с ограниченной полосой частот и/или посредством оценки корреляции временной огибающей основного сигнала с ограниченной полосой частот и временной огибающей сигнала с ограниченной полосой частот множества сигналов с ограниченной полосой частот. Таким образом, один или более критериев обертона могут быть определены для минимизации идентификации неправильных обертонов.

Некоторые осуществления согласно изобретению связаны с итеративным определением основных сигналов с ограниченной полосой частот и идентификацией обертонов сигналов с ограниченной полосой частот из множества сигналов с ограниченной полосой частот. Уже выбранные основные сигналы с ограниченной полосой частот и уже идентифицированные обертоны сигналов с ограниченной полосой частот могут быть удалены из области поиска или, другими словами, могут не рассматриваться для определения дальнейшего основного сигнала с ограниченной полосой частот или дальнейшего обертона сигнала с ограниченной полосой частот. Таким образом, каждый сигнал с ограниченной полосой частот множества сигналов с ограниченной полосой частот может быть выбран как основной сигнал с ограниченной полосой частот (и, поэтому, может быть изменен независимо от других основных сигналов с ограниченной полосой частот) или обертон сигнала с ограниченной полосой частот (и, поэтому, может быть изменен в зависимости от связанного выбранного основного сигнала с ограниченной полосой частот).

Другое осуществление изобретения обеспечивает устройство для изменения звукового сигнала, включающего определитель формы огибающей, процессор банка фильтров, процессор сигнала, объединитель и формирователь огибающей. Определитель формы огибающей сконфигурирован, чтобы определить коэффициенты формы огибающей, основываясь на звуковом сигнале частотной области, представляющем входной звуковой сигнал временного интервала. Далее, процессор банка фильтров сконфигурирован, чтобы произвести множество сигналов с ограниченной полосой частот в области поддиапазона, основываясь на звуковом сигнале частотной области. Процессор сигнала сконфигурирован, чтобы изменить сигнал с ограниченной полосой частот области поддиапазона множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на предварительно определенной цели изменения (модификации). Далее, объединитель формируется, чтобы объединить, по крайней мере, подмножество множества сигналов с ограниченной полосой частот области поддиапазона, чтобы получить звуковой сигнал временного интервала. Дополнительно, формирователь огибающей сконфигурирован, чтобы сформировать огибающую звукового сигнала временного интервала, основываясь на коэффициентах формы огибающей, чтобы сформировать огибающую множества сигналов с ограниченной полосой частот области поддиапазона, содержащего измененный сигнал с ограниченной полосой частот области поддиапазона, основываясь на коэффициентах формы огибающей, или чтобы сформировать огибающую множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на коэффициентах формы огибающей до того, как сигнал с ограниченной полосой частот области поддиапазона будет изменен процессором сигнала для получения сформированного звукового сигнала.

Посредством определения коэффициентов формы огибающей звукового сигнала частотной области до того, как звуковой сигнал частотной области выделяется в множестве сигналов с ограниченной полосой частот области поддиапазона, информация о спектральной когерентности звукового сигнала может быть сохранена и может использоваться для формирования огибающей звукового сигнала временного интервала после изменения одного или нескольких сигналов с ограниченной полосой частот области поддиапазона. Таким образом, спектральная когерентность измененного звукового сигнала может быть сохранена более точно, хотя изменяются только некоторые (или только один) сигналы с ограниченной полосой частот области поддиапазона или сигналы с ограниченной полосой частот области поддапазона изменяются по-другому, что может нарушить спектральную когерентность звукового сигнала. Таким образом, перцепционное качество измененного звукового сигнала может быть значительно улучшено.

Некоторые осуществления согласно изобретению, связанные с процессором сигнала, формируются, чтобы изменить второй сигнал с ограниченной полосой частот области поддиапазона множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на второй предварительно определенной цели изменения. Предварительно определенная цель изменения и вторая предварительно определенная цель изменения различны. Хотя сигналы с ограниченной полосой частот изменяются по-разному, спектральная когерентность измененного звукового сигнала может быть сохранена более точно благодаря формированию огибающей после индивидуального изменения сигналов с ограниченной полосой частот.

Осуществления согласно изобретению будут, впоследствии, описаны детально со ссылкой на приложенные рисунки, где:

Фиг.1 - блок-схема устройства для изменения звукового сигнала;

Фиг.2 - блок-схема устройства для изменения звукового сигнала;

Фиг.3 - блок-схема способа изменения звукового сигнала;

Фиг.4 - блок-схема части вокодера модуляции, использующего гармоническую блокировку;

Фиг.5 - блок-схема способа изменения звукового сигнала;

Фиг.6a, 6b, 6c, 6d - блок-схемой устройства для изменения звукового сигнала;

Фиг.7 - блок-схема процессора банка фильтров;

Фиг.8 - блок-схема формирователя огибающей;

Фиг.9 - схематическая иллюстрация анализа модуляции с формированием огибающей;

Фиг.10 - схематическая иллюстрация синтеза модуляции с формированием огибающей;

Фиг.11 - блок-схема способа изменения звукового сигнала;

Фиг.12 - блок-схема устройства для изменения звукового сигнала;

Фиг.13 - схематическая иллюстрация анализа модуляции;

Фиг.14 - схематическая иллюстрация выполнения анализа модуляции;

Фиг.15 - схематическая иллюстрация синтеза модуляции;

Фиг.16 - схематическая иллюстрация селективного транспонирования на компоненте вокодера модуляции;

Фиг.17 - схематическая иллюстрация процедуры получения тестовой последовательности для оценки субъективного качества обработки вокодером модуляции для селективного транспонирования высоты (звука);

Фиг.18 - диаграмма, показывающая абсолютный счет MUSHRA и 95%-ые доверительные интервалы теста слушания, направленные населективное транспонирование высоты (звука);

Фиг.19 - диаграмма, показывающая разностный счет MUSHRA относительно состояния вокодера модуляции и 95%-ые доверительные интервалы теста слушания, направленные на селективное транспонирование высоты (звука); и

Фиг.20 - диаграмма, показывающая разностный счет MUSHRA относительно состояния DNA(прямой доступ к ссылке) и 95%-ые доверительные интервалы теста слушания, направленные на селективное транспонирование высоты (звука).

В дальнейшем, те же самые номера ссылок частично используются для объектов и функциональных единиц, имеющих те же самые или подобные функциональные свойства, и их описание относительно рисунка должно примениться также к другим рисункам, чтобы уменьшить избыточность в описании осуществлений.

Селективное изменение частотного диапазона, также называемое селективным транспонированием высоты (звука), может быть реализовано, например, вокодером или вокодером модуляции.

Многополосное разложение модуляции (см. например, работу С. Диша и Б. Эдлера, «Анализ многополосной перцепционной модуляции, обработка и синтез звуковых сигналов», Докум. IEEE-ICASSP, 2009 г.)рассекает звуковой сигнал на адаптивное множество сигналов (аналитических) сигналов с ограниченной полосой частот, каждый из которых далее разделяется на синусоидальную несущую частоту и ее амплитудную модуляцию (AM) и частотную модуляцию (FM).Множество полосовых фильтров может быть вычислено таким образом, что, с одной стороны, полнополосный спектр покрывается плавно (без резких переходов), а с другой стороны, фильтры выравниваются с общими центрами тяжести (COGs), например. Дополнительно, слуховое восприятие человека может вычисляться, посредством выбора полосы пропускания фильтров, чтобы соответствовать перцепционной шкале, например, шкала ERB (см., например, работу Б. К. Дж. Мура и Б. Р. Гласберга, «Модификация модели громкости Цвикера» Acta Acustica, издание 82, стр.335-345, 1996 г.).

Например, локальный COG соответствует средней частоте, которая воспринимается слушателем благодаря спектральным вкладам в той частотной области. Кроме того, полосы, сосредоточенные в местах локальных COG, могут соответствовать фазе блокировки, основанной на областях зависимости классических фазовых вокодеров (см., например, работу Дж. Лароша и М. Долсона, «Улучшенная модификация шкалы времени фазового вокодера звука», Труды IEEE по обработке речи и звука», издании 7, номер 3, стр.323-332, 1999 г., или работу К. Даксбери, М. Дэвиса, и М. Сандлера, «Улучшенное масштабирование времени музыкального звука, использующее фазу блокировки в переходных процессах», в 112-м Соглашении AES, 2002 г.). Представление огибающей сигнала с ограниченной полосой частот и традиционная фаза блокировки области зависимости, оба сохраняют временную огибающую сигнала с ограниченной полосой частот: или по существу или, в последнем случае, обеспечивая когерентность локальной спектральной фазы во время синтеза. Относительно синусоидальной несущей частоты, соответствующей предполагаемому локальному COG, и АМ (амплитудная модуляция) и РМ (частотная модуляция) собираются в огибающей амплитуды и гетеродинированной фазе аналитических сигналов с ограниченной полосой частот, соответственно. Специальный способ синтеза визуализирует выходной сигнал от несущих частот, AM и FM.

Блок-схема возможного выполнения 1300 разложения сигнала на сигналы несущей и связанные с ними компоненты модуляции изображена на фиг.13. На фигуре показан схематический поток сигналов для извлечения одного из многополосных компонентов (сигналы с ограниченной полосой частот). Все другие компоненты получаются подобным образом. Во-первых, широкополосный входной сигнал х подается в полосовой фильтр, который был разработан как сигнал, адаптивно производящий выходной сигнал. Затем, получается аналитический сигнал посредством преобразования Гильберта согласно уравнению (1).

$\hat{x} (t) = \tilde{x} (t) + j H (\bar{x} (t)) (1)$

АМ (амплитудно-модулированный сигнал) представлен огибающей амплитуды $\hat{x}$

$A M (t) = | \hat{x} (t) | (2)$

в то время как FM (частотно модулированный сигнал) получается посредством производной фазы аналитического сигнала, гетеродированного постоянной синусоидальной несущей с угловой частотой ω_с.Несущая частота должна быть оценкой локального СОС Следовательно, FM может рассматриваться как IF (мгновенная частота) вариант в несущей частоте fc.

$\begin{array}{l} \overset{`}{x} (t) = \hat{x} (t) \cdot \exp (- j ω_{c} t) \\ F M (t) = \frac{1}{2 π} \cdot \frac{d}{d t} ∠ (\overset{`}{x} (t)) (3) \end{array}$

Оценка локального COG и сигнал-адаптивная схем банка фильтров преселектора описаны, например, в специализированной публикации (см. С. Диш и Б. Эдлер, «Итерационный алгоритм сегментации для спектров звукового сигнала в зависимости от предполагаемых локальных центров тяжести», 12-ая Международная конференция по цифровым звуковым эффектам (DAFx-09), 2009 г.).

Фактически, в системе дискретного времени извлечение компонента может выполняться совместно для всех компонентов, как показано на фиг.14. Схема обработки может поддерживать вычисление в реальном времени. Обработка определенного блока времени зависит только от параметров предыдущих блоков. Следовательно, не требуется никакого предварительного просмотра, чтобы поддерживать полную задержку обработки насколько возможно низкой. Обработка вычисляется на поблочной основе, использующей, например, 75%-ое наложение блока анализа и применение дискретного преобразования Фурье (DFT) на каждом реализуемом посредством организации окна блоке сигнала. Окно может быть плоским верхним окном согласно уравнению (4). Это гарантирует то, что центрированные образцы N/2, которые передаются для последующего синтеза модуляции, использующего 50%-ое наложение, не затрагиваются границами окна анализа. Более высокая степень наложения может использоваться для повышения точности за счет увеличенной сложности вычисления.

$w i n d o w {(i)}_{a n a l y s i s} = {\begin{matrix} \sin^{2} (\frac{2 i π}{N}) & 0 & < & i & < & \frac{N}{4} \\ 1 & \frac{N}{4} & \leq & i & < & \frac{3 N}{4} \\ \sin^{2} (\frac{2 i π}{N}) & \frac{3 N}{4} & \leq & i & < & N (4) \end{matrix}$

При заданном спектральном представлении вычисляется следующее множество сигнал-адаптивных спектральных весовых функций полос пропускания, которые выравниваются с локальными позициями COG. После применения взвешивания полосы пропускания к спектру сигнал передается во временной интервал, и аналитический сигнал может быть получен посредством преобразования Гильберта. Эти две ступени обработки могут быть эффективно объединены посредством вычисления одностороннего IDFT(обратное дискретное преобразование Фурье) на каждом сигнале с ограниченной полосой частот. При заданном сигнале с ограниченной полосой частот дискретного времени оценка IF посредством уравнения (3) выполняется дифференцированием фазы, как определено в уравнении (5), где* обозначает комплексно сопряженное число. Это выражение удобно использовать, так как оно позволяет избежать неопределенности фазы и, следовательно, необходимости развертывания фазы.

$F M (n) = ∠ (\overset{`}{x} (n) \overset{`}{x} {(n - 1)}^{*}) (5)$

Сигнал синтезируется на аддитивный основе всех компонентов. Последовательные блоки смешиваются наложением - добавлением (OLA), которое контролируется связующим механизмом. Связывание компонентов гарантирует плавный переход между границами смежных блоков, даже если компоненты существенно изменены посредством обработки области модуляции. Связывание принимает во внимание только предыдущий блок, таким образом, потенциально обеспечивая обработку в режиме реального времени. Связывание, по существу, выполняет попарное выравнивание компонентов текущего блока с их предшественниками в предыдущем блоке. Дополнительно, связывание выравнивает абсолютные фазы компонентов текущего блока с абсолютными фазами компонентов предыдущего блока. Для компонентов, не имеющих соответствия по временным блокам, применяется постепенное усиление (нарастание) или замирание, соответственно.

Для одного компонента последовательность обработки показана на фиг.15. Подробно, сначала FM сигнал добавляется к постоянной несущей частоте, и получающийся сигнал передается на стадию OLA, выход которой, впоследствии, интегрируется во времени. Синусоидальный генератор (осциллятор) питается получающимся фазовым сигналом. Сигнал AM обрабатывается второй стадией OLA. Затем, выход генератора модулируется по амплитуде сигналом АМ, чтобы получить аддитивный вклад компонента в выходной сигнал. На заключительной ступени вклады всех компонентов суммируются, чтобы получить выходной сигнал у.

Другими словами, фиг.13 и 14 показывают анализатор модуляции 1300. Анализатор модуляции 1300 предпочтительно включает полосовой фильтр 1320а, который обеспечивает сигнал с ограниченной полосой частот. Это вход в аналитический преобразователь сигнала 1320b. Выход блока 1320b полезен для вычисления информации AM и информации РМ. Для вычисления информации АМ величина аналитического сигнала вычисляется блоком 1320 с. Выход блока аналитического сигнала 1320b является входом в множитель 1320d, который получает, на его другом входе, сигнал генератора от генератора 1320е, которым управляет текущая несущая частота f_c 1310 полосы пропускания 1320а. Тогда, фаза выхода множителя определяется в блоке 1320f. Мгновенная фаза дифференцируется в блоке 1320 g, чтобы, наконец, получить FM информацию. Кроме того, фиг.14 показывает препроцессор 1410, генерирующий спектр DFT (дискретное преобразование Фурье) звукового сигнала.

Многополосное разложение модуляции рассекает звуковой сигнал на сигнал-адаптивное множество сигналов (аналитических) сигналов с ограниченной полосой частот, каждый из которых далее разделяется на синусоидальную несущую и ее модуляцию амплитуды (AM) и модуляцию частоты (FM). Множество полосовых фильтров рассчитывается таким образом, что, с одной стороны, полнополосный спектр покрывается равномерно и, с другой стороны, каждый фильтр выравнивается с локальными ССЮз. Дополнительно, слуховое восприятие человека отвечает за выбор полосы пропускания фильтров, чтобы соответствовать перцепционной шкале, например, ЕЯВ шкала (см. работу Б. К. Дж. Мура и Б. Р. Гласберга, «Модификация модели громкости Цвикера» Acta Acustica, издание 82, стр.335-345, 1996 г.).

Локальный COG соответствует средней частоте, которая воспринимается слушателем благодаря спектральным вкладам в ту частотную область. Кроме того, полосы, сосредоточенные в локальных позициях COG, соответствуют фазе блокировки, основанной на областях зависимости классических фазовых вокодеров (см. например, работу Дж. Лароша и М. Долсона, «Улучшенная модификация шкалы времени фазового вокодера звука», Труды IEEE по обработке речи и звука», издании 7, номер 3, стр.323-332, 1999 г., работу Ч. Даксбери, М. Дэвиса, и М. Сандлера, «Улучшенное масштабирование времени музыкального звука, использующее фазу блокировки в переходных процессах», в 112-ом Соглашении AES, 2002 г., А. Ребель, «Новый подход к обработке переходных процессов в фазовом вокодере», Докум. междунар. конференции по цифровым звуковым эффектам (DAFx), стр.344-349, 2003 г., А. Ребель, «Обнаружение и сохранение переходных процессов в фазовом вокодере», Междунар. конференция по компьютерной музыке (ICMC '03), стр.247-250, 2003 г.). Представление огибающей сигнала с ограниченной полосой частот и традиционная фаза блокировки области зависимости, сохраняют временную огибающую сигнала с ограниченной полосой частот, обеспечивая локальную спектральную последовательность фазы во время синтеза. Относительно синусоидальной несущей частоты, соответствующей предполагаемому локальному COG, и AM и FM вводятся в огибающую амплитуды и гетеродинированную фазу аналитических сигналов с ограниченной полосой частот, соответственно. Специальный способ синтеза визуализирует выходной сигнал от несущих частот, AM и FM.

Блок-схема разложения сигнала на сигналы несущей и связанные с ними компоненты модуляции изображены на фиг.12. На чертеже показан схематический поток сигнала для извлечения одного компонента. Все другие компоненты получаются аналогичным способом. Практически, извлечение выполняется совместно для всех компонентов на поблочной основе, использующей, например, размер блока N=2¹⁴при 48 кГц частоты дискретизации и 75%-ном наложении для анализа - примерно соответствующие временному интервалу в 340 миллисекунд и большому шагу в 85 миллисекунд - посредством применения дискретного преобразования Фурье (DFT) на каждом реализуемом посредством организации окна блоке сигнала. Окно может быть «плоским верхним» окном согласно уравнению (a). Это может гарантировать то, что центрированные образцы N/2, которые передаются для последующего синтеза модуляции, не затрагиваются уклонами окна анализа. Более высокая степень наложения может использоваться для повышения точности за счет увеличенной сложности вычисления.

При заданном спектральном представлении следующее множество сигнал-адаптивных спектральных функций взвешивания (имеющее полосно-пропускающую характеристику), которое выравнивается с локальными позициями COG, может быть вычислено (посредством определителя несущей частоты 1330, исходя из оценки несущей частоты или оценки кратной несущей частоты COG). После применения взвешивания полосы пропускания к спектру сигнал преобразуется во временной интервал, и аналитический сигнал получается посредством преобразования Гильберта. Эти два шага обработки могут быть эффективно объединены посредством вычисления одностороннего IDFT на каждом сигнале с ограниченной полосой частот. Впоследствии, каждый аналитический сигнал гетеродинируется посредством его предполагаемой несущей частотой. Наконец, сигнал далее разлагается на огибающую амплитуды и дорожку мгновенной частоты (IF), полученные посредством вычисления производной фазы, дающей в результате желательную АМ и РМ сигнала (см. также работу С. Диша и Б. Эдлера, «Вокодер амплитудной и частотной модуляции для звуковой обработки сигнала», Докум. междунар. конференции по цифровым звуковым эффектам (DAFx), 2008 г.)

Соответственно, фиг.15 показывает блок-схему параметризованного представления синтезатора изменения 1500 звукового сигнала. Например, преимущественное выполнение основывается на операции наложения - добавления (OLA) в области модуляции, то есть в области, до генерирования сигнала с ограниченной полосой частот временного интервала. Входной сигнал, который может быть битовым потоком, но который также может быть прямой связью с анализатором или модификатором, разделяется на АМ компонент 1502, FM компонент, 1504 и компонент несущей частоты 1506. Синтезатор AM предпочтительно включает сумматор наложения 1510 и, дополнительно, связующий компоненты контроллер 1520, который, предпочтительно включает не только блок 1510, но также блок 1530, который является сумматором наложения в пределах FM синтезатора. FM синтезатор дополнительно включает сумматор наложения частоты 1530, интегратор мгновенной частоты 1532, объединитель фазы 1534, который, снова, может быть выполнен как обычный сумматор, и фазосдвигающую схему (фазовращатель) 1536, которая управляется связывающим элементы контроллером 1520, чтобы восстановить постоянную фазу от блока к блоку так, чтобы фаза сигнала от предыдущего блока была непрерывна с фазой текущего блока. Поэтому, можно сказать, что дополнение фазы в элементах 1534, 1536 соответствует восстановлению константы, которая была потеряна во время дифференцирования в блоке 1520g нафиг.13 на стороне анализатора. Относительно перспективы потери информации в перцепционной области следует заметить, что это - единственная потеря информации, то есть, потеря постоянной части устройством дифференцирования 1320g на фиг.13. Эта потеря может быть компенсирована посредством добавления постоянной фазы, определенной связующим компоненты устройством 1520.

Наложение - добавление (OLA) применяется скорее в области значений параметра, а не на быстро синтезируемом сигнале, чтобы избежать эффектов биения между смежными блоками времени. OLA контролируется связующим компоненты механизмом, который, будучи направляемым спектральной близостью (измеренный по ERB шкале), выполняет попарное соответствие компонентов текущего блока их предшественникам в предыдущем блоке. Дополнительно, связывание выравнивает абсолютные фазы компонентов текущего блока с абсолютными фазами компонентов предыдущего блока.

Подробнее, во-первых, РМ сигнал добавляется к несущей частоте, и результат передается на стадию OLA, выход которой, впоследствии, интегрируется. Синусоидальный генератор 1540 питается получающимся фазовым сигналом. Сигнал AM обрабатывается второй стадией OLA. Наконец, выход генератора модулируется 1550 по амплитуде результирующим сигналом АМ, чтобы получить аддитивный вклад компонента в выходной сигнал 1560.

Следует подчеркнуть, что соответствующая спектральная сегментация сигнала в ходе анализа модуляции чрезвычайно важна для убедительного результата дальнейшей обработки параметров модуляции. Поэтому, здесь описывается пример подходящего алгоритма сегментации.

Соответственно, фиг.16 показывает пример 1600 применения для изменений полифонической тональности. На фигуре показано селективное транспонирование на компонентах вокодера модуляции. Несущие частоты квантуются до нот(записей) MIDI (цифровой интерфейс музыкальных инструментов), которые отображаются на подходящих соответствующих нотах MIDI. Сохранение относительной FM модуляции посредством умножения отображенных компонентов на отношение оригинальной и измененной несущей частоты.

Транспонирование звукового сигнала при сохранении оригинальной скорости воспроизведения является перспективной задачей. При использовании предложенной системы, это достигается непосредственно при умножении всех компонентов несущей на постоянный множитель. Так как временная структура входного сигнала захватывается исключительно сигналами AM, она не затрагивается растяжением спектрального интервала несущей.

Даже при высоких требованиях к эффекту, он может быть достигнут посредством селективной обработки. Тональность музыкального произведения может быть изменена, например, от минора на мажор или наоборот. Поэтому только подмножество несущих, соответствующих определенным предварительно определенным частотным интервалам, отображается на подходящих новых значениях. Чтобы достигнуть этого, несущие частоты квантуются 1670 до высот (звука) MIDI, которые, впоследствии, отображаются 1672 на соответствующих новых высотах (звука) MIDI (используя предварительное знание тональности и формы музыкального отрывка, подлежащего обработке).

Затем, отображенные ноты MIDI преобразовываются обратно 1574, чтобы получить измененные несущие частоты, которые используются для синтеза. Специальное обнаружение начальной/смещенной ноты MIDI не требуется, так как временные характеристики преобладающе представлены неизмененным AM и, таким образом, сохранены. Произвольные таблицы отображения могут быть определены, что делает возможным преобразование в и из других минорных оттенков (например, гармонический минор).

Применение в сфере звуковых эффектов - глобальное транспонирование звукового сигнала. Обработка, требуемая для этого звукового эффекта, является простым умножением несущих на постоянный коэффициент транспонирования. Также, посредством умножения FM на тот же самый коэффициент обеспечивается сохранение относительной FM глубины модуляции для каждого компонента. Так как временная структура входного сигнала захватывается, исключительно, сигналами AM, она не затрагивается обработкой. Глобальное транспонирование изменяет оригинальную тональность музыкального сигнала на целевую тональность (например, от до мажора до соль мажора), сохраняя оригинальный темп.

Однако из-за сигнал-адаптивной природы предложенного анализа модуляции вокодер модуляции имеет потенциал, выходящий за пределы этой задачи. Теперь, даже транспонирование выбранных компонентов полифонической музыки становится реальным, что делает возможными применения, которые, например, изменяют тональность (например, от до мажора до до минора) данного музыкального сигнала (см., например, работу С. Диша и Б. Эдлера, «Анализ многополосной перцепционной модуляции, обработка и синтез звуковых сигналов», Докум. IEEE-ICASSP, 2009 г.). Это возможно благодаря тому, что каждый компонент несущей близко соответствует воспринятой высоте (звука)в ее спектральной области. Если только несущие, которые относятся к определенным оригинальным высотам (звука), отображаются на новых целевых значениях, воздействие оказывается на общий музыкальный характер, который определяется тональностью.

Необходимая обработка на компонентах MODVOC изображена на фиг.16, как было сказано выше. В пределах области разложения MODVOC несущие частоты квантуются до нот MIDI, которые впоследствии отображаются на подходящих соответствующих нотах MIDI. Для значимого перераспределения MIDI высот и названий нот может потребоваться предварительное знание формы и тональности оригинального музыкального отрывка. AM всех компонентов не действует вообще, так как они не содержат информации о высоте (звука).

В частности, несущие частоты компонента f, которые представляют высоту (звука) компонента, преобразуются в значения высоты MIDIm согласно уравнению 6, где f_stdобозначает стандартную высоту (звука), что соответствует высоте (звука) MIDI 69, ноте А0.

$m (f) = 69 + 12 \cdot \log_{2} \frac{| f |}{f_{s t d}}$

$n (f) = r o u n d (m (f))$

$o (f) = m (f) - n (f)$

$n \to n^{'} (6)$

$n \to n^{'}$

$f^{'} = f_{s t d} \cdot 2^{(n^{'} + o (f) - 69) / 12} (7)$

Впоследствии высоты (звука) MIDI квантуются до нот MIDI n(f) и, дополнительно, определяется смещение высоты о(f) каждой ноты. При использовании таблицы отображения нот MIDI, которая зависит от тональности, оригинальной формы и целевой формы; эти ноты MIDI преобразуются до подходящих целевых значений n'. В нижеприведенной таблице примерное отображение дано для тональности С (до) от мажора до чистого минора. Таблица показывает таблицу отображения нот MIDI для преобразования гаммы от до мажора до до чистого минора. Отображение применяется для нот всех октав.

Original note	Target note
C	C
D	D
E	Eb
F	F
G	G
A	Ab
B	Bd

(original note- оригинальная (исходная) нота, target note- целевая нота, C - до, D - ре, E - ми, F - фа, G - соль, A - ля, B - си, b - бемоль, d - диез).

Наконец, отображение нот MIDI, включая смещение их высот, преобразуется обратно до частоты f', чтобы получить измененные несущие частоты, которые используются для синтеза (уравнение 7). Дополнительно, чтобы сохранить относительную FM глубину модуляции, FM отображенного компонента умножается на индивидуальный коэффициент транспонирования высоты, который получается как отношение оригинальной и измененной несущей частоты. Специальное обнаружение начальной/смещенной ноты MIDI может не потребоваться, так как временные характеристики представляются преимущественно неизмененным AM и, таким образом, сохраняются.

Описанный вокодер модуляции - возможность изменять различные частотные диапазоны (сигналы с ограниченной полосой частот) звуковых сигналов по-другому, что было упомянуто как селективное транспонирование высоты (звука). Концепция согласно изобретению позволяет повышать перцепционное качество таких измененных звуковых сигналов. Хотя некоторые осуществления концепции согласно изобретению описаны в связи с вокодером или вокодером модуляции, она может использоваться также вообще для повышения перцепционного качества измененных звуковых сигналов, независимо от использования вокодера.

Фиг.1 показывает блок-схему устройства 100 для изменения звукового сигнала 102 согласно осуществлению изобретения. Устройство 100 включает процессор банка фильтров 110, определитель основного тона 120, определитель обертона 130, процессор сигнала 140 и объединитель 150. Процессор банка фильтров 110 связан с определителем основного тона 120, определителем обертона 130 и процессором сигнала 140, а также определитель основного тона120 связан с определителем обертона 130 и процессором сигнала 140. Далее, определитель обертона 130 связан с процессором сигнала 140, а процессор сигнала 140 связан с объединителем 150. Процессор банка фильтров 110 производит множество сигналов с ограниченной полосой частот 112, основываясь на звуковом сигнале 102. Далее, определитель основного тона выбирает сигнал с ограниченной полосой частот 112 множества сигналов с ограниченной полосой частот, чтобы получить основной сигнал с ограниченной полосой частот 122. Определитель обертона идентифицирует сигнал с ограниченной полосой частот 112 множества сигналов с ограниченной полосой частот, удовлетворяющих критерию обертона относительно выбранного основного сигнала с ограниченной полосой частот 122, чтобы получить обертон сигнала с ограниченной полосой частот 132, связанный с выбранным основным сигналом с ограниченной полосой частот 122. Далее, процессор сигнала 140 изменяет выбранный основной сигнал с ограниченной полосой частот 122, основываясь на предварительно определенной цели изменения. Дополнительно, процессор сигнала 140 изменяет идентифицированный обертон сигнала с ограниченной полосой частот 132, связанный с выбранным основным сигналом с ограниченной полосой частот 122 в зависимости от изменения выбранного основного сигнала с ограниченной полосой частот 122. Объединитель 150 объединяет множество сигналов с ограниченной полосой частот, содержащих измененный выбранный основной сигнал с ограниченной полосой частот и измененный идентифицированный обертон сигнала с ограниченной полосой частот, чтобы получить измененный звуковой сигнал 152.

Изменяя основной сигнал с ограниченной полосой частот 122 и идентифицированный обертон сигнала с ограниченной полосой частот 132, связанный с основным сигналом с ограниченной полосой частот 122 таким же образом, можно сохранить общее поведение этих гармоник, хотя другие сигналы с ограниченной полосой частот множества сигналов с ограниченной полосой частот могут изменяться иначе. Таким образом, тембр оригинального звукового сигнала 102 может быть сохранен более точно, так, чтобы перцепционное качество измененного звукового сигнала могло быть значительно улучшено. Например, большинство инструментов производят гармонические звуки, состоящие из части основной частоты и ее гармоник. Если часть основной частоты должна быть изменена, то коррелированное изменение гармоник согласно описанной концепции может в результате дать значительно улучшенное перцепционное качество измененного звукового сигнала. Далее, звуковой сигнал может быть изменен в режиме реального времени, так как предварительная информация о целом звуковом сигнале (например, полное название полифонической музыки) может быть необязательной.

Звуковой сигнал 102 может быть, например, входным звуковым сигналом временного интервала или звуковым сигналом частотной области, представляющим входной звуковой сигнал временного интервала.

Определитель основного тона 120 может обеспечить выбранный основной сигнал с ограниченной полосой частот 122 процессору сигнала 140 для изменения или может обеспечить запускающий сигнал 122 (например, индекс i∈[0…I-1] выбранного основного сигнала с ограниченной полосой частот, где I - число сигналов с ограниченной полосой частот множества сигналов с ограниченной полосой частот), чтобы запустить процессор сигнала 140, чтобы изменить выбранный сигнал с ограниченной полосой частот множества сигналов с ограниченной полосой частот согласно предварительно определенной цели изменения. Следовательно, определитель обертона 130 также может предоставлять идентифицированный обертон сигнала с ограниченной полосой частот 132 для изменения процессору сигнала 140 или может предоставлять запускающий сигнал 122 (например, индекс, показывающий сигнал с ограниченной полосой частот множества сигналов с ограниченной полосой частот, идентифицируемых как обертон сигнала с ограниченной полосой частот), чтобы запустить процессор сигнала 140 для изменения идентифицированного сигнала с ограниченной полосой частот множества сигналов с ограниченной полосой частот.

Критерий обертона может включать одно или более правил для идентификации обертона основного тона. Может существовать один или более критериев обертона, подлежащих удовлетворению для идентификации сигнала с ограниченной полосой частот множества сигналов с ограниченной полосой частоте качестве обертона выбранного основного сигнала с ограниченной полосой частот 122.

Предварительно определенная цель изменения может быть различной для сигналов с ограниченной полосой частот, включающих иной частотный диапазон, и может зависеть от желательного изменения звукового сигнала 102. Например, оригинальная тональность звукового сигнала должна быть изменена до целевой тональности. Примерное отображение дано для тональностиС(до) от мажора до чистого минора в приведенной выше таблице. Например, если частотный диапазон сигнала с ограниченной полосой частот множества сигналов с ограниченной полосой частот соответствует оригинальной нотеС (до), целевая нота тоже будетС(до), чтобы этот сигнал с ограниченной полосой частот не изменялся(за исключением случая его идентификации в качестве обертона сигнала с ограниченной полосой частот связанного основного сигнала с ограниченной полосой частот, который изменяется). В этом случае, цель изменения состоит в сохранении этого сигнала с ограниченной полосой частот неизмененным. С другой стороны, сигнал с ограниченной полосой частот множества сигналов с ограниченной полосой частот, включающий коррелирование частотного диапазона до оригинальной ноты A (ля), может быть изменен так, чтобы измененный сигнал с ограниченной полосой частот мог содержать коррелирование частотного диапазона до целевой ноты Ab (кроме случая, когда сигнал с ограниченной полосой частот идентифицируется как обертон сигнала с ограниченной полосой частот основного сигнала с ограниченной полосой частот, который будет изменен согласно другой цели изменения). Далее, идентифицированный обертон сигналов с ограниченной полосой частот (сигналы с ограниченной полосой частот, включающие частотный диапазон, коррелированный с обертоном оригинальной ноты A), может изменяться так, чтобы измененный обертон сигнала с ограниченной полосой частот включал частотный диапазон, коррелированный с обертоном целевой ноты Ab.

Все сигналы с ограниченной полосой частот 112 множества сигналов с ограниченной полосой частот могут включать несущую частоту. Несущая частота может быть характерной частотой частотного диапазона, представленного или ограниченного сигналом с ограниченной полосой частот, как, например, средняя частота частотного диапазона, верхняя урезанная частота частотного диапазона, нижняя урезанная частота частотного диапазона или центр тяжести частотного диапазона сигнала с ограниченной полосой частот. Несущая частота сигнала с ограниченной полосой частот может отличаться от несущей частоты любых других сигналов с ограниченной полосой частот. Эти несущие частоты могут использоваться определителем обертона 130, чтобы идентифицировать обертоны сигналов с ограниченной полосой частот. Например, определитель обертона 130 может сравнить несущую частоту сигнала с ограниченной полосой частот 112 множества сигналов с ограниченной полосой частот с несущей частотой выбранного основного сигнала с ограниченной полосой частот 122. Так как обертон может быть приблизительно кратным числом основной частоты, критерий обертона может быть удовлетворен, если несущая частота сигнала с ограниченной полосой частот 112 - кратное число несущей частоты выбранного основного сигнала с ограниченной полосой частот 122 (с предварительно определенной устойчивостью несущей частоты, например, 100 Гц, 50 Гц, 20 Гц или меньше). Другими словами, критерий обертона может быть таким, например, что несущая частота сигнала с ограниченной полосой частот 112 - кратное число несущей частоты выбранного основного сигнала с ограниченной полосой частот 122 с предварительно определенной устойчивостью несущей частоты.

Дополнительно или альтернативно, определитель обертона 130 может сравнить запас энергии сигнала с ограниченной полосой частот 112 множества сигналов с ограниченной полосой частот с запасом энергии выбранного основного сигнала с ограниченной полосой частот 122. В этом примере может быть удовлетворен критерий обертона, если отношение запаса энергии сигнала с ограниченной полосой частот 112 и запас энергии выбранного основного сигнала с ограниченной полосой частот 122 будет в пределах предварительно определенного диапазона устойчивости энергии. Этот критерий обертона принимает во внимание то, что обычно гармоника проявляет более низкую энергию, чем основной тон. Предварительно определенный диапазон устойчивости энергии может быть, например, от 0.3 до 0.9, от 0.5 до 0.8, от 0.6 до 0.7 или другой диапазон. Этот критерий обертона, основанный на запасе энергии, может объединяться с упомянутым выше критерием обертона, основанном на несущей частоте.

Дополнительно или альтернативно, определитель обертона 130 может вычислить значение корреляции, показывающее корреляцию временной огибающей сигнала с ограниченной полосой частот 112 множества сигналов с ограниченной полосой частот с временной огибающей выбранного основного сигнала с ограниченной полосой частот 122. В этом случае, критерий обертона может быть удовлетворен, если значение корреляции выше, чем предварительно определенный порог корреляции. Этот критерий обертона учитывает тот факт, что основной тон и его гармоническая часть имеют аналогичную временную огибающую. Предварительно определенный порог корреляции может быть, например, 0.2, 0.3, 0.4 или больше. Описанный критерий обертона, основанный на корреляции, может объединяться с критерием обертона, основанным на несущей частоте, и/или упомянутым выше критерием обертона, основанным на запасе энергии.

Определитель основного тона 120 может выбрать дальнейший сигнал с ограниченной полосой частот 112 множества сигналов с ограниченной полосой частот, не рассматривая все уже выбранные основные сигналы с ограниченной полосой частот 122 и все уже идентифицированные обертоны сигналов с ограниченной полосой частот 132. Другими словами, определитель основного тона 120 может выбрать итеративные основные сигналы с ограниченной полосой частот 122 из множества сигналов с ограниченной полосой частот, которое содержит сигналы с ограниченной полосой частот, еще не выбранные основные сигналы с ограниченной полосой частот и идентифицированные обертоны сигналов с ограниченной полосой частот 132. Это может выполняться, пока все сигналы с ограниченной полосой частот множества сигналов с ограниченной полосой частот могут быть либо выбраны как основной сигнал с ограниченной полосой частот, либо идентифицированы как обертон основного сигнала с ограниченной полосой частот. Следовательно, определитель обертона 130 может идентифицировать сигнал с ограниченной полосой частот 112 множества сигналов с ограниченной полосой частот, удовлетворяющих критерию обертона относительно следующего выбранного основного сигнала с ограниченной полосой частот, не рассматривая все уже идентифицированные обертоны сигналов с ограниченной полосой частот, и не рассматривая все уже выбранные основные сигналы с ограниченной полосой частот 122.

Далее, процессор сигнала 140 может изменить следующий выбранный основной сигнал с ограниченной полосой частот 122, основанный на следующей предварительно определенной цели изменения и независящий от всех других выбранных основных сигналов с ограниченной полосой частот. Другими словами, для каждого основного сигнала с ограниченной полосой частот или для некоторых из выбранных основных сигналов с ограниченной полосой частот могут быть определены различные цели изменения. Например, цели изменения могут быть определены по таблице, упомянутой выше, показывающей переход от одной ключевой ноты к другой. Так как основные сигналы с ограниченной полосой частот могут быть изменены независимо друг от друга, например, также выборочно могут быть изменены только основной тон и гармоника определенного инструмента, чтобы изменить тональность или громкость этого инструмента.

Сигнал с ограниченной полосой частот 112 может быть выбран определителем основного тона 120, основанным на критерии энергии. Например, может быть выбран сигнал с ограниченной полосой частот с самым высоким, или одним из самых высоких, запасов энергии (например, выше 70% или более других сигналов с ограниченной полосой частот). В этом примере уже выбранный основной сигнал с ограниченной полосой частот может быть исключен из дальнейшего выбора посредством установки параметра запаса энергии, показывающего запас энергии выбранного основного сигнала с ограниченной полосой частот, равным нолю. Для выбора сигнала с ограниченной полосой частот 112 запас энергии каждого сигнала с ограниченной полосой частот (обозначенный, например, параметром запаса энергии, определенным определителем основного тона) может быть взвешен (например, посредством взвешивания по шкале А), чтобы подчеркнуть выбор перцепционно важных сигналов с ограниченной полосой частот.

Процессор сигнала 140 может изменить выбранные основные сигналы с ограниченной полосой частот 132 и связанные обертоны сигналов с ограниченной полосой частот 132 различными способами. Например, процессор сигнала 140 может изменить выбранный основной сигнал с ограниченной полосой частот 122 посредством умножения несущей частоты выбранного основного сигнала с ограниченной полосой частот 122 на коэффициент транспонирования (например, в зависимости от изменения тональности) или посредством добавления частоты транспонирования к несущей частоте выбранного основного сигнала с ограниченной полосой частот 122.Далее, модификатор сигнала 140 может изменить идентифицированный обертон сигнала с ограниченной полосой частот 132 посредством умножения несущей частоты идентифицированного сигнала с ограниченной полосой частот 132 на коэффициент транспонирования (например, с устойчивостью 20%, 10%, 5%, 1% или ниже) или посредством добавления кратного числа частоты транспонирования (например, с устойчивостью 20%, 10%, 5%, 1% или ниже) к несущей частоте идентифицированного обертона сигнала с ограниченной полосой частот 132. Другими словами, например, изменение тональности может реализовываться посредством умножения основного тона и связанной гармоники на тот же самый коэффициент транспонирования или посредством добавления частоты транспонирования к основному тону и кратному числу частоты транспонирования к обертону. Таким образом, идентифицированный обертон сигнала с ограниченной полосой частот 132 изменяется зависимо (таким же образом) как и выбранный основной сигнал с ограниченной полосой частот 122.

Фиг.2 показывает блок-схему устройства 200 для изменения звукового сигнала 102 согласно осуществлению изобретения. Устройство 200 подобно устройству, показанному нафиг.1, но дополнительно включает определитель несущей частоты 260, а процессор банка фильтров 110 включает банк фильтров 212 и преобразователь сигнала 214. Банк фильтров 212 соединяется с преобразователем сигнала 214, преобразователь сигнала 214 соединяется с процессором сигнала 140. Дополнительный определитель несущей частоты 260 соединяется с банком фильтров 212 процессора банка фильтров 110 и процессором сигнала 140.

Банк фильтров 212 может производить сигналы с ограниченной полосой частот, основанные на звуковом сигнале 102, а преобразователь сигнала 214 может преобразовывать произведенные сигналы с ограниченной полосой частот в область поддиапазона, чтобы получить множество сигналов с ограниченной полосой частот, предоставленных определителю основного тона 120, определитель обертона 130 и процессор сигнала 140. Преобразователь сигнала 214 может быть выполнен, например, как блок одностороннего обратного дискретного преобразования Фурье так, чтобы каждый сигнал с ограниченной полосой частот 112 множества сигналов с ограниченной полосой частот мог представить аналитический сигнал. В этой области поддиапазона определитель основного тона 120 может выбрать один из этих сигналов с ограниченной полосой частот области поддиапазона из множества сигналов с ограниченной полосой частот, чтобы получить основной сигнал с ограниченной полосой частот 122. Далее, определитель обертона может идентифицировать один из этих сигналов с ограниченной полосой частот области поддиапазона множества сигналов с ограниченной полосой частот.

Дополнительно, определитель несущей частоты 260 может определить множество несущих частот, основанных на звуковом сигнале 102, и банк фильтров 212 процессора банка фильтров 110 может производить сигналы с ограниченной полосой частот так, чтобы каждый сигнал с ограниченной полосой частот включал частотный диапазон, содержащий различную несущую частоту 262 множества несущих частот, чтобы получить сигнал с ограниченной полосой частот, связанный с каждой несущей частотой 262 множества несущих частот. Другими словами, полоса пропускания и средние частоты сигналов с ограниченной полосой частот, произведенные банком фильтров 212, могут управляться определителем несущей частоты 260. Это может быть сделано различными способами, например, посредством вычисления центра тяжести (COG) звукового сигнала 102, как описано выше.

Как было упомянуто выше, сигналы с ограниченной полосой частот 112 могут быть изменены различными способами. Например, процессор сигнала 140 может производить амплитудно-модулированный сигнал (AM) и частотно-модулированный сигнал (FM) для каждого сигнала с ограниченной полосой частот 112 множества сигналов с ограниченной полосой частот. Так как каждый сигнал с ограниченной полосой частот представляет аналитический сигнал в области поддиапазона, процессор сигнала 140 может производить сигнал модуляции амплитуды и сигнал модуляции частоты, как было упомянуто ранее, например, в связи с вокодером модуляции. Далее, процессор сигнала 140 может изменять амплитудно-модулированный сигнал и частотно- модулированный сигнал выбранного основного сигнала с ограниченной полосой частот 122, основываясь на предварительно определенной цели изменения, и может изменять амплитудно-модулированный сигнал или частотно- модулированный сигнал идентифицированного обертона сигнала с ограниченной полосой частот 132, связанного с выбранным основным сигналом с ограниченной полосой частот 122 в зависимости от изменения выбранного основного сигнала с ограниченной полосой частот 122.

Процессор банка фильтров 110, определитель основного тона 120, определитель обертона 130, процессор сигнала 140, объединитель 150 и/или определитель несущей частоты 260 могут быть, например, отдельными блоками аппаратных средств или частью процессора цифрового сигнала, компьютера или микропроцессора, а также компьютерной программой или продуктом программного обеспечения, формируемым для запуска на процессоре цифрового сигнала, компьютере или микропроцессоре.

Некоторые осуществления согласно изобретению связаны со способом 300 для изменения звукового сигнала согласно осуществлению изобретения. Способ 300 может включать генерирование 310 множества сигналов с ограниченной полосой частот, основанное на звуковом сигнале, и выбор 320 сигнала с ограниченной полосой частот множества сигналов с ограниченной полосой частот для получения основного сигнала с ограниченной полосой частот. Далее, способ 300 может включать идентификацию 330 сигнала с ограниченной полосой частот множества сигналов с ограниченной полосой частот, удовлетворяющих критерию обертона относительно выбранного основного сигнала с ограниченной полосой частот, чтобы получить обертон сигнала с ограниченной полосой частот, связанный с выбранным основным сигналом с ограниченной полосой частот. Далее, выбранный основной сигнал с ограниченной полосой частот изменяется 340, основываясь на предварительно определенной цели изменения, и идентифицированный обертон сигнала с ограниченной полосой частот, связанный с выбранным основным сигналом с ограниченной полосой частот, изменяется 350 в зависимости от изменения выбранного основного сигнала с ограниченной полосой частот. Далее, способ 300 может включать объединение 360 множества сигналов с ограниченной полосой частот, содержащих измененный выбранный основной сигнал с ограниченной полосой частот и измененный идентифицированный обертон сигнала с ограниченной полосой частот для получения измененного звукового сигнала.

Факультативно, способ 300 может включать дополнительные шаги, представляющие дополнительные характеристики концепции согласно изобретению, о которой говорилось выше, и будет говориться в дальнейшем.

В дальнейшем описанная концепция иллюстрируется более подробно на примере выполнения, использующего вокодер модуляции, хотя предложенная концепция может также использоваться в более общем плане для других выполнений.

Большинство инструментов производят гармонические звуки, состоящие из части основной частоты и ее гармоники, являющейся приблизительно целым кратным числом основной частоты. Так как музыкальные интервалы подчиняются логарифмической шкале, каждый гармонический обертон напоминает различный музыкальный интервал относительно основного тона (и его октав). Приведенная ниже таблица представляет соответствие номеров гармоник и музыкальных интервалов для первых семи гармоник.

Таблица показывает номера гармоник и связанные музыкальные интервалы относительно основного тона и его октав.

Harmonic number	Interval name

1	2	4	perfect unison (P1)
			minor second (m2)
		9	major second (M2)
			minor third (m3)
	5		major third (M3)
			perfect fourth (P4)
			tritone
	3	6	perfect fifth (P5)
			minor sixth (m6)
			major sixth (М6)
		7	minor seventh (m7)
			major seventh (M7)

(Harmonic number - номер гармоники, interval name - название интервала, perfect unison - чистая прима, minor second - малая секунда, major second - большая секунда, minor third - малая терция, major third - большая терция, perfect fourth - чистая кварта, tri tone - тритон, perfect fifth - чистая квинта, minor sixth - малая секста, major sixth - большая секста, minor seventh - малая септима, major seventh - большая септима).

Таким образом, в задаче селективного транспонирования полифонического музыкального содержания существует неотъемлемая неопределенность относительно музыкальной функции компонента MODVOC. Если компонент происходит из основного тона, он должен транспонироваться согласно желательному отображению шкалы, если он управляется гармоникой, которая должна быть отнесена к основному тону, он должен транспонироваться вместе с основным тоном, чтобы наилучшим образом сохранить оригинальный тембр тона. Отсюда возникает необходимость выделения каждого компонента MODVOC (сигнал с ограниченной полосой частот) для выбора самого подходящего коэффициента транспонирования.

Чтобы достигнуть этого, простая схема обработки, представленная ранее, была расширена функциональными возможностями гармонической блокировки. Гармоническая блокировка исследует все компоненты MODVOC перед транспонированием на предмет того, должен ли компонент (сигнал с ограниченной полосой частот) быть отнесен к основному тону или должен рассматриваться как независимый объект. Это может быть выполнено посредством повторяющихся алгоритмов. Блок-схема этого алгоритма изображена на фиг.5. Алгоритм вычисляет 510 отношения частоты, отношения энергии и взаимные корреляции огибающей испытательного компонента t (основной сигнал с ограниченной полосой частот) относительно всех других компонентов (сигналы с ограниченной полосой частот), индексированных посредством iE [0…I-1] \t при I, обозначающем общее число компонентов (число сигналов с ограниченной полосой частот множества сигналов с ограниченной полосой частот). Последовательность испытательных компонентов (основной сигнал с ограниченной полосой частот) во время повторения определяется их A-взвешенной энергией 520 таким образом, что порядок оценки находится в последовательности убывания энергии. A-взвешивание (ANSI, «стандарт Ansisl. 4-1983», 1983 г.), (ANSI, «стандарт Ansis 1.42-2001», 2001 г.) применяется, чтобы смоделировать перцепционное восприятие каждого компонента в единицах громкости (см., например, работу Г. Флетчера и У.А. Мансона, «Громкость, ее определение, измерение и вычисление», Журн. Амер. общ. акустиков, издание 5, стр. 82-108, 1933 г.).

Настройка гармонической несущей частоты, расстройка гармонической несущей частоты, составляющая энергии и/или корреляция нормализованной огибающей амплитуды при нулевой задержке могут быть исследованы установлением порога.

Настройка и расстройка частоты могут быть определены согласно уравнению 8,при f_t-испытательный компонент несущей частоты (несущая частота выбранного основного сигнала с ограниченной полосой частот), и f_i - компонент с индексом i (сигнал с ограниченной полосой частот множества сигналов с ограниченной полосой частот). Для настройки по частоте все кратные числа больше 1, являются потенциальными гармониками. Подходящее пороговое значение (порог несущей частоты) для расстройки частоты, допустимое для потенциальной гармоники,- например, 22 Гц.

$m a t c h_{1} = r o u n d (\frac{f_{i}}{f_{t}})$

$m i s s m a t c h_{i} = | f_{t} - (m a t c h_{i} \cdot f_{t}) |$

$m i s s m a t c h_{i} = | f_{i} - (m a t c h_{i} \cdot f_{t}) | (8)$

A-взвешенное отношение составляющей энергии (уравнение 9) гармоник по отношению к основному тону может быть меньше, чем предварительно определенный порог, отражающий тот факт, что для огромного большинства инструментов гармоники показывают более низкую энергию, чем основной тон. Подходящим значением порога (диапазон устойчивости энергии), например, является отношение 0.6.

$n r g R a t i o_{i} = \frac{n r g_{i}}{n r g_{t}} (9)$

Нормализованная нулевая задержка взаимной корреляции огибающей испытательного компонента env_t и огибающей env_iкомпонента с индексом i определяется уравнением 10. Эта мера использует тот факт, что основной тон и его гармоники делят довольно схожую временную огибающую в пределах размера блока М. Подходящее значение порога (порог корреляции) было определено равным 0.4 в неофициальных экспериментах.

$x c o r r_{i} = \frac{\sum_{m = 0}^{M - 1} e n v_{i} (m) \cdot e n v_{t} (m)}{\sqrt{\sum_{m = 0}^{M - 1} e n v_{i}^{2} (m) \sum_{m = 0}^{M - 1} e n v_{t}^{2} (m)}} (10)$

Будучи исследованными, все компоненты i, которые удовлетворяют 570 всем пороговым условиям, маркируются 580 как гармоники, подлежащие блокировке, относительно испытательного компонента и, впоследствии, удаляются из поиска. Затем, испытательный компонент также исключается из дальнейших повторений установкой 542 параметра его энергии на ноль. Алгоритм повторяется до тех пор, пока все компоненты не будут отнесены, что проявляется тем фактом, что максимальная составляющая энергии становится равной нолю.

Фиг.4 показывает расширенную схему обработки селективного транспонирования посредством MODVOC, включающего гармоническую блокировку. В противоположность фиг.16 только неблокированные компоненты входят в стадию транспонирования, в то время как блокированные компоненты изменяются на второй стадии посредством того же самого коэффициента транспонирования, который применялся к их приписанным основным тонам.

Другими словами, фиг.5 показывает блок-схему описанной блокировки гармоники (способ 500 для изменения звукового сигнала). Компоненты, которые соответствуют условиям того, чтобы быть гармониками испытательного основного тона (выбранный основной сигнал с ограниченной полосой частот), многократно маркируются и удаляются из области поиска. Для этого каждый сигнал с ограниченной полосой частот множества сигналов с ограниченной полосой частот включает несущую частоту, запас энергии, и временную огибающую или несущую частоту; запас энергии и/или временная огибающая (параметры временной огибающей) определяются 510 для каждого сигнала с ограниченной полосой частот множества сигналов с ограниченной полосой частот. Далее, запас энергии (параметр запаса энергии) каждого сигнала с ограниченной полосой частот является «A-взвешенным» 520. Затем, выбирается 530 основной сигнал с ограниченной полосой частот (испытательный основной тон f_t), включающий максимальную энергию (параметр содержания энергии). Так как все уже выбранные основные сигналы с ограниченной полосой частот устанавливаются на ноль, и все идентифицированные обертоны сигналов с ограниченной полосой частот исключаются из области поиска, выбранный основной сигнал с ограниченной полосой частот может включать параметр запаса энергии, равный нолю, чтобы итеративные алгоритмы остановились 540 в этой точке. Иначе, сравнивается 560 настройка по частоте (или расстройка), запас энергии и/или взаимная корреляция временной огибающей выбранного основного сигнала с ограниченной полосой частот и остающихся сигналов с ограниченной полосой частот множества сигналов с ограниченной полосой частот. Если один, несколько или все условия (критерии обертона) удовлетворяются 570, соответствующий сигнал с ограниченной полосой частот идентифицируется 580 как обертон сигнала с ограниченной полосой частот, и могут быть получены данные о гармонической блокировке (например, сохранение индекса идентифицированного сигнала с ограниченной полосой частот в списке обертонов),а также идентифицированный обертон сигнала с ограниченной полосой частот удаляется из области поиска. Данные о гармонической блокировке могут быть сохранены 590 со ссылкой на связанный выбранный основной сигнал с ограниченной полосой частот. После идентификации всего обертоны сигналов с ограниченной полосой частот выбранного основного сигнала с ограниченной полосой частот, энергия (параметр запаса энергии) выбранного основного сигнала с ограниченной полосой частот устанавливается 592 на ноль, и выбирается 530 следующий основной сигнал с ограниченной полосой частот, включающий самую высокую энергию 530.

Процессор сигнала может использовать данные о гармонической блокировке для изменения сигналов с ограниченной полосой частот. Возможное выполнение показано нафиг.4. В этом выполнении, например, процессор сигнала включает MIDI блок отображения памяти 1600 и модификатор обертона 400. MIDI блок отображения памяти 1600 может изменять несущую частоту каждого выбранного основного сигнала с ограниченной полосой частот согласно индивидуальной цели изменения (который может также включать случай, когда основной сигнал с ограниченной полосой частот не изменен). MIDI блок отображения памяти 1600 может быть осуществлен, например, как показано и описано нафиг.16. Модификатор обертона 400 может включать контроллер модификации обертона 410, множитель обертона 420 и поставщик модификации обертона 430. Контроллер модификации обертона 410 может быть соединен с множителем обертона 420 и поставщиком модификации обертона 430, а множитель обертона 420 может быть соединен с поставщиком модификации обертона 430. Множитель обертона 420 может умножать несущую частоту f идентифицированного обертона сигнала с ограниченной полосой частот на тот же самый коэффициент транспонирования (с упомянутой выше устойчивостью), на который умножается связанный основной сигнал с ограниченной полосой частот, и может предоставлять измененную несущую частоту f поставщику модификации обертона 430. Контроллер модификации обертона 410 может запускать поставщик модификации обертона 430, чтобы обеспечить измененную несущую частоту идентифицированного обертона сигнала с ограниченной полосой частот, если модификатор обертона 400 идентифицирует несущую частоту как несущую частоту идентифицированного обертона сигнала с ограниченной полосой частот (например, основанный на данных о гармонической блокировке). В противном случае, поставщик модификации обертона 430 может обеспечить выход MIDI блока отображения памяти 1600. Далее, фиг.4 показывает выполнение предложенной концепции в вокодере так, чтобы дополнительно к несущей частоте сигнала с ограниченной полосой частот изменялся и соответствующий частотно-модулированный сигнал (FM) посредством умножения на отношение несущей частоты до изменения к измененной несущей частоте. Альтернативно, к изменению частоты или, дополнительно, к изменению частоты, громкость звукового сигнала может быть выборочно изменена сигналом с ограниченной полосой частот. Для этого может быть изменен амплитудно-модулированный сигнал (AM) сигнала с ограниченной полосой частот.

Другими словами, фиг.4 показывает расширенное селективное транспонирование на компонентах вокодера модуляции (сигналы с ограниченной полосой частот), использующее блокировку гармоники (изменяя идентифицированный обертон сигналов с ограниченной полосой частот в зависимости от изменения связанного основного сигнала с ограниченной полосой частот). Только неблокированные несущие частоты (которые тогда могут быть основными сигналами с ограниченной полосой частот) квантуются до нот MIDI, которые отображаются на подходящие соответствующие ноты MIDI (согласно индивидуальной цели изменения). Блокированные компоненты (идентифицированные обертоны сигналов с ограниченной полосой частот) могут транспонироваться посредством умножения отношения оригинальной к измененной несущей частоте приписанного основного тона (связанного с основной полосой пропускания).

Фиг.6а показывает блок-схему устройства 600 для изменения звукового сигнала согласно осуществлению изобретения. Устройство 600 включает определитель формы огибающей 610, процессор банка фильтров 620, процессор сигнала 630, объединитель 640 и формирователь огибающей 650. Определитель формы огибающей 610 соединен с формирователем огибающей 650, процессор банка фильтров 620 соединен с процессором сигнала 630, процессор сигнала 630 соединен с объединителем 640, и объединитель 640 соединен с формирователем огибающей 650.Определитель формы огибающей 610 определяет коэффициенты формы огибающей 612, основанные на звуковом сигнале частотной области 602, представляющем входной звуковой сигнал временного интервала. Далее, процессор банка фильтров 620 производит множество сигналов с ограниченной полосой частот 622 в области поддиапазона, основываясь на звуковом сигнале частотной области 602. Процессор сигнала 630 изменяет сигнал с ограниченной полосой частот области поддиапазона 622 множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на предварительно определенной цели изменения. Далее, объединитель 640 объединяет, по крайней мере, подмножество множества сигналов с ограниченной полосой частот области поддиапазона (например, содержащие измененный сигнал с ограниченной полосой частот области поддиапазона), чтобы получить звуковой сигнал временного интервала 642. Формирователь огибающей 650 придает форму огибающей звукового сигнала временного интервала 642, основываясь на коэффициентах формирования огибающей 612, чтобы получить сформированный звуковой сигнал 652.

Альтернативно, формирователь огибающей 650 может располагаться между процессором сигнала 630 и объединителем 640 (процессор сигнала 630 соединен с формирователем огибающей 650, а формирователь огибающей 650 соединен с объединителем 640), и может сформировать огибающую множества сигналов с ограниченной полосой частот области поддиапазона, содержащую сигнал с ограниченной полосой частот области измененного поддиапазона, основываясь на коэффициентах формирования огибающей 612.

Посредством извлечения коэффициентов формирования огибающей 612 до обработки звукового сигнала, сигнала с ограниченной полосой частот выборочно и, используя коэффициенты формирования огибающей 612 для формирования огибающей звукового сигнала после изменения одного или нескольких сигналов с ограниченной полосой частот, спектральная последовательность иначе измененных сигналов с ограниченной полосой частот может быть сохранена более точно. Далее, особенно для сигналов переходного процесса, шумы квантования, распространенные во времени, могут также быть сформированы формирователем огибающей 650. Таким образом, перцепционное качество измененного звукового сигнала может быть значительно улучшено. Далее, звуковой сигнал может быть изменен в режиме реального времени, так как априорная информация о целом звуковом сигнале (например, целый полифонический музыкальный заголовок) может не понадобиться.

Далее, альтернативно, формирователь огибающей 650 может располагаться между процессором сигнала 630 и процессором банка фильтров 620 (процессор банка 620 соединяется с формирователем огибающей 650, а формирователь огибающей 650 соединяется с процессором сигнала 630), и может сформировать огибающую множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на коэффициентах формирования огибающей 612 до изменения сигнала с ограниченной полосой частот области поддиапазона процессором сигнала 630, чтобы получить сформированный звуковой сигнал 652.

Посредством извлечения коэффициентов формирования огибающей 612 до обработки звукового сигнала, сигнала с ограниченной полосой частот выборочно и, используя коэффициенты формирования огибающей 612, чтобы сформировать огибающую множества сигналов с ограниченной полосой частот 622 после генерирования множества сигналов с ограниченной полосой частот 622 процессором банка фильтров 620 в области поддиапазона, может быть выполнена адаптивная банка фильтров, которая может увеличить локальную последовательность, особенно, для сигналов переходных процессов (см., например, работу Дж. Герре и Дж. Д. Джонстона, «Неизменно сигнал - адаптивная банка фильтров для высококачественного перцепционного звукового кодирования», IEEEASSP Симпозиум по применению обработки сигнала к звуку и акустике, Мохонк, 1997 г.). В этом случае, формируется неизмененный сигнал (или измененный сигнал с ограниченной полосой частот), но качество произведенных сигналов с ограниченной полосой частот в переводе на воспроизведение переходных процессов может быть улучшено перед изменением.

Звуковой сигнал частотной области 602 может быть получен, например, из препроцессора, генерирующего звуковой сигнал частотной области 602, основываясь на входном звуковом сигнале временного интервала (например, посредством дискретного преобразования Фурье), или может быть получен из блока памяти. Коэффициенты формирования огибающей 612, определенные определителем формы огибающей 610, могут быть, например, линейными прогнозными коэффициентами или другими коэффициентами, параметризующими спектр звукового сигнала частотной области 602.

Процессор сигнала 630 может изменить один, несколько или все сигналы с ограниченной полосой частот области поддиапазона 622 множества сигналов с ограниченной полосой частот области поддиапазона. Предварительно определенная цель изменения может быть другой, например, для всех или для нескольких сигналов с ограниченной полосой частот области поддиапазона. Например, для изменения тональности звукового сигнала предварительно определенные цели изменения сигналов с ограниченной полосой частот области поддиапазона могут быть определены, как уже было упомянуто выше в связи с таблицей.

Звуковой сигнал частотной области 602 может включать спектральные линии, полученные, например, посредством преобразования Фурье. Различием между спектральными линиями звукового сигнала частотной области (который может рассматриваться как сигнал с ограниченной полосой частот) и сигнала с ограниченной полосой частот, произведенного процессором банка фильтров 620, может быть то, что спектральная линия звукового сигнала частотной области 602 представляет более узкую полосу пропускания, чем полоса пропускания, представленная сигналом с ограниченной полосой частот области поддиапазона 622, произведенным процессором банка фильтров 620. Например, звуковой сигнал частотной области 602 показывает частотный спектр, полученный посредством дискретного преобразования Фурье, который разделяется на множество сигналов с ограниченной полосой частот процессором банка фильтров 620, где число сигналов с ограниченной полосой частот (например, 10, 16, 20 или больше) множества сигналов с ограниченной полосой частот значительно ниже, чем число спектральных значений или спектральных линий частотного спектра (например, 512 или больше спектральных значений).

Определитель формы огибающей 610 может определять коэффициенты формирования огибающей, основываясь на прогнозе по частоте звукового сигнала частотной области 602, который может выполняться, например, как уже было упомянуто, посредством определения линейных прогнозных коэффициентов.

Процессор банка фильтров 620 может обеспечить множество сигналов с ограниченной полосой частот; каждый сигнал с ограниченной полосой частот 622 представляет определенный частотный диапазон звукового сигнала частотной области 602. Альтернативно, процессор банка фильтров 620 может включать фильтр с предсказанием 710, блок вычитания сигнала 720 и банк фильтров 730, чтобы получить множество сигналов с ограниченной полосой частот 622, основываясь на остаточном звуковом сигнале 722, как показано нафиг.7. Для этого фильтр с предсказанием 710 может генерировать прогнозный звуковой сигнал 712, основанный на звуковом сигнале частотной области 602 и коэффициентах формирования огибающей 612 (например, линейный фильтр с предсказанием). Далее, блок вычитания сигнала 720 может вычитать прогнозный звуковой сигнал 712 из звукового сигнала частотной области 602, чтобы получить остаточный звуковой сигнал 722. Этот остаточный звуковой сигнал 722 может использоваться банк фильтров 730, чтобы произвести сигналы с ограниченной полосой частот для получения множества сигналов с ограниченной полосой частот.

Далее, процессор банка фильтров 620 может включать дополнительный преобразователь сигнала. Этот преобразователь сигнала (например, односторонний обратный дискретный преобразователь Фурье) может преобразовывать сигналы с ограниченной полосой частот, произведенные банком фильтров 730, в область поддиапазона, чтобы получить множество сигналов с ограниченной полосой частот 622. Альтернативно, преобразователь сигнала может также быть частью процессора сигнала 630.

В некоторых осуществлениях согласно изобретению низкочастотная часть входного звукового сигнала может быть исключена из возможного изменения, чтобы избежать генерирования артефактов в низкочастотной части измененного звукового сигнала. Для этого устройство 680 для изменения звукового сигнала может включать фильтр верхних частот / нижних частот, что, например, показано нафиг.6b. Фильтр верхних / нижних частот 660 фильтрует с высокой частотой входной звуковой сигнал временного интервала, или звуковой сигнал частотной области, представляющий входной звуковой сигнал временного интервала так, чтобы определитель формы огибающей 610 определял коэффициенты формирования огибающей 612, основанные на звуковом сигнале верхних частот частотной области 602, и процессор гребенки фильтров 620 производил множество сигналов с ограниченной полосой частот 622 в области поддиапазона, основываясь на звуковом сигнале верхних частот частотной области 602. Далее, фильтр верхних частот/нижних частот фильтрует с низкой частота 660 входной звуковой сигнал временного интервала, или звуковой сигнал частотной области, представляющий входной звуковой сигнал временного интервала, чтобы получить звуковой сигнал нижних частот 662. Далее, устройство 680 включает поставщик полнополосного сигнала 670, формируемый, чтобы объединить сформированный звуковой сигнал 652 и звуковой сигнал нижних частот 662, чтобы получить полнополосный звуковой сигнал. Другими словами, фильтр верхних частот / нижних частот 660 может разделять входной звуковой сигнал временного интервала, или звуковой сигнал частотной области, представляющий входной звуковой сигнал временного интервала, на звуковой сигнал верхних частот и звуковой сигнал нижних частот. Звуковой сигнал верхних частот или представление звукового сигнала верхних частот частотной области могут предоставляться определителю формы огибающей 610 и процессору банка фильтров 620. Это зависит от того, выполнен ли фильтр верхних частот / нижних частот во временном интервале, за которым следует препроцессор сигнала, генерирующий звуковой сигнал частотной области, основываясь на звуковом сигнале верхних частот, или фильтр верхних частот / нижних частот осуществляется в частотной области уже, получающей звуковой сигнал частотной области, представляющий входной звуковой сигнал временного интервала.

Фильтр верхних частот/нижних частот 660 может фильтровать входной звуковой сигнал временного интервала, или звуковой сигнал частотной области, представляющий входной звуковой сигнал временного интервала, так, чтобы звуковой сигнал нижних частот содержал частоты, повышающиеся до предварительно определенной пороговой частоты (например, 100 Гц или больше). Следовательно, звуковой сигнал верхних частот может включать частоты, понижающиеся до предварительно определенной пороговой частоты. Другими словами, частоты, выше предварительно определенной пороговой частоты, могут быть снижены фильтром верхних частот / нижних частот 660 для получения звукового сигнала нижних частот 662, а частоты, ниже предварительно определенной пороговой частоты, могут быть повышены фильтром верхних частот / нижних частот 660 для получения сигнала верхних частот.

Альтернативно, формирователь огибающей 650 располагается между процессором сигнала 630 и объединителем 640, как показано нафиг.6 с.В этом случае, фильтр верхних частот / нижних частот 660 обеспечивает звуковой сигнал нижних частот объединителю 640. Объединитель 640 объединяет множество сигналов с ограниченной полосой частот области поддиапазона, содержащее измененный сигнал с ограниченной полосой частот области поддиапазона и звуковой сигнал нижних частот 662, чтобы получить звуковой сигнал временного интервала 642. В этом случае, формирователь огибающей 650 может определить множество коэффициентов формирования огибающей полосы пропускания, основываясь на коэффициентах формирования огибающей 612 (например, посредством преобразователя коэффициентов 810) для каждого сигнала с ограниченной полосой частот области поддиапазона, соответствующее подходящему сигналу с ограниченной полосой частот области поддиапазона (например, соответствующее частотной области, которая содержится в соответствующем сигнале с ограниченной полосой частот области поддиапазона). Затем, например, каждая временная выборка сигнала с ограниченной полосой частот области поддиапазона может умножаться на коэффициент формирования огибающей полосы пропускания соответствующего множества коэффициентов формирования огибающей. Например, в выполнении вокодера, показанном нафиг.15, формирователь огибающей 650 может располагаться между множителем 1550 и объединителем 1560.

Далее, альтернативно, формирователь огибающей 650 может располагаться между процессором сигнала 630 и процессором банка фильтров 620; процессор банка фильтров 620 соединяется с формирователем огибающей 650, а формирователь огибающей 650 соединяется с процессором сигнала 630), и может формировать огибающую множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на коэффициентах формирования огибающей 612 до изменения сигнала с ограниченной полосой частот области поддиапазона процессором сигнала 630 для получения сформированного звукового сигнала 652.

В некоторых осуществлениях согласно изобретению низкочастотная часть входного звукового сигнала может быть исключена из формирования огибающей, чтобы избежать генерирования артефактов в низкочастотной части измененного звукового сигнала. Для этого устройство 680 для изменения звукового сигнала может включать фильтр верхних частот / нижних частот, как, например, показано нафиг.6d. Фильтр верхних частот / нижних частот 660 фильтрует на верхних частотах входной звуковой сигнал временного интервала, или звуковой сигнал частотной области, представляющий входной звуковой сигнал временного интервала. Далее, фильтр верхних частот / нижних частот 660 фильтрует на нижних частотах входной звуковой сигнал временного интервала или звуковой сигнал частотной области, представляющий входной звуковой сигнал временного интервала для получения звукового сигнала нижних частот 662. Определитель формы огибающей 610 определяет коэффициенты формирования огибающей 612, основываясь на звуковом сигнале верхних частот частотной области 602, не рассматривая звуковой сигнал нижних частот 622. Процессор банка фильтров 620 генерирует множество сигналов с ограниченной полосой частот 622 в области поддиапазона, основываясь на звуковом сигнале высоких частот частотной области 602 и звуковом сигнале нижних частот 622. Если используется фильтр с предсказанием, как, например, показано нафиг.7, только звуковой сигнал верхних частот частотной области 602 предоставляется фильтру с предсказанием и блоку вычитания сигнала, чтобы произвести остаточный звуковой сигнал верхних частот. Звуковой сигнал нижних частот 622 может быть предоставлен непосредственно банку фильтров для генерирования сигналов с ограниченной полосой частот области поддиапазона. Процессор сигнала 630 может изменять сигнал с ограниченной полосой частот области поддиапазона, соответствующий звуковому сигналу верхних частот частотной области 602 или звуковому сигналу нижних частот 622. Альтернативно, процессор сигнала 630 может изменять сигнал с ограниченной полосой частот области поддиапазона, соответствующий звуковому сигналу верхних частот частотной области 602, и сигнал с ограниченной полосой частот области поддиапазона, соответствующий звуковому сигналу нижних частот 622.Объединитель 640 может объединять только сигнал с ограниченной полосой частот области поддиапазона, соответствующий звуковому сигналу верхних частот частотной области 602, так, чтобы только сигналы с ограниченной полосой частот области поддиапазона, соответствующие звуковому сигналу верхних частот частотной области 602 (а не сигналы с ограниченной полосой частот области поддиапазона, соответствующие звуковому сигналу нижних частот 622), могли быть сформированы формирователем огибающей 650.

Далее, устройство 680 включает поставщик полнополосного сигнала 670, формируемый, чтобы объединить сформированный звуковой сигнал 652 и сигналы с ограниченной полосой частот области поддиапазона, соответствующие звуковому сигналу нижних частот 662 для получения полнополосного звукового сигнала. Для этого процессор сигнала 630 может обеспечивать сигналы с ограниченной полосой частот области поддиапазона, соответствующие звуковому сигналу нижних частот 662, поставщику полнополосного сигнала 670.

Альтернативно, формирователь огибающей 650 располагается между процессором сигнала 630 и объединителем 640. В этом случае, процессор сигнала 630 может обеспечивать сигналы с ограниченной полосой частот области поддиапазона, соответствующие звуковому сигналу нижних частот 662, объединителю 640. Объединитель 640 объединяет множество сигналов с ограниченной полосой частот области поддиапазона (сигналы с ограниченной полосой частот области поддиапазона, соответствующие звуковому сигналу нижних частот 662,и сигналы с ограниченной полосой частот области поддиапазона, соответствующие звуковому сигналу верхних частот частотной области 602),содержащих измененный сигнал с ограниченной полосой частот области поддиапазона, чтобы получить звуковой сигнал временного интервала 642.В этом случае, формирователь огибающей 650 может определить множество коэффициентов формирования огибающей полосы пропускания, основываясь на коэффициентах формирования огибающей 612 (например, посредством преобразователя коэффициентов 810) для каждого сигнала с ограниченной полосой частот области поддиапазона, соответствующего подходящему сигналу с ограниченной полосой частот области поддиапазона (например, соответствующему частотной области, содержащейся в соответствующем сигнале с ограниченной полосой частот области поддиапазона) сигналов с ограниченной полосой частот области поддиапазона, соответствующих звуковому сигналу верхних частот частотной области 602. Затем, например, каждая временная выборка сигнала с ограниченной полосой частот области поддиапазона может быть умножена на коэффициент формирования огибающей полосы пропускания соответствующего множества коэффициентов формирования огибающей. Например, в выполнении вокодера, показанном нафиг.15, формирователь огибающей 650 может располагаться между множителем 1550 и объединителем 1560.

Далее, альтернативно, формирователь огибающей 650 может располагаться между процессором сигнала 630 и процессором банка фильтров 620 (процессор банка фильтров 620 соединяется с формирователем огибающей 650, а формирователь огибающей 650 соединяется с процессором сигнала 630) и может формировать огибающую сигналов с ограниченной полосой частот области поддиапазона, соответствующих звуковому сигналу верхних частот частотной области 602, основываясь на коэффициентах формирования огибающей 612 до изменения сигнала с ограниченной полосой частот области поддиапазона процессором сигнала 630 для получения сформированного звукового сигнала 652.

Таким образом, низкочастотная часть входного звукового сигнала может быть исключена из формирования огибающей. Однако низкочастотная часть направляется на остаточную обработку (например, изменение сигнала с ограниченной полосой частот области поддиапазона). Далее, фильтр с предсказанием (например, как показано нафиг.7) может быть только предварительно определенной пороговой частотой, применявшейся ранее. Альтернативно, если разделение верхних частот / нижних частот уже выполнено на стороне анализа, огибающая сигнала верхних частот может быть изменена во временном интервале посредством обратной величины коэффициентов формирования огибающей.

Например, при применении для селективного транспонирования показанное размещение может обеспечить результаты, эквивалентные результатам размещения после обработки, так как AM не может быть изменена.

Согласно аспекту, формирователь огибающей 650 может определять отношение энергии запаса энергии E_FDASзвукового сигнала частотной области 602 к запасу энергии E_FDAS остаточного звукового сигнала 722. Основываясь на этом отношении энергии, формирователь огибающей 650 может прервать формирование огибающей звукового сигнала временного интервала 642, если отношение энергии ниже, чем предварительно определенный энергетический порог PET (0.1, 0.2, 0.5, 0.8, 1, 2 или около того).

$P E T = \frac{E_{F D A S}}{E_{R A S}}$

Другими словами, формирование огибающей может быть включено или выключено сигнал-адаптивно в зависимости от совершенства предсказания. Совершенство предсказания может быть измерено коэффициентом усиления предсказания, который может быть определен как отношение энергии сигнала (звуковой сигнал частотной области) к погрешности предсказания (остаточный звуковой сигнал). Если формирование огибающей звукового сигнала временного интервала 642 прерывается, сформированный звуковой сигнал 652 может быть равным звуковому сигналу временного интервала 642, предоставленному объединителем 640.

Формирователь огибающей 650 может выполняться различными способами. Один пример показан нафиг.8. Формирователь огибающей 650 может включать преобразователь коэффициентов 810 и множитель 820. Преобразователь коэффициентов 810 может преобразовывать коэффициенты формирования огибающей 612 во временной интервал так, чтобы преобразованные коэффициенты формирования огибающей 812 могли быть умножены на звуковой сигнал временного интервала 642,чтобы сформировать временную огибающую звукового сигнала временного интервала и, чтобы получить сформированный звуковой сигнал 652. Это может быть сделано при помощи множителя 820. Например, временной блок звукового сигнала временного интервала 642 может содержать 512 (или больше) временных выборок, а преобразователь коэффициентов 810 может обеспечить 512 (или больше) преобразованных коэффициентов формирования огибающей 812 для того, чтобы умножить каждую временную выборку на преобразованный коэффициент формирования огибающей 812.

Как уже было сказано, устройство 600 может изменять разные сигналы с ограниченной полосой частот области поддиапазона по-разному. Более широко, это означает, что процессор сигнала 630 может изменять второй или последующий сигнал с ограниченной полосой частот области поддиапазона 622 множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на второй или последующей предварительно определенной цели изменения. Уже упомянутая или первая предварительно определенная цель изменения и последующая или вторая предварительно определенная цель изменения могут быть различными.

В некоторых осуществлениях описанная концепция может использоваться в связи с вокодерами или вокодерами модуляции. В этом случае, процессор сигнала 630 может генерировать сигнал модуляции амплитуды (AM) и сигнал модуляции частоты (FM) для каждого сигнала с ограниченной полосой частот области поддиапазона 622 множества сигналов с ограниченной полосой частот области поддиапазона. Далее, процессор сигнала 630 может изменять сигнал модуляции амплитуды или сигнал модуляции частоты сигнала с ограниченной полосой частот области поддиапазона, который будет изменен, основываясь на предварительно определенной цели изменения.

Далее, устройство 600 может, факультативно, включать определитель несущей частоты, как уже было описано для устройства 200 и показано нафиг.2. Определитель несущей частоты может определять множество несущих частот, основываясь на звуковом сигнале частотной области 602. Эти определенные несущие частоты могут использоваться процессором банка фильтров 620 или в выполнении, показанном нафиг.7, банком фильтров 730 процессора банка фильтров 620, чтобы произвести сигналы с ограниченной полосой частот области поддиапазона так, чтобы каждый сигнал с ограниченной полосой частот подобласти включал частотный диапазон, содержащий разную несущую частоту множества несущих частот, чтобы получить сигнал с ограниченной полосой частот области поддиапазона, связанный с каждой несущей частотой множества несущих частот. Это может быть сделано, например, посредством определения центра тяжести звукового сигнала частотной области, как было сказано выше.

Определитель формы огибающей 610, процессор банка фильтров 620, процессор сигнала 630, объединитель 640 и/или формирователь огибающей 650 может быть, например, отдельным блоком аппаратных средств или частью процессора цифрового сигнала, компьютера или микроконтроллера, а так же компьютерной программой или продуктом программного обеспечения, формируемого, чтобы запускаться на процессоре цифрового сигнала, компьютере или микроконтроллере.

Некоторые осуществления согласно изобретению касаются выполнения описанной концепции в вокодере модуляции. Для этого примера, в дальнейшем концепция описывается более подробно. Упомянутые характеристики могут использоваться также в других выполнениях или применениях.

Ранее было заявлено, что MODVOC обработка сохраняет спектральную последовательность в области полосы пропускания, окружающей местоположение несущей. Однако широкополосная глобальная спектральная последовательность не сохраняется. Для квазистационарных сигналов это может оказать только незначительное влияние на перцепционное качество синтезированного сигнала. Если сигнал содержит отчетливые переходные процессы, как например, удары барабана или кастаньет, сохранение глобальной последовательности может значительно улучшить качество воспроизведения этих сигналов.

Сохранение глобальной последовательности может быть улучшено линейным предсказанием в спектральной области. Некоторые подходы используются в звуковых кодер-декодерах, например, инструментом формирования временного шума (TNS) (см., например, работу Дж. Герре и Дж. Д. Джонстона, «Улучшение работы перцепционных звуковых кодирующих устройств при формировании временного шума (tns)», 101-ое Соглашение AES, Лос-Анджелес, №. препринта 4384, 1996 г.) в MPEG 2/4 современное звуковое кодирование (ААС). В работе Дж. Герре и Дж. Д. Джонстона, «Неизменно сигнал-адаптивный банк фильтров для высококачественного перцепционного звукового кодирования», IEEEASSP Симпозиум по применению обработки сигнала к звуку и акустике, Мохонк, 1997 г. показано, что комбинация частотно-временного преобразования с высоким разрешением и спектрального предсказания, в основном, соответствует сигнал-адаптивному преобразованию.

Фиг.9 в общих чертах показывает интеграцию описанной концепции в MOD-VOC схему обработки. В анализе, следующим за начальным DFT входного сигналах, коэффициенты линейного предсказания (LPC) прямого предсказателя вдоль частоты, имеющей импульсную характеристику h (w), производятся, например, способом автокорреляции, минимизирующим погрешность предсказания в смысле наименьших квадратов. Впоследствии, фильтр применяется к спектральным значениям, и остаточный сигнал далее обрабатывается алгоритмом MODVOC. Коэффициенты фильтра, представляющие глобальную огибающую, передаются на стадию синтеза. В синтезе глобальная огибающая, полученная посредством оценки фильтра с предсказанием на единичный круг , восстанавливается мультипликативным применением его же к сигналу сложения, дающему в результате выходной сигнал у, как показано на рис. 10.

Другими словами, фиг. 9 и 10 показывают выполнение описанной концепции в вокодере модуляции. Фиг. 9 показывает часть анализатора модуляции, включающую препроцессор 910, который выполняет, например, дискретное преобразование Фурье звукового сигнала временного интервала для получения звукового сигнала частотной области 602, и обеспечивает звуковой сигнал частотной области 602 определителю формы огибающей, фильтр с предсказанием (например, LPC фильтр Н (ω)), блок вычитания сигнала и определитель несущей частоты 920 (где определитель формы огибающей, фильтр с предсказанием и блок вычитания сигнала включены в блок 915). Блок вычитания сигнала 720 может предоставить остаточный звуковой сигнал 722 банку фильтров 730. Определитель несущей частоты 920 может оценить множественные частоты центра тяжести огибающей и предоставить эти несущие частоты банку фильтров 730 для регулирования спектральных весовых коэффициентов полосы пропускания. Банк фильтров 730 может обеспечить сигналы с ограниченной полосой частот преобразователю сигнала 930, выполняющему одностороннее обратное дискретное преобразование Фурье для каждого сигнала с ограниченной полосой частот, чтобы обеспечить множество сигналов с ограниченной полосой частот области поддиапазона процессору сигнала. Компоненты вокодера модуляции уже были подробно описаны выше. Следующий фиг. 10 показывает часть синтеза вокодера модуляции. Она включает объединитель 640 и формирователь огибающей, включающий преобразователь коэффициентов 810 и множитель 820. Дальнейшие детали относительно компонентов вокодера модуляции и формирователя огибающей уже были объяснены выше. Фиг. 11 показывает блок-схему способа 1100 изменения звукового сигнала согласно осуществлению изобретения. Способ 1100 включает определение коэффициентов формирования огибающей 1110, основанное на звуковом сигнале частотной области, представляющем входной звуковой сигнал временного интервала, и производящий 1120 множество сигналов с ограниченной полосой частот в области поддиапазона, основываясь на звуковом сигнале частотной области. Далее, способ 1100 включает изменение 1130 сигнала с

ограниченной полосой частот области поддиапазона множества сигналов с ограниченной полосой частот области поддиапазона, основанное на предварительно определенной цели изменения. Дополнительно, по крайней мере, подмножество множества сигналов с ограниченной полосой частот области поддиапазона объединяется 1140, чтобы получить звуковой сигнал временного интервала. Далее, способ ПО включает формирование 1150 огибающей звукового сигнала временного интервала, основанное на коэффициентах формирования огибающей, формирование 1150 огибающей множества сигналов с ограниченной полосой частот области поддиапазона, содержащей измененный сигнал с ограниченной полосой частот области поддиапазона, основанное на коэффициентах формирования огибающей, или формирование 1150 огибающей множества сигналов с ограниченной полосой частот области поддиапазона, основанное на коэффициентах формирования огибающей до изменения сигнала с ограниченной полосой частот области поддиапазона процессором сигнала для получения сформированного звукового сигнала.

Факультативно, способ 1100 может включать дальнейшие шаги, представляющие характеристики выше описанной концепции.

Некоторые осуществления согласно изобретению касаются устройства для изменения звукового сигнала, объединяющего характеристики устройства, показанного нафиг.1 или 2 с характеристиками устройства, показанного нафиг.6. Соответственно, фиг.12 показывает блок-схему устройства 1200 согласно осуществлению изобретения.

Начиная с устройства, показанного нафиг.1, устройство 1200 включает дополнительно определитель формы огибающей 610 и формирователь огибающей 650. В этой связи звуковой сигнал может быть звуковым сигналом частотной области, представляющим входной звуковой сигнал временного интервала, который может использоваться определителем формы огибающей, чтобы определить коэффициенты формирования огибающей, основываясь на звуковом сигнале частотной области. Далее, множество сигналов с ограниченной полосой частот, произведенных банком фильтров, может генерироваться в области поддиапазона, основываясь на звуковом сигнале частотной области. После объединения множества сигналов с ограниченной полосой частот области поддиапазона, содержащих измененный выбранный основной сигнал с ограниченной полосой частот и измененный идентифицированный обертон сигнала с ограниченной полосой частот, полученный звуковой сигнал временного интервала 152, 642 может быть предоставлен формирователю огибающей 650. Формирователь огибающей 650 может формировать огибающую звукового сигнала временного интервала, основываясь на коэффициентах формирования огибающей 612 для получения сформированного звукового сигнала652.

В противном случае, начиная с устройства, показанного нафиг.6, устройство 1200 включает, дополнительно, определитель основного тона 120 и определитель обертона 130, как описано в связи с устройством, показанным нафиг.1. Определитель основного тона 120 может выбрать сигнал с ограниченной полосой частот области поддиапазона множества сигналов с ограниченной полосой частот области поддиапазона, чтобы получить основные сигналы с ограниченной полосой частот 122. Далее, определитель обертона 130 может идентифицировать сигнал с ограниченной полосой частот области поддиапазона 112 множества сигналов с ограниченной полосой частот области поддиапазона, удовлетворяющий критерию обертона относительно выбранного основного сигнала с ограниченной полосой частот 122, чтобы получить обертон сигнала с ограниченной полосой частот 132, связанный с выбранным основным сигналом с ограниченной полосой частот 122.Процессор сигнала 140, 630 может изменять выбранный основной сигнал с ограниченной полосой частот,, основываясь на предварительно определенной цели изменения, и может изменять идентифицированный обертон сигнала с ограниченной полосой частот 132, связанный с выбранным основным сигналом с ограниченной полосой частот 122, в зависимости от изменения выбранного основного сигнала с ограниченной полосой частот 122, как было сказано выше.

Таким образом, обертоны основных тонов и обертоны могут рассматриваться как эквивалентные во время изменения звукового сигнала, а спектральная последовательность множества сигналов с ограниченной полосой частот может быть сохранена очень точно посредством формирования измененного звукового сигнала временного интервала, основываясь на коэффициентах формирования огибающей, полученных до изменения сигналов с ограниченной полосой частот. Таким образом, перцепционное качество измененного звукового сигнала может быть значительно улучшено.

Устройство 1200 может реализовывать дальнейшие характеристики различных упомянутых выше примеров выполнения.

В дальнейшем, улучшение перцепционного качества измененных звуковых сигналов подтверждено результатами тестов слушания. Для этого теста слушания использовалось базовое выполнение вокодера модуляции (MODVOC), но результаты также в целом действительны для предложенной концепции.

Чтобы оценить субъективное качество звука вокодера модуляции (MODVOC) для применения селективного транспонирования высоты (звука) и, кроме того, достоинство предложенных усовершенствований основного принципа MODVOC, был собран и, соответственно, обработан ряд примерных звуковых файлов. Дополнительно, технология MODVOC сравнивается с коммерчески доступным звуковым программным обеспечением для полифонической звуковой обработки. Редактор Melodyne от Celemony, который находится в продаже с конца 2009 г.

Так как испытываемая обработка радикально изменяет звуковое содержание сигнала, прямое сравнение оригинального и обработанного сигнала - обычно, неотъемлемая часть в стандартных тестах слушания - в этом случае очевидно не целесообразна. Чтобы, тем не менее, измерить субъективное звуковое качество значимым способом, была применена специальная тестовая процедура слушания: набор тестов слушания происходит из символических MIDI данных, которые визуализируются в формы волны, используя высококачественный расширитель (эспандер) MIDI. Этот подход делает возможным прямое сравнение аналогично измененных звуковых файлов в ходе теста и способствует отдельному исследованию эффекта селективной обработки высоты (звука). Процедура проведения теста показана на фиг.17. Оригинальные испытываемые сигналы подготовлены в символическом представлении данных MIDI (верхний левый). Вторая версия этих сигналов производится символической обработкой MIDI, которая напоминает целевую испытательную обработку оригинального звукового сигнала, визуализированного в форме волны (верхний правый). Впоследствии, эти пары сигналов визуализируются высококачественным расширителем MIDI в файлы в форме волны (WAV) (нижний левый и правый). В тесте слушания, сравнивается форма волны, визуализированная от обработанного MIDI файла, и несколько обработанных вокодером модуляции (MODVOC) версий визуализированного оригинального файла MIDI (нижний правый). Дополнительно, выход MODVOC сравнивается с выходом редактора Melodyne.

Кроме MODVOC обработанных условий (состояний), тест включает условие (состояние), полученное при использовании редактора Melodyne, который в настоящее время является единственным коммерческим применением, адресованным этому типу звуковой обработки и, таким образом, может рассматриваться как промышленный стандарт. Редактор Melodyne первоначально выполняет автоматический анализ всего звукового файла. После фазы инициализации Melodyne предлагает разложение звукового файла. Посредством взаимодействия с пользователем это разложение может быть далее улучшено. Ради справедливого сравнения с результатами MODVOC обработки, оценка основывается на результате этого автоматического начального анализа, так как, кроме априорного знания тональности и стандартной высоты (звука), разложение MODVOC является также полностью автоматическим.

Структура теста слушания была основана на стандартном тесте Многократные Стимулы со Скрытой Ссылкой и Якорем (MUSHRA) согласно ITU рекомендации BS. 1534 (ITU-R, «Способ субъективной оценки промежуточного звукового качества (mushra)», 2001r.). MUSHRA - тест слушания вслепую. Только один Человек одномоментно подвергается испытанию. По каждому пункту тест предоставляет слушателю все испытательные условия наряду со скрытой ссылкой и скрытым фильтрованным якорем нижних частот способом, ориентированным по времени. Скрытая ссылка и нижний якорь включаются, чтобы проверить надежность слушателей. Переключение между условиями во время слушания разрешено, а так же установка петли (цикла) на произвольно выбранных частях, как предложено в BS.1116-1 (ITU-R, «Способы субъективной оценки небольших ухудшений в звуковых системах, включая многоканальные звуковые Системы», 1994-1997 гг.) также применимы к тестам MUSHRA. Нет ограничений числа повторений, которые испытуемые могли прослушать прежде, чем оценить пункт и перейти к следующему испытательному пункту, что делает возможным очень близкое сравнение и полное исследование различных условий. Перцепционное качество пунктов оценивается по шкале от «отлично» (100 пунктов), «хорошо», «удовлетворительно» до «плохо» (0 пунктов). Последовательность испытательных пунктов установлена случайным образом и, кроме того, порядок условий каждого пункта тоже носит случайный характер.

Восемь испытательных пунктов были получены из проекта MUTOPIA (http://www.mutopiaproject.org/), который предоставляет небольшие отдельно изданные музыкальные произведения(ноты) для публичного использования. Подходящие отрывки, максимальной продолжительностью около 20 секунд, были извлечены из различных произведений классической музыки, содержащих как одиночные инструменты (например.G, E), так и плотные оркестровые части (например,F). Кроме того, соло доминирующего инструмента, сопровождаемое другими инструментами (например,C), включено в набор тестов. Помимо краткосрочных квазистационарных тональных частей, в нескольких пунктах (вступает щипковая гитара в C и фортепьяно в G) содержатся также ударные элементы, которые представляют особую проблему для переходной характеристики испытуемой Системы. Следующая таблица содержит все пункты теста.

Name	description	instruments	key mode
A	Violin Concerto, J.S. Bach, BWV1041	Orchestra	Amin
В	Erne kleine Nachtmusik, W. A. Mozart, KV525 Mv1	String Quartet	Gmaj
C	Berceuse, G. Faure, Op56	Flute and Guitar	Emaj
D	Nocturao, F. Strauss, Op7	Horn and Piano	Dbmaj
E	Waltz, F. Camlli, Op241 No1	Guitar	Cmaj
F	Ein Musikalischer Spass, W. A. Mozart, KV522 Mv1	Horns, Violin, Viola, Cello	Fmaj
G	Ode an die Freude, L. V. Beethoven	Piano	Gmaj
H	Piano Trio, L. V. Beethoven, Op 11 Mv3	Clarinet, Cello and Piano	Bbmaj

(name - название, description - описание, instruments - инструменты, keymode - тональность, violin concerto, J.S. Bach - скрипичный концерт Баха, eine kleine nacht musik, W.A. Mozart - маленькая ночная серенада Моцарта, berceuse, G. Faure - колыбельная Форе, nocturne, F.Strauss - ноктюрн Штрауса, waltz, F. Carulli - вальс Карулли, ein musikalis cherspass, W.A. Mozart - музыкальная шутка Моцарта, ode andiefreude, L.V. Beethoven - ода к радости Бетховена, Pianotrio, L.V. Beethoven - фортепианное трио Бетховена, orchestra-оркестр, string quartet - струнный квартет, flute and guitar-флейта и гитара, horn and piano - рожок и фортепиано, guitar-гитара, horns, violin, viola, cello - рожок, скрипка, альт, виолончель, piano - фортепиано, clarinet, celloandpiano - кларнет, виолончель и фортепиано, min - минор, maj - мажор).

Обработка MIDI для получения оригинальных транспонированных сигналов была сделана в Sonar8 (сонаре), фирмы Cakewalk. Высококачественное визуализирование форм волны было выполнено с использованием программы Band-standfromNativelnstruments в фонотечной версии 1.0.1 R3. Обработка MODVOC была оценена в трех различных комбинациях с двумя усовершенствованными шагами обработки, являющимися гармоническим блокированием и формированием огибающей. Для сравнения с редактором Melodyne использовалась версия 1.0.11. Все условия перечислены в таблице, приведенной ниже.

condition	name	description
1	*_reference	MIDI transposed original
2	*_3kSHz_refercace	3.5 kHz lowpass filtered original (anchor)
3	*_MODVOC	MODVOC
4	*_MODVO_harm	MODVOC with harmonic locking
5	_MODVOC_harm_es	MODVOC with harmonic locking and envelope sharping
6	*_dna	Melodyne editor (DNA) fully automatic mode

(condition - условие, name - название, description - описание, transposedoriginal - транспонированный оригинал, lowpassfilteredoriginal (anchor) - фильтрованный оригинал нижних частот (якорь), withharmoniclocking - c гармонической блокировкой, withharmoniclockingandenvelopeshaping - c гармонической блокировкой и формированием огибающей, fullyautomaticmode - полностью автоматический режим).

Субъективные тесты слушания проводились в акустически изолированной лаборатории слушания, которая разработана, чтобы сделать возможным проведение высококачественных тестов слушания в окружающей среде, подобной «идеальной» гостиной комнате. Слушатели были снабжены STAX электростатическими наушниками, которые были подключены к звуковому USB-интерфейсу Edirol, соединенному с AppleMACmini. Программное обеспечение теста слушания было wavswitch от FraunhoferIIS, работающий в режиме MUSHRA, предоставляющим простой GUII (графический интерфейс пользователя) для поддержки слушателя во время выполнения теста. Слушатели могут переключаться между ссылкой (1) и различными условиями (2-7) во время музыкального сопровождения. Каждый слушатель может решать индивидуально, как долго слушать каждый пункт и условие. Во время фактического переключения звук музыкального сопровождения приглушен. В GUI вертикальные линейки визуализируют оценку, приписанную каждому условию. Были выбраны опытные слушатели, которые знакомы со звуковым кодированием, и имеющие музыкальное образование, чтобы получить, с одной стороны, образованное суждение относительно типичных артефактов обработки сигнала, таких как пред- и постэхо или дисперсия переходных процессов, а с другой стороны, относительно музыкальных параметров, таких как спектральная высота (звука), мелодия и тембр. Кроме того, слушателей попросили предоставить их неофициальные наблюдения и впечатления.

Всего пятнадцать человек участвовали в тестировании, несмотря на то, что один слушатель должен был быть впоследствии отсеян из-за очевидной неудачи успешно идентифицировать скрытый оригинал (сортируя его 64 пункта).

Фиг.18 суммирует результаты теста слушания. Перцепционное качество для пунктов, обработанных селективным транспонированием высоты (звука), колеблется от удовлетворительного до хорошего. Более низкий якорь был оценен между слабым и плохим так, что расстояние от обработанных пунктов до якоря равнялось приблизительно 40 пунктам MUSHRA.

Абсолютный счет предоставляет информацию, определяющую перцепционное качество каждого пункта (в каждом из проверяемых условий), и таким образом, неявно оценивает качественное различие между пунктами в наборе тестов, но является неподходящим, чтобы сравнить различные условия в ходе теста слушания, так как оценки этих условий весьма зависимы. Для прямого сравнения условий, происходящих из различных схем селективной обработки транспонированием, различия очков будут рассмотрены в дальнейшем.

Фиг.19 изображает результат, основанный на разнице очков расширенных вариантов MODVOC (условия 4 и 5) относительно результатов простого MODVOC (условие 3). Здесь, все расширенные варианты MODVOC набирают очки значительно лучше, чем простая MODVOC обработка (все очки расположены значительно выше ноля). Имеет смысл принимать 95%-уюдостоверность для всех пунктов и условий за исключением применения гармонической блокировки только в пункте A и C.

Фиг.20 показывает контрольные очки, так как очки различаются относительно условия 6 (редактор Melodyne). Для пункта C, в условии 5 MODVOC 5 очки значительно лучше, чем для редактора Melodyne, в то время как условие 4(хотя и является слегка положительным) и условие 3 являются неубедительными в смысле 95%-ого доверительного интервала (доверительные интервалы перекрываются с 0). Для пунктов B (условие 2), F, G (условие 5) также не может быть сделан какой-либо существенный вывод, но тенденция к лучшей работе MODVOC может быть замечена также для пункта С в условии 4 и пункта F в условиях 4 и 5. Во всех других случаях очки MODVOC значительно хуже, чем у редактора Melodyne.

Очки отражают общее качественное суждение, включающее такие аспекты, как неестественные звучащие артефакты наподобие деградации переходных процессов из-за пред- или постэха, точность высоты (звука), правильность мелодии и сохранение тембра. Чтобы интерпретировать результаты более подробно, слушателей попросили записать их неофициальные наблюдения вместе с начислением фактических очков. Из этих наблюдений можно сделать вывод о том, что сохранение тембра и отсутствие неестественных звучащих артефактов были представлены в общем счете в более высокой степени, чем, например, хорошее качество сохранения мелодии. Кроме того, если определенная мелодия неизвестна слушателю, кажется, что испытуемые люди были не в состоянии запомнить опорную мелодию на уведомлении во время теста и, таким образом, не были уверены в правильности мелодии. Этим можно объяснить более высокую общую оценку пунктов, обработанных редактором Melodyne, которые имеют более высокую точность относительно сохранения тембра, особенно звуков, производимых одиночным и инструментами. Однако, это происходит за счет случайно возникающих серьезных ошибок мелодии, которые могут возникнуть, по-видимому, из-за ошибочной классификации. MODVOC является более надежным в этом отношении, так как он не полагается, преимущественно, на способы классификации, основанные на характеристике.

Некоторые осуществления согласно изобретению касаются усовершенствованного вокодера модуляции для селективного транспонирования высоты (звука). Была предложена концепция вокодера модуляции (MODVOC), и было указано на его общую способность выполнить селективное транспонирование на полифоническом музыкальном содержании. Это делает возможными применения, которые направлены на изменение тональности заранее записанных музыкальных образцов PCM (импульсно-кодовой модуляции). Предложены два способа улучшения селективного транспонирования высоты (звука) посредством MODVOC. Эффективность выполнения селективного транспонирования и достоинство этих способов проверяются результатами, полученными из специально разработанной тестовой методики слушания, которая способна управлять экстремальными изменениями на основе высоты (звука) относительно оригинальных звуковых стимулов. Результаты этой субъективной перцепционной качественной оценки представлены для пунктов, которые были преобразованы от минорной тональности в мажорную посредством MODVOC и, дополнительно, посредством первого коммерчески доступного программного обеспечения, которое также способно решить эту задачу.

Стоит отметить, что, в то время как редактор Melodyne первоначально выполняет автоматический анализ всего звукового файла до выполнения любых манипуляций, MODVOC действует на поблочной основе, таким образом, потенциально обеспечивая работу в реальном времени.

Были предложены усовершенствованные способы селективного транспонирования высоты (звука) вокодером модуляции (MODVOC). Из результатов тестов слушания, полученных для визуализации испытательных сигналов от MIDI, можно сделать вывод о том, что перцепционное качество простого MODVOC действительно улучшается гармоническим блокированием и формированием огибающей. По всем пунктам можно ожидать увеличение до 10 пунктов MUSHRA. Улучшение происходит, по большей части, благодаря гармонической блокировке.

Кроме того, сравнение MODVOC, который является коммерчески доступным программным обеспечением (редактор Melodyne), выявило, что общий качественный уровень, который может быть достигнут в селективном транспонировании высоты (звука), в этот момент времени может находиться между «удовлетворительно» и «хорошо». MODVOC менее склонен к неверному толкованию мелодии, так как он, главным образом, не полагается на классификационные решения.

В противоположность многоходовому анализу, выполненному редактором Melodyne на всем звуковом файле до обработки, MODVOC основывается, исключительно, на одноходовой поблочной обработке, потенциально обеспечивающей сценарии операции в потоковом режиме или в реальном времени.

Хотя некоторые аспекты данной концепции были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует стадии способа или характеристике стадии способа. Аналогично, аспекты, описанные в контексте стадии способа также, представляют описание соответствующего блока, элемента или характеристики соответствующего устройства.

Закодированный звуковой сигнал согласно изобретению может быть сохранен на цифровом носителе данных или может быть передан на передающую среду, такую как беспроводная передающая среда или проводная передающая среда, такая как Интернет.

В зависимости от определенных требований к выполнению осуществления изобретения могут выполняться в аппаратных средствах или в программном обеспечении. Выполнение может реализовываться посредством использования цифрового носителя данных, например, дискета, DVD, Blue-Ray, CD, ROM (постоянное запоминающее устройство, ПЗУ), PROM (программируемое постоянное запоминающее устройство, ППЗУ), EPROM (стираемое программируемое постоянное запоминающее устройство, СППЗУ), EEPROM (электрически стираемое программируемое постоянное запоминающее устройство, ЭСППЗУ) или флэш-память, с хранящимися на них электронно-считываемыми управляющими сигналами, которые взаимодействуют (или могут взаимодействовать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ. Поэтому, цифровой носитель данных может быть читаемым посредством компьютера.

Некоторые осуществления согласно изобретению включают носитель данных с электронно-считываемыми управляющими сигналами, которые могут взаимодействовать с программируемой компьютерной системой таким образом, чтобы выполнялся один из описанных здесь способов.

В общем, осуществления данного изобретения могут реализовываться как компьютерный программный продукт с управляющей программой; управляющая программа служит для выполнения одного из способов, когда компьютерный программный продукт запущен на компьютере. Управляющая программа может, например, храниться на машиночитаемом носителе.

Другие осуществления включают хранящуюся на машиночитаемом носителе компьютерную программу для выполнения одного из описанных здесь способов.

Другими словами, осуществление способа согласно изобретению, поэтому представляет собой компьютерную программу, имеющую управляющую программу для выполнения одного из описанных здесь способов, когда компьютерная программа запущена на компьютере.

Дальнейшее осуществление способов согласно изобретению, поэтому, представляет собой носитель данных (или цифровую запоминающую среду, или читаемую компьютером среду), включающий записанную на нем компьютерную программу для выполнения одного из описанных здесь способов.

Дальнейшее осуществление способа согласно изобретению, поэтому, представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из описанных здесь способов. Поток данных или последовательность сигналов могут, например, формироваться, чтобы быть переданными через канал передачи данных, например, через Интернет.

Дальнейшее осуществление включает средство обработки, например, компьютер, или программируемое логическое устройство, формируемое для или приспособленное к выполнению одного из описанных здесь способов.

Дальнейшее осуществление включает компьютер с установленной на нем компьютерной программой для выполнения одного из описанных здесь способов.

В некоторых осуществлениях программируемое логическое устройство (например, логическая матрица с эксплуатационным программированием) может использоваться для выполнения некоторых или всех функциональных возможностей описанных здесь способов. В некоторых осуществлениях логическая матрица с эксплуатационным программированием может взаимодействовать с микропроцессором для выполнения одного из описанных здесь способов. В общем, способы предпочтительно выполняются любыми аппаратными средствами устройства.

Описанные выше осуществления просто иллюстрируют принципы данного изобретения. Следует понимать, что модификации и изменения схем и деталей, описанных здесь, будут очевидны для специалистов, сведущих в этой области техники. Поэтому, цель состоит в том, чтобы ограничиться только областью патентной формулы, а не определенными деталями, представленными здесь посредством описания и объяснения осуществлений.

1. Устройство (600) для изменения звукового сигнала, включающее определитель формы огибающей (610), сконфигурированный, чтобы определить коэффициенты формирования огибающей (612), основываясь на звуковом сигнале частотной области (602), представляющем входной звуковой сигнал временного интервала;
процессор банка фильтров (620), сконфигурированный, чтобы произвести множество сигналов с ограниченной полосой частот (622) в области поддиапазона, основываясь на звуковом сигнале частотной области (602);
процессор сигнала (630), сконфигурированный, чтобы изменить сигнал с ограниченной полосой частот области поддиапазона (622) множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на предварительно определенной цели изменения;
объединитель (640), сконфигурированный, чтобы объединить, по крайней мере, подмножество множества сигналов с ограниченной полосой частот области поддиапазона, чтобы получить звуковой сигнал временного интервала (642); и
формирователь огибающей (650), сконфигурированный, чтобы сформировать огибающую звукового сигнала временного интервала (642), основываясь на коэффициентах формирования огибающей (612), чтобы сформировать огибающую множества сигналов с ограниченной полосой частот области поддиапазона, содержащего измененный сигнал с ограниченной полосой частот области поддиапазона, основываясь на коэффициентах формирования огибающей (612), или чтобы сформировать огибающую множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на коэффициентах формирования огибающей (612) до изменения сигнала с ограниченной полосой частот области поддиапазона процессором сигнала (630), чтобы получить сформированный звуковой сигнал (652), где определитель формы огибающей (610) сконфигурирован, чтобы определить коэффициенты формирования огибающей (612), основываясь на предсказании о частоте звукового сигнала частотной области (602).

2. Устройство по п.1, в котором формирователь огибающей (650) включает преобразователь коэффициентов (810) и множитель (820), где преобразователь коэффициентов (810) сконфигурирован, чтобы преобразовать коэффициенты формирования огибающей (612) во временной интервал, где умножитель (820) сконфигурирован, чтобы умножить звуковой сигнал временного интервала (642) на преобразованные коэффициенты формирования огибающей (812).

3. Устройство по п.1, в котором процессор банка фильтров (620) включает фильтр с предсказанием (710), блок вычитания сигнала (720) и банк фильтров (730), где фильтр с предсказанием (710) сконфигурирован, чтобы произвести прогнозируемый звуковой сигнал (712), основываясь на звуковом сигнале частотной области (602) и коэффициентах формирования огибающей (612), где блок вычитания сигнала (720) сконфигурирован, чтобы вычесть прогнозируемый звуковой сигнал (712) из звукового сигнала частотной области (602), чтобы получить остаточный звуковой сигнал (722), где банк фильтров (730) сконфигурирован для генерирования сигналов с ограниченной полосой частот (622), чтобы получить множество сигналов с ограниченной полосой частот, основываясь на остаточном звуковом сигнале (722).

4. Устройство по п.3, в котором формирователь огибающей (650) сконфигурирован, чтобы определить энергетическое отношение запаса энергии звукового сигнала частотной области (602) и энергетического содержания остаточного звукового сигнала (722), где формирователь огибающей (650) сконфигурирован, чтобы прервать формирование огибающей звукового сигнала временного интервала (642), если энергетическое отношение ниже, чем предварительно определенный энергетический порог.

5. Устройство по п.3, в котором процессор банка фильтров (620) включает преобразователь сигнала (930), сконфигурированный, чтобы преобразовать сигналы с ограниченной полосой частот, произведенные банком фильтров (730), в область поддиапазона, чтобы получить множество сигналов с ограниченной полосой частот.

6. Устройство по п.1, в котором процессор сигнала (630) сконфигурирован, чтобы изменить второй сигнал с ограниченной полосой частот области поддиапазона множества сигналов с ограниченной полосой частот области поддиапазона, основываясь на второй предварительно определенной цели изменения, где предварительно определенная цель изменения и вторая предварительно определенная цель изменения различны.

7. Устройство по п.1, в котором процессор сигнала (630) сконфигурирован, чтобы произвести амплитудно-модулированный сигнал (AM) и частотно-модулированный сигнал (FM) для каждого сигнала с ограниченной полосой частот области поддиапазона (622) множества сигналов с ограниченной полосой частот области поддиапазона, где процессор сигнала (630) сконфигурирован, чтобы изменить амплитудно-модулированный сигнал (AM) или частотно-модулированный сигнал (FM) сигнала с ограниченной полосой частот области поддиапазона (622), который будет изменен, основываясь на предварительно определенной цели изменения.

8. Устройство по п.1, включающее определитель несущей частоты (920), сконфигурированный, чтобы определить множество несущих частот, основываясь на звуковом сигнале частотной области (602), где процессор банка фильтров (620) сконфигурирован, чтобы произвести сигналы с ограниченной полосой частот так, чтобы каждый сигнал с ограниченной полосой частот включал частотный диапазон, содержащий другую несущую частоту множества несущих частот, чтобы получить сигнал с ограниченной полосой частот, связанный с каждой несущей частотой множества несущих частот.

9. Устройство по п.1, включающее фильтр верхних частот/нижних частот (660), сконфигурированный, чтобы фильтровать на верхних частотах входной звуковой сигнал временного интервала или звуковой сигнал частотной области, представляющий входной звуковой сигнал временного интервала, где фильтр верхних частот/нижних частот (660) сконфигурирован, чтобы фильтровать на нижних частотах входной звуковой сигнал временного интервала или звуковой сигнал частотной области, представляющий входной звуковой сигнал временного интервала, чтобы получить звуковой сигнал нижних частот (662), где определитель формы огибающей (610) сконфигурирован, чтобы определить коэффициенты формирования огибающей (612), основываясь на звуковом сигнале верхних частот частотной области (602), где процессор банка фильтров (620) сконфигурирован, чтобы произвести множество сигналов с ограниченной полосой частот (622) в области поддиапазона, основываясь на звуковом сигнале верхних частот частотной области (602) и звуковом сигнале нижних частот (622), где процессор сигнала (630) сконфигурирован, чтобы изменить сигнал с ограниченной полосой частот области поддиапазона, связанный со звуковым сигналом верхних частот частотной области (602) или звуковым сигналом нижних частот (622), где объединитель (640) сконфигурирован, чтобы объединить сигнал с ограниченной полосой частот области поддиапазона, соответствующий звуковому сигналу верхних частот частотной области (602), чтобы получить звуковой сигнал временного интервала (642), или чтобы объединить сигнал с ограниченной полосой частот области поддиапазона, соответствующий звуковому сигналу верхних частот частотной области (602), и сигнал с ограниченной полосой частот области поддиапазона, соответствующий звуковому сигналу нижних частот (662), чтобы получить звуковой сигнал временного интервала (642).

10. Устройство по п.1, включающее фильтр верхних частот/нижних частот (660), сконфигурированный, чтобы фильтровать на верхних частотах входной звуковой сигнал временного интервала или звуковой сигнал частотной области, представляющий входной звуковой сигнал временного интервала так, чтобы определитель формы огибающей (610) определял коэффициенты формирования огибающей (612), основываясь на звуковом сигнале верхних частот частотной области (602), и процессор банка фильтров (620) производил множество сигналов с ограниченной полосой частот (622) в области поддиапазона, основываясь на звуковом сигнале верхних частот частотной области (602), где фильтр верхних частот/нижних частот (660) сконфигурирован, чтобы фильтровать на нижних частотах входной звуковой сигнал временного интервала или звуковой сигнал частотной области, представляющий входной звуковой сигнал временного интервала, чтобы получить звуковой сигнал нижних частот, где объединитель (640) формируется, чтобы объединить множество сигналов с ограниченной полосой частот области поддиапазона, содержащих измененный сигнал с ограниченной полосой частот области поддиапазона и звуковой сигнал нижних частот, чтобы получить звуковой сигнал временного интервала (642), или поставщик полнополосного сигнала (670), сконфигурированный, чтобы объединить сформированный звуковой сигнал (652) и звуковой сигнал нижних частот, чтобы получить полнополосный звуковой сигнал.

11. Устройство по п.10, включающее определитель основного тона и определитель обертона, где определитель основного тона сконфигурирован, чтобы выбрать сигнал с ограниченной полосой частот области поддиапазона (622) множества сигналов с ограниченной полосой частот области поддиапазона, чтобы получить основной сигнал с ограниченной полосой частот, где определитель обертона сконфигурирован, чтобы идентифицировать сигнал с ограниченной полосой частот области поддиапазона (622) множества сигналов с ограниченной полосой частот области поддиапазона, удовлетворяющий критерию обертона относительно выбранного основного сигнала с ограниченной полосой частот, чтобы получить обертон сигнала с ограниченной полосой частот, связанный с выбранным основным сигналом с ограниченной полосой частот, где процессор сигнала (630) сконфигурирован, чтобы изменить выбранный основной сигнал с ограниченной полосой частот, основываясь на предварительно определенной цели изменения, и сконфигурирован, чтобы изменить идентифицированный обертон сигнала с ограниченной полосой частот, связанный с выбранным основным сигналом с ограниченной полосой частот в зависимости от изменения выбранного основного сигнала с ограниченной полосой частот.

12. Устройство по п.11, в котором каждый сигнал с ограниченной полосой частот области поддиапазона (622) включает несущую частоту, где определитель обертона сконфигурирован, чтобы сравнить несущую частоту сигнала с ограниченной полосой частот области поддиапазона (622) множества сигналов с ограниченной полосой частот области поддиапазона с несущей частотой выбранного основного сигнала с ограниченной полосой частот, где критерий обертона удовлетворяется, если несущая частота сигнала с ограниченной полосой частот области поддиапазона (622) является кратным числом несущей частоты выбранного основного сигнала с ограниченной полосой частот с предварительно определенной устойчивостью несущей частоты.

13. Способ (1100) изменения звукового сигнала, включающий
определение (1110) коэффициентов формирования огибающей, основанное на звуковом сигнале частотной области, представляющем входной звуковой сигнал временного интервала;
генерирование (1120) множества сигналов с ограниченной полосой частот в области поддиапазона, основанное на звуковом сигнале частотной области;
изменение (1130) сигнала с ограниченной полосой частот области поддиапазона множества сигналов с ограниченной полосой частот области поддиапазона, основанное на предварительно определенной цели изменения;
объединение (1140), по крайней мере, подмножества множества сигналов с ограниченной полосой частот области поддиапазона, чтобы получить звуковой сигнал временного интервала; и
формирование (1150) огибающей звукового сигнала временного интервала, основанное на коэффициентах формирования огибающей, формирование (1150) огибающей множества сигналов с ограниченной полосой частот области поддиапазона, содержащего измененный сигнал с ограниченной полосой частот области поддиапазона, основанное на коэффициентах формирования огибающей, или формирование (1150) огибающей множества сигналов с ограниченной полосой частот области поддиапазона, основанное на коэффициентах формирования огибающей до изменения сигнала с ограниченной полосой частот области поддиапазона процессором сигнала, чтобы получить сформированный звуковой сигнал, где коэффициенты формирования огибающей (612) определяются, основываясь на предсказании о частоте звукового сигнала частотной области (602).

14. Машиночитаемый носитель информации с записанной на него компьютерной программой, имеющей код для выполнения способа по п. 13, когда компьютерная программа запущена на цифровом сигнальном процессоре, компьютере или микропроцессоре.

Изобретение относится к акустике, в частности к средствам обработки звукового сигнала. Устройство содержит процессор с набором фильтров, блок определения основного тона, блок определения обертона, процессор сигнала, предназначенный для модификации выделенного полосового сигнала основного тона, основываясь на выбранной модели модификации и способный модифицировать выделенный полосовой сигнал обертона, связанный с выделенным полосовым сигналом основного тона, и зависящим от модификации выделенного полосового сигнала.