Устройство и способ модификации аудио сигнала, используя захват гармоник

Авторы патента:

ДИШ Саша (DE)

G10H1/08 - путем сочетания тонов (G10H 1/14,G10H 1/16 имеют преимущество; аккорд G10H 1/38; анализирование или синтезирование речи G10L)

Владельцы патента RU 2591732:

Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE)

Изобретение относится к акустике, в частности к средствам обработки звукового сигнала. Устройство содержит процессор с набором фильтров, блок определения основного тона, блок определения обертона, процессор сигнала, предназначенный для модификации выделенного полосового сигнала основного тона, основываясь на выбранной модели модификации и способный модифицировать выделенный полосовой сигнал обертона, связанный с выделенным полосовым сигналом основного тона, и зависящим от модификации выделенного полосового сигнала. Процессор сигнала формирует сигналы с амплитудной и частотной модуляцией для каждого полосового сигнала и может корректировать ЧМ сигналы выделенного полосового сигнала основного тона по выбранной модели модификации. Процессор сигнала также модификацирует ЧМ сигналы выделенного полосового сигнала обертона, связанного с полосовым сигналом основного тона. Устройство содержит блок сведения, предназначенный для сведения модифицированного полосового сигнала основного тона, модифицированного полосового сигнала обертона и не выделенных полосовых сигналов из множества полосовых сигналов для получения модифицированного аудио сигнала. Технический результат - повышение качества звучания. 3 н. и 10 з.п. ф-лы, 23 ил., 4 табл.

Данное изобретение относится к обработке звука и в частности к аппаратуре и способу изменения аудио сигнала.

Существует постоянно возрастающая потребность в использовании технологии обработки цифрового сигнала, которая связана с управлением предельными значениями сигналов, чтобы использовать заранее записанные аудио сигналы, например, взятые из базы данных и внести их в новый музыкальный контекст. Чтобы иметь возможность сделать это, должны быть адаптированы семантические свойства сигналов высокого уровня такие как уровень, музыкальная тональность и звукоряд. Все эти обработки имеют общим то, что направлены на значительное изменение музыкальных свойств оригинального аудио материала, при сохранении как можно выше субъективного качества звука. Другими словами, эти редактирования сильно изменяют музыкальное содержание аудио материала, но, тем не менее, от них требуется сохранить натуральность обработанного аудио образца и таким образом поддерживать достоверность. Идеально это требует таких способов обработки, которые широко применяются к различным классам сигналов, включая смешенный полифонический музыкальный контент.

В настоящее время известны многие подходы к изменению (модификации) аудио сигналов. Некоторые из них основываются на использовании вокодеров.

Например, в работах С. Диш и Б. Элдер «Амплитудная и частотная модуляция вокодера для обработки аудио сигнала», Материалы международной конференции по цифровым аудио эффектам (DAFx), 2008, С. Диш и Б. Элдер «Многополосный перцептуальный модуляционный анализ, обработка и синтез аудио сигналов», Материалы IEEE-ICASSP, 2009 или С. Диш и Б. Элдер «Алгоритм альтернативной сегментации аудио сигналов спектра, зависящего от расчетных местных центров тяжести», 12 международная конференция по цифровым аудио эффектам (DAFx-09), 2009.”, была заявлена концепция модулируемого вокодера (MODVOC) и была показана его общая способность предавать предварительную форму значительному селективному транспонированию полифонического музыкального контента. Это делает возможным такие использования, которые направлены на изменение режима установки одновременно звучащих нот заранее записанных в кодово-импульсной модуляции музыкальных образцов (см. С. Диш и Б. Элдер «Многополосный перцептуальный модуляционный анализ, обработка и синтез аудио сигналов», Материалы IEEE-ICASSP, 2009). Также имеется первая коммерческая программа, которая делает возможным выполнение задачи такой полифонической обработки (редактор Мелодии фирмы Целемони). Программа использует технологию, которая была разработана и выпущена на рынок под термином «прямой доступ к нотам» (DNA). Была опубликована патентная заявка (ЕР 2099024, П. Нойбекер, "Способ акустического объективно-ориентированного анализа и объективно-ориентированная обработка нот при записи полифонических звуков», сентябрь 2009), раскрывающая основное функционирование принципа DNA. Данное решение направлено на получение аудио сигнала с высокой достоверностью восприятия, независимо от способа, используемого для изменения аудио сигнала.

Задачей настоящего изобретения является представление улучшенной концепции изменения аудио сигнала, которая позволит получить улучшенное качество восприятия измененного аудио сигнала.

Это достигается при помощи устройства по п.1, способа по п.14 или компьютерной программы по п.15.

Реализация изобретения осуществляется при помощи устройства для модификации аудио сигнала, состоящего из процессора с набором фильтров, блока определения основного тона, процессора сигналов и блока сведения. Процессор с набором фильтров предназначен для получения множества полос сигналов, выделенных из входного аудио сигнала. Далее, блок определения основного тона предназначен для выделения сигнала определенной полосы пропускания из множества сигналов для получения сигнала основного тона в полосе частот. Блок определения обертона предназначен идентифицировать сигнал определенной частоты из множества сигналов, удовлетворяющих критериям обертона по отношению к выбранному сигналу основного тона и получения сигнала обертона, связанного с выбранным сигналом основного тона. Далее, процессор сигнала предназначен изменять сигнал основного тона, основываясь на заданной модели модификации. Дополнительно, процессор сигнала предназначен для модификации выделенного сигнала обертона, связанного с выбранным сигналом основного тона, зависящим от изменения выбранного сигнала основного тона. Далее, блок сведения предназначен для объединения множества сигналов для получения модифицированного аудио сигнала.

Идентификация обертонов основных частот и модификация обертонов таким же образом как и соответствующих основных частот, позволяет избежать раздельной модификации обертонов и основных частот, и таким образом основа измененного аудио сигнала может быть представлена более точно по сравнению с оригинальным аудио сигналом. Таким путем, качество восприятия модифицированного аудио сигнала может быть значительно улучшено. Например, если требуется желаемая высота звука транспонирования (например, необходимо изменить режим установки одновременно звучащих нот с до мажор на до минор данного музыкального сигнала), модификация выделенного сигнала обертона коррелируется с модификацией основного сигнала. Для сравнения, известные способы модифицируют частотную область сигнала, представляя обертона отлично от основного сигнала. Другими словами, выделенный сигнал обертона связан с основным сигналом описанным способом.

В некоторых вариантах реализации изобретения, сигнал обертона может быть выделен путем сравнения частот основного тона с множеством поступающих сигналов, путем сравнения энергии основного сигнала и множества этих сигналов и/или определением корреляции временной формы кривой сигнала основного тона и временной формы множества сигналов на входе. Таким образом, один или два критерия обертонов могут быть определены для минимизации определения неправильных обертонов.

В некоторых вариантах выполнения данного изобретения, действия относятся к повторяющемуся определению сигналов основного тона и выделению сигналов обертонов из множества сигналов. Уже выделенные полосовые сигналы основного тона и уже выделенные полосовые сигналы обертонов могут быть удалены из объема поиска или, другими словами, могут не учитываться в ходе дальнейшего определения сигналов основного тона и обертонов. В этом случае каждый сигнал из множества сигналов на входе может выбираться, как сигнал основного тона (и, таким образом, может быть модифицирован независимо от других основных сигналов) или как сигнал обертона (и таким образом может быть модифицирован в зависимости от соответствующего выбранного сигнала основного тона).

Другой вариант выполнения данного изобретения касается устройства для модификации аудио сигнала, состоящего из блок определения формы кривой, процессора с набором фильтров, блока сведения и формирователя кривой. Блок определения формы кривой предназначен для определения коэффициентов формы кривой, основываясь на частотной области значений аудио сигнала, представляющих временную область значений входных аудио сигналов. Далее, процессор с набором фильтров предназначен для того, чтобы выдавать множество сигналов в поддиапазонных областях, основываясь на частоте аудио сигнала. Процессор сигнала предназначен для того, чтобы модифицировать сигнал поддиапазона частот из множества сигналов, основываясь на заданной модели. Далее блок сведения предназначен для того, чтобы свести, по крайней мере, подгруппу множества сигналов поддиапазонов для получения совокупного аудио сигнала. Дополнительно, формирователь кривой предназначен для того, чтобы сформировать кривую совокупного звукового сигнала, основываясь на коэффициентах формы кривой, сформировать форму множества сигналов поддиапазонов, содержащих модифицированные сигналы поддиапазонов, основываясь на коэффициентах формы кривой, каким были сигналы до проведения модификации сигналов процессором и получения сформированного аудио сигнала.

При определении коэффициентов формы кривой области аудио сигнала до разделения сигнала на поддиапазоны может быть собрана информация о спектральной когерентности аудио сигнала и она может быть использована при формировании временной кривой области аудио сигнала после модификации одного или более поддиапазонов. Таким образом спектральная когерентность модифицированного аудио сигнала может быть представлена более достоверно, хотя только некоторые (или только один) поддиапазоны модифицируются или поддиапазоны модифицируются по разному, что может нарушить спектральную когерентность аудио сигнала. В этом случае, качество восприятия модифицированного аудио сигнала может быть значительно улучшено.

Некоторые варианты исполнения данного изобретения относятся к процессору сигнала предназначенного для модификации второго поддиапазона полосового сигнала, базирующегося на второй выбранной модели модификации. Первая и вторая выбранные модели модификации различны. Хотя полосовые сигналы модифицируются по разному, спектральная когерентность модифицированного аудио сигнала может быть представлена более точно благодаря построению формы кривой после индивидуальной модификации полосовых сигналов.

Описание реализации данного изобретения будет детализировано с использованием ссылок на следующие чертежи и схемы, на которых:

Фиг.1 - блок схема устройства для модификации аудио сигнала;

Фиг.2 - блок схема устройства для модификации аудио сигнала;

Фиг.3 - схема программы способа модификации аудио сигнала;

Фиг.4 - блок схема части модулирующего вокодера, использующего захват гармоник;

Фиг.5 - схема программы способа модификации аудио сигнала;

Фиг.6а, 6b, 6с, 6d - блок схемы устройства для модификации аудио сигнала;

Фиг.7 - блок схема процессора с набором фильтров;

Фиг.8 - блок схема формирователя кривой;

Фиг.9 - схематическая иллюстрация модуляционного анализа с формирователем кривой;

Фиг.10 - схематическая иллюстрация модуляционного синтеза с формирователем кривой;

Фиг.11 - блок схема способа модификации аудио;

Фиг.12 - блок схема устройства для модификации аудио сигнала;

Фиг.13 - схематическая иллюстрация модуляционного анализа;

Фиг.14 - схематическая иллюстрация применения модуляционного анализа;

Фиг.15 - схематическая иллюстрация модуляционного синтеза;

Фиг.16 - схематическая иллюстрация выборочного транспонирования на компонентах модуляционного вокодера;

Фиг.17 - схематическая иллюстрация алгоритма генерирования тестового набора для вычисления субъективного качества модуляционного вокодера, используемого для задач селективного транспонирования тона;

Фиг.18 - диаграмма, показывающая абсолютные MUSHRA величины и 95% доверительные интервалы тестовых прослушиваний селективных транспонирований тона;

Фиг.19 - диаграмма, показывающая разницу между MUSHRA величинами по отношению к условиям модуляционного вокодера и 95% доверительными интервалами тестового прослушивания селективных транспонирований тона; и

Фиг.20 - диаграмма, показывающая различные MUSHRA величины по отношению к условиям DNA и 95% доверительные интервалы тестового прослушивания селективных транспонирований тона.

При описании изобретения будут использованы одинаковые цифры для объектов и функциональных узлов, имеющих одинаковые или близкие функциональные свойства, чтобы избежать многословности при описании.

Селективная частотная модификация, называемая также селективным транспонированием тона, может быть выполнена, например, при помощи вокодера или модуляционного вокодера.

Многополосное модуляционное разложение (С. Диш и Б. Элдер Многополосный модуляционный анализ восприятия, обработки и синтеза аудио сигналов, Материалы IEEE-ICASSP, 2009) аудио сигналов разлагает их на адаптивный набор полосовых (аналитических) сигналов, каждый из которых, в свою очередь разлагается на синусоидальную несущую, амплитудную модуляцию (AM) и частотную модуляцию (ЧМ). Набор полосовых фильтров может быть рассчитан таким образом, что с одной стороны полный спектр покрывается без стыков, а с другой стороны фильтры выстроены, например, с общими центрами тяжести (ОЦТ). Дополнительно, аудио восприятие человеком может приниматься во внимание при выборе ширины полосы фильтров для согласования шкалы восприятия, например ERB шкалы, (Б.С. Мур и Б.Р. Гласберг, Ревизия цвикерской модели громкости, ActaAcustica, том, 82, с.335-345, 1996).

Например, местная ОЦТ соответствует средней частоте, которая воспринимается слушателем благодаря спектральному восприятию в данном месте. Более того, волны, с центром в местном ОТЦ могут соответствовать району воздействия при захвате фаз классических фазовых вокодеров (см Дж. Ларош и М. Долсон Улучшенная временная шкала модификации звука фазовым вокодером, Труды IEEE по обработке речи и аудио, том 7, №3, стр.323-332, 1999). Образ кривой полосового сигнала и традиционная область воздействия фаз обе дают временную кривую полосового сигнала: либо по своей природе, либо, как в последнем случае, обеспечивая местную спектральную когерентность во время синтеза. С учетом синусоидальной несущей частоты, соответствующей расчетному местному ОЦТ, AM и ЧМ регистрируются в амплитудной кривой и наложенной фазе аналитического полосового сигнала, соответственно. Разработанный метод синтеза восстанавливает выходной сигнал из несущих частот, AM и ЧМ.

Блок схема возможного использования 1300 разложения сигнала на сигналы - носители и их модуляционные компоненты показана на фиг 13. Здесь показано схематическое прохождение сигнала при вычитании одного из многополосных компонентов (полосовые сигналы). Все остальные компоненты получают аналогичным способом. Сначала, широкополосный входной сигнал X поступает на полосовой фильтр, который был рассчитан для получения адаптивного сигнала на выходе. Затем, аналитический сигнал получают по преобразованию Гилберта по уравнению (1).

AM (сигнал с амплитудной модуляцией) дается по амплитудной огибающей $\hat{х}$

тогда как ЧМ (частотно модулированный сигнал) получают фазовой производной аналитического сигнала, наложенного на стационарный синусоидный носитель с угловой ω_c. Несущая частота определяется как расчетная местного ОТЦ. Поэтому ЧМ может быть определена как изменение МЧ (мгновенная частота) на несущей частоте ƒc.

Оценка местного ОТЦ и расчет переднего набора фильтров адаптивного сигнала описан, например, в ряде публикаций (см. С. Диш и Б. Элдер, Повторяющийся алгоритм сегментации для сигналов аудио спектра зависящих от местных центров тяжести, 12 международная конференция по цифровым аудио эффектам (DAFx-09), 2009).

Практически в дискретной временной системе, извлечение компонента может проходить одновременно для всех компонентов, как показано на фиг. 14. Схема обработки может поддерживать работу в реальном времени. Обработка определенного временного блока зависит только от параметров предыдущих блоков. Поэтому не требуется никакого заглядывания вперед и это делает задержку общей обработки очень малой. Обработка проводится по методу блок - за - блоком, используя 75% перекрытие анализа блока и используя дискретное преобразование Фурье (ДПФ) на каждом обрабатываемом блоке сигнала. Интервал может быть с плоской вершиной по уравнению (4). Это обеспечивает такое состояние, что N/2 образцы, которые прошли на следующий модуляционный синтез используя 50% перекрытие, становятся недейственными из-за нижнего края поля. Большая степень перекрытия может быть использована для повышенной точности вычисления.

В данной спектральной репрезентации вычислены весовые функции спектральной полосы адаптивного сигнала, которые совпадают с положением местного ОТЦ. После соотнесения взвешенности полосы к спектру, сигналы преобразуются во временное пространство и аналитические сигналы могут быть получены при помощи преобразования Гилберта. Эти два этапа обработки могут быть эффективно объединены вычислением односторонней IDFT полосового сигнала. При данном полосовом сигнале дискретного времени вычисление МЧ при помощи уравнения (3) производится путем дифференциации фаз как определено в уравнении (5), где * определяет комплексное сопряженное число. Это выражение успешно применяется т.к. оно позволяет избегать фазовых неопределенностей и следовательно не требует фазового развертывания.

Сигнал синтезируется на аддитивном основании всех компонентов. Последовательные блоки смешиваются путем наложения/добавления (OLA), контролируемые механизмом сборки. Компонент сборки обеспечивает плавный переход между границами соседних блоков даже если компоненты значительно изменены модуляционной обработкой. Процесс собирания не только берет во внимание предварительный блок, но и потенциально позволяет вести обработку в режиме реального времени. В ходе собирания происходит по парное согласование компонентов в текущем блоке с их предшественниками в предыдущем блоке. Процесс собирания выравнивает фазы абсолютных компонентов текущих блоков с такими же компонентами в предыдущих блоках. Для компонентов, которые не совпадают по временным блокам, применяется постепенное усиление или постепенное затухание.

Для одного компонента цепь обработки показана на фиг.15. Сначала ЧМ сигнал добавляется к постоянной несущей частоте и полученный сигнал проходит через блок смешения/наложения, а выходной сигнал с этого блока интегрируется по времени. На синусоидный генератор подается полученный фазовый сигнал. AM сигнал обрабатывается на второй стадии смешения/наложения. Затем сигнал на выходе генератора модулируется по амплитуде AM сигналом, чтобы получить аддитивное взаимодействие компонента с выходным сигналом. На финальном этапе взаимодействие всех компонентов суммируется для получения выходного сигнала y.

Другими словами, фиг.13 и 14 показывают модуляционный анализатор 1300. Он состоит из полосового фильтра 1320а, который выдает полосовой сигнал. Он является входным сигналом аналитического конвертера (преобразователя) сигнала 1320b. Выход блока 1320b используется для вычислений AM информации и ЧМ информации. Для вычисления AM информации, амплитуда аналитического сигнала вычисляется в блоке 1320с. Выход блока аналитического сигнала 1320b является входом умножителя 1320d, который получает на свой другой вход сигнал с генератора 1320е, который управляется частотой носителя fc 1310 полосы 1320а. Затем определяется фаза на выходе умножителя в блоке 1320f. Мгновенная фаза дифференцируется в блоке 1320g, чтобы в конце получить ЧМ информацию. Дополнительно фиг. 14 показывает предпроцессор 1410, генерирующий DFT спектр аудио сигнала.

Многополосное модуляционное разделение разделяет аудио сигнал на адаптивные сигнальные наборы (аналитических) полосовых сигналов, каждый из которых далее разделяется на синусоидальную несущую и амплитудную модуляцию (AM) и частотную модуляцию (ЧМ) сигнала. Набор полосовых фильтров устроен таким образом, чтобы с одной стороны полный спектр был без стыков, а с другой стороны фильтры согласовывались с местным ОТЦ каждый. Кроме того, человеческое аудио восприятие принимается во внимание при выборе ширины полосы фильтров для совпадения со шкалой восприятия, например, ERB шкалой (см. Б.С. Мур и Б.Р. Гласберг, Ревизия цвикерской модели громкости, ActaAcustica, том, 82, стр. 335-345, 1996).

Местная ОЦТ соответствует средней частоте, которая воспринимается слушателем благодаря спектральному восприятию в данном месте. Более того, волны, с центром в местном ОТЦ могут соответствовать району воздействия при захвате фаз классических фазовых вокодеров (см Дж. Ларош и М. Долсон Улучшенная временная шкала модификации звука фазовым вокодером, Труды IEEE по обработке речи и аудио, том 7, №3, стр. 323-332, 1999). Образ кривой полосового сигнала и традиционная область воздействия фаз обе дают временную кривую полосового сигнала: либо по своей природе, либо, как в последнем случае, обеспечивая местную спектральную когерентность во время синтеза. С учетом синусоидной несущей частоты, соответствующей расчетному местному ОЦТ, AM и ЧМ регистрируются в амплитудной кривой и наложенной фазе аналитического полосового сигнала, соответственно. Разработанный метод синтеза восстанавливает выходной сигнал из несущих частот, AM и ЧМ.

Блок схема разделения сигнала на сигналы несущей и связанные с ней модулирующие компоненты показана на фиг. 12. Здесь показано схематическое прохождение сигнала по извлечению одного компонента. Все другие компоненты извлекаются аналогичным способом. Практически извлечение всех компонентов выполняется одновременно по блочно, используя, например, блок размером N=2¹⁴ на частоте квантования 48 kHz и 75% перекрытие анализов - грубо соответствует временному интервалу 340 ms и шагу по индексу 85 ms - при применении дискретного преобразования Фурье (DFT) в каждом сигнальном блоке. Интервал может быть с плоской вершиной по уравнению (4). Это обеспечивает такое положение, что N/2 образцы, которые прошли на следующий модуляционный синтез используя 50% перекрытие становятся недейственными из-за нижнего края поля. Большая степень перекрытия может быть использована для повышенной точности вычисления.

(а)

В данной спектральной репрезентации может быть вычислен набор весовых функций спектральной полосы, адаптивного сигнала (имеющие характеристики полосового сигнала), которые совпадают с положением местного ОТЦ (при помощи блок определения а несущей частоты 1330 через вычисление несущей частоты или вычисление умножителя несущей частоты ОТЦ). После соотнесения взвешенности полосы к спектру, сигналы преобразуются во временное пространство и аналитические сигналы могут быть могут быть получены при помощи преобразования Гилберта. Эти два этапа обработки могут быть эффективно объединены вычислением односторонней IDFT полосового сигнала.

Каждый аналитический сигнал накладывается на несущую частоту. Затем сигнал дальше разбирается на составные части, выделяя амплитудную огибающую и ее мгновенную частоту (МЧ), полученные вычислением фазовой производной, выделяя желаемый AM и ЧМ сигналы. (С. Диш и Б. Элдер. Вокодеры амплитудной и частотной модуляции для обработки аудио сигналов, Материалы конференции по цифровым аудио эффектам (DAFx), 2008).

Фиг. 15 показывает блок схему синтезатора модификаций 1500 параметрического представления аудио сигнала. Предпочтительное использование основывается на операции наложения/добавления (ОНД) в модулируемом пространстве, т.е. пространстве до генерирования временного полосового сигнала. Входной сигнал, который может быть в виде цифрового потока, но может быть и напрямую подключен к анализатору или модификатору, разделяется на AM компонент 1502, ЧМ компонент 1504 и компонент несущей частоты 1506. Синтезатор AM содержит блок наложения/добавления 1510, и контроллер сборки компонентов 1520, который не только содержит блок 1510, но и блок 1530, который является блоком наложения/добавления в ЧМ синтезаторе. ЧМ синтезатор кроме того содержит блок частотного наложения/добавления 1530, интегратор мгновенной частоты 1532, блок фазового сведения 1534, который может использоваться как блок постоянного наложения и смещения фаз 1536, управляемый контроллером сборки компонентов для восстановления постоянной фазы от блока к блоку, чтобы фаза сигнала от предыдущего блока совпадала с фазой текущего блока. Поэтому можно сказать, что фазовое добавление в элементах 1534, 1536 соответствуют восстановлению константы, потерянной в ходе отыскания производной в блоке 1520g на фиг.13 анализатора. Эта потеря может быть восстановлена путем добавления постоянной фазы, определенной в устройстве сборки компонентов 1520.

Операция наложения/добавления (ОНД) проводится с пространством параметра, а не с уже синтезированным сигналом, чтобы избежать эффекта биений между соседними временными блоками. ОНД управляется механизмом сборки компонентов, который, управляемый спектральной близостью (измеренной по шкале ERB), выполняет по парный подбор компонентов текущего блока с их предшественниками из предыдущего блока. При соединении выверяются абсолютные фазы компонентов текущего блока и компонентов предыдущего блока. Сначала ЧМ сигнал добавляется к несущей частоте и полученный сигнал передается в блок ОНД, выходной сигнал затем интегрируется. Полученный фазовый сигнал подается на синусоидальный генератор 1540. AM сигнал обрабатывается на втором блоке ОНД. В конце выход генератора модулируется в 1550 полученным AM сигналом по амплитуде, чтобы получить добавляемый компонент к выходному сигналу 1560.

Необходимо подчеркнуть, что соответствующая спектральная сегментация сигнала при модуляционном анализе является наиболее важной для получения положительного результата при дальнейшей обработке параметров модуляции. Поэтому здесь описывается пример подходящего алгоритма сегментации.

Фиг.16 показывает пример 1600 применения изменения полифонического звучания. Фиг. показывает селективное транспонирование компонентов на модуляционном вокодере. Несущие частоты квантуются по правилам MIDI, затем преобразуются в соответствующее MIDI звучание. Сохранение относительной ЧМ модуляции происходит путем мультипликации преобразованных компонентов в соотношении оригинальной и модифицированной частоты носителя.

Транспонирование аудио сигнала при сохранении оригинальной скорости воспроизведения является трудной задачей. Используя предложенную систему это достигается прямым умножением всех компонентов носителя на постоянный фактор. Временная структура входящего сигнала связана только с AM сигналами и на ее не оказывает воздействие удлинение спектрального промежутка несущей..

Еще больший эффект может быть получен при селективной обработке. Режим тональности музыкального произведения может быть изменен с мажорного на минорное и наоборот. Следовательно, только подгруппа несущих соответствующих определенным заданным частотным интервалам преобразуется в подходящие новые значения. Чтобы получит это преобразование, несущие частоты квантуются в 1670 на MIDI уровни, которые преобразуются в 1672 в новые MIDI уровни (используя знание о гармонике и тональности обрабатываемого музыкального произведения).

Затем преобразованные MIDI уровни конвертируются в 1574, чтобы получить модифицированные частоты несущих, которые используются для синтеза. Выделенный MIDI уровень детектирования появления/пропадания не требуется т.к. временные характеристики преимущественно представлены не модифицированной AM и таким образом уже представлены. Таблицы произвольного преобразования могут быть составлены при конверсии в и из других минорных оттенков (например гармонический минор).

Использование данного изобретения в области аудио эффектов является глобальное транспонирование аудио сигнала. Обработка, требуемая для этих аудио эффектов, представляет собой простое умножение несущих на постоянный фактор транспонирования. При умножении ЧМ на этот же фактор получают, что для каждого компонента сохраняется относительная глубина ЧМ модуляции. Поскольку временная структура представлена только AM сигналами, она остается неизменной при обработке. Общее транспонирование изменяет оригинальную тональность музыкального сигнала на желаемую (например с до мажор на соль минор) при сохранении оригинального темпа.

Благодаря адаптивной природе сигнала в предложенном модуляционном анализе, модуляционный вокодер может быть применен и для выполнения других задач. Теперь, когда транспонирование селективных компонентов полифонической музыки стало выполнимым благодаря приложениям меняющим тональность (например, с до мажор на соль минор) данного музыкального сигнала (см. С. Диш и Б. Эдлер, Многополосный перцептуальный модуляционный анализ, обработка и синтез аудио сигналов, Материалы IEEE-ICASSP, 2009). Это стало возможным благодаря тому, что каждая несущая компонентов близко соответствует восприятию высоты тона в его спектральной области. Если только несущая, соответствующая определенному оригинальному тону преобразуется по новой модели, то общая музыкальная характеристика, определяемая тональностью, также изменяется.

Необходимая обработка на MODVOC компонентах описана на фиг.16, как говорилось выше. В области разделения MODVOC, несущие частоты квантуются по закону MIDI, а затем преобразуются в соответствующие уровни и ноты MIDI. Для восстановления миди - уровней и нот, необходимо знание тональности и лада оригинального музыкального отрывка. AM всех компонентов не влияет вовсе, поскольку она не несет информации о высоте тона.

Несущие частоты компонентов f, которые представляют высоту тона компонентов, конвертируются в значения MIDI уровней m в соответствии с уравнением 6, где f_std обозначает стандартный уровень, который соответствует MIDI уровень 69, нота А0.

Соответственно, MIDI уровни квантуются в MIDI ноты n(f) и, дополнительно определяется смещение уровня о(f) каждой ноты. Используя таблицу преобразования MIDI нот, которая зависит от тональности, оригинального строя и желаемого строя эти MIDI ноты преобразуются в желаемые значения n′. В таблице, приведенной ниже, даны примеры преобразования ноты до из до мажор в до минор. Преобразование возможно проводить с нотами всех октав (original note - оригинальная нота; target note - преобразованная нота)

Original note	Target note
C	C
D	D
E	Eb
F	F
G	G
A	Ab
B	Bb

Преобразованные MIDI ноты, включающие смещения уровня, преобразуются назад на частоту f', чтобы получить модифицированные несущие частоты, используемые для синтеза (уравнение 7). Дополнительно, чтобы сохранить относительную глубину ЧМ модуляции, преобразованный ЧМ компонент умножается на индивидуальный фактор высоты транспонирования, который получают как соотношение оригинальной и модифицированной несущих частот. Обнаружение появления/исчезновения смещения MIDI нот может не потребоваться т.к. временные характеристики представлены неизменной AM.

Описанный модуляционный вокодер является одной из возможностей отдельно модифицировать различные частотные диапазоны (полосовые сигналы) аудио сигналов, что было показано как селективное транспонирование уровня. Концепция изобретения позволяет улучшить качество восприятия таких модифицированных аудио сигналов. Хотя некоторые воплощения концепции изобретения описаны в связи с вокодером или модулирующим вокодером, она может быть использована более широко для улучшения качества восприятия модифицированных аудио сигналов независимо от использования вокодера.

Фиг.1 показывает блок схему устройство 100 для модификации аудио сигнала 102 в соответствии с данным изобретением. УСТРОЙСТВО 100 состоит из процессора с набором фильтров 110, блок определения основного тона 120, блок определения обертона 130, процессора сигнала 140 и блока сведения 150. Процессор с фильтрами 110 подключен к блоку определения основного тона 120, блок определения обертона 130 и сигнальный процессор 140 также как блок определения основного тона 120, подключен к блок определения обертона 130 и сигнальному процессору 140. Далее блок определения обертона подключен к сигнальному процессору 140, а сигнальный процессор 140 подключен к блоку сведения 150. Процессор ПО генерирует множество полосовых сигналов 112, получаемых из аудио сигнала 102. Блок определения основного тона выбирает из множественного полосового сигнала 112 сигнал основного тона 122. Блок определения обертона выбирает из множественного полосового сигнала 112, сигнал, соответствующий критериям обертона для выбранного сигнала основного тона 122 и выделяет его как сигнал обертона 132. Далее сигнальный процессор 140 изменяет выделенный сигнал основной частоты 122 в соответствии с выбранной моделью. Дополнительно, сигнальный процессор 140 изменяет выделенный сигнал обертона 132, связанный с выделенным сигналом основного тона 122, по модели изменения сигнала основного тона 122. Блок сведения 150 сводит все множество полосовых сигналов, содержащих выделенные модифицированные сигналы основного тона и выделенные модифицированные сигналы обертонов, для получения модифицированного аудио сигнала 152.

Путем одинакового изменения полосового сигнала основного тона 122 и выделенного полосового сигнала обертона 132, связанного с сигналом 122, может быть представлено общее поведение этих гармоник, хотя другие полосовые сигналы могут меняться по другому. Таким образом, личное качество оригинального аудио сигнала 102 может быть сохранено более точно и качество восприятия модифицированного аудио сигнала может быть значительно улучшено. Например, большинство инструментов излучают гармонические сигналы состоящие из частот основного тона и его гармоник. Если требуется модифицировать частоты основного тона, тогда коррелированная модификация гармоник в соответствии с описанной концепцией может привести к появлению модифицированного аудио сигнала значительно лучшего качества восприятия. Далее, аудио сигнал может быть модифицирован в реальном времени, т.к. полная информация об аудио сигнале (полный набор полифонической музыкальной информации)может не требоваться.

Аудио сигнал 102 может быть, например, входным аудио сигналом временного пространства или аудио сигналом частотного пространства, представляющим входной аудио сигнал временного пространства.

Блок определения основного тона 120 выдает выделенный полосовой сигнал основного тона 122 на сигнальный процессор 140 для модификации или может выдавать запускающий сигнал 122 (например, индекс i∈[0…I-1] выделенного полосового сигнала основного тона, где I число полосовых сигналов во множестве полосовых сигналов) для запуска сигнального процессора 140 для модификации выделенного полосового сигнала в соответствии с выбранной моделью модификации. Соответственно, блок определения обертона 130 может выдавать выделенный с полосовой сигнал обертона 132 для модификации на сигнальном процессоре 140 или может выдавать запускающий сигнал 132 (например, индекс, обозначающий полосовой сигнал в качестве сигнала обертона) для запуска сигнального процессора 140 для модификации выделенного полосового сигнала.

Общий критерий может содержать одно или более правил для определения обертона основного тона. Может быть один или более критериев, которые необходимо выполнить для выделения полосового сигнала из множества сигналов в качестве обертона выделенного полосового сигнала основного тона 122.

Выбранная модель модификации может быть различной для полосовых сигналов, содержащих различные частотные диапазоны и может зависеть от желаемой модификации аудио сигнала 102. Например, оригинальная тональность аудио сигнала должна быть изменена на требуемую тональность. Ранее был дан пример преобразования ноты До из мажора в минор при помощи таблицы. Например, если частотный диапазон полосового сигнала соответствует оригинальной ноте До, то нота преобразованная также будет До и этот полосовой сигнал не модифицируется (за исключением, если он определен как полосовой сигнал обертона, связанный с изменяемым сигналом основного тона). В этом случае цель модификации сохранить этот полосовой сигнал неизменным. С другой стороны, полосовой сигнал, содержащий частотный диапазон, соответствующий оригинальной ноте Ля может модифицироваться и модифицированный полосовой сигнал может содержать частотный диапазон соответствующий преобразованной ноте Си (за исключением случаев, когда полосовой сигнал определяется как полосовой сигнал обертона для полосового сигнала основного тона, который необходимо модифицировать в соответствии с другой моделью модификации. Далее, выделенные полосовые сигналы обертона (полосовые сигналы, содержащие частотный диапазон соответствующий обертону оригинальной ноты Ля) могут быть модифицированы таким образом, что модифицированный полосовой сигнал обертона может содержать частотный диапазон измененной ноты Ля.

Все полосовые сигналы 112 могут содержать несущую частоту. Несущая частота может быть характеризующей частотой частотного диапазона, представленного полосовым сигналом, как, например, средняя частота частотного диапазона, верхняя предельная частота частотного диапазона, нижняя предельная частота частотного диапазона или центр притяжения частотного диапазона полосового сигнала. Несущая частота полосового сигнала может отличаться от несущей частоты других полосовых сигналов. Эти несущие частоты могут использоваться блок определения обертона 130 для выделения полосовых сигналов обертона. Например, блок определения обертона 130 может сравнить несущую частоту полосового сигнала 112 с несущей частотой выделенного полосового сигнала основного тона 122. Т.к. обертон может быть примерно умноженной частотой основного тона, то критерий обертона может быть выполнен, если несущая частота полосового сигнала 112 является умноженной частотой несущей сигнала основного тона 122 (при заданном допуске несущей частоты 100 Hz, 50 Hz, 20 Hz или меньше). Другими словами критерий обертона может быть, например, таким, что несущая частота полосового сигнала 112 является кратной несущей частоте с заданным допуском несущей частоты.

Дополнительно, блок определения обертона 130 может сравнивать энергетическую составляющую полосового сигнала 112 с энергетической составляющей выделенного полосового сигнала основного тона 122. В этом случае может выполняться критерий обертона, если отношение энергетической составляющей полосового сигнала 112 и энергетической составляющей выделенного полосового сигнала основного тона 122 будут в заданном диапазоне допусков. Этот критерий обертона принимает во внимание то обстоятельство, что гармоники обладают меньшей энергией, чем основные частоты. Заданный диапазон допусков энергии может быть, например, от 0,3 до 0,9, от 0,5 до 0,8, от 0,6 до 0,7 или в другом диапазоне. Этот энергетический критерий обертона может комбинироваться с несущей частотой и упомянутом выше критерием обертона.

Дополнительно, блок определения обертона 130 может рассчитать величину корреляции временной кривой полосового сигнала 112 по отношению к временной кривой выделенного полосового сигнала основного тона 122. В этом случае, могут выполняться критерии обертона, если значение корреляции выше, чем заданный порог корреляции. Данный критерий обертона предполагает, что основной тон и его гармоники разделяют достаточно одинаковые временные кривые. Выбранный порог корреляции может быть, например, 0,2; 0,3; 0,4 или больше. Описываемая корреляция, основывающаяся на критерии обертона, может сочетаться с критериями обертона, основывающимися на несущей частоте и/или на упомянутых выше критериях обертона с энергетическими составляющими.

Блок определения основного тона 120 может выбрать дальнейший полосовой сигнал 112 без учета всех уже выбранных полосовых сигналов основного тона 122 и уже выделенных полосовых сигналов обертон 132. Другими словами, блок определения основного тона 120 может выбирать повторяющиеся полосовые сигналы основного тона 122 из набора полосовых сигналов, которые содержат полосовые сигналы еще не выбранных сигналов основного тона и уже выделенные полосовые сигналы обертона 132. Это может выполняться до тех пор, пока все полосовые сигналы не будут либо выделены как полосовые сигналы основного тона, либо не будут выделены как полосовые сигналы обертона сигналов основного тона. Соответственно, блок определения обертона 130 может выделить полосовой сигнал 112 по критериям обертона, принимая во внимание выделенный сигнал основного тона без учета всех уже выделенных полосовых сигналов обертона и без учета всех уже выделенных полосовых сигналов основного тона 122.

Далее, процессор сигнала 140 может модифицировать выделенный сигнал основного тона 122 основываясь на выбранной модели модификации и независимо от всех других выделенных полосовых сигналов основного тона. Другими словами, для каждого полосового сигнала основного тона или для некоторых выделенных полосовых сигналов основного тона могут быть определены разные модели модификации. Например, модели модификации могут быть определены по таблице, упомянутой выше, обозначая переход из одной тональности в другую. Т.к. полосовые сигналы основного тона могут быть модифицированы независимо друг от друга, возможно провести модификацию только основного тона и гармоник отдельного выделенного инструмента, меняя тональность или громкость этого инструмента.

Полосовой сигнал 112 может быть выделен блок определенияом основного тона 120 по энергетическим критериям. Например, полосовой сигнал с наибольшей или одной из самых больших энергетических составляющих(более 70% других полосовых сигналов) может быть выделен. В этом примере, уже выделенные полосовые сигналы основного тона могут быть исключены из дальнейшего отбора путем установки параметра энергетической составляющей, указывающего, что энергетическая составляющая уже выделенного полосового сигнала основного тона равна 0. При отборе полосового сигнала 112, энергетическая составляющая каждого сигнала (обозначенная параметром энергетической составляющей, определенной блоком определения основного тона) может быть оценена, чтобы подчеркнуть выбор важных для восприятия полосовых сигналов.

Процессор сигнала 140 может модифицировать выделенные полосовые сигналы основного тона 132 и связанные с ними полосовые сигналы обертонов 132 различными способами. Например, процессор сигнала 140 может модифицировать выделенный полосовой сигнал основного тона 122 умножением несущей частоты выделенного полосового сигнала основного тона 122 на показатель транспонирования (зависящий от изменения тональности) или добавлением частоты транспонирования к несущей частоте выделенного полосового сигнала основного тона 122. Далее, модификатор сигнала 140 может модифицировать выделенный полосовой сигнал обертона 132 умножением несущей частоты выделенного полосового сигнала 132 на показатель транспонирования (с допуском 20%, 10%, 5%, 1% или ниже) или путем добавления кратной величины частоты транспонирования (с допуском 20%, 10%, 5%, 1% или ниже) к несущей частоте выделенного полосового сигнала обертона 132. Другими словами, изменение тональности может быть реализовано путем умножения основного тона и связанных с ним гармоник на один и тот же показатель транспонирования или прибавлением частоты транспонирования к основному тону и умножению частоты транспонирования на обертон. В этом случае, выделенный полосовой сигнал обертона 132 модифицируется как зависимый (таким же образом), как и выделенный полосовой сигнал основного тона 122.

Фиг.2 показывает блок схему устройства 200 для модификации аудио сигнала 102 в соответствии с настоящим изобретением. Устройство 200 аналогично устройству, показанному на фиг.1, но дополнительно содержит блок определения несущей частоты 260 и процессор с набором фильтров 110 содержит набор фильтров 212 и конвертер сигнала 214. Набор фильтров 212 соединен с конвертером сигнала 214, а конвертер сигнала 214 соединен с процессором сигнала 140. Дополнительный блок определения несущей частоты 260 соединен с набором фильтров 212 процессора 110 и процессора сигнала 140.

Набор фильтров 212 может генерировать полосовые сигналы, основываясь на аудио сигнале 102, а конвертер сигнала 214 преобразует эти полосовые сигналы пространство поддиапазона для получения многополосных сигналов, направляемых на блок определения основного тона 120, блок определения обертона 130 и процессор сигнала 140. Конвертер сигнала 214 может быть выполнен, например, как односторонний инверсивный дискретный блок преобразователя Фурье, чтобы каждый полосовой сигнал 112 мог иметь свой аналитический сигнал. В этом поддиапазоне определитель основного тона 120 может выделить полосовой сигнал для получения сигнала основного тона 122. Далее блок определения обертона может выделить один из этих полосовых сигналов из множества полосовых сигналов.

Блок определения несущей частоты 260 может выделить множество несущих частот, основываясь на аудио сигнале 102 и набор фильтров 212 процессора 110 может выдавать полосовые сигналы с тем, чтобы каждый полосовой сигнал содержал полосу частот, включая различные несущие частоты 262 для получения полосового сигнала, связанного с каждой несущей частотой 262. Другими словами, полоса частот и средние частоты полосового сигнала, выделенные набором фильтров 212, могут управляться блоком определения несущей частоты 260. Это может быть выполнено различными путями, например, вычислением центров тяжести аудио сигнала 102, как описано выше.

Как упоминалось выше, полосовые сигналы 112 могут быть модифицированы различными путями. Например, процессор сигнала 140 может выдать сигнал с амплитудной модуляцией (AM) и сигнал с частотной модуляцией (ЧМ) для каждого полосового сигнала 112. Поскольку каждый полосовой сигнал представляет аналитический сигнал в пространстве поддиапазона, процессор сигнала 140 может генерировать сигнал с амплитудной модуляцией и сигнал с частотной модуляцией, как уже указывалось выше в связи с модуляционным вокодером. Далее процессор сигнала 140 может модифицировать сигнал с амплитудной модуляцией или сигнал с частотной модуляцией выделенного полосового сигнала основного тона 122, выделенного полосового сигнала основного тона 122, в зависимости от модели модификации выделенного полосового сигнала основного тона 122 и может модифицировать сигнал с амплитудной или частотной модуляциями выделенного полосового сигнала обертона 132, связанного с выделенным полосовым сигналом основного тона 122 в зависимости от модификации выделенного полосового сигнала основного тона 122.

Процессор с набором фильтров 110, блок определения основного тона 120, блок определения обертона 130, процессор сигнала 140, блок сведения 150 и/или блок определения несущей частоты 260 могут быть, например, отдельными блоками или частью цифрового процессора сигнала, компьютерным или микро контроллером, либо компьютерной программой или программным продуктом, предназначенным для управления цифровым процессором сигнала, компьютером или микроконтроллером.

Некоторые варианты конструктивного решения по данному изобретению связаны со способом 300 модификации аудио сигнала по данному изобретению. Способ 300 может включать генерирование 310 множества полосовых сигналов из аудио сигнала и выделение 320 полосового сигнала для получения полосового сигнала основного тона. Далее, способ 300 может включать выделение 330 полосового сигнала, отвечающего критериям обертона по отношению к выделенному полосовому сигналу основного тона. Выделенный полосовой сигнал основного тона модифицируется 340, основываясь на выбранной модели модификации и выделенном полосовом сигнале обертона, связанном с выделенным полосовым сигналом основного тона и модифицируется 350, в зависимости от модификации выбранного полосового сигнала основного тона. Способ 300 может включать сведение 360 множества полосовых сигналов, содержащих модифицированный выделенный полосовой сигнал основного тона и модифицированный выделенный полосовой сигнал обертона для получения модифицированного аудио сигнала.

Дополнительно способ 300 может включать дополнительные шаги, обеспечивающие дополнительные черты концепции данного изобретения, обозначенной ранее и описанной ниже.

Описанная концепция иллюстрируется более детально примером использования модулирующего вокодера, хотя предложенная концепция может использоваться и в более общем случае для другого применения.

Большинство инструментов испускают гармонические звуки состоящие из частоты основного тона и его гармоник, являющихся примерно целом числом умноженным на частоту основного тона. Поскольку музыкальные интервалы удовлетворяют условиям логарифмической шкалы, каждый гармонический обертон напоминает другой музыкальный интервал по отношению к основному тону (и его октавам). Таблица ниже показывает порядок гармоники и музыкальные интервалы для первых семи гармоник. Таблица показывает порядок гармоники и соответствующий музыкальный интервал по отношению к основному тону и его октавам.

Порядок гармоники	Название интервала
1	2	4	абсолютный унисон (Р1)
			малая секунда (m2)
		9	большая секунда (М2)
			малая терция(m3)
	5		большая терция (М3)
			абсолютная кварта (Р4)
			увеличенная кварта
	3	6	абсолютная квинта(Р5)
			малая секста (m6)
			большая секста (М6)
		7	малая септима (m7)
			большая септима (М7)

В задаче селективного транспонирования полифонического музыкального контента существует унаследованная неопределенность по отношению к музыкальному функционированию MODVOC компонента. Если этот компонент происходит из основного тона, то он должен быть транспонирован в соответствии с требуемой шкалой преобразования, если в нем преобладает гармоника, связанная с основным тоном, то он должен быть транспонирован вместе с этим основным тоном, чтобы наилучшим образом сохранить личные качества гармонического звукового сигнала. Из этого вытекает необходимость выделения каждого MODVOC компонента (полосового сигнала), чтобы выбрать наиболее подходящий фактор транспонирования.

Чтобы достичь этого, предложенная ранее простая схема обработки была дополнена функцией захвата гармоники. Захват гармоники исследует все MODVOC компоненты до транспонирования на предмет, может ли компонент (полосовой сигнал) быть отнесен к основному тону или он должен считаться независимым элементом. Это может быть выполнено при помощи повторяющегося алгоритма. Схема этого алгоритма представлена на фиг.5. Алгоритм вычисляет 510 соотношение частот, энергий и огибающую кривую корреляций тест-компонента t (полосовой сигнал основного тона) по отношению ко всем другим компонентам, имеющим индексы i Е [0…I-1]\t, где I обозначает общее число компонентов (число полосовых сигналов из множества сигналов). Последовательность тест компонентов (полосовых сигналов основного тона) в ходе теста определяется А-весовой энергией 520 таким образом, что порядок вычисления идет по уменьшению энергии. А-взвешивание (ANSI стандарт 4-1983, 1983, ANSI стандарт 42-2001, 2001) применяется для моделирования рельефности звучания каждого компонента в смысле его громкости (см. X. Флетчер и В.А. Мунсон, Громкость, ее определения, измерение и вычисление, J. Acoust Soc Amer., том 5, стр.82-108, 1933.”).

Совпадение и несовпадение гармоник несущей частоты, энергия компонентов и/или корреляция нормализованной огибающей амплитуды с нулевой задержкой может быть исследовано при сравнении с порогом.

Совпадение и несовпадение частоты может быть определено по уравнению 8, где f_t является тест компонентом несущей частоты (несущей частотой выделенного полосового сигнала основного тона) и f_i - компонент с индексом i (полосовой сигнал). Для совпадения частоты, все множители более 1 являются потенциальными гармониками. Подходящее пороговое значение (порог значения несущей частоты) при несовпадении частоты допустим для потенциальной гармоники 22 Hz.

А-весовой компонент энергетического соотношения (уравнение 9) гармоник к основному тону может потребовать меньшего значения нежели заданный порог, отражая тот факт, что в большинстве инструментов гармоники имеют меньшую энергию, чем основной тон. Подходящим пороговым значением (допустимый энергетический диапазон) является коэффициент 0,6.

Нормализованная корреляция с нулевой задержкой огибающей тест-компонента env_t и огибающей env_i компонента с индексом i определяется уравнением 10. Это измерение использует тот факт, что основной тон и гармоника имеют примерно одинаковые временные огибающие в длине блока М. Подходящая пороговая величина (порог корреляции) была определена как 0,4 в ходе неформальных экспериментов.

После проведения изучения, все компоненты i, которые соответствуют 570 пороговым значениям, помечаются как 580 для захвата гармоник по отношению к тест-компонентам и удаляются из дальнейшего поиска. Далее, тест-компонент также исключается из дальнейшего повтора путем установки 542 его энергии равной). Этот алгоритм повторяется до тех пор, пока все назначенные компоненты не получат индикацию, при этом максимальная энергия компонента равна 0.

Фиг.4 показывает схему усиленной обработки селективного транспонирования при помощи MODVOC с использованием захвата гармоники. Как показано в противовес фиг.16, только не захваченные компоненты попадают на этап транспонирования, тогда как захваченные компоненты модифицируются на втором этапе при помощи тех же транспонирующих факторов, что были использованы в модификации их соответствующих основных тонов.

Другими словами, фиг.5 показывает схему описанного захвата гармоники (способ 500 модификации аудио сигнала). Компоненты, отвечающие требованиям гармоники исследуемого сигнала основного тона (выделенный полосовой сигнал основного тона), итерационно маркируются и удаляются из пространства поиска. Для этого каждый полосовой сигнал содержит несущую частоту, энергетическую составляющую и временную огибающую или несущую частоту, энергетическая составляющая и/или временная огибающая (параметры временной огибающей) определяются 510 для каждого полосового сигнала. Далее, энергетической составляющей (параметр энергетической составляющей) каждого полосового сигнала присваивается а-весовая характеристика 520. Затем, полосовой сигнал основного тона (тест сигнал f_t), содержащий максимальную энергию (параметр энергетической составляющей) обозначается как 530. Поскольку все уже выделенные сигналы установлены равными 0, и все выделенные полосовые сигналы обертона исключены из зоны поиска, выделенные полосовые сигналы основного тона могут содержать параметр энергетической составляющей равный нолю, и повторяющийся алгоритм останавливается 540 в этой точке.

Если возникает иная ситуация, совпадение (несовпадение) частоты, энергетического содержания и/или корреляции временной огибающей выделенного полосового сигнала основного тона и оставшихся полосовых сигналов происходит сравнение 560. Если одно, несколько или все условия (критерии обертона) совпадают 570, соответствующий полосовой сигнал 580 в виде полосового сигнала обертона и данных захвата гармоники может быть выдан (например, сохранение индекса выделенного полосового сигнала в список обертонов), а выделенный полосовой сигнал обертона удаляется из зоны поиска. Данные захвата гармоники могут быть сохранены 590 со ссылкой на выделенный полосовой сигнал основного тона. После выделения всех полосовых сигналов обертонов выделенного полосового сигнала основного тона, энергия (параметр энергетического содержания) выделенного полосового сигнала основного тона устанавливается 592 равной 0 и выделяется следующий полосовой сигнал основного тона имеющий наибольшую энергию 530.

Процессор сигнала может использовать данные захвата гармоник для модификации полосовых сигналов. Возможное применение показано на фиг.4. В нем процессор сигнала содержит MIDI преобразователь 1600 и модификатор обертона 400. MIDI преобразователь 1600 может изменять несущую частоту каждого выбранного полосового сигнала основного тона в соответствии индивидуальной моделью модификации (которая допускает, что полосовой сигнал основного тона не модифицируется). MIDI преобразователь 1600 выполняется, например, как показано и описано в фиг.16. Модификатор обертона 400 может иметь в своем составе контроллер обертона 410, умножитель обертона 420 и выходной блок модификатора 430. Контроллер обертона 410 подключен к умножителю обертона 420 и к выходному блоку модификатора 430. Умножитель обертона 420 умножает несущую частоту f выделенного полосового сигнала на тоже множитель транспонирования (с допусками указанными выше) на который умножается полосовой сигнал основного тона и выдает модифицированную несущую частоту f' на выходной блок модификатора обертона 430. Контроллер модификатора обертона 410 запускает выходной блок модификатора обертона 430 для получения модифицированной несущей частоты выделенного полосового сигнала обертона в том случае, если модификатор обертона 400 выделяет несущую частоту как несущую частоту выделенного полосового сигнала обертона (основанного на данных захваченной гармоники). В ином случае, модификатор обертона 430 может выдать выходной сигнал MIDI преобразователя 1600. Далее, фиг.4 показывает использование предложенной концепции в вокодере в том смысле, что дополнительно к несущей частоте полосового сигнала соответствующий сигнал частотной модуляции (ЧМ) изменяется умножением на отношение несущей частоты до модификации к модифицированной несущей частоте. Дополнительно или поочередно с изменением частоты, громкость аудио сигнала может меняться селективно, в зависимости от полосового сигнала. Это изменение происходит в сигнале с амплитудной модуляцией (AM) полосового сигнала.

Другими словами, фиг.4 показывает усиленное селективное транспонирование в компонентах модуляционного вокодера (полосовых сигналах) с использованием захвата гармоники (изменяя выделенный полосовой сигнал обертона в зависимости от изменения связанного с ним полосового сигнала основного тона). Только не захваченные несущие частоты (которые затем могут быть полосовыми сигналами основного тона) квантуются в MIDI ноты, которые затем преобразуются в соответствующие MIDI ноты (в соответствии с индивидуальными моделями модификации). Захваченные компоненты (выделенные полосовые сигналы обертонов) могут быть транспонированы путем умножения на отношение оригинальной несущей частоты к модифицированной несущей частоте соответствующего основного тона (связанная полоса основного тона).

Фиг.6а показывает блок схему устройства 600 для модификации аудио сигнала в соответствии с данным изобретением. Устройство 600 состоит из блока определения формы огибающего сигнала 610, процессора с набором фильтров 620, процессора сигнала 630, блока сведения 640 и блока построителя формы сигнала 650. Блок определения формы сигнала 610 соединен с блоком построителя формы сигнала 650, процессор с набором фильтров 620 соединен с процессором сигнала 630, процессор сигнала 630 соединен с блоком сведения 640 и блок сведения 640 соединен с блоком построения формы сигнала 650. Блок определения формы сигнала 610 определяет коэффициенты формы сигнала 612, зависящие от частотной области аудио сигнала 602, представляющего временную область входного аудио сигнала. Далее, процессор с набором фильтров 620 выдает множество полосовых сигналов 622 в область поддиапазонов, в зависимости от частотной составляющей аудио сигнала 602. Процессор сигнала 630 модифицирует полосовые сигналы из области поддиапазонов 622 по выбранной модели модификации. Затем блок сведения 640 сводит набор полосовых сигналов (например, содержащих модифицированный поддиапазон полосового сигнала) для получения аудио сигнала временной области 642. Блок построения формы сигнала 650 формирует форму огибающей кривой аудио сигнала 642, основываясь на коэффициентах формы кривой 612 для получения сформированного аудио сигнала 652.

Как вариант, формирователь кривой 650 может быть расположен между процессором сигнала 630 и блоком сведения 640 (процессор сигнала 630 соединен с формирователем кривой 650 и формирователь 650 соединен с блоком сведения) и может формировать огибающую кривую полосовых сигналов, содержащих модифицированные полосовые сигналы, основанные на коэффициентах формы кривой 612.

Путем вычитания коэффициентов формы кривой 612 до селективной обработки аудио сигнала и используя коэффициенты формы кривой 612 для формирования формы аудио сигнала после модификации одного или нескольких полосовых сигналов, может быть более точно сохранена спектральная когерентность модифицированных разным путем полосовых сигналов. Далее, специально для сигналов переходного состояния шумы квантования, распределенные во времени, могут быть также сформированы формирователем кривой 650. Таким образом качество восприятия модифицированного аудио сигнала может быть значительно улучшено. Аудио сигнал может быть модифицирован в реальном времени, поскольку информация о полном аудио сигнале (полная информация о музыкальной полифонии) может не требоваться.

Дополнительно формирователь кривой 650 может быть расположен между процессором сигнала 630 и процессором с набором фильтров 620 (процессор с набором фильтров 620 соединен с формирователем 650, а формирователь 650 соединен с процессором сигнала 630) и может сформировать форму огибающей кривой множества полосовых сигналов поддиапазона, основываясь на величинах коэффициентов формы кривой 612 до того, как полосовые сигналы будут модифицированы процессором сигналов 630 и получения сформированного аудио сигнала 652.

Вычитая коэффициенты формы кривой 612 до селективной обработки полосовых сигналов и используя коэффициенты формы кривой 612 для формирования огибающей полосовых сигналов 622 после того, как полосовые сигналы выданы процессором с набором фильтров 620 в область поддиапазонов, можно использовать адаптивный набор фильтров, что повысит локальную когерентность, особенно для переходных сигналов (см. Дж. Хир и Дж.Д. Джонстон, Непрерывный адаптивный к сигналу набор фильтров для высококачественного восприятия аудио кодирования, IEEE ASSP симпозиум по использованию обработки сигнала в аудио и акустике, Мохонк,1997). В этом случае формируется не модифицированный сигнал (или модифицированный полосовой сигнал), а качество полученных полосовых сигналов в части воспроизведения переходных режимов может быть улучшено до модификации.

Частотная область аудио сигнала 602 может быть получена, например, из предпроцессора, генерирующего частотную область аудио сигнала 602, основываясь на временном пространстве входного аудио сигнала (например, при помощи дискретного преобразования Фурье) или может быть получено из блока хранения. Коэффициенты 612, определенные блок определенияом 610, могут быть линеаризованными коэффициентами или другими коэффициентами, параметрирующими спектр частотного пространства аудио сигнала 602.

Процессор сигнала 630 может модифицировать один, несколько или все полосовые сигналы 622. Выбранная модель модификации может быть различной, например, для всех или для некоторых полосовых сигналов поддиапазона. Например, для изменения тональности аудио сигнала, выбранные модели модификации полосовых сигналов могут выбираться по уже описанному для таблицы способу.

Частотная область аудио сигнала 602 может включать спектральные линии полученные, например, при помощи преобразования Фурье. Разница между спектральными линиями частотной области аудио сигнала (которые могут восприниматься как полосовые сигналы) и полосовыми сигналами выданными процессором с набором фильтров 620 может быть в том, что спектральные линии частотной области аудио сигнала 602 представляют полосу частот уже, чем полоса частот 622, выданная процессором с набором фильтров 620. Например, частотная область аудио сигнала 602 обозначает частотный спектр, полученный дискретным преобразованием Фурье, который разделен на множество полосовых сигналов процессором с набором фильтров 620, где количество полосовых сигналов (10, 16, 20 или больше) значительно меньше, чем количество спектральных линий в частотном спектре (например, 512 или более).

Блок определения кривой 610 может определить коэффициенты формы кривой, основываясь на предварительной подготовке данных о частоте частотной области аудио сигнала 602, которая может быть реализована, например, упомянутым уже способом определения линеаризованных коэффициентов.

Процессор с набором фильтров 620 может выдавать множество полосовых сигналов, каждый полосовой сигнал 622 представляет специфический частотный диапазон частной области аудио сигнала 602. Процессор с набором фильтров 620 может включать предварительный фильтр 710, вычитающее устройство сигнала 720 и набор фильтров 730 для получения множества полосовых сигналов 622 из оставшегося аудио сигнала 722 как показано на фиг.7. Для этого предварительный фильтр 710 может выдавать предварительный аудио сигнал 712, основываясь на аудио сигнале 602 и коэффициентах 612 (линейный предварительный фильтр). Далее, вычитающее устройство сигнала 720 может вычитать предварительный аудио сигнал 712 из частотной области аудио сигнала 602, чтобы получит оставшийся аудио сигнал 722. Этот оставшийся аудио сигнал 722 используется набором фильтров 730 для получения множества полосовых сигналов.

Далее, процессор с набором фильтров 620 может включать в себя дополнительный конвертер сигнала. Конвертер сигнала (например, односторонний инверсный дискретный преобразователь Фурье) может конвертировать полосовые сигналы, выданные набором фильтров 730 для получения множества полосовых сигналов 622. Но сигнальный конвертер может быть и частью процессора сигналов 630.

В некоторых вариантах исполнения данного изобретения, низкочастотная часть входного аудио сигнала может быть исключена из возможной модификации, чтобы избежать генерации артефактов в низкочастотной части модифицированного аудио сигнала. Для этого, устройство 680 для модификации аудио сигнала может иметь полосно-заграждающий фильтр высоких/низких частот, как показано для примера на фиг.6b. Фильтр 660 отсекает временную составляющую входного аудио сигнала или частотную область аудио сигнала, представляющую временную составляющую входного аудио сигнала и блок определения формы кривой 610 определяет коэффициенты формы кривой 612, основанные на высоких частотах аудио сигнала 602, а процессор с набором фильтров 620 выдает множество полосовых сигналов 622, основанные на высоких частотах аудио сигнала 602. Фильтр 660 отсекает временную составляющую входного аудио сигнала низкой частоты или частотную область аудио сигнала, представляющую временную область входного аудио сигнала, чтобы получить низкую частоту входного сигнала 622. Далее, УСТРОЙСТВО 680 имеет широкополосный формирователь сигнала 670, предназначенный для сведения сформированного аудио сигнала 652 и двух низкочастотных сигналов 662 для получения полного аудио сигнала. Другими словами, высоко/низко частотный фильтр 660 может разделить входной аудио сигнал или частотную область входного сигнала на высокочастотный входной сигнал и низкочастотный входной сигнал. Высокочастотный аудио сигнал или частотная область высокочастотного сигнала может быть предана блоку определения формы кривой 610 и процессору с набором фильтров 620. Это зависит от того, используется ли фильтр высоких/низких частот во временной области, за которой следует генерирование предпроцессором сигнала частотной области, основывающейся на аудио сигнале высокой частоты или фильтр высоких/низких частот используется в частотной области, где уже получает аудио сигнал частотной области, отображающий входной аудио сигнал временной области.

Фильтр 660 высоких/низких частот может фильтровать входной сигнал временной области или аудио сигнал частотной области, отображающий входной аудио сигнал временной области и прошедший таким образом низкочастотный фильтр аудио сигнал содержит частоты до предопределенной частоты раздела (например, 100 Гц или более). Соответственно, прошедший высокочастотный фильтр аудио сигнал может содержать частоты ниже предопределенной частоты раздела. Другими словами, частоты более определенной частоты раздела могут затухать в фильтре 660 и на выходе фильтра будет низкочастотный сигнал 662, а частоты меньше определенной частоты раздела могут быть ослаблены фильтром 660 для получения высокочастотного сигнала.

Как вариант, формирователь кривой 650 располагается между процессором сигнала 630 и блоком сведения 640, как показано на фиг.6с. В этом случае фильтр 660 выдает низкочастотный аудио сигнал на блок сведения 640. Блок сведения 640 сводит множество полосовых сигналов, содержащих модифицированные полосовые сигналы и низкочастотные аудио сигнал 662 для получения аудио сигнала 642. В этом случае формирователь кривой 650 может выдать набор коэффициентов формы кривой, основываясь на коэффициентах формы кривой 612 (выданных конвертером коэффициентов 810) для каждого полосового сигнала, соответствующего определенному полосовому сигналу (соответствующему частотному отделу, содержащемуся в определенном полосовом сигнале). Затем, каждая временная выборка полосового сигнала может быть умножена на коэффициент определения кривой соответствующего набора коэффициентов формы кривой. Например, в реализации вокодера, показанного на фиг.15, формирователь кривой 650 может быть расположен между умножителем 1550 и блоком сведения 1560.

Кроме того, возможен вариант, когда формирователь кривой 650 располагается между процессором сигнала 630 и процессором с набором фильтров 620(процессор с набором фильтров 620 соединен с формирователем 650, а формирователь 650 соединен с процессором сигнала) и может формировать кривые полосовых сигналов, основываясь на коэффициентах кривой 612 до модификации полосового сигнала процессором 630 в ходе получения сформированного аудио сигнала 652.

В некоторых вариантах исполнения данного изобретения, низкочастотная часть входящего аудио сигнала может быть исключена из формирования кривой, чтобы исключить образование артефактов в низкочастотной части модифицированного аудио сигнала. Для этого устройство 680 модификации аудио сигнала может включать фильтр верхних/нижних частот, показанный, например, на фиг. 6d. Фильтр высоких/низких частот 660 пропускает через фильтр высоких частот входной сигнал или частотную область аудио сигнала и отфильтровывает временную составляющую входного аудио сигнала. Далее, фильтр 660 пропускает входной аудио сигнал для получения низкочастотного аудио сигнала 662. Блок определения формы кривой 610 определяет коэффициенты формы кривой 612, основываясь на высокочастотной составляющей входного аудио сигнала 602, без учета низкочастотной составляющей аудио сигнала 622. Процессор с набором фильтров 620 выдает множество полосовых сигналов 622, основываясь на прошедших фильтр высоких частот аудио сигнале 602 и прошедших фильтр низких частот сигнале 622. Если используется фильтр прогнозирования, например, показанный на фиг. 7, то на этот фильтр попадают только аудио сигналы 602, прошедшие фильтр высоких частот и блок вычитания сигнала выдает остаточный аудио сигнал высокой частоты. Аудио сигнал 622, прошедший фильтр низких частот, может направляться напрямую на набор фильтров для получения полосовых сигналов. Процессор сигнала 630 модифицирует полосовой сигнал, прошедший фильтр высоких частот 602 или аудио сигнал 622, прошедший фильтр низких частот. Как вариант, процессор сигнала 630 может модифицировать полосовой сигнал, относящийся к аудио сигналу 602, прошедшему фильтр высоких частот и полосовой сигнал 622, прошедший фильтр низких частот. Блок сведения 640 сводит только полосовые сигналы, относящиеся к аудио сигналам 602, прошедшим фильтр высоких частот, чтобы только полосовые сигналы, относящиеся к аудио сигналам 602, прошедшим фильтр высоких частот (а не сигналы, относящиеся к аудио сигналам 622, прошедшим фильтр низких частот) могли обрабатываться формирователем кривой 650.

Далее, устройство 680 содержит широкополосный формирователь сигнала 670, предназначенный для создания сформированного аудио сигнала 652 и полосовых сигналов, относящихся к аудио сигналу 622, прошедшего низкочастотный фильтр, для создания широкополосного аудио сигнала. С этой целью процессор сигнала 630 выдавать полосовые сигналы, относящиеся к аудио сигналам 662, прошедших низкочастотный фильтр на широкополосный формирователь сигнала 670.

Как вариант, формирователь кривой 650 располагается между процессором сигнала 630 и блоком сведения 640. Блок сведения 640 сводит множество полосовых сигналов (полосовые сигналы, относящиеся к аудио сигналам 622, прошедшим низкочастотный фильтр и полосовые сигналы, относящиеся к аудио сигналам 602, прошедшим фильтр высоких частот), содержащих модифицированный полосовой сигнал для получения аудио сигнала 642. В этом случае, формирователь кривой 650 может определить набор коэффициентов кривой, основывающихся на коэффициентах кривой 612 (при помощи конвертера коэффициентов 810) для каждого полосового сигнала, соответствующего полосовому сигналу поддиапазона (соответствующего частотной полосе, содержащейся в соответствующем полосовом сигнале) аудио сигнала 602, прошедшего фильтр высоких частот. Затем, каждая временная выборка полосового сигнала умножается на коэффициент кривой соответствующего набора коэффициентов формы кривой. Например, в конструкции вокодера, показанного на фиг.15, формирователь кривой 650 может быть расположен между блоком умножения 1550 и блоком сведения 1560.

Как вариант, формирователь кривой 620 может располагаться между процессором сигнала 630 и процессором с набором фильтров 620 (процессор с набором фильтров 620 соединен с формирователем формы кривой 650, а формирователь формы кривой 650 соединен с процессором сигнала 630) и он может формировать форму кривой полосовых сигналов, относящихся к аудио сигналу 602, прошедшему фильтр высоких частот, основываясь на коэффициентах 612 формы кривой до того, как полосовой сигнал модифицируется процессором сигнала 630, чтобы получить сформированный аудио сигнал 652.

Таким образом, низкочастотная часть входного аудио сигнала может быть исключена из формирования кривой. Однако, низкочастотная часть направляется на оставшуюся обработку (модификация поддиапазона полосового сигнала). Далее, фильтр прогнозирования (как показан на фиг.7) может быть использован только на частотах выше точки раздела. Напротив, если разделение на фильтре высоких/низких частот уже выполнено на стороне анализа, форма сигнала, прошедшего фильтр высоких частот, может быть модифицирована во временной области обратной матрицей коэффициентов формы кривой.

Например, в приложениях для селективного транспонирования, указанное перемещение может давать равные результаты, как и перемещение после обработки т.к. AM может не модифицироваться.

В соответствии с этим аспектом, формирователь кривой 650 может определять коэффициент энергии энергетического содержания E_FDAS частотной области аудио сигнала 602 и энергетическую составляющую E_RAS оставшегося аудио сигнала 722. Основываясь на этом энергетическом коэффициенте, формирователь кривой 650 может прерывать формирование кривой аудио сигнала 642, если коэффициент энергии меньше, чем установленный порог раздела PET (0.1, 0.2, 0.5, 0.8, 1, 2 или даже меньше).

Другими словами, использование формирования кривой может быть включено или выключено при помощи адаптивного сигнала, в зависимости от правильности прогноза. Правильность прогноза может быть измерена коэффициентом усиления, который можно измерить как энергетический коэффициент сигнала (частотная область аудио сигнала) и погрешность прогноза (остаточный аудио сигнал). Если формирование аудио сигнала 642 прервано, сформированный аудио сигнал 652 может быть равен аудио сигналу 642, полученному в блоке сведения 640.

Формирователь кривой 650 может быть использован различным образом. Один пример показан на фиг.8. Формирователь кривой может иметь конвертер коэффициента 810 и умножитель 820. Конвертер 810 может конвертировать коэффициенты формы кривой 612 во временную область, а полученные таким образом конвертированные коэффициенты формы кривой 812 могут перемножаться с аудио сигналом 642 для формирования временную кривую аудио сигнала временной области и получения сформированного аудио сигнала 652. Это можно сделать при помощи умножителя 820. Например, временной блок аудио сигнала 642 может содержать 512 (или больше) временных выборок и конвертер 810 может выдать 512 (или больше) конвертированных коэффициентов 812 для умножения каждой временной выборки на коэффициент 812 конвертированного коэффициента формы кривой.

Как уже отмечалось, устройство 600 может модифицировать различные полосовые сигналы по разному. В более общем виде, это означает, что процессор сигнала 630 может модифицировать второй или более полосовой сигнал 622, основываясь на второй или более заданной моделе модификации. Уже упомянутые модели модификации и первая или другие модели модификации могут быть различными.

В некоторый вариантах исполнения описанный принцип может быть использован в сочетании с вокодером или модуляционным вокодером. В этом случае процессор сигнала 630 может выдавать сигнал амплитудной модуляции (AM) и сигнал частотной модуляции (ЧМ) для каждого полосового сигнала 622. Далее, процессор сигнала 630 может модифицировать сигнал с амплитудной модуляцией или сигнал с частотной модуляцией по заданной моделе модификации.

Далее, устройство 600 может иметь дополнительно блок определения несущей частоты, как уже было описано для устройства 200 и показано на фиг.2. Блок определения несущей частоты определяет множество несущих частот, основываясь на частотной области аудио сигнала 602. Эти определенные несущие частоты используются процессором с блоком фильтров 620 или по варианту использования, показанным на фиг.7, блоком фильтров 730 процессора 620 для выдачи полосовых сигналов, а каждый полосовой сигнал включает частотный диапазон, содержащий разные несущие частоты, чтобы получить полосовые сигналы, связанные с каждой несущей частотой из данного множества несущих частот. Это может быть выполнено, например, путем определения центра тяжести частотной области аудио сигнала, как описано выше.

Блок определения формы кривой 610, процессор с набором фильтров 620, процессор сигнала 630, блок сведения 640 и/или формирователь кривой 650 могут быть отдельными блоками или частью цифрового процессора сигнала, компьютерным или микро контроллером, а так же компьютерной программой или программным продуктом, предназначенным для управления цифровым процессором сигнала, компьютером или микро контроллером.

Некоторые варианты исполнения данного изобретения относятся к применению описанного принципа в модуляционном вокодере. В этом случае, данный принцип описывается более детально ниже. Упомянутые черты могут использоваться также в других применениях или использованиях.

Как было указано ранее, обработка на MODVOC сохраняет спектральную когерентность в полосе частот, окружающих несущую частоту. Однако, не представлена широкая полоса общей спектральной когерентности. Для квази стационарных сигналов это может иметь только минимальное воздействие на качество восприятия синтезированного сигнала. Если сигнал имеет значительные динамические режимы, например, удары барабанов или кастаньет, сохранение общей когерентности может значительно улучшить качество воспроизведения этих сигналов.

Сохранение общей когерентности может быть улучшено линеаризацией спектральной области. Некоторые подходы реализуются в аудио кодеках, например, путем введения временного ограничения шума (TNS) (см. Дж. Хир и Дж.Д. Джонстон, Усиление качественных характеристик восприятия аудио кодеков, путем временного ограничения шумов, 101 съезд AES, Лос-Анжелес, препринт №4384, 1996) в MPEG 2/4 аудио кодировании (ААС).

Фиг. 9 показывает использование описанного принципа в схеме обработки MOD-VOC. В анализе, следующим за начальным преобразованием Фурье входного сигнала X, коэффициенты линейного прогноза (КЛП) предварительного прогноза по частоте с импульсной отдачей h (w), получены методом автокорреляции, минимизирующим ошибку прогнозирования в квадрате. Затем, спектральные значения проходят через фильтр и оставшийся сигнал обрабатывается по алгоритму MODVOC. Коэффициенты фильтра, представляющие общую кривую, направляются на этап синтеза. На этом этапе, общая кривая, полученная из уравнения прогностического фильтра на единичной окружности , восстанавливается путем мультипликативного использования полученного с суммой сигнала, дающего выходной сигнал У, как показано на фиг. 10.

Другими словами, фиг 9 и 10 показывают использование описанного принципа в модуляционном вокодере. Фиг. 9 показывает модуляционный анализатор, состоящий из предпроцессор 910, который выполняет дискретное преобразование Фурье аудио сигнала, чтобы получить аудио сигнал 602 частотной области и направить аудио сигнал 602 на блок определения формы кривой 610, прогностический фильтр 710 (LPC фильтр h (ω), блок вычитания сигнала 720 и блок определения несущей частоты 920. Блок вычитания сигнала 720 выдает оставшийся сигнал 722 на блок фильтров 730. Блок определения несущей частоты 920 может определить центры тяжести несущих частот и выдать эти несущие частоты на блок фильтров 730 управления спектральными весовыми значениями. Набор фильтров 730 выдает полосовые сигналы на конвертер сигнала 930, где выполняется одностороннее инверсивное дискретное преобразование Фурье для каждого полосового сигнала и множество полосовых сигналов передается в процессор сигнала Компоненты модуляционного вокодера уже описаны в деталях. Фиг. 10 показывает синтезатор модуляционного вокодера. Он состоит из блока сведения 640 и формирователя кривой, состоящего из конвертера коэффициента 810 и умножителя 820. Остальные детали компонентов модуляционного вокодера и формирователя кривой уже объяснены выше.

На фиг. 11 схему способа 1100 модификации аудио сигнала по данному изобретению.

Способ 1100 включает определение 1110 коэффициентов формы кривой по частотной области входящего аудио сигнала и генерирования 1120 множества полосовых сигналов из входящего аудио сигнала. далее, способ 1100 включает модификацию 1130 полосового сигнала по заданной моделе. Дополнительно, по крайней мере, набор полосовых сигналов сводится 1140 для получения аудио сигнала. Далее, способ 1110 включает формирование 1150 кривой аудио сигнала основанный на коэффициентах формы кривой, формирование 1150 кривой полосовых сигналов, содержащих модифицированные полосовые сигналы, основанные на коэффициентах формы кривой или формирование 1150 кривой множества полосовых сигналов, основываясь на коэффициентах формы кривой до того, как полосовой сигнал модифицируется процессором сигнала, чтобы получить сформированный аудио сигнал. Дополнительно, способ 1100 может включать дальнейшие шаги, представляющие черты описанной выше концепции.

Некоторые варианты выполнения данного изобретения относятся к устройствам, показанным на фиг.1 или 2 с элементами устройство, показанного на фиг.6. Фиг.12 показывает блок схему устройство 1200 по данному изобретению.

Начнем с устройства, показанного на фиг.1. Устройство 1200 включает блок определения формы кривой 610 и формирователь формы кривой 650. В этом случае аудио сигнал может быть частотным аудио сигналом, представляющим входной сигнал, который может использоваться блоком определения формы кривой для определения коэффициентов формы кривой, основанной на частотном аудио сигнале. Далее, множество полосовых сигналов, генерированных набором фильтров, генерируются в частотной области аудио сигнала. После сведения множества полосовых сигналов, содержащих модифицированные выделенные полосовые сигналы основного тона и модифицированные выделенные сигналы обертона, полученные аудио сигналы 152, 642 могут направляться на формирователь кривой 650. Формирователь кривой 650 может сформировать форму аудио сигнала, основываясь на коэффициентах формы кривой 612, чтобы получить сформированный аудио сигнал 652.

Иначе, рассмотрим устройство, показанный на фиг.6. Устройство 1200 дополнительно включает в себя блок определения основного тона 120 и блок определения обертона 130, как было описано в устройстве, показанном на фиг.1. В других случаях, устройство, показанный на фиг.6, является устройством 1200 и дополнительно включает блок определения основного тона 120 и блок определения обертона 130, как написано в описании устройства, показанного на фиг.1. Блок определения основного тона 120 выделяет полосовые сигналы из множества полосовых сигналов, чтобы получить полосовые сигналы основного тона 122. Далее блок определения обертона 130 идентифицирует в полосовых сигналах 122, сигналы, отвечающие критериям обертона и выделяет полосовые сигналы обертона 132, связанные с полосовыми сигналами основного тона. Процессор сигнала 140, 630 модифицирует выделенные полосовые сигналы основного тона по выбранной моделе модификации и модифицирует выделенный полосовой сигнал обертона 132, связанный с полосовыми сигналами основного тона 122, в зависимости от модификации выделенных полосовых сигналов основного тона 122, как было указано выше.

В этом случае, обертона основного тона и обертона могут обрабатываться одинаково во время модификации аудио сигнала и спектральная когерентность множества полосовых сигналов может быть сохранена очень точно путем формирования модифицированного аудио сигнала, основываясь на коэффициентах кривой, полученных до модификации полосовых сигналов. При этом качество восприятия модифицированного аудио сигнала может быть значительно улучшено.

Устройство 1200 может воплощать и другие черты различных примеров использования, упомянутые выше.

Далее показано улучшенное качество восприятия модифицированных сигналов по результатам тестовых прослушиваний. Для этих тестов использовался модулирующий вокодер (MODVOC) в базовом использовании, но результаты справедливы для всей предложенной концепции.

С целью оценить субъективное аудио качество модулирующего вокодера (MODVOC) для целей селективного транспонирования тона и, более того, достоинство предложенного улучшения основных принципов MODVOC, был создан набор образцовых аудио файлов и затем они были обработаны. Дополнительно, технология MODVOC сравнивалась с коммерчески доступными аудио программами полифонической аудио обработки. Редактор Мелодии фирмы Целемони, который продается с конца 2009.

Поскольку обработка в ходе тестов значительно изменяет содержание сигнала, прямое сравнение оригинального и обработанного сигнала - обычная процедура стандартных тестов прослушивания - не предполагалось в данном случае. Тем не менее, чтобы измерить субъективное аудио качество должным способом, была использована специальная процедура тестового прослушивания: тестовые наборы, полученные из формульных MIDI данных, которые переведены в колебания, используя высококачественный MIDI экспандер. Этот подход позволил провести прямое сравнение одинаково измененных звуковых файлов в ходе теста и позволил исследовать эффект селективной обработки тона в отдельности. Процедура создания тестового набора суммирована в фиг.17. Оригинальные тест сигналы были приготовлены из формульных MIDI данных (верхнее левое). Второй вариант этих сигналов был получен из формульной MIDI обработки, которая представляет собой целевую обработку в ходе теста колебаний, представляющих оригинальное аудио (верхний правый). Затем, эта пара сигналов переводится в колебательную форму (WAV) высококачественным MIDI экспандером (нижний левый и правый). В ходе теста прослушивания, колебательная форма, полученная из обработанного MIDI файла и несколько обработанных модулирующим вокодером (MODVOC) версий оригинального MIDI файла сравнивались (нижний правый). Дополнительно, выход MODVOC сравнивался с выходом редактора Мелодии.

Кроме условий обработки MODVOC, тест включал условия использования редактора Мелодии, который является в настоящее время единственным коммерческим применением данного вида аудио обработки и поэтому может считаться промышленным стандартом. Редактор Мелодии изначально выполняет автоматический анализ всего аудио файла. После выполнения начальной фазы, Мелодии предлагает разделение аудио файла. С участием пользователя это разделение может быть доведено до нужного состояния. С целью проведения справедливого сравнения результатов обработки MODVOC, оценка основывается на результатах этого начального автоматического анализа, т.к. кроме известного знания стандартной тональности и нот, MODVOC проводит разделение также автоматически.

Тестовое прослушивание проводилось с использованием УСТРОЙСТВОуры стандартного многовходового тестового сигнала со скрытой опорной точкой и точкой привязки (MUSHRA), в соответствии с рекомендациями Международного телекоммуникационного союза (ITU) BS.1534 (Способ субъективной оценки качества звука (mushra), 2001). MUSHRA является закрытым тестом прослушивания. Только один человек одномоментно присутствует при проведении теста. Каждый элемент теста сопровождается всеми условиями проведения теста со скрытой опорной точкой и скрытой низкочастотной отфильтрованной точкой фиксации для слушателя с временным маркированием. Срытая опорная точка и нижняя точка фиксации введены для проверки достоверности слушателей. Переключение между условиями при прослушивании допускается и таким образом устанавливается связь между произвольно выбранными испытательными частям, как рекомендовано в BS.1116-1 (ITU-R, Способы субъективной оценки небольших искажений в аудио системах, включая многоканальные звуковые системы, 1994-1997) и используемые в MUSHRA тестах. Нет ограничения в количестве повторений, тестовые отрывки можно слушать до присвоения оценки отрывку и переходить к следующему отрывку, допуская таким образом очень близкое сравнение и тщательное изучение разных условий. Качество восприятия отрывков оценивается по шкале от «отлично» (100 баллов), через «хорошо» и «удовлетворительно» до «плохо» (0 баллов). Последовательность тестовых отрывков назначается произвольно и, более того, порядок условий проведения каждого отрывка также определяется произвольно.

Восемь тестовых отрывков было выбрано из проекта MUTOPIA (http://www.mutopiaproject.org/), который дает свободный список для публичного использования. Были извлечены подходящие отрывки примерно по 20 секунд звучания из различных произведений классической музыки, содержащих звучание одиночных инструментов (например, Соль, Ми) и места плотного звучания полного оркестра (например, Фа). Также доминантные соло мелодии в сопровождении других инструментов (например, До) были включены в тестовый набор. Кроме коротких квази стационарных тональных частей, в некоторых частях содержались элементы перкуссии (резкое вступление щипковой гитары в До и пианино в Соль), которое ставит особые трудности по динамической реакции испытуемой системы. Данная таблица дает все моменты теста.

название	описание	инструменты	тональность
А	Концерт для скрипки, И.С. Бах, BWV1041	оркестр	ля минор
В	Маленькая ночная серенада В.А. Моцарт, KV525Mv1	струнный квартет	соль мажор
С	Колыбельная, Г. Форе, оп.56	флейта и гитара	ми мажор
D	Ноктюрн, Ф. Штраус, оп.7	рожок и пианино	ре бемоль мажор
Е	Вальс, Ф. Карулли, оп.241, №1	гитара	до мажор
F	Музыкальный момент, В.А. Моцарт KV522 Mv1	рожок, скрипка, альт, виолончель	фа мажор
G	Ода к радости Л.В. Бетховен	пианино	соль мажор
Н	Пианинное трио, Л.В. Бетховен оп.11Mv3	кларнет, альт и пианино	Си бемоль мажор

MIDI обработка для получения оригинальных транспонированных сигналов проводилась на Сонар 8 производства Кейквок. Были получены высококачественные колебания при использовании эстрады для оркестра от Нейтив инструменте библиотека звуков версия 1.0.1 R3. Обработка MODVOC оценивалась в трех различных комбинациях с двумя усиленными этапами обработки, а именно захват гармоники и формирование кривой. Для сравнения с редактором Мелодии использовалась версия 1.0.11 Все условия описаны в таблице ниже.

тест	название	описание
1	*_образец	MIDI транспонированный оригинал
2	*_3,5 kHz образец	3,5 kHz низкочастотный фильтрованный оригинал (точка фиксации)
3	*_MODVOC	MODVOC
4	_MODVOC_harm	MODVOC с захватом гармоники
5	_MODVOC_har_es	MODVOC с захватом гармоники и формирование кривой
6	*_dna	Редактор Мелодии (DNA) с полностью автоматическим режимом

Субъективное прослушивание проводилось в акустически изолированной испытательной лаборатории, которая была спроектирована специально для проведения высококачественных тестов прослушивания в обстановке равной «идеальной» гостиной. Слушатели были снабжены STAX электростатическими наушниками, которые были запитаны от звукового интерфейса Edirol USB, соединенного с Apple MAC мини. Тесты прослушивания использовали программы Fraunhofer IIS, работающие в MUSHRA форме, выдавая обычный графический интерфейс для поддержки слушателя в процессе выполнения теста. Слушатель может переключаться между источником опорного сигнала (1) и разными условиями (2-7) во время воспроизведения. Каждый слушатель может решить индивидуально какова длительность прослушивания каждого отрывка и условий воспроизведения. В ходе переключения звук воспроизведения отключается. В графическом интерфейсе вертикальные ползунки визуализируют параметры принадлежащие каждому из условий. Были выбраны опытные слушатели, которые знакомы с аудио кодированием, но имели музыкальное образование, чтобы получить, с другой стороны, квалифицированное суждение о типичных артефактах обработки таких как пред- и пост- эхо или дисперсия переходных процессов, а с другой стороны о таких музыкальных параметрах, как высота тона, мелодика и личные качества. Дополнительно, слушателей просили дать неформальные наблюдения и впечатления. Всего было выбрано пятнадцать отрывков для проведения теста, тогда как один слушатель должен был быть исключен так, как явно не смог определить скрытый оригинал (калибровка 64 пунктов).

Фиг.18 суммирует результаты тестов прослушивания. Качество восприятия отрывков, обработанных селективным транспонированием уровня изменялись от удовлетворительного до хорошего. Нижняя опорная точка оценивалась от удовлетворительного до плохого, а разница между обработанным отрывком и опорной точкой доходила до примерно 40 точек MUSHRA. Абсолютные величины дают информацию, оценивающую качество восприятия каждого отрывка (при каждых условиях теста) и таким образом безоговорочно оценивая разницу в качестве между отрывками в тестовом наборе, но непригодно для сравнения разных условий в ходе теста прослушивания, т.к. оценка этих условий не независимы. При прямой оценке условий, возникающих от разных схем обработки селективного транспонирования, разница в результатах считается следующей.

Фиг.19 показывает результат, основывающийся на разнице величин усиленных MODVOC вариантов (условия 4 и 5) по сравнению с обычными MODOVC (условие 3) результатами. Здесь все усиленные варианты MODVOC показывают значительно лучшие обработки, чем обычный MODVOC (все величины расположены выше 0). В 95% зоне достоверности есть существенные величины для всех отрывков и условий, за исключением использования захвата гармоник только в отрывках А и С.

Фиг.20 показывает результаты тестов в виде разницы величин по отношению к условию 6 (редактор Мелодии). Для отрывка С, MODVOC в условии 5 показывает значительно лучшие результаты, чем редактор Мелодии в условии 4, хотя они немного положительны, а условия 3 входят в 95% интервал достоверности (уровни достоверности превышающие 0). Для отрывков В (условие 2), F, G (условие 5) также не может быть сделано существенных заключений, но может быть отмечена тенденция в лучшем исполнении MODVOC может быть отмечена для отрывка С при условии 4 и отрывка F при условиях 4 и 5. Во всех случаях MODVOC показывал значительно худшие результаты, чем редактор Мелодии.

Результаты отражают общее качество оценки, включающие такие аспекты, как ненатуральные звуковые артефакты как деградация переходных процессов из-за пред- или пост- эхо, точность тона, корректировки мелодии и сохранение индивидуальных качеств. Для более детальной интерпретации результатов, слушателей просили отмечать их неформальные наблюдения вместе с актуальными оценками. Из этих наблюдений можно сделать заключение, что сохранение индивидуальных качеств и отсутствие ненатуральных звуковых артефактов, в целом было представлено в более высокой степени, чем, например, степень сохранения мелодии. Более того, если определенная мелодия была неизвестна слушателю, то казалось, что испытуемый не мог вспомнить исходную мелодию в короткий промежуток времени в ходе теста и не был уверен в правильности этой мелодии. Это может быть объяснено более высокой оценкой обработанных редактором Мелодии отрывков, которые имели более высокую верность воспроизведения звука по отношению к сохранению индивидуальных качеств, особенно звуков воспроизводимых отдельными инструментами. Однако это происходит за счет случайно происходящих значительных музыкальных ошибок, которые могут происходить, возможно, из-за неправильной классификации. MODVOC более надежный в этом отношении т.к. он преимущественно не полагается на характеристики, основанные на классификационных технологиях.

Некоторые варианты решений по данному изобретению относятся к усиленному модуляционному вокодеру для селективного транспонирования уровня. Концепция модуляционного вокодера (MODVOC) была предложена и была показана его основная возможность выполнять селективное транспонирование полифонического музыкального содержания. Это делает возможным такие применения, которые направлены на изменение режима установки одновременно звучащих нот в машинно-совместимых музыкальных произведениях. Были предложены две технологии селективного транспонирования уровня при помощи MODVOC. Выполнение селективного транспонирования и преимущества этой технологии выявлены по результатам, полученным при проведении специально разработанной методики теста прослушивания, которая способна управлять резкими изменениями уровня по отношению к оригинальному входному аудио сигналу. Результаты этой субъективной оценки качества звучания даны для отрывков, которые были конвертированы между минорной и мажорной тональностями при помощи MODVOC и, дополнительно, при помощи первой коммерческой программы, которая также способна выполнять подобные задания.

Стоит заметить, что редактор Мелодии первоначально выполняет автоматический анализ всего звукового файла до того, как разрешает проводить какие-либо операции, в то врет, как MODVOC работает на блочной основе, потенциально разрешая работу в реальном времени.

Была разработана технология работы с модулирующим вокодером (MODVOC) при селективном транспонировании уровня. По результатам тестовых прослушиваний полученных для тестовых сигналов, выделенных из MIDI, можно сделать заключение, что качество восприятия чистого MODVOC усиливается захватом гармоник и формированием огибающей кривой. Во всех случаях можно ожидать усиления до 10 пунктов MUSHRA. Основная причина улучшения зависит от захвата гармоник.

Кроме того, сравнивая MODVOC с коммерческой программой (редактор Мелодии) можно обнаружить общий качественный уровень, который можно достичь в селективном транспонировании уровня, в настоящее время, может располагаться между «удовлетворительно» и «хорошо». MODVOC более устойчив в работе к неправильной интерпретации мелодии т.к. он в главном не полагается на классификационные решения.

В противоположность многопроходному анализу, выполняемому редактором Мелодии по всему аудио файлу перед началом работы, MODVOC основывается только на однопроходной обработке блока, потенциально позволяющей создание потока данных или работу в реальном времени.

Хотя некоторые аспекты описанной концепции были объяснены в связи с устройством, очевидно, что эти аспекты также представляют соответствующий способ, где блок или устройство соответствуют этапу способа или отличительной черте этого этапа. По аналогии, описанные аспекты в контексте этапа способа также дают описание соответствующего блока или характеристику устройства.

Предлагаемый по изобретению кодированный аудио сигнал может храниться в цифровом виде или может передаваться по средствам связи, как например, беспроводные средства связи или через Интернет.

В зависимости от определенных требований применения, варианты выполнения изобретения могут в виде аппаратного или программного продукта. Применение может быть с использованием средств хранения цифровой информации, например, гибкий диск, DVD, блю рэй, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, на которых хранятся считываемые электронным путем управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, производимой соответствующим способом. Поэтому среда хранения цифровой информации может читаться компьютером.

Некоторые варианты исполнения настоящего изобретения имеют носитель данных с электронно считываемыми управляющими сигналами, которые способны взаимодействовать с компьютерной системой, которую воспроизводит описываемый здесь способ.

В общем, варианты реализации по данному изобретению могут быть в виде компьютерного программного продукта с программным кодом, способным выполнять один из заявленных способов, при том, что компьютерный программный продукт управляет компьютером. Программный код может, например, храниться на читаемом машиной носителе.

Другие варианты включают компьютерную программу для выполнения одного из описанных здесь способов, хранимую на читаемом машиной носителе.

Другими словами, вариант реализации данного изобретения, является компьютерной программой с программным кодом для выполнения одного из способов описанных здесь, когда программа управляет компьютером.

Дальнейшая реализация способа по изобретению, является носителем информации (или хранителем цифровой информации, или читаемом машиной носителем), состоящей из записанной на нем компьютерной программой для выполнения одного из описанного здесь способа.

Далее, реализация способа по изобретению, состоит из потока данных или последовательности сигналов, составляющих компьютерную программу для выполнения одного из описанных здесь способов. Поток данных или последовательность сигналов могут быть, например, в виде, позволяющим их передачу через коммуникационные средства, например, Интернет.

Далее, способ реализации данного изобретения, включает средства обработки, например, компьютер или программируемое логическое устройство, имеющее конфигурацию или адаптированное для выполнения одного из способов, описанных здесь.

Дальнейшая реализация данного изобретения состоит из компьютера с установленной на нем программой для выполнения одного из способов описанных здесь.

В некоторых вариантах реализации, программируемое логическое устройство (например, программируемая вентильная логическая матрица) может использоваться для выполнения некоторых или всех функций способа, описанного здесь. В некоторых вариантах, программируемая полевая вентильная логическая матрица может взаимодействовать с микропроцессором для того, чтобы выполнять один из описанных здесь способов. В основном, описанные способы выполняются преимущественно аппаратными средствами.

Вышеописанные варианты исполнения данного изобретения являются в основном иллюстрирующими принципы данного изобретения. Само собой разумеется, что модификации и варианты исполнения и детали, описанные здесь, будут очевидны специалистам в данной области. Поэтому мы намерены ограничиться только рамками патентной формулы, а не специфическими деталями, данными в описаниях и объяснениях вариантов исполнения.

1. Устройство (100, 200) для модификации аудио сигнала (102), содержащее процессор с набором фильтров (110), предназначенный для генерирования множества полосовых сигналов (112), базирующихся на аудио сигнале (102); блок определения основного тона (120), предназначенный для выделения полосового сигнала (112) из множества полосовых сигналов для получения полосового сигнала основного тона (122); блок определения обертона (130), предназначенный для определения полосового сигнала (112) из множества полосовых сигналов, отвечающий критериям обертона по отношению к выбранному полосовому сигналу основного тона (122) с тем, чтобы получить полосовой сигнал обертона (132), связанный с выделенным полосовым сигналом основного тона (122); процессор сигнала (140), предназначенный для модификации выделенного полосового сигнала основного тона (122), основываясь на выбранной модели модификации и предназначенный модифицировать выделенный полосовой сигнал обертона (132), связанный с выделенным полосовым сигналом основного тона (122), зависящим от модификации выделенного полосового сигнала (122), где процессор сигнала (140) предназначен для генерирования сигнала с амплитудной модуляцией (AM) и сигнала с частотной модуляцией (ЧМ) для каждого полосового сигнала (112) множества полосовых сигналов, где процессор сигнала (140) предназначен модифицировать ЧМ сигналы выделенного полосового сигнала основного тона (122) по выбранной модели модификации и где процессор сигнала (140) предназначен для модификации ЧМ сигналов выделенного полосового сигнала обертона (132), связанного с полосовым сигналом основного тона (122), зависящим от модификации выделенного полосового сигнала основного тона (122); и блок сведения (150), предназначенный для сведения модифицированного полосового сигнала основного тона (122), модифицированного полосового сигнала обертона (132) и не выделенных полосовых сигналов из множества полосовых сигналов для получения модифицированного аудио сигнала (152).

2. Устройство по п. 1, в котором каждый полосовой сигнал (112) множества полосовых сигналов имеет несущую частоту, блок определения обертона (130) предназначен сравнивать несущую частоту полосового сигнала (112) из множества полосовых сигналов с несущей частотой выделенного полосового сигнала основного тона (122), при этом выполняются критерии обертона, если несущая частота полосового сигнала (112) является кратной несущей частоте выделенного полосового сигнала (122) с заданным допуском несущей частоты.

3. Устройство по п. 1, в котором блок определения обертона (130) предназначен для сравнения энергетической составляющей полосового сигнала множества полосовых сигналов с энергетической составляющей выделенного полосового сигнала основного тона (122), при этом выполнены критерии обертона, если несущая частота полосового сигнала (112) является кратной несущей частоте выделенного полосового сигнала (122) с заданным допуском несущей частоты.

4. Устройство по п. 1, в котором блок определения обертона (130) предназначен для расчета величины корреляции, показывающей корреляцию временной огибающей полосового сигнала (112) с временной огибающей выделенного полосового сигнала основного тона (122), где соблюдены критерии обертона, если значение корреляции больше, чем заданный порог корреляции.

5. Устройство по п. 1, в котором блок определения основного тона (120) предназначен для выделения последующего полосового сигнала (122) из множества полосовых сигналов без учета всех уже выделенных полосовых сигналов основного тона (122) и всех уже выделенных полосовых сигналов обертона (132) для получения последующего полосового сигнала основного тона (122).

6. Устройство по п. 5, в котором блок определения (130) предназначен для выделения следующего полосового сигнала (112) из множества полосовых сигналов, где соблюдены критерии обертона по отношению к выделенному полосовому сигналу основного тона (122), без учета уже выделенных сигналов обертона (132), связанных со следующим выделенным полосовым сигналом основного тона (122).

7. Устройство по п. 5, в котором процессор сигнала (140) предназначен для модификации следующего выделенного полосового сигнала основного тона (122), основывающегося на заданной модели модификации.

8. Устройство по п. 1, в котором блок определения основного тона (120) предназначен для выделения полосового сигнала (112), основываясь на энергетическом критерии.

9. Устройство по п. 1, в котором блок определения основного тона (120) предназначен для выделения а-взвешенного энергетического содержания каждого полосового сигнала (112) из множества полосовых сигналов и предназначен для выделения полосового сигнала (112), содержащего наибольшее а-взвешенное энергетическое содержание для получения полосового сигнала основного тона (122).

10. Устройство по п. 1, включающий блок определения несущей частоты (260), где процессор с набором фильтров (110) имеет набор фильтров (212) и конвертер сигнала (214), предназначенный для генерирования полосовых сигналов, основанных на аудио сигнале (102), где конвертер сигнала (214) предназначен для преобразования генерированных сигналов в область поддиапазона для получения множества полосовых сигналов, где блок определения несущей частоты (260) предназначен для выделения множества несущих частот, основанных на аудио сигнале (102), где набор фильтров (212) процессора (110) предназначен для генерирования полосовых сигналов, чтобы каждый полосовой сигнал имел частотный диапазон, включая разные несущие частоты для получения полосового сигнала, связанного с каждой несущей частотой из множества несущих частот.

11. Устройство по п. 1, имеющее блок определения формы огибающей кривой и формирователь кривой, где блок определения формы кривой предназначен для определения коэффициентов формы кривой, основанных на аудио сигнале (102), где аудио сигнал (102) является аудио сигналом частотной области, представляющий входной аудио сигнал временной области, где процессор с набором фильтров (110) предназначен для генерирования множества полосовых сигналов в области поддиапазона, основываясь на аудио сигнале частотной области, где блок сведения предназначен для сведения набора из множества полосовых сигналов для получения модифицированного аудио сигнала, представляющего аудио сигнал временной области, где формирователь кривой предназначен для формирования кривой аудио сигнала временной области, основанной на коэффициентах формы кривой, для формирования кривой множества полосовых сигналов поддиапазона временной области, основывающихся на коэффициентах формы кривой или для сформирования огибающей кривой множества полосовых сигналов временного поддиапазона, основываясь на коэффициентах формы кривой до того, как полосовой сигнал временного поддиапазона будет модифицирован процессором сигнала с целью получения сформированного аудио сигнала.

12. Способ (300) модификации аудио сигнала, включающий
генерирование (310) множества полосовых сигналов, основанных на аудио сигнале;
выделение (320) полосового сигнала из множества полосовых сигналов для получения полосового сигнала основного тона;
определение (330) полосового сигнала из множества полосовых сигналов, соответствующих критериям обертона по отношению к полосовому сигналу основного тона, для получения полосового сигнала обертона, связанного с выделенным полосовым сигналом основного тона;
модификацию (340) выделенного полосового сигнала основного тона, основываясь на выбранной модели модификации, путем генерирования сигнала с амплитудной модуляцией (AM) и сигнала с частотной модуляцией (ЧМ) для каждого полосового сигнала (112) из множества полосовых сигналов и модификацией сигнала с частотной модуляцией (ЧМ) выделенного полосового сигнала основного тона (122), основывающегося на выбранной модели модификации;
модификацию (350) выделенного полосового сигнала обертона, связанного с выделенным полосовым сигналом основного тона, в зависимости от модификации выделенного полосового сигнала основного тона;
модификацию сигнала с частотной модуляцией (ЧМ) выделенного полосового сигнала обертона (132), связанного с выделенным полосовым сигналом основного тона (122), зависящим от модификации выделенного полосового сигнала основного тона (122); и
сведение (360) модифицированного полосового сигнала основного тона (122), модифицированного полосового сигнала обертона (132) и не выделенных полосовых сигналов из множества полосовых сигналов для получения модифицированного аудио сигнала.

13. Носитель информации, хранящий компьютерную программу с программным кодом, для реализации способа по п. 12, где компьютерная программа управляет цифровым процессором сигнала, компьютером или микро контроллером.

Изобретение относится к акустике, в частности к устройствам для модификации звукового сигнала, и содержит определитель формы огибающей, процессор банка фильтров, процессор сигнала, объединитель и формирователь огибающей. Определитель формы огибающей вычисляет коэффициенты формирования огибающей звукового сигнала, процессор банка фильтров обеспечивает полосовую фильтрацию, процессор сигнала корректирует сигнал с ограниченной полосой частот. Затем множество сигналов с заданными частотными поддиапазона объединяются, чтобы получить звуковой сигнал временного интервала. Формирователь огибающей генерирует огибающую звукового сигнала с учетом коэффициентов формирования огибающей. При этом определитель формы огибающей сконфигурирован, чтобы определить коэффициенты формирования огибающей на основе предсказания частоты. Преобразователь огибающей состоит из преобразователя коэффициентов и множителя. Процессор банка фильтров содержит фильтр с предсказанием, блок вычитания сигнала и банк фильтров, а формирователь огибающей вычисляет энергетическое отношение запаса энергии звукового сигнала частотной области и энергетического содержания остаточного звукового сигнала. Технический результат - улучшение качества звука. 3 н. и 11 з.п. ф-лы, 23 ил., 4 табл.