Устройство и способ получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудио сигналов в фазовом вокодере

Авторы патента:

НАГЕЛ Фредерик (DE)

ВИЛЛЕМОЕС Ларс (SE)

ЭКСТРАНД Пер (SE)

ДИШ Саша (DE)

ВИЛДЕ Стефан (DE)

G10L21/02 - усиление речи, например подавление шума, нейтрализация эхо-сигнала (подавление эхо-сигнала в громкоговорящих телефонных системах H04M 9/08, в аппаратах для людей с дефектами слуха H04R 15/00)

Владельцы патента RU 2596033:

Долби Интернейшнл АБ (NL)
Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. (DE)

Изобретение относится к передаче речи и может быть использовано для получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудиосигналов в фазовом вокодере. Устройство для получения широкополосного расширенного аудиосигнала из входного сигнала, состоящее из генератора патчей для получения одного или более сигналов патчей из входного сигнала, где генератор патчей предназначен для расширения временной шкалы (1800, 1808) полосовых сигналов, поступающих от банка фильтров анализа, и где генератор патчей содержит блок регулятора фазы (1806) для регулировки фазы сигналов поддиапазонов, используя коррекцию фазы, зависящую от канала банка фильтров. 3 н. и 17 з.п. ф-лы, 16 ил.

Аудиосигналы могут быть изменены по отношению к ритму воспроизведения при сохранении оригинального уровня. При помощи фазовых вокодеров [1-3] или другими техническими средствами, как например алгоритмы модификации времени или уровня методом совмещения и добавления с синхронизацией тона (SOLA - Sinhronized Overlap-Add), Более того, эти методы могут использоваться для выполнения транспонирования сигнала при сохранении оригинальной длительности воспроизведения. Последнее может быть выполнено путем растяжения аудиосигнала на целый множитель и последующей регулировкой уровня воспроизведения растянутого аудиосигнала, с применением того же множителя. Для сигнала с временной дискретностью, последнее соответствует субдискретизации растянутого по времени аудиосигнала на множитель удлинения, принимая, что частота квантования остается неизменной.

Методы растяжения ширины полосы сигнала, основанные на фазовом вокодере, такие как описанные в [4-5], генерируют, в зависимости от общей ширины полосы сигнала, изменяемое число поддиапазонов (уровней), которые суммируются для образования результирующего сигнала, представляющего необходимую общую ширину полосы.

Временное фазирование одиночных патчей, которое возникает в результате применения фазового вокодера, является специфической задачей. В общем случае, эти патчи имеют временную задержку разной длительности. Это происходит потому, что интервал синтеза фазовых вокодеров организован на фиксированных транзитных участках, которые зависят от множителя растяжения, и поэтому каждый одиночный патч имеет временную задержку заданной длительности. Это ведет к частотно зависимой временной задержке результирующего сигнала растянутой полосы частот. Поскольку эта частотно зависимая задержка влияет на свойства вертикальной когерентности общего сигнала, это оказывает негативное воздействие на переходные характеристики способа растяжения полосы сигнала.

Другая проблема возникает при рассмотрении одиночных патчей, в которых недостаток межчастотной когерентности оказывает отрицательное влияние на частотные характеристики фазового вокодера.

Задачей настоящего изобретения является представить концепцию для генерирования широкополосного растянутого аудиосигнала, который дает улучшенное звуковое качество.

Это достигается при помощи аппаратуры для генерирования широкополосного растянутого аудиосигнала в соответствии с п.1, способа генерирования широкополосного растянутого аудиосигнала в соответствии с п.19 или компьютерной программы в соответствии с п.20.

Аппаратура для генерирования широкополосного растянутого аудиосигнала из входного сигнала состоит из генератора патчей для генерирования одного или более патчей сигналов из входного сигнала. Генератор патчей предназначен для временного растягивания сигналов поддиапазона, полученных от банка фильтров анализатора, и состоит из фазового регулятора для регулировки фаз сигналов поддиапазона, использующего фазовозависимую коррекцию канала фильтров.

Дальнейшее отличие данного изобретения состоит в том, что исключается негативное влияние на частотную характеристику, обычно вносимое устройствами типа фазовых вокодеров при широкополосном растягивании или другими устройствами.

Другое отличие данного изобретения состоит в том, что оптимизируется частотная характеристика одиночных патчей, которые, например, созданы при помощи фазовых вокодеров или подобными устройствами. В вариантах использования изобретения также возможно временное фазирование одиночных патчей, созданных, например, при помощи фазовых вокодеров или подобных устройств, но коррекция фазы внутри патча, т.е. внутри сигналов поддиапазона, обработанных при помощи одного и того же фактора транспозиции, может применяться с или без временной коррекции, которая справедлива для всех сигналов поддиапазона в патче, рассматриваемом как единое целое.

В данном изобретении используется новый способ оптимизации частотной характеристики и временного фазирования одиночных патчей, которые созданы при помощи фазовых вокодеров. Этот способ состоит из подбора фазовых коррекций транспонируемого поддиапазона при использовании комплексного модулируемого банка фильтров и введения дополнительной временной задержки в одиночные патчи, которые получены от фазовых вокодеров с разными коэффициентами транспонирования. Длительность дополнительной задержки, вносимой в определенный патч, зависит от использованного коэффициента транспонирования и может быть определена теоретически. Задержка отрегулирована таким образом, что прикладывая входной импульсный сигнал от Dirac, временной центр тяжести транспонированного Dirac импульса в каждом патче синхронизируется с той же временной позицией в спектрографическом изображении.

Существует много способов, которые выполняют транспонирование аудиосигнала при помощи единственного коэффициента транспонирования, как например фазовый вокодер. Если требуется скомбинировать несколько транспонированных сигналов, можно скорректировать временные задержки между разными выходными сигналами. Правильное вертикальное согласование между патчами полезно, но не обязательно в этих алгоритмах. Это не вредит, пока не рассматриваются переходные параметры. Проблема правильной синхронизации различных патчей не рассматривается в литературе, посвященной этой теме.

Транспонирование спектра при помощи фазовых вокодеров не гарантирует сохранение вертикальной когерентности переходных параметров. Более того, в полосах высокочастотных диапазонов возникают эхо-сигналы из-за примененного в фазовом вокодере способа наложения/добавления, как и различные временные задержки одиночных патчей, которые составляют суммирующий сигнал. Поэтому желательно синхронизировать патчи таким образом, чтобы широкополосная параметрическая постобработка могла использовать улучшенную вертикальную синхронизацию между патчами. Общий временной диапазон, покрывающий пред- и постэхо должен быть минимизирован.

Фазовый вокодер обычно используется для мультипликативной целой фазовой модификации выборок поддиапазонов в области анализа/синтеза в комплексных модулированных наборах фильтров. Эта процедура автоматически не гарантирует правильной синхронизации фаз в результативных выходных сигналах каждого синтезированного поддиапазона и это приводит к неравномерной частотной характеристике фазового вокодера. Этот артефакт выражается в изменяющейся во времени амплитуде медленного гармонического воздействия переменной частотой. В части аудиокачества для общего звучания недостатком является окрашивание выходного сигнала модуляционными эффектами.

Предпочтительные варианты выполнения настоящего изобретения обсуждаются ниже со ссылками на прилагаемые чертежи, в которых:

Фиг.1 показывает спектрограмму Дирак импульса, прошедшего низкочастотный фильтр;

Фиг.2 показывает спектрограмму современного уровня технологии транспонирования Дирак импульса с коэффициентами транспонирования 2, 3, и 4;

Фиг.3 показывает спектрограмму синхронизированного по времени транспонирования или Дирак импульс с коэффициентами транспонирования 2, 3, и 4;

Фиг.4 показывает спектрограмму синхронизированного по времени транспонирования Дирак импульса с коэффициентами транспонирования 2, 3 и 4 и регулируемой задержкой;

Фиг.5 показывает временную диаграмму транспонирования медленной гармонической переменной частоты с плохо отрегулированной фазой;

Фиг.6 показывает транспонирование медленного гармонического воздействия переменной частотой с улучшенной фазовой коррекцией;

Фиг.7 показывает транспонирование медленного гармонического воздействия при дальнейшем улучшении фазовой коррекции;

Фиг.8 показывает систему увеличения ширины полосы в соответствии с данным изобретением;

Фиг.9 показывает другой вариант примера применения обработки одиночного сигнала поддиапазона;

Фиг.10 показывает вариант, где показана нелинейная обработка поддиапазона и последующая регулировка формы огибающей в пространстве поддиапазона;

Фиг.11 показывает другой вариант нелинейной обработки поддиапазона на фиг.10;

Фиг.12 показывает различные варианты применения для выбора канала поддиапазона при фазовой коррекции;

Фиг.13 показывает применение регулятора фазы;

Фиг.14а показывает детали использования набора фильтров для анализа, позволяющих проводить независимую от коэффициента транспонирования фазовую корректировку; и

Фиг.14b показывает детали использования банка фильтров для анализа, требующих проведения зависимой от коэффициента транспонирования фазовой корректировки.

Данное изобретение обеспечивает различные виды устройств, способов или компьютерных программ для обработки аудиосигналов в контексте расширения полосы и в контексте другого аудиоприменения, которое не связано с расширением полосы.

Далее описанные и заявленные признаки могут быть полностью или частично объединены, но могут также использоваться отдельно друг от друга, так как отдельные аспекты уже обеспечивают преимущества в отношении восприятия качества, сложности вычислений и процессоров / памяти ресурсов при реализации в компьютерной системе или микропроцессоре.

Варианты исполнения используют временную синхронизацию различных гармонических патчей, созданных фазовыми вокодерами. Временная синхронизация выполняется на основе центра тяжести транспонированного Дирак импульса. Фиг.1 показывает спектрограмму Дирак импульса, после прохождения низкочастотного фильтра, который дает ограниченную полосу. Эти сигналы являются входными сигналами для транспонирования.

Транспонированием этого Дирак импульса при помощи фазового вокодера, вводятся частотно-селективные задержки в получаемые поддиапазоны. Длительность этих задержек зависит от используемого коэффициента транспонирования. Транспонирование Дирак импульсов с коэффициентами 2, 3 и 4 показано на фиг.2.

Частотно-селективные задержки компенсируются введением дополнительных индивидуальных временных задержек в каждый результирующий патч. Таким образом, каждый поддиапазон синхронизируется таким образом, что центр тяжести Дирак импульса в каждом патче расположен на одинаковой временной позиции по отношению к центру тяжести Дирак импульса в высшем патче. Синхронизация выполняется по отношению к наивысшему патчу, поскольку у него существует наибольшая временная задержка. При использовании компенсации задержки, в соответствии с данным изобретением, центр тяжести Дирак импульса располагается на той же временной отметке для всех патчей внутри спектрограммы. Такое представление полученных сигналов можно видеть на фиг.3. Это приводит к минимизации распределения всей энергии перехода.

Необходимо дополнительно компенсировать оставшуюся временную задержку между транспонированным участком высоких частот и исходным входным сигналом. С этой целью можно ввести временную задержку во входной сигнал, чтобы центры тяжести транспонированных Дирак импульсов, которые были синхронизированы с определенной временной отметкой ранее, совпадали с временной отметкой Дирак импульсов ограниченной полосы. Спектрограмма полученного сигнала показана на фиг.4.

Для применения описанного способа неважно, используется ли фазовый вокодер как основной компонент способа расширения полосы частот во временной области или внутри банка фильтров, таких как например, банк фильтров pQMF.

При использовании технологии SOLA, субъективное аудиокачество переходных фрагментов соединяется с эхо-эффектами из-за наложения/добавления, несмотря на то что критерий вертикальной когерентности выполнен. Возможно, легкие девиации в положениях центров тяжести в одиночных патчах, отличающиеся от действительного центра тяжести в наивысшем патче, лежат в диапазоне пред- или постмаскирования звука.

Результат плохой регулировки фазового вокодера в части частотной характеристики показан в выходном сигнале на фиг.5, который соответствует входному сигналу гармонической частоты с постоянной амплитудой. Как можно увидеть, есть сильные амплитудные изменения и даже взаимные компенсации в выходном сигнале. Выходной сигнал слегка улучшенного фазового вокодера показан на фиг.6.

Работа в фазовом вокодере, основанном на комплексном модулированном банке фильтров, проходит в виде мультипликативной фазовой модификации сэмплов поддиапазонов. Входная синусоида временной области, дающая очень хорошую точность в комплексных сигналах поддиапазонов, имеет следующую форму

$C {\hat{ν}}_{n} (ω) \exp [i (ω q_{A} k + θ_{n})]$

где ω - частота синусоиды, n - индекс поддиапазона, k - индекс интервала времени поддиапазона, q_A - временной шаг по банку фильтров анализатора, С - константа комплекса, ${\hat{ν}}_{n} (ω)$ - частотная характеристика прототипа фильтра в банке фильтров, и θ_n - фазовая характеристика исследуемого банка фильтров, определенная при условии, что ${\hat{ν}}_{n} (ω)$ становится реальной величиной. Для типового расчета банка фильтров QMF можно допустить, что она положительна. При фазовой модификации типичный результат имеет форму

$D {\hat{ν}}_{n} (ω) \exp [i (T ω q_{S} k + T θ_{n})]$

где T - порядок транспонирования, a q_S- временной шаг по банку фильтров анализатора. Поскольку банк фильтров синтеза обычно выбирается в зеркальном отображении по отношению к банку фильтров анализа, правильный синтез синусоиды требует, чтобы это последнее выражение соответствовало анализу поддиапазонов синусоиды. В случае неудачи это приводит к амплитудной модуляции, как показано на фиг.5.

Реализация данного изобретения состоит в использовании дополнительной фазовой корректировки, после модификации, основанной на

$Δ θ_{n} = (1 - T) θ_{n}$

Это преобразует разнородные сигналы поддиапазона в сигналы с требуемой фазовой перегруппировкой по поддиапазону.

$D {\hat{ν}}_{n} (ω) \exp [i (T ω q_{S} k + T θ_{n})] \mapsto D {\hat{ν}}_{n} (ω) \exp [i (T ω q_{S} k + θ_{n})]$ .

Для специфического примера случайно набранных QMF комплексных модулированных фильтров имеем

$θ_{n} = - \frac{π}{2} (n + \frac{1}{2})$ ,

а фазовая корректировка по данному изобретению дана на основании

$Δ θ_{n} = \frac{π}{2} (T - 1) (n + \frac{1}{2})$

Выходной сигнал фазового вокодера с регулируемой по этому правилу фазой показан на фиг.7.

Если пара банка фильтров анализа/синтеза имеет большее распределение асимметричных фазовых вращений, тогда потребуется фазовая коррекция ψ_n, которая, при добавлении к анализируемому поддиапазону и имея знак минус до синтеза, приводит ситуацию к симметричному варианту. В этом случае фазовая коррекция по данному изобретению должна регулироваться по

$Δ θ_{n} = (T - 1) (θ_{n} - ψ_{n})$

Пример этого дан в 64 полосном QMF банке фильтров, используемом в MPEG стандарте по кодировке USAC на основании

$Ψ_{n} = C π (n + \frac{1}{2})$

где C - действительное число и может иметь значения от 2 до 3,5. Частные значения составляют 321/128 или 385/128.

Следовательно, для этой пары можно использовать

$Δ θ_{n} = \frac{385}{128} π (T - 1) (n + \frac{1}{2})$ .

Далее, в специальном применении вышеописанной ситуации можно увидеть, что фазовая коррекция, которая является независимой для порядка транспонирования T, может быть включена в этап банка фильтров анализа. Поскольку коррекция до мультипликации фазового вокодера в T раз такой же коррекции после фазовой мультипликации, следующее разложение будет выгодным

$Δ θ_{n} = T \frac{385}{128} π (n + \frac{1}{2}) - \frac{385}{128} π (n + \frac{1}{2})$ .

Модуляция набора фильтров анализа модифицируется, чтобы добавить $\frac{385}{128} π (n + \frac{1}{2})$ фазы по сравнению со стандартизированной QMF парой набора фильтров, а фазовая коррекция по данному изобретению становится равной только второму условию,

$Δ θ_{n} = - \frac{385}{128} π (n + \frac{1}{2})$ .

Преимущество фазовой коррекции в том, что получается плоская частотная характеристика каждого вокодера, участвующая в создании выходного сигнала.

Предложенный способ обработки по данному изобретению подходит для всех аудиоприменений, которые расширяют полосу аудиосигналов при помощи временного растягивания фазовым вокодером и осуществляют субдискретизацию или воспроизведение увеличенного соотношения.

Фиг.8 показывает систему увеличения полосы в соответствии с одним из аспектов данного изобретения. Эта система состоит из декодера на сердечниках 80, генерирующего декодированный сигнал. Декодер 80 соединен с генератором патчей 82, который позднее будет описан более детально. Генератор патчей 82 содержит все признаки, указанные на фиг.8, кроме декодера 80, низкочастотного корректора 84 и выходного устройства 85. Генератор патчей предназначен для генерирования одного или более сигналов патчей из входного аудиосигнала 86, сигнал патча имеет центральную частоту патча, которая отличается от центральной частоты другого патча или от центральной частоты входного аудиосигнала. Генератор патчей состоит из первого блока 87а, второго блока 87b и третьего блока 87c, где по варианту, указанному на фиг.8, каждый индивидуальный блок генератора 87а, 87b, 87c имеет субдискретизатор 88а, 88b, 88c, QMF блок анализатора 89а, 89b, 89c, блок удлинения времени 90а, 90b, 90c и блок-корректор каналов патчей 91а, 91b, 91c. Выходы блоков с 91a по 91c и низкочастотный корректор 84 подаются на вход выходного блока 85, который выдает сигнал расширенной полосы. Этот сигнал может быть обработан другими модулями обработки, как модуль коррекции кривой (огибающей) или любыми другими модулями, известными при обработке увеличения полосы сигнала.

Коррекция патча выполняется таким образом, чтобы генератор патчей 82 выдавал один или более сигналов патчей, при этом расхождение во времени между входным аудиосигналом и одним или более патч-сигналами или разница во времени между разными патч-сигналами, по сравнению с обработкой без корректировки, была минимальной или вовсе устранена. По варианту на фиг.8, это снижение или устранение расхождения во времени достигается при помощи патч-корректоров с 91а по 91c. Как вариант или в дополнение патч-генератор 82 предназначен для фазовой коррекции каналов, зависимых от блока фильтров с функцией растяжения времени. Это показано на входе фазовых корректоров 92а, 92b, 92c.

Необходимо отметить, что реализация по фиг.8 означает, что каждый блок QMF анализатора, такой как блок 89а, выдает множество сигналов поддиапазонов. Функция растяжения времени должна выполняться для каждого индивидуального сигнала. Когда, например, 89а QMF анализатор выдает 32 сигнала поддиапазонов, тогда должны существовать 32 расширителя времени 90а. Однако достаточно иметь один патч-корректор 87а для всех сигналов с растянутым временем. Как будет описано ниже, фиг.9 показывает обработку в блоке удлинения времени для каждого индивидуального сигнала поддиапазона блоком QMF анализатора, такими как QMF блоки анализатора 89а, 89b, 89c.

При одиночной задержке для всех временных сигналов в процессе обработки достаточно одинаковой величины временного растяжения, а индивидуальная фазовая коррекция должна прикладываться к каждому сигналу поддиапазона, т.к. индивидуальная фазовая коррекция, хотя и является независимой от сигнала, зависит от номера канала поддиапазона банка фильтров или, говоря иначе, индекса поддиапазона сигнала поддиапазона, где индекс поддиапазона обозначает то же самое, что и номер канала в контексте этого описания.

Фиг.9 показывает другой вариант применения процесса обработки одиночного сигнала поддиапазона. Одиночный сигнал поддиапазона был подвергнут любому варианту децимации или до, или после фильтрации банком фильтров анализа, не показанном на фиг.9. Поэтому длительность одиночного сигнала поддиапазона короче, чем была до децимации. Одиночный сигнал поддиапазона является входным сигналом блока экстрактора 1802, который является идентичным с блоком экстрактора 201, но который может применяться иначе. Блок экстрактора 1802 на фиг.9 работает с использованием величины е отношения образец/блок. Эта величина может быть переменной или может быть фиксированной и показана на фиг.9 в виде стрелки, входящей в блок экстрактора 1802. На выходе блока экстрактора 1802 показано множество извлеченных блоков. Эти блоки в значительной степени перекрываются, поскольку величина е во много раз меньше, чем длина блока блока-экстрактора. Например, блок-экстрактор извлекает блоки 12 выборок. Первый блок включает выборки с 0 по 11, второй блок включает выборки с 1 по 12, третий блок включает выборки со 2 по 13 и т.д. В этом техническом решении значение e равно 1 и присутствует 11-кратное перекрытие.

Индивидуальные блоки подаются на вход окна 1802, для оконной обработки блоков с использованием оконной функции для каждого блока, кроме того, имеется фазовый вычислитель 1804, который вычисляет фазу каждого блока. Фазовый вычислитель 1804 может работать с индивидуальным блоком как до, так и после оконной обработки. Затем вычисляется величина регулировки p×k и она подается в регулятор фазы 1806. Регулятор фазы прикладывает величину регулировки к каждой выборке в блоке. Коэффициент k равен коэффициенту расширения полосы. Например, при коэффициенте расширения полосы 2, фаза p, вычисленная для блока, извлеченного блоком экстрактором 1802, умножается на коэффициент 2, и величина регулировки, используемая в каждом блоке регулятора фазы 1806, равна р умноженная на 2.

Согласно изобретению, одиночный сигнал поддиапазона является комплексом сигналов поддиапазона, а фаза блока может быть вычислена множеством различных путей. Один из них - взять выборку в середине или около середины блока и вычислить фазу этой комплексной выборки.

Хотя на фиг.9 показано, что регулятор фазы работает после оконной обработки, эти два блока взаимозаменяемы и регулировка фазы выполняется в блоках, извлеченных блоком экстрактором и после выполнения оконной обработки. Поскольку обе операции, т.е. оконная обработка и регулировка фазы, выполняются в действительных величинах или при умножении комплексных величин, эти две операции могут быть сведены в одну операцию с использованием комплексного коэффициента умножения, который, в свою очередь, является коэффициентом комплексного умножения регулировки фазы и коэффициента оконной обработки.

Блоки с отрегулированной фазой подаются на вход блока наложения/добавления и регулировки амплитуды 1808, где блоки, после оконной обработки и регулировки фазы, накладываются друг на друга и добавляются. Важно то, что величина отношения образец/блок в блоке 1808 отличается от величины, используемой в блоке экстрактора 1802. Значение отношения образец/блок в блоке 1808 больше, чем величина е, используемая в блоке 1800, таким образом, получают выходной сигнал с увеличенной длительностью из блока 1808. Обработанный в блоке 1808 сигнал поддиапазона имеет длительность больше, чем сигнал поддиапазона на входе блока 1800. При необходимости получить расширение полосы равное 2, используется величина соотношения образец/блок, которая в разы больше соответствующей величины в блоках 1800. Это дает в увеличении временного фактора в два раза. При необходимости использовать другие временные факторы, можно использовать другие соотношения образец/блок и получить требуемые временные длительности в выходных блоках 1808. В данном техническом решении только один образец с индексом m=0 будет модифицирован, чтобы получить k (или T) раз его фазы. В этом техническом решении это справедливо только для этого случая, а не для всего блока. Для других выборок модификация может быть другой, как показано на примере на фиг.13 в блоке 143.

Что касается вопроса наложения, желательна амплитудная коррекция, чтобы привести в соответствие вопрос разных наложений в блоках 1800 и 1808. Эта амплитудная коррекция, однако, может быть введена в коэффициент умножения регулятора окна/фазы, но коррекция амплитуды может быть выполнена после наложения/обработки.

В приведенном выше примере, при длине блока 12 и величине отношения образец/блок в блоке экстракции равной 1, значение отношения выборка/блок для блока 1808 будет равно 2, при расширении полосы на коэффициент 2. Это даст наложение пяти блоков. Если необходимо выполнить расширение полосы с коэффициентом 3, то соотношение выборка/блок, используемое в блоке 1808, будет равно 3 и будет происходить наложение трех блоков. Когда необходимо 4-кратное увеличение полосы, то блок 1808 должен работать с величиной отношения выборка/блок, равной 4, что все равно даст наложение более 2 блоков.

Коррекция фазы зависит от канала банка фильтров и является входным сигналом регулятора фазы. Операция одиночной коррекции фазы выполняется, когда величина коррекции фазы является комбинацией величины регулировки фазы, зависимой от сигнала, как определено в фазовом вычислителе и фазовой коррекцией, независящей от сигнала (но зависящей от номера канала в банке фильтров).

Фиг.8 показывает пример расширения полосы аппарата для генерирования аудиосигнала с расширенной полосой, имеющей большую полосу, чем оригинальный (исходный) сигнал декодера, где используются несколько QMF банков фильтров анализа с 89а по 89 с, а фиг.10 и фиг.11 показывают технические решения, где используется только один банк фильтров. В отношении фиг.8 необходимо отметить, что QMF фильтр 89в для кодера необходим только в том случае, если блок сведения 85 имеет банк фильтров синтеза. Однако если сведение проходит с низкочастотными сигналами во временной области, то поз.89в не требуется.

Блок сведения 85 может дополнительно иметь регулятор формы огибающей или процессор восстановления высокой частоты для обработки входного сигнала в блок восстановления высокой частоты, использующего переданные параметры восстановления высокой частоты. Эти параметры могут содержать параметры регулировки формы гибающей, параметры обратной фильтрации, параметры потерянных гармоник или другие параметры. Использование этих параметров, сами параметры и каким образом они используются для регулировки формы гибающей или, в общем виде, для генерирования расширенных сигналов поддиапазона описывается в ISO/IEC 14496-3: 2005(E), раздел 4.6.8, посвященный инструментарию дублирования спектральной полосы (SBR).

Блок сведения 85 может иметь банк фильтров синтеза и за ним процессор для обработки высокочастотных сигналов, с использованием высокочастотных параметров во временной области, а не в области банка фильтров, а процессор расположен до банка фильтров синтеза.

Что касается фиг.8, то функция децимации может быть выполнена после QMF анализа. В то же время функция увеличения временной составляющей, показанная с 92а по 92c для каждой ветви транспонирования, может выполняться в одну операцию для всех трех ветвей.

Фиг.10 показывает аппарат для генерирования расширенного аудиосигнала поддиапазона из низкочастотного входного сигнала 100 в соответствии с техническим решением. Устройство содержит банк фильтров анализа 101, нелинейный процессор поддиапазона 102a, 102b, регулятора формы огибающей 103 или, в общем виде, процессора восстановления высокой частоты, работающего на параметрах восстановления высокой частоты, как например вход на линии параметра 104. Нелинейные процессоры поддиапазона 102a, 102b на фиг. 10 или 11 являются патч-генераторами, одинаковыми с блоком 82 на фиг.8. Регулятор формы огибающей или, в общем виде, процессор восстановления высокой частоты обрабатывает индивидуальные сигналы поддиапазона каждого канала и направляет обработанные сигналы поддиапазона на вход банка фильтров 105. Банк фильтров 105 получает входные сигналы на низкочастотный вход, и эти сигналы являются низкочастотными сигналами поддиапазона декодера, генерированными, например, QMF банком-анализатором 89d, показанным на фиг.8. В зависимости от использования низкая частота может быть получена от выходных сигналов банка фильтров анализа 101 на фиг.10. Транспонированные сигналы поддиапазона подаются на высокочастотные каналы банка фильтров синтеза для выполнения восстановления высокой частоты.

Банк фильтров 105 выдает транспонированный выходной сигнал, который содержит расширение полосы с коэффициентами 2, 3 и 4, и выходной сигнал блока 105 больше не является ограниченным по ширине полосы на частоте раздела, т.е. сигнал кодера соответствует нижней частоте компонентов SBR генерированного сигнала.

В техническом решении на фиг.10 банк фильтров анализа выполняет двукратное квантование и имеет определенный шаг (ширину) поддиапазона 106. Банк фильтров синтеза 105 имеет шаг поддиапазона синтеза 107, который, в данном решении, в два раза превосходит размер шага анализа, что приводит к участию в процессе транспонирования, что будет описано в контексте фиг.11.

Фиг.11 показывает детальное использование технического решения с использованием нелинейного процессора поддиапазона 102a на фиг.10. Схема, показанная на фиг.1, получает на вход одиночный сигнал поддиапазона 108, который обрабатывается по трем «веткам». Верхняя ветвь 110a предназначена для транспонирования с коэффициентом 2. Средняя ветвь на фиг.11, обозначенная как 110b. предназначена для транспонирования с коэффициентом 3, а нижняя ветвь на фиг.11 предназначена для транспонирования с коэффициентом 4 и обозначена как 110с. Однако действительная транспозиция для ветви 110а, проводимая каждым элементом обработки на фиг.11, равна 1 (т.е. нет транспозиции). Действительная транспозиция для средней ветви 110b равна 1,5 и действительная транспозиция для ветви 110с равна 2. Это обозначено числами в скобках слева на фиг.11, где обозначены коэффициенты транспонирования Т. Транспонирование с коэффициентами 1,5 и 2 показывают первый шаг транспонирования, полученный при операции децимации в ветвях 110b, 110c, и увеличение временного фактора в процессоре наложения/добавления. Второй вклад, т.е. удвоение транспозиции, получают с помощью банка фильтров синтеза 105, который имеет шаг поддиапазонов синтеза 107, в два раза превышающий шаг поддиапазонов банка фильтров анализа.

Ветвь 110b, однако, имеет функцию децимации, чтобы получить транспонирование с коэффициентом 1,5. Благодаря тому что банк фильтров синтеза имеет шаг поддиапазона в два раза больше, чем банк фильтров анализа, коэффициент транспонирования 3 получают, как показано на фиг.11, слева от блока экстрактора во второй ветви 110b.

Аналогично, третья ветвь имеет функцию децимации с коэффициентом транспонирования 2 и окончательное участие различных шагов в банке фильтров анализа и банке фильтров синтеза дает коэффициент транспонирования 4 в третьей ветви 110с.

Каждая ветвь имеет блок экстрактора 120а, 120b, 120c и каждый из этих блоков экстракторов одинаков с блоком экстрактора 1802 на фиг.9. Каждая ветвь имеет фазовый вычислитель 122а, 122b и 122c, эти фазовые вычислители одинаковы с фазовым вычислителем 1804 на фиг.9. Каждая ветвь имеет регулятор фазы 124а, 124b, 124c и регуляторы фазы одинаковы с регулятором фазы 1806 на фиг.9. Каждая ветвь имеет блок оконной обработки 126а, 126b, 126c, где каждый блок одинаков с блоком оконной обработки 1802 на фиг.9. Блоки оконной обработки 126а, 126b, 126c могут также иметь функцию использования прямоугольного окна с функцией «дополнения нулями». Сигналы транспонирования или патчи из каждой ветки 110а, 110b, 110c, по техническому решению на фиг.11, попадают на вход сумматора 128, который добавляет содержимое каждой ветви к действующему сигналу поддиапазона для получения так называемых блоков транспонирования на выходе сумматора 128. Затем выполняется процедура 130 наложения/добавления, а блок наложения/добавления 130 одинаков с блоком наложения/добавления 1808 на фиг.9. Этот блок использует значение наложения/добавления 2*е, где е является значением наложения блок экстракторов 120а, 120b, 120c, и выходов наложения/добавления 130 транспонированного сигнала, который в техническом решении на фиг.11, является одиночным полосовым выходом канала k, т.е. для наблюдаемого в настоящее время полосового канала. Обработка, показанная на фиг.11, выполняется для каждого поддиапазона анализа или для определенной группы поддиапазонов анализа и, как показано на фиг.10, транспонированные сигналы поддиапазонов подаются на вход банка фильтров синтеза 105 после того, как проходят обработку в блоке 103 для получения конечного выходного сигнала транспонирования, показанного на фиг.10 на выходе бока 105.

В техническом решении блок экстрактор 120а первой ветви транспонирования 110а извлекает 10 выборок и затем выполняется преобразование этих 10 QMF выборок в полярные координаты. Выходной сигнал затем определяется, как показано на фиг.13, блоком 143, о чем будет сказано ниже. Этот выходной сигнал, генерированный регулятором фазы 124а, направляется на блок оконной обработки 126а, который удлиняет выходной сигнал, добавлением нулей к первому и последнему значениям блока, где данная операция эквивалентна (синтезу) оконной обработке с прямоугольным окном длиной 10. Блок экстрактора 120а в ветви 110а не производит операции децимации. Поэтому извлеченные блоком экстракции выборки преобразуются в блоки с тем же промежутком, с каким они были извлечены.

Однако для ветвей 110b и 110c наблюдается другая картина. Блок экстрактор 120b извлекает блок из 8 выборок поддиапазонов и распределяет эти 8 выборок поддиапазонов в извлеченном блоке с другими шагами поддиапазонов. Нечисловую выборку поддиапазонов для извлеченного блока получают путем интерполяции и таким образом полученные QMF выборки вместе с образцами интерполяции преобразуются в полярные координаты и обрабатываются в регуляторе фазы 124b, чтобы получить одинаковое выражение, как и в блоке 143 на фиг.13. Затем вновь проходит оконная обработка в блоке оконной обработки 126b с целью растянуть выходной сигнал блока при помощи регулятора фазы 124b путем добавления нулей к двум первым выборкам и к двум последним выборкам, и эта операция эквивалентна (синтезу) оконной обработке с прямоугольным окном длиной 8.

Блок экстрактора 120c предназначен для извлечения блока с удлиненной временной составляющей 6 полосовых выборок и выполняет операцию децимации с коэффициентом децимации 2, выполняет преобразование QMF выборок в полярные координаты и вновь выполняет операции в регуляторе фазы 124b, чтобы получить выражение, равное тому, что включено в блок 143, фиг.13, а выход вновь дополняется нулями, но сейчас для первых трех выборок поддиапазона и для трех последних выборок поддиапазона. Эта операция эквивалентна (синтезу) оконной обработке с прямоугольным окном длиной 6.

Выходы транспонирования каждой ветки сводятся для образования комбинированного QMF выхода сумматором 128, а затем комбинированные QMF выходы совмещаются при помощи наложения/добавления в блоке 130, где шаг по индексу в два раза больше, чем шаг по индексу блоков экстрактора 120а, 120b, 120c, как показано выше.

Различные технические решения для определения требуемых фазовых коррекций рассматриваются в контексте фиг.12. В техническом решении, показанном на 151, существует симметричная ситуация в паре банк фильтров анализа/синтеза и фазовая коррекция Δθ_n имеет первым членом уравнения 151а, зависящим от коэффициента транспонирования T, и второй член уравнения 151b, который зависит от числа каналов n или в рассматриваемой фиг.11, k.

В этом техническом решении регулятор фазы предназначен для выполнения коррекции фазы, используя величину Δθ_n, которая обозначена как Ω(k) на фиг.11, зависящей не только от канала банка фильтров в соответствии с 151b, но также может зависеть от коэффициента транспонирования, как показано в 151а. Важно, что коррекция фазы не зависит от текущего сигнала поддиапазона. Эта зависимость существует для фазовой коррекции при транспонировании в вокодере, как обсуждалось в контексте блоков 122а, 122b, 122b, но эта фазовая коррекция или «комплексная величина выходного усиления Ω(k)» не зависит от сигнала поддиапазона.

В другом техническом решении, показанном на 152 фиг.12, существует асимметричное распределение вращения фаз. Вращение фаз используется для сдвига входных выборок банка фильтров анализа по временной оси и также для сдвига выходных величин банка фильтров синтеза по временной оси. Значение вращения фаз обозначается как Ψ_n. Используемая фазовая коррекция при асимметричном распределении вращения фаз обозначается как Δθ_n, и опять существует член уравнения 152а, зависимый от коэффициента транспонирования, и член уравнения 152b, зависимый от канала поддиапазона.

Еще одно воплощение настоящего изобретения показано на 153 и имеет преимущество над решениями 151 и 152 в том, что фазовая коррекция Δθ_n или Ω(k), показанная на фиг.11, зависит только от канала поддиапазона, но теперь не зависит от коэффициента транспонирования. Это преимущество можно получить при специфическом применении вращения фаз в банке фильтра анализа, чтобы исключить зависимость от транспонирования при корректировке фазы. В определенном техническом решении при специфическом использовании банка фильтров это значение равно Δθ_n, показанному на фиг.12. Однако для других вариантов банка фильтров величина Δθ_nможет меняться. Фиг.12 показывает постоянный коэффициент 385/128, но этот коэффициент может меняться от 2 до 4, в зависимости от ситуации. Кроме того, отмечено, что могут использоваться другие величины, кроме 385/128, и отклонения от этой величины при специфических технических решениях, для которых эта величина является оптимальной, будут выражаться в легкой зависимости от коэффициента транспонирования, что может быть проигнорировано до определенного предела.

Фиг.13 показывает последовательность шагов, выполняемых каждой ветвью транспонирования 110а, 110b, 110c. На этапе 140 выборка m для извлеченного блока определяется либо как чистое извлечение выборки, как в блоке 120а, или при выполнении децимации, как в блоках 120b, 120c, и, возможно, интерполяцией, как показано в блоке 120b. Затем, на этапе 141, вычисляется амплитуда r и фаза Φ каждой выборки. В блоке 142 вычислители фаз 122а, 122b, 122c на фиг.11 вычисляют определенную амплитуду и определенную фазу блока. В техническом решении амплитуда и фаза данных в середине извлеченного и потенциально подвергаемого децимации и интерполяции блока вычисляется как данные фазы для блока и как данные амплитуды для блока. Однако и другие данные блока могут быть взяты для определения фазы и амплитуды каждого блока. Даже средние данные по амплитуде и фазе каждого блока, определенные путем сложения амплитуд и фаз всех выборок в блоке и делением полученных значений на число выборок в блоке, могут быть использованы в качестве данных амплитуды и фазы в блоке. В техническом решении на фиг.13 предпочтительнее использовать значения амплитуды и фазы выборок в середине блока с индексом ноль в качестве значений амплитуды и фазы всего блока. Затем отрегулированная выборка рассчитывается регулятором фазы 124а, 124b, 124c с использованием коррекции фазы по данному изобретению Ω (являющееся комплексным числом) в качестве первого члена уравнения, используя изменение амплитуды в качестве второго члена уравнения (который может быть распределен), используя в качестве третьего члена уравнения значения фазы, зависящей от сигнала, вычисленные блоками 122а, 122b, 122c, и соответствующими (Т-1)·Φ (0), а в качестве четвертого члена уравнения используется действующая фаза рассматриваемого образца Φ(m), как обозначено в блоке 143.

Фиг.14а и фиг.14b показывают два различных модуляционных действия для банка фильтров анализа для технических решений на фиг.12. Фиг.14а показывает модуляцию для банка фильтров анализа, которая требует коррекции фазы, зависящей от коэффициента транспонирования. Эта модуляция банка фильтров соответствует техническому решению 153 на фиг.12.

Альтернативный вариант воплощения технического решения показан на фиг.14b, соответствует примеру реализации 152, в котором фазовая коррекция, зависящая от коэффициента транспонирования, применяется в виде асимметричного распределения вращения фазы. Фиг.14b, в частности, показывает специфическую модуляцию банка фильтров анализа, совпадающую с комплексным банком фильтров в ISO/IEC 14496-3, раздел 4.6.18.4.2, который включен сюда как справочные данные.

При сравнении фиг.14а и 14b становится ясно, количество фазовых вращений для вычисления значений косинуса и синуса различны в двух последних уравнениях на фиг.14b и последнем уравнении на фиг.14а.

Варианты реализации включают в себя устройство для генерирования расширенной полосы аудиосигнала из входного сигнала, включающее патч-генератор для генерирования одного или более сигналов патча из входного аудиосигнала, где патч-сигнал имеет центральную частоту, отличающуюся от центральной частоты другого патча или от центральной частоты входного аудиосигнала, где генератор патча предназначен для генерирования одного или более сигналов патча таким образом, что временное рассогласование между входным аудиосигналом и одним или более патч-сигналами или временное рассогласование между разными патч-сигналами уменьшается или совсем устраняется, или где патч-генератор предназначен для выполнения фазовой корректировки, зависящей от канала банка фильтров при выполнении увеличения временной составляющей.

В другом варианте, патч-генератор включает в себя множество патчеров, где каждый патчер имеет функцию децимации, функцию увеличения временной составляющей и корректор патча для выполнения временной коррекции в патч-сигналах для снижения или исключения временного рассогласования.

В другом примере патч-генератор предназначен для хранения временной задержки и выбран таким образом, что когда обрабатывается импульсноподобный сигнал, центры тяжести патч-сигналов, полученных в ходе обработки, размещаются один за другим во времени.

В другом примере временная задержка, используемая патч-генератором для снижения или устранения рассогласования, постоянно хранится и является независимой от обрабатываемого сигнала.

В другом варианте реализации решения расширитель временной составляющей имеет блок экстрактора, используемые значения экстракции, регулятор фазы/блок оконной обработки и блок наложения/добавления, имеющий величины наложения/добавления, отличающиеся от величин экстракции.

В другом техническом решении временная задержка, используемая для уменьшения или исключения рассогласования, зависит от величины экстракции, величины наложения/добавления или от обеих величин.

В другом варианте, блок расширения временной составляющей содержит блок экстрактора, блок оконной обработки/регулятор фазы и блок наложения/добавления по крайней мере для двух разных каналов, имеющих разные номера каналов банка фильтров анализа, где блок оконной обработки/регулятор фазы для каждого из по крайней мере двух каналов предназначен для выполнения регулировки фазы в каждом канале, регулировка фазы зависит от номера канала.

Возможен вариант, в котором регулятор фазы предназначен для выполнения регулировки фазы к образцам в блоке, регулировка фазы является комбинацией значений фазы, зависящих от величины увеличения временной составляющей и существующей фазы в блоке, и значения фазы, независимой от сигнала, но зависимой от номера канала.

Хотя некоторые аспекты рассматривались в контексте самого устройства, очевидно, что эти аспекты также представляют собой описание соответствующих способов, где блок или устройство соответствуют этапу способа или детали этапа. Аналогично, аспекты, описанные в контексте этапов способа, также представляют собой описание соответствующего блока или узла, или характеристики соответствующего устройства.

Кодированный аудиосигнал по настоящему изобретению может храниться на цифровых носителях или может передаваться через трансляционные среды или проводные трансляционные средства, как, например, интернет.

В зависимости от определенных требований применения, технические решения по данному изобретению могут быть выполнены в аппаратном и программном варианте. Использование может быть с применением цифровых носителей, например гибкий диск, DVD, CD, ROM, PROM, EPROM, EEPROM или FLASH память, содержащих на них электронно-читаемые управляющие сигналы, которые совместимы (или могут быть совместимы) с программируемой компьютерной системой, выполняющей описанный способ.

Некоторые технические решения по данному изобретению имеют носители данных с управляющими сигналами, считываемые электронным способом, которые совместимы с программируемой компьютерной системой, на которой выполняется один из описанных здесь способов.

В общем виде, технические решения по данному изобретению могут быть выполнены в виде компьютерного программного продукта с программным кодом, программный код является рабочим для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код, например, может храниться на носителе, считываемом машиной.

Другие технические решения содержат компьютерную программу для выполнения одного из способов, описанных здесь, размещенную на носителе, считываемом машиной.

Другими словами, техническое решение по данному изобретению является компьютерной программой с программным кодом для выполнения одного из способов, описанных здесь, когда компьютер выполняет программу.

Другое техническое решение по данному изобретению является носителем данных (или цифровым хранителем информации, или машиночитаемым носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных здесь.

Другое техническое решение по данному изобретению является потоком данных или последовательностью сигналов, представляющих собой компьютерную программу для выполнения одного из описанных здесь способов. Поток данных или последовательность сигналов может быть, например, в форме, пригодной для передачи через средства коммуникации, например интернет.

Другое техническое решение включает средства обработки, например компьютер или программируемое логическое устройство, предназначенное или адаптированное для выполнения одного из способов, описанных здесь.

Дальнейшее воплощение включает компьютер с установленной компьютерной программой для выполнения одного из способов, описанных здесь.

В некоторых технических решениях, программируемое логическое устройство (например, программируемая вентильная матрица) может быть использовано для выполнения некоторых или всех функций, описанных здесь. В некоторых технических решениях это программируемое логическое устройство может быть объединено с микропроцессором для выполнения одного из описанных здесь способов. Говоря в общем, эти способы предпочтительнее выполнять на любом аппаратном комплексе.

Вышеописанные технические решения предназначены только для иллюстрации принципов настоящего изобретения. Понимается, что модификации и вариации исполнения и детали, описанные здесь, будут понятны другим специалистам в этой области. Поэтому мы ограничиваемся только объемом патентной заявки, а не специфическими деталями, данными в описаниях и пояснениях технических решений, данных здесь.

Список литературы

[1] Дж.Л. Фланаган и Р.М. Голден. Фазовый вокодер, Технический журнал Белл Систем, ноябрь 1966, стр.1394-1509

[2] Патент Соединенных Штатов 6549884 Ларош, Дж. и Долсон, М.: Переключение высоты тона у фазового вокодера.

[3] Дж. Ларош и М. Долсон, Новые устройства для переключения высоты тона, подстройки и других необычных эффектов в фазовых вокодерах. Труды совещания ИЭЭИ по устройствам преобразования сигналов для преобразования сигналов в аудио и акустические, Нью-Пальц, Нью-Йорк 1999.

[4] Фредерик Нагель, Саша Диш, Способ расширения полосы гармоник для аудиокодеков, ИКАССП, Тайпей, Тайвань, апрель 2009.

[5] Фредерик Нагель, Саша Диш и Николаус Реттельбах, Метод расширения полосы при помощи фазового вокодера с новым регулированием нестационарных состояний для аудиокодеков, 126-я Конвенция AES, Мюнхен, Германия, 7-10 мая, 2009.

1. Устройство для генерирования расширенной полосы аудиосигнала из входного сигнала, включающее патч-генератор (82, 102а, 102b) для генерирования одного или более патч-сигналов из входного сигнала, в котором патч-сигнал имеет центральную частоту патча, отличающуюся от центральной частоты патча другого патча или от центральной частоты входного аудиосигнала, при этом патч-генератор (82, 102а, 102b) предназначен для удлинения временной составляющей (90а, 90b, 90c; 1808; 130) сигналов поддиапазона из банка фильтров анализа (101), и патч-генератор (82, 102а, 102b) включает в себя регулятор фазы (1806, 124а, 124b, 124c) для регулирования фаз полосовых сигналов с использованием фазовой коррекции (151, 152, 153), зависящей от канала банка фильтров.

2. Устройство по п.1, в котором регулятор фазы (124а, 124b, 124c, 1806) предназначен для выбора фазовой коррекции (151, 152, 153), чтобы изменения амплитуды сигнала, вносимые конструкцией банка фильтров (101, 105), были снижены или исключены.

3. Устройство по п.1, в котором регулятор фазы (124а, 124b, 124c, 1806) предназначен для применения фазовой коррекции (151, 152, 153), фазовая коррекция не зависит от сигнала поддиапазона.

4. Устройство по п.1, в котором регулятор фазы (124а, 124b, 124c, 1806) предназначен для использования фазовой коррекции, зависящей от сигнала и используемого коэффициента транспонирования (143).

5. Устройство по п.1, в котором патч-генератор (82, 102а, 102b) сконфигурирован для выполнения поблочной обработки и содержит блок экстрактора (1802, 120а, 120b, 120c) для извлечения последовательных блоков значений из полосового сигнала с использованием значения величины (е); регулятор фазы (124а, 124b, 124c, 1806) и процессор наложения/добавления (1808, 130), где этот процессор предназначен для использования значения блока (k·e), которое больше значения величины (е), и получения расширенной временной составляющей.

6. Устройство по п.5, в котором блок экстрактора (120b, 120c) дополнительно предназначен для выполнения операции децимации в зависимости от коэффициента транспозиции T и для выполнения интерполяции в случае нецелочисленной операции децимации.

7. Устройство по п.1, в котором регулятор фазы (124а, 124b, 124c, 1806) предназначен для применения фазовой коррекции (153), фазовая коррекция имеет вид:
πC(k+1/2),
где k обозначает канал фильтр банка, а C является действительным числом между 2 и 4.

8. Устройство по п.5, в котором патч-генератор (82, 102а, 102b) содержит узел оконной обработки (126а, 126b, 126c, 1802) для обработки полученного блока с использованием функции оконной обработки.

9. Устройство по п.1, которое предназначено для расширения полосы с использованием по крайней мере двух коэффициентов транспонирования T, где патч-генератор предназначен для первого коэффициента транспонирования для извлечения (120а, 120b), используя значение блока и не проводя децимацию или проводя первую децимацию, используя первый коэффициент децимации; регулировки фаз выборок в блоках выборок поддиапазона; добавления нулей в блоке с отрегулированной фазой для получения блока определенной длины и получения первого транспонированного сигнала; для второго коэффициента транспонирования для извлечения блока выборок поддиапазона с использованием значений блока и используя второй коэффициент децимации, который больше, чем первый коэффициент децимации, с которым первая децимация уже выполнена; регулировки фаз выборок блоков выборок поддиапазона; и добавления нулей в блоке с отрегулированной фазой для получения блока определенной длины и получения второго транспонированного сигнала; добавления (128) первого и второго транспонированного сигнала в форме «выборка за выборкой» для получения транспонированного блока; и наложения/добавления (130) последовательных транспонированных блоков, с использованием значений больше, чем значения блоков, которые были использованы при получении транспонированного сигнала поддиапазона.

10. Устройство по п.1, которое дополнительно содержит процессор восстановления высокой частоты (103) для использования параметров восстановления высокой частоты (104) в сигналах поддиапазона после того, как будет проведена фазовая коррекция сигналов поддиапазона, чтобы получить отрегулированные сигналы поддиапазона.

11. Устройство по п.1, которое дополнительно содержит банк фильтров синтеза (105), в котором шаг поддиапазона больше, чем шаг поддиапазона в банке фильтров анализа (101).

12. Устройство по п.1, в котором патч-генератор (82, 102а, 102b) имеет банк фильтров анализа (101) для генерирования сигналов поддиапазона из низкочастотных сигналов, где банк фильтров анализа (101) является квадратичным зеркальным банком фильтра QMF с фазовым вращением, и в котором корректировка фаз зависит от коэффициента транспонирования.

13. Устройство по п.1, в котором банк фильтров анализа (101) является QMF банком фильтров и предназначен для применения вращения фаз, чтобы фазовая коррекция (153) была независима от коэффициента транспонирования, использованного для генерирования одного или более сигналов патча.

14. Устройство по п.1, в котором патч-генератор имеет блок расширения временной составляющей (92а) и в котором блок расширения временной составляющей (92а) имеет блок экстрактора для извлечения предшествующего значения.

15. Устройство по п.1, в котором патч-генератор (82, 102а, 102b) включает блок расширения временной составляющей (92а), где блок расширения временной составляющей (92а) имеет блок экстрактора, блок оконной обработки или регулятор фазы и блок наложения/добавления для по крайней мере двух разных каналов, имеющих разные номера в банке фильтров анализа, блок оконной обработки или регулятор фаз для каждого по крайней мере из двух каналов предназначен для проведения регулировки фаз в каждом канале, а эта регулировка фаз зависит от номера канала.

16. Устройство по п.1, в котором регулятор фаз предназначен для применения регулировки фаз к значениям образцов в блоках образцов, где регулировка фаз является комбинацией фазового значения, которое зависит от величины расширения временной составляющей и действующей фазы блока, и значения фазы, не зависящей от сигнала, а зависящей от номера канала фазовой регулировки.

17. Устройство по п.1 в котором патч-генератор (82, 102а, 102b) предназначен для генерирования одного или более сигналов патчей, чтобы временное рассогласование между входным аудиосигналом и одним или более патч-сигналами или временное рассогласование между разными патч-сигналами снижено или устранено.

18. Устройство по п.1, в котором патч-генератор (82, 102а, 102b) содержит множество патчеров (87а, 87b, 87c, 110а, 110b, 110c), по крайней мере один имеет функцию децимации, функцию расширения временной составляющей и корректор патча для выполнения временной коррекции патч-сигналов для снижения или устранения временного рассогласования.

19. Способ генерирования расширенного полосового аудиосигнала из входного сигнала, включающий этапы генерирования (82, 102а, 102b) одного или более сигналов патчей из входного сигнала, где сигнал патча имеет центральную частоту патча, отличающуюся от центральной частоты другого патча или от центральной частоты входного аудиосигнала, при этом выполняется расширение временной составляющей (90а, 90b, 90c; 1808; 130) сигналов поддиапазона, поступающих от банка фильтров анализа (101), и где происходит регулировка фазы полосовых сигналов (1806, 124а, 124b, 124c), с использованием корректировки фазы (151, 152, 153), зависящей от канала банка фильтров.

20. Машиночитаемый носитель информации с записанной на него компьютерной программой для осуществления способа по п.19 при условии её выполнения с использованием вычислительной техники.

Изобретение относится к средствам кодирования и декодирования речевого сигнала. Технический результат заключается в уменьшении возникающего опережающего эха и запаздывающего эха и в повышении качества декодированного сигнала без увеличения скорости передачи битов.

Система и способ для генерации аудиосигнала // 2595636

Изобретение относится к средствам генерации аудиосигнала. Технический результат заключается в уменьшении шумовых составляющих в речевом аудиосигнале.

Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке // 2589298

Изобретение относится к средствам повышения разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке. Технический результат заключается в повышении разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке за счет снижения эффекта маскирования полезного звукового сигнала нестационарными акустическими шумами при помощи использования частотно-зависимого адаптивного усиления.

Устройство и способ обработки входного звукового сигнала с помощью каскадированного банка фильтров // 2586846

Изобретение относится к средствам для обработки входного звукового сигнала на основе каскадированного банка фильтров. Технический результат заключается в повышении качества обработанного звукового сигнала.

Помехоустойчивая классификация режимов кодирования речи // 2584461

Изобретение относится к средствам помехоустойчивой классификации режимов кодирования речи. Технический результат заключается в повышении эффективности классификации режимов речи для повышения эффективности многорежимного кодирования с переменной скоростью передачи данных.

Способ, устройство и система для обработки аудиоданных // 2579926

Изобретение относится к средствам для обработки аудиоданных и к области техники связи. Технический результат заключается в повышении эффективности кодирования.

Устройство и способ модификации входного аудиосигнала // 2573246

Изобретение относится к средствам модификации входного аудиосигнала. Технический результат заключается в повышении эффективности модификации аудиосигнала при сохранении низкого уровня вычислительной сложности данной модификации.

Эхоподавление, содержащее моделирование компонентов поздней реверберации // 2569006

Изобретение относится к устройствам для вычисления коэффициентов (H[k,m]) фильтрации для адаптивного фильтра. Технический результат заключается в повышении качества звука системы эхоподавления или системы эхокомпенсации.

Устройство обработки, способ обработки, программа, машиночитаемый носитель записи информации и система обработки // 2597487

Изобретение относится к области обработки звуковых сигналов. Технический результат изобретения заключается в уменьшении амплитудного спектра шума. Устройство обработки оценивает амплитудный спектр шума для шума, включенного в звуковой сигнал. Устройство обработки включает в себя модуль вычисления амплитудного спектра, сконфигурированный с возможностью вычислять амплитудный спектр звукового сигнала для каждого из кадров, полученных из разделения звукового сигнала на единицы времени; и модуль оценки амплитудного спектра шума, сконфигурированный с возможностью оценивать амплитудный спектр шума для шума, обнаруженного из кадра. Модуль оценки амплитудного спектра шума включает в себя первый модуль оценки, сконфигурированный с возможностью оценивать амплитудный спектр шума на основе разности между амплитудным спектром, вычисленным посредством модуля вычисления амплитудного спектра, и амплитудным спектром кадра, имеющего место до того, как обнаруживается шум, и второй модуль оценки, сконфигурированный с возможностью оценивать амплитудный спектр шума на основе функции ослабления, полученной из амплитудных спектров шума кадров, имеющих место после того, как обнаруживается шум. 4 н. и 7 з.п. ф-лы, 2 табл., 16 ил.

Эффективное ослабление опережающих эхо-сигналов в цифровом звуковом сигнале // 2607418

Изобретение относится к средствам ослабления опережающих эхо-сигналов в цифровом звуковом сигнале. Технический результат заключается в обеспечении возможности ослабления высоких частот и паразитных опережающих эхо-сигналов при декодировании без передачи кодирующим устройством какой-либо вспомогательной информации. Ослабляют опережающие эхо-сигналы в цифровом звуковом сигнале, получаемом путем кодирования посредством преобразования. В декодированном сигнале обнаруживают положение атаки. Определяют зону опережающего эхо-сигнала, предшествующую положению атаки, обнаруженному в декодированном сигнале. Вычисляют коэффициенты ослабления на каждый подблок зоны опережающего эхо-сигнала в зависимости, по меньшей мере, от кадра, в котором была обнаружена атака, и от предыдущего кадра. Производят ослабление опережающего эхо-сигнала в подблоках зоны опережающего эхо-сигнала при помощи соответствующих коэффициентов ослабления. Способ ослабления опережающего эхо-сигнала дополнительно содержит этап применения адаптивной фильтрации для придания спектральной формы зоне опережающего эхо-сигнала на текущем кадре до обнаруженного положения атаки. 4 н. и 9 з.п. ф-лы, 12 ил.

Ослабление шума в сигнале // 2611973

Изобретение относится к технике ослабления шума в сигнале. Достигаемый технический результат - обеспечение улучшенного более точного ослабления шума и упрощение ослабления шума. Устройство ослабления шума содержит приемник для приема первого сигнала окружения, который содержит составляющую нужного сигнала, соответствующую сигналу из нужного источника в окружении, и составляющую шумового сигнала, соответствующую шуму в окружении, две кодовых книги, вход для приема сигнала датчика, представляющего измерение окружения, сегментатор для сегментирования первого сигнала на временные сегменты, аттенюатор шума, выполненный с возможностью выполнения для каждого временного сегмента этапов формирования множества оцененных вариантов сигнала и ослабления шума первого сигнала на данном временном сегменте в ответ на вариант сигнала. 2 н. и 12 з.п. ф-лы, 4 ил.

Ослабление шума при передаче аудиосигналов // 2616534

Изобретение относится к области обработки речевых аудиосигналов. Технический результат заключается в обеспечении ослабления шума при приеме аудиосигналов. Технический результат достигается за счет обеспечения двух таблиц кодирования, которые содержат варианты полезного сигнала, представляющие возможный компонент полезного сигнала, и возможные варианты долей шумового сигнала, представляющие возможные доли шума, сегментации аудиосигнала на временные сегменты, и для каждого временного сегмента формирования возможных вариантов оцененного сигнала в качестве комбинации масштабированной версии возможного варианта полезного сигнала и взвешенной комбинации возможных вариантов долей шумового сигнала, минимизации функции затрат, указывающей разность между возможным вариантом оцененного сигнала и аудиосигналом во временном сегменте, определения варианта сигнала для временного сегмента из возможных вариантов оцененного сигнала и компенсации аудиосигнала шума на основе этого возможного варианта сигнала. 2 н. и 12 з.п. ф-лы, 3 ил.

Ослабление шума при передаче аудиосигналов // 2616534

Способ, устройство и система для обработки аудиоданных // 2617926

Изобретение относится к средствам для обработки аудиоданных и к области техники связи. Технический результат заключается в повышении эффективности кодирования. Способ включает в себя: получение шумового кадра аудиосигнала и разложение текущего шумового кадра на шумовой сигнал полосы низких частот и шумовой сигнал полосы высоких частот; и кодирование и передачу шумового сигнала полосы низких частот посредством использования первого механизма прерывистой передачи и кодирование и передачу шумового сигнала полосы высоких частот посредством использования второго механизма прерывистой передачи. Согласно настоящему изобретению различные способы обработки используются для сигнала полосы высоких частот и сигнала полосы низких частот, вычислительная нагрузка и кодированные биты могут экономиться при допущении непонижения субъективного качества кодека, и биты, которые экономятся, могут помогать достигать цели уменьшения полосы пропускания передачи или повышения общего качества кодирования. 2 н. и 6 з.п. ф-лы, 9 ил.

Оценка фонового шума в звуковых сигналах // 2618940

Изобретение относится к средствам оценки фонового шума звуковых сигналов. Технический результат заключается в повышении точности детектирования в аудиосигнале речи или музыки. Уменьшают текущее оценочное значение фонового шума, когда определено, что сегмент аудиосигнала содержит музыку и текущее оценочное значение фонового шума превышает минимальное значение. Это должно быть выполнено, когда энергетический уровень сегмента аудиосигнала больше порога, превышающего долговременный минимальный энергетический уровень, который определяется по множеству предыдущих сегментов аудиосигнала, или когда энергетический уровень сегмента аудиосигнала меньше порога, превышающего долговременный минимальный энергетический уровень, но в сегменте аудиосигнала не обнаружена пауза. 7 н. и 4 з.п. ф-лы, 9 ил.

Эффективное ослабление опережающего эха в цифровом звуковом сигнале // 2622863

Изобретение относится к передаче цифровых звуковых сигналов по телекоммуникационным сетям и предназначено для обработки ослабления опережающего эха при декодировании цифрового звукового сигнала. Технический результат – уменьшение раздражающего воздействия явления опережающего эха. Данный способ включает: разложение декодированного сигнала на, по меньшей мере, два подсигнала в соответствии с предварительно определенным критерием разложения; вычисление коэффициентов ослабления, приходящихся на подсигнал и на дискретное значение из предварительно определенной зоны опережающего эха; ослабление опережающего эха в зоне опережающего эха каждого из подсигналов путем применения коэффициентов ослабления к этим подсигналам; получение подвергнутого ослаблению сигнала путем объединения подвергнутых ослаблению подсигналов. 4 н. и 11 з.п. ф-лы, 13 ил.

Система и способ ослабления звука в транспортном средстве для прослушивания указаний от мобильных приложений // 2627127

Изобретение относится к области микширования звука, передаваемого в потоковом режиме мобильным устройством. Технический результат заключается в обеспечении приглушения аудиоданных транспортного средства для звуковых указаний от мобильных приложений. Технический результат достигается за счет воспроизведения аудиоданных в транспортном средстве от одного из множества различных источников аудиоданных, приема в транспортном средстве от мобильного вычислительного устройства беспроводного сигнала, представляющего звуковое указание, которое должно быть воспроизведено в транспортном средстве, определения степени приглушения аудиоданных на основе источника аудиоданных, когда вычислительная система транспортного средства воспроизводит аудиоданные в транспортном средстве во время приема беспроводного сигнала от мобильного вычислительного устройства, и приглушения воспроизводимых аудиоданных и воспроизведения звуковых указаний. 3 н. и 17 з.п. ф-лы, 4 ил.

Способ декодирования и устройство декодирования // 2628159

Изобретение относится к области кодирования и декодирования. Техническим результатом является способ декодирования и устройство декодирования, которые позволяют предотвращать или уменьшать явление шума во время обработки потерь кадров, за счет этого повышая качество речи. Способ декодирования содержит этапы, на которых: в случае, если определяется то, что текущий кадр речевого сигнала представляет собой потерянный кадр, синтезируют сигнал полосы высоких частот согласно результату декодирования предыдущего кадра по отношению к текущему кадру; определяют субкадровые усиления по меньшей мере двух субкадров текущего кадра согласно субкадровым усилениям субкадров по меньшей мере одного кадра, предыдущего по отношению к текущему кадру, и градиенту усиления между субкадрами по меньшей мере одного кадра; определяют глобальное усиление текущего кадра и регулируют согласно глобальному усилению и субкадровым усилениям по меньшей мере двух субкадров, синтезированный сигнал полосы высоких частот таким образом, чтобы получать сигнал полосы высоких частот текущего кадра. 3 н. и 12 з.п. ф-лы, 12 ил.