Способ обработки функции автокорреляции для измерения основного тона речевого сигнала



Способ обработки функции автокорреляции для измерения основного тона речевого сигнала
Способ обработки функции автокорреляции для измерения основного тона речевого сигнала
Способ обработки функции автокорреляции для измерения основного тона речевого сигнала

 


Владельцы патента RU 2559710:

Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук (RU)

Изобретение относится к средствам обработки функции автокорреляции для измерения основного тона речевого сигнала и может быть использовано в области обработки сигналов, в системах распознавания речи. Технический результат заключается в повышении надежности измерения частоты основного тона речевого сигнала. Подчеркивают главный пик в автокорреляционной функции с помощью вычитания из автокорреляционной функции, полученной для сегмента сигнала, меньшей по амплитуде сглаженной функции автокорреляции для модуля сигнала на том же сегменте и обнуления отрицательных разностей. 1 з.п. ф-лы, 3 ил.

 

Изобретение относится к области обработки сигналов и может быть использовано для измерения основного тона речевых сигналов, а также других квазипериодических сигналов.

Измерение основного тона является базовой процедурой при анализе и распознавании речевого сигнала. Для этих целей часто используется кратковременная автокорреляционная функция коротких вокализованных сегментов сигнала длительностью ΔT=20-50 мс. Пусть имеется сегмент речевого сигнала s(t), заданный на интервале [0, ΔT]. В этом случае частота основного тона f0=1/T0 определяется величиной, обратной координате главного пика на τ=Т0 автокорреляционной функции

r ( τ ) = 1 Δ T 0 Δ T τ s ( t ) s ( t 1 ) d t

или нормированной автокорреляционной функции r0(τ)=r(τ)/r(0). Однако поскольку речевой сигнал является сверткой сигнала голосового источника, роль которого выполняют голосовые связки, с импульсной характеристикой речевого тракта, то за пик основного тона может быть принят пик автокорреляционной функции, связанный с первой формантой речевого сигнала, что приводит к нежелательным грубым ошибкам измерения основного тона.

Для уменьшения амплитуды пика в r(τ), связанного с первой формантой, используется центральное клиппирование речевого сигнала (Sondhi M.M. New methods of pitch extraction // IEEE Trans. Audio and Electroacoust. 1968. V.AU-16. №2. 262-266), выравнивающее амплитуды гармоник речевого сигнала и тем самым ослабляющее его формантные резонансы. Подобная процедура обеспечивает подчеркивание пика корреляционной функции на τ=Т0 для стационарных участков речевого сигнала, однако оказывается неудовлетворительной при изменении амплитуды речевого сигнала на протяжении интервала ΔT или в присутствии импульсных помех.

Наиболее близким техническим решением к предлагаемому способу является способ подчеркивания в автокорреляционной функции пика на τ=Т0 (Колоколов А.С., Любинский И.А., Мещеряков А.Ю. Измерение основного тона речевого сигнала на основе его автокорреляционной функции // Наукоемкие технологии, 2012, т.13, №5, с.26-29). Он основан на клиппировании положительных пиков в автокорреляционной функции r0(τ) с помощью линейно-убывающей функции , где α - параметр, определяющий уровень клиппирования r0(τ), выбираемый в диапазоне 0<α<1, а τ ∈[0, ΔТ]. В результате получается клиппированная автокорреляционная функция

Рассмотренная процедура клиппирования обеспечивает подчеркивание пика автокорреляционной функции на τ=Т0 для стационарных участков речевого сигнала и является малочувствительной к присутствию импульсных помех, однако оказывается неудовлетворительной при изменении амплитуды речевого сигнала на протяжении интервала ΔT, т.к. в этом случае автокорреляционная функция r0(τ) будет затухать быстрее, чем пороговая функция р0(τ).

Техническим результатом изобретения является повышение надежности измерения частоты основного тона ƒ0 речевого сигнала путем применения обработки автокорреляционной функции r0(τ), подчеркивающей ее пик на τ=1/ƒ0.

Технический результат обеспечивается тем, что производится подчеркивание главного пика в автокорреляционной функции с помощью вычитания из автокорреляционной функции, полученной для сегмента сигнала, меньшей по амплитуде функции автокорреляции для модуля сигнала на том же сегменте и обнуления отрицательных разностей.

Кроме того, производят дополнительное сглаживание функции автокорреляции, найденной для модуля сигнала.

На фиг. 1 представлена блок-схема, поясняющая процесс обработки автокорреляционной функции r0(τ) в предлагаемом способе.

На фиг. 2 предложенный способ поясняется на примере двухформантного синтетического гласного с постоянной амплитудой.

На фиг. 3 демонстрируется устойчивость способа при линейном убывании амплитуды на сегменте гласного до уровня 0,5 - (а) и 0,25 - (б).

На фиг.1 представлены блок получения автокорреляционной функции сигнала 1, блок получения автокорреляционной функции модуля сигнала 2, блок сглаживания 3, блок умножения на постоянный коэффициент 4, блок вычитания 5, блок обнуления отрицательных значений 6.

Поставленная цель достигается с помощью нахождения взвешенной разности

r c 2 ( τ ) = { r 0 ( τ ) α r 0 e ( τ ) 0 п р и r 0 ( τ ) α r 0 e ( τ ) h ( τ ) > 0 п р и r 0 ( τ ) α r 0 e ( τ ) h ( τ ) 0 ,

где

r 0 e ( τ ) = 1 Δ T 0 Δ T τ | s ( t ) | | s ( t 1 ) | d t ;

⊗ - знак операции свертки; h(τ) - симметричная импульсная характеристика сглаживающего фильтра, которая в частном случае отсутствия сглаживания будет представлять собой δ - функцию Дирака; 0<α<1; τ∈[0, Т]; |s(t)| - модуль s(t).

Такого рода обработку можно рассматривать как своего рода клиппирование r0(τ) с пороговой функцией ar0e(τ), затухающей примерно так же, как и r0(τ). В результате этого rc2(τ) в сравнении с rc1(τ) выделение пика на τ=Т0 оказывается в меньшей степени зависимым от изменении амплитуды речевого сигнала на протяжении интервала ΔT.

Приведенные на фиг.2(а), (б) и (с) зависимости, представляющие соответственно автокорреляционные функции r0(τ), r0e(τ) и результат обработки rc2(τ), были получены для дискретного двухформантного синтетического гласного, представленного 256 отсчетами, при частоте дискретизации 10 кГц для α=0,85. Синтезированный гласный имел частоту основного тона f0=100 Гц и частоты формант 500 и 830 Гц.

Сглаживание r0e(τ) выполнялось с помощью фильтра низких частот с симметричной импульсной характеристикой h(n)=0,25u0(n-1)+0,5u0(n)+0,25u0(n+1), где n=…-2, -1, 0, 1, 2, …,

u 0 ( n ) = { 1, n = 0, 0, n 0.

Поэтому вычисление свертки сводилось к суммированию трех взвешенных спектральных отсчетов. В одном случае (фиг.2) амплитуда гласного была неизменной на протяжении сегмента длительностью ΔT=25,6 мс, в других двух случаях (фиг.3(а) и 3(б)) линейно спадала до уровней в два и четыре раза ниже исходного.

Из чертежей можно видеть, что предложенный способ обработки автокорреляционной функции позволяет подчеркнуть ее пик на τ=1/f0 как в случае речевого сигнала с постоянной амплитудой, так и при изменениях амплитуды речевого сигнала на интервале анализа ΔT. При этом во всех случаях пик у rc2(τ) на τ=1/f0 является существенно более выраженным в сравнении с другими пиками, нежели у автокорреляционной функции r0(τ).

Таким образом, приведенные выше данные позволяют заключить, что предложенный способ обработки функции автокорреляции может быть использован для реализации более устойчивого измерения основного тона речевого сигнала в присутствии амплитудных вариаций сигнала на интервале анализа ΔT.

1. Способ обработки функции автокорреляции для измерения основного тона речевого сигнала, характеризующийся тем, что производят подчеркивание главного пика функции автокорреляции на периоде сигнала, при этом вычитают из автокорреляционной функции, полученной для сегмента сигнала, меньшую по амплитуде функцию автокорреляции для модуля сигнала на том же сегменте и обнуляют отрицательные разности.

2. Способ по п.1, характеризующийся тем, что выполняют дополнительное сглаживание автокорреляционной функции, полученной для модуля сигнала.



 

Похожие патенты:

Изобретение относится к медицине и предназначено для исследования функционального состояния голосовых складок. Техническим результатом является повышение точности диагностики состояния здоровья индивида по параметрам голосового сигнала.

Изобретение относится к системам анализа речи и может быть использовано для определения эмоционального состояния человека по голосу, применительно к задачам криминалистики, медицины, системам контроля и управления доступом и др.

Группа изобретений относится к средствам для анализа временных вариаций аудио сигналов. Технический результат заключается в создании средств, обладающих повышенной надежностью, для получения параметра, описывающего временные изменения сигнальной характеристики.

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности выделения речевого сигнала в условиях наличия помех.

Изобретение относится к средствам оценки качества аудиосигнала для мультимедийной телекоммуникационной службы. Технический результат заключается в повышении точности определения качества аудиосигнала.

Способ и дискриминатор для классификации различных сегментов сигнала, предназначенный для того, чтобы классифицировать различные сегменты сигнала, включающий сегменты, по крайней мере, первого и второго типов, например музыкальные и речевые сегменты, сигнал краткосрочной классификации (150) на основе, по крайней мере, одной краткосрочной особенности, извлеченной из сигнала, и краткосрочный результат классификации (152); сигнал долгосрочной классификации (154) на основе, по крайней мере, одной краткосрочной особенности и, по крайней мере, одной долгосрочной особенности, извлеченной из сигнала, и долгосрочный результат классификации (156).

Изобретение относится к вычислительной технике. .

Изобретение относится к устройствам и способам кодирования и декодирования, которые используются для того, чтобы кодировать стереофоническую речь. .

Изобретение относится к области медицины, в частности эпидемиологии, и предназначено для определения границ природных очагов биогельминтозов с использованием генетических маркеров.

Изобретение относится к технике цифровой связи и может быть использовано для синхронизации канала управления динамического мультиплексора с временным или кодовым разделением каналов.

Изобретение относится к корреляционному устройству. Технический результат заключается в повышении быстродействия определения времени задержки.

Изобретение относится к способу, устройству и машиночитаемому носителю данных, используемых при построении геологической модели нефтяного или иного месторождения.

Изобретение относится к способу, устройству и машиночитаемому носителю данных, предназначенным для построения геологической модели нефтяного или иного месторождения, в частности, для определения коэффициентов корреляции для комплекса кривых ГИС и нахождения положений глубин маркера, для которых значение коэффициента корреляции является максимальным.

Изобретение относится к области моделирования нефтегазовых месторождений. Сущность: определяют решетку модели с заданным шагом и предельно допустимой величиной на координатной сетке (1).

Изобретение относится к специализированным устройствам извлечения информации и служит для измерения временных сдвигов между случайными аналоговыми сигналами. Техническим результатом является структурное упрощение корреляционного измерителя.

Изобретение относится к специализированным устройствам извлечения информации и служит для измерения временных сдвигов между случайными аналоговыми сигналами. Техническим результатом является структурное упрощение и повышение надежности корреляционного измерителя.

Изобретения относятся к области обработки сигналов и могут быть использованы для определения взаимной корреляции между двумя сигналами. Техническим результатом является уменьшение шумов.
Изобретение относится к области обработки данных и может быть использовано для выделения гармонического сигнала на фоне помех и измерения его частоты. .

Изобретение относится к вычислительной технике и предназначено для вычисления на основе корреляционного принципа доплеровских сдвигов фазы пассивных помех; может быть использовано в адаптивных устройствах режектирования пассивных помех для вычисления тригонометрических функций текущих значений доплеровской фазы многочастотных пассивных помех. Достигаемый технический результат - повышение точности измерения текущего значения доплеровской фазы многочастотных пассивных помех. Вычислитель доплеровской фазы пассивных помех содержит блок оценивания фазы, блок комплексного умножения, блок задержки, синхрогенератор, первый умножитель, первый функциональный преобразователь, второй умножитель, второй функциональный преобразователь, первый блок памяти, комплексный сумматор, дополнительный вычислитель фазы, второй блок памяти, дополнительный блок оценивания фазы, третий и четвертый функциональные преобразователи, дополнительный блок комплексного умножения, дополнительный блок задержки. 9 ил.
Наверх