Способ обработки функции автокорреляции для измерения основного тона речевого сигнала

Авторы патента:

G10L25/90 - Анализирование или синтезирование речи; распознавание речи (ввод/вывод звука для компьютеров G06F 3/16; способы или устройства для обработки цифровых данных, специально предназначенных для манипулирования данными на естественном языке G06F 17/20; обучение или общение со слепыми, глухими или немыми G09B 21/00; телефонная связь H04M)

G06F17/15 - вычисление корреляционных функций

Владельцы патента RU 2559710:

Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук (RU)

Изобретение относится к средствам обработки функции автокорреляции для измерения основного тона речевого сигнала и может быть использовано в области обработки сигналов, в системах распознавания речи. Технический результат заключается в повышении надежности измерения частоты основного тона речевого сигнала. Подчеркивают главный пик в автокорреляционной функции с помощью вычитания из автокорреляционной функции, полученной для сегмента сигнала, меньшей по амплитуде сглаженной функции автокорреляции для модуля сигнала на том же сегменте и обнуления отрицательных разностей. 1 з.п. ф-лы, 3 ил.

Изобретение относится к области обработки сигналов и может быть использовано для измерения основного тона речевых сигналов, а также других квазипериодических сигналов.

Измерение основного тона является базовой процедурой при анализе и распознавании речевого сигнала. Для этих целей часто используется кратковременная автокорреляционная функция коротких вокализованных сегментов сигнала длительностью ΔT=20-50 мс. Пусть имеется сегмент речевого сигнала s(t), заданный на интервале [0, ΔT]. В этом случае частота основного тона f₀=1/T₀ определяется величиной, обратной координате главного пика на τ=Т₀ автокорреляционной функции

$r (τ) = \frac{1}{Δ T} \int_{0}^{Δ T - τ} s (t) s (t - 1) d t$

или нормированной автокорреляционной функции r₀(τ)=r(τ)/r(0). Однако поскольку речевой сигнал является сверткой сигнала голосового источника, роль которого выполняют голосовые связки, с импульсной характеристикой речевого тракта, то за пик основного тона может быть принят пик автокорреляционной функции, связанный с первой формантой речевого сигнала, что приводит к нежелательным грубым ошибкам измерения основного тона.

Для уменьшения амплитуды пика в r(τ), связанного с первой формантой, используется центральное клиппирование речевого сигнала (Sondhi M.M. New methods of pitch extraction // IEEE Trans. Audio and Electroacoust. 1968. V.AU-16. №2. 262-266), выравнивающее амплитуды гармоник речевого сигнала и тем самым ослабляющее его формантные резонансы. Подобная процедура обеспечивает подчеркивание пика корреляционной функции на τ=Т₀ для стационарных участков речевого сигнала, однако оказывается неудовлетворительной при изменении амплитуды речевого сигнала на протяжении интервала ΔT или в присутствии импульсных помех.

Наиболее близким техническим решением к предлагаемому способу является способ подчеркивания в автокорреляционной функции пика на τ=Т₀ (Колоколов А.С., Любинский И.А., Мещеряков А.Ю. Измерение основного тона речевого сигнала на основе его автокорреляционной функции // Наукоемкие технологии, 2012, т.13, №5, с.26-29). Он основан на клиппировании положительных пиков в автокорреляционной функции r₀(τ) с помощью линейно-убывающей функции , где α - параметр, определяющий уровень клиппирования r₀(τ), выбираемый в диапазоне 0<α<1, а τ ∈[0, ΔТ]. В результате получается клиппированная автокорреляционная функция

Рассмотренная процедура клиппирования обеспечивает подчеркивание пика автокорреляционной функции на τ=Т₀ для стационарных участков речевого сигнала и является малочувствительной к присутствию импульсных помех, однако оказывается неудовлетворительной при изменении амплитуды речевого сигнала на протяжении интервала ΔT, т.к. в этом случае автокорреляционная функция r₀(τ) будет затухать быстрее, чем пороговая функция р₀(τ).

Техническим результатом изобретения является повышение надежности измерения частоты основного тона ƒ₀ речевого сигнала путем применения обработки автокорреляционной функции r₀(τ), подчеркивающей ее пик на τ=1/ƒ₀.

Технический результат обеспечивается тем, что производится подчеркивание главного пика в автокорреляционной функции с помощью вычитания из автокорреляционной функции, полученной для сегмента сигнала, меньшей по амплитуде функции автокорреляции для модуля сигнала на том же сегменте и обнуления отрицательных разностей.

Кроме того, производят дополнительное сглаживание функции автокорреляции, найденной для модуля сигнала.

На фиг. 1 представлена блок-схема, поясняющая процесс обработки автокорреляционной функции r₀(τ) в предлагаемом способе.

На фиг. 2 предложенный способ поясняется на примере двухформантного синтетического гласного с постоянной амплитудой.

На фиг. 3 демонстрируется устойчивость способа при линейном убывании амплитуды на сегменте гласного до уровня 0,5 - (а) и 0,25 - (б).

На фиг.1 представлены блок получения автокорреляционной функции сигнала 1, блок получения автокорреляционной функции модуля сигнала 2, блок сглаживания 3, блок умножения на постоянный коэффициент 4, блок вычитания 5, блок обнуления отрицательных значений 6.

Поставленная цель достигается с помощью нахождения взвешенной разности

$r_{c 2} (τ) = {\begin{matrix} \begin{array}{l} r_{0} (τ) - α r_{0 e} (τ) \\ 0 \end{array} & \begin{array}{l} п р и r_{0} (τ) - α r_{0 e} (τ) \otimes h (τ) > 0 \\ п р и r_{0} (τ) - α r_{0 e} (τ) \otimes h (τ) \leq 0 \end{array} \end{matrix},$

где

$r_{0 e} (τ) = \frac{1}{Δ T} \int_{0}^{Δ T - τ} | s (t) | | s (t - 1) | d t;$

⊗ - знак операции свертки; h(τ) - симметричная импульсная характеристика сглаживающего фильтра, которая в частном случае отсутствия сглаживания будет представлять собой δ - функцию Дирака; 0<α<1; τ∈[0, Т]; |s(t)| - модуль s(t).

Такого рода обработку можно рассматривать как своего рода клиппирование r₀(τ) с пороговой функцией ar_0e(τ), затухающей примерно так же, как и r₀(τ). В результате этого r_c2(τ) в сравнении с r_c1(τ) выделение пика на τ=Т₀ оказывается в меньшей степени зависимым от изменении амплитуды речевого сигнала на протяжении интервала ΔT.

Приведенные на фиг.2(а), (б) и (с) зависимости, представляющие соответственно автокорреляционные функции r₀(τ), r_0e(τ) и результат обработки r_c2(τ), были получены для дискретного двухформантного синтетического гласного, представленного 256 отсчетами, при частоте дискретизации 10 кГц для α=0,85. Синтезированный гласный имел частоту основного тона f₀=100 Гц и частоты формант 500 и 830 Гц.

Сглаживание r_0e(τ) выполнялось с помощью фильтра низких частот с симметричной импульсной характеристикой h(n)=0,25u₀(n-1)+0,5u₀(n)+0,25u₀(n+1), где n=…-2, -1, 0, 1, 2, …,

$u_{0} (n) = {\begin{matrix} 1, & n = 0, \\ 0, & n \neq 0. \end{matrix}$

Поэтому вычисление свертки сводилось к суммированию трех взвешенных спектральных отсчетов. В одном случае (фиг.2) амплитуда гласного была неизменной на протяжении сегмента длительностью ΔT=25,6 мс, в других двух случаях (фиг.3(а) и 3(б)) линейно спадала до уровней в два и четыре раза ниже исходного.

Из чертежей можно видеть, что предложенный способ обработки автокорреляционной функции позволяет подчеркнуть ее пик на τ=1/f₀ как в случае речевого сигнала с постоянной амплитудой, так и при изменениях амплитуды речевого сигнала на интервале анализа ΔT. При этом во всех случаях пик у r_c2(τ) на τ=1/f₀ является существенно более выраженным в сравнении с другими пиками, нежели у автокорреляционной функции r₀(τ).

Таким образом, приведенные выше данные позволяют заключить, что предложенный способ обработки функции автокорреляции может быть использован для реализации более устойчивого измерения основного тона речевого сигнала в присутствии амплитудных вариаций сигнала на интервале анализа ΔT.

1. Способ обработки функции автокорреляции для измерения основного тона речевого сигнала, характеризующийся тем, что производят подчеркивание главного пика функции автокорреляции на периоде сигнала, при этом вычитают из автокорреляционной функции, полученной для сегмента сигнала, меньшую по амплитуде функцию автокорреляции для модуля сигнала на том же сегменте и обнуляют отрицательные разности.

2. Способ по п.1, характеризующийся тем, что выполняют дополнительное сглаживание автокорреляционной функции, полученной для модуля сигнала.

Изобретение относится к медицине и предназначено для исследования функционального состояния голосовых складок. Техническим результатом является повышение точности диагностики состояния здоровья индивида по параметрам голосового сигнала.

Способ выявления эмоционального состояния человека по голосу // 2553413

Изобретение относится к системам анализа речи и может быть использовано для определения эмоционального состояния человека по голосу, применительно к задачам криминалистики, медицины, системам контроля и управления доступом и др.

Устройство, способ и машиночитаемый носитель для получения параметра, описывающего изменение характеристики сигнала // 2543308

Группа изобретений относится к средствам для анализа временных вариаций аудио сигналов. Технический результат заключается в создании средств, обладающих повышенной надежностью, для получения параметра, описывающего временные изменения сигнальной характеристики.

Способ выделения речевого сигнала в условиях наличия помех и устройство для его осуществления // 2536343

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности выделения речевого сигнала в условиях наличия помех.

Способ оценки качества аудиосигнала, устройство и считываемый компьютером записываемый носитель, записывающий программу // 2517393

Изобретение относится к средствам оценки качества аудиосигнала для мультимедийной телекоммуникационной службы. Технический результат заключается в повышении точности определения качества аудиосигнала.

Способ и дискриминатор для классификации различных сегментов сигнала // 2507609

Способ и дискриминатор для классификации различных сегментов сигнала, предназначенный для того, чтобы классифицировать различные сегменты сигнала, включающий сегменты, по крайней мере, первого и второго типов, например музыкальные и речевые сегменты, сигнал краткосрочной классификации (150) на основе, по крайней мере, одной краткосрочной особенности, извлеченной из сигнала, и краткосрочный результат классификации (152); сигнал долгосрочной классификации (154) на основе, по крайней мере, одной краткосрочной особенности и, по крайней мере, одной долгосрочной особенности, извлеченной из сигнала, и долгосрочный результат классификации (156).

Устройство и способ определения множества локальных частотных центров тяжести в спектре аудиосигнала // 2490729

Изобретение относится к области цифровой обработки звука. .

Кодирующее устройство, декодирующее устройство и способ // 2488897

Изобретение относится к вычислительной технике. .

Способ и устройство для кодирования и декодирования, основывающегося на объектах аудиосигнала // 2484543

Устройство кодирования стереофонических сигналов, устройство декодирования стереофонических сигналов и реализуемые ими способы // 2484542

Изобретение относится к устройствам и способам кодирования и декодирования, которые используются для того, чтобы кодировать стереофоническую речь. .

Способ определения границ природных очагов биогельминтозов // 2545707

Изобретение относится к области медицины, в частности эпидемиологии, и предназначено для определения границ природных очагов биогельминтозов с использованием генетических маркеров.

Мультиплексирующий цифровой коррелятор // 2540833

Изобретение относится к технике цифровой связи и может быть использовано для синхронизации канала управления динамического мультиплексора с временным или кодовым разделением каналов.

Корреляционное устройство // 2536393

Изобретение относится к корреляционному устройству. Технический результат заключается в повышении быстродействия определения времени задержки.

Способ, устройство и машиночитаемый носитель данных для определения положения координат глубин маркера при построении геологической модели месторождения // 2534964

Изобретение относится к способу, устройству и машиночитаемому носителю данных, используемых при построении геологической модели нефтяного или иного месторождения.

Способ определения положения координат глубин маркера при построении геологической модели месторождения // 2530324

Изобретение относится к способу, устройству и машиночитаемому носителю данных, предназначенным для построения геологической модели нефтяного или иного месторождения, в частности, для определения коэффициентов корреляции для комплекса кривых ГИС и нахождения положений глубин маркера, для которых значение коэффициента корреляции является максимальным.

Автоматическое выделение поверхностей для построения геолого-гидродинамической модели нефтегазового месторождения по сейсмическим данным // 2515081

Изобретение относится к области моделирования нефтегазовых месторождений. Сущность: определяют решетку модели с заданным шагом и предельно допустимой величиной на координатной сетке (1).

Корреляционный измеритель временных сдвигов случайных сигналов // 2502128

Изобретение относится к специализированным устройствам извлечения информации и служит для измерения временных сдвигов между случайными аналоговыми сигналами. Техническим результатом является структурное упрощение корреляционного измерителя.

Корреляционный измеритель временных сдвигов случайных сигналов // 2500025

Изобретение относится к специализированным устройствам извлечения информации и служит для измерения временных сдвигов между случайными аналоговыми сигналами. Техническим результатом является структурное упрощение и повышение надежности корреляционного измерителя.

Способ и устройство для обработки сигнала и машиночитаемый носитель информации // 2495483

Изобретения относятся к области обработки сигналов и могут быть использованы для определения взаимной корреляции между двумя сигналами. Техническим результатом является уменьшение шумов.

Способ корреляционной обработки смеси гармонического сигнала с шумом // 2490701

Изобретение относится к области обработки данных и может быть использовано для выделения гармонического сигнала на фоне помех и измерения его частоты. .

Вычислитель доплеровской фазы пассивных помех // 2559750

Изобретение относится к вычислительной технике и предназначено для вычисления на основе корреляционного принципа доплеровских сдвигов фазы пассивных помех; может быть использовано в адаптивных устройствах режектирования пассивных помех для вычисления тригонометрических функций текущих значений доплеровской фазы многочастотных пассивных помех. Достигаемый технический результат - повышение точности измерения текущего значения доплеровской фазы многочастотных пассивных помех. Вычислитель доплеровской фазы пассивных помех содержит блок оценивания фазы, блок комплексного умножения, блок задержки, синхрогенератор, первый умножитель, первый функциональный преобразователь, второй умножитель, второй функциональный преобразователь, первый блок памяти, комплексный сумматор, дополнительный вычислитель фазы, второй блок памяти, дополнительный блок оценивания фазы, третий и четвертый функциональные преобразователи, дополнительный блок комплексного умножения, дополнительный блок задержки. 9 ил.