Способ выделения основного тона из речевого сигнала

Авторы патента:

Изобретение относится к анализу речи и может быть использовано в средствах для распознавания речи. Техническим результатом является повышение точности. Способ основан на разложении речевого сигнала в последовательность спектров Фурье, нахождении абсолютного максимума, вычислении среднего значения аргумента последовательности полученных максимумов, оценке средней частоты основного тона исследуемого речевого сигнала, амплитудной селекции сигналов, вычислении значений определителя автокорреляционной матрицы и фильтрации этих значений. 1 з.п. ф-лы, 1 ил.

Изобретение относится к анализу речи и может быть использовано для выделения мгновенной частоты основного тона речевого сигнала в задачах распознавания речи, идентификации диктора по его голосу, определения эмоционального состояния говорящего.

Известен способ выделения частоты основного тона [1], основанный на преобразовании речевых колебаний в импульсную последовательность. Каждый импульс соответствует переходу через ноль речевого колебания (берется однополярный переход). Используется свойство, что на периоде основного тона последовательности межимпульсных интервалов повторяются.

Однако данный способ обладает существенным недостатком, который связан с пропусками интервалов, обладающих основным тоном, при смене одной фонемы другой. Это происходит благодаря тому, что при смене одной звучащей фонемы другой между двумя соседними периодами основного тона изменения межимпульсных интервалов становятся значительными.

Известен также способ выделения частоты основного тона с помощью узкополосного фильтра [2], следящего за изменением частоты первой гармоники речевого сигнала, причем ширина полосы итерационно подстраивается под среднюю частоту основного тона, рассчитываемую на основании выходной функции этого фильтра и передаваемую на фильтр благодаря обратной связи.

Данный способ проявляет хорошую работоспособность при условии, что фильтр подстраивается под диктора в течение нескольких минут. Однако способ не пригоден для выявления частоты основного тона в коротких сообщениях, длительность которых составляет несколько секунд.

Наиболее близким к предлагаемому является способ выделения основного тона, предложенный в работе [3], принятый за прототип, заключающийся в предварительной записи речевого сигнала и его последующей обработке. В прототипе используется трехканальный метод обработки речевого сигнала. В первом канале проводится амплитудная селекция по схеме Голда, во втором канале используется аппроксимация первой гармоники основного тона экспоненциальной функцией и в третьем канале проводится вычисление корреляционной функции по схеме Медана. Считается, что частота основного тона найдена, если разность между полученными значениями оценок частоты основного тона для различных каналов не превышает заданную величину.

Недостатком данного способа является низкая точность, которая связана с сильной зависимостью схемы в целом от точности каждого алгоритма, входящего в его состав.

Технический результат, получаемый от внедрения изобретения, заключается в повышении точности определения частоты основного тона.

Данный технический результат достигается за счет того, что в описываемом способе выделения частоты основного тона из речевого сигнала, заключающемся в предварительной записи речевого сигнала и его последующей обработке, обработку речевого сигнала ведут путем его разложения в последовательность спектров Фурье на интервалах длительностью не менее 0,2 с с последующим интегрированием каждого из этих спектров с множеством сумм параметрических функций Лапласа и нахождением абсолютного максимума результатов проведенного интегрирования, последующим вычислением среднего значения аргумента последовательности полученных максимумов, по полученному значению которого осуществляют предварительную оценку средней частоты основного тона исследуемого речевого сигнала, затем используя результаты предварительной оценки средней частоты основного тона с помощью трех видов выделителей параллельно проводят амплитудную селекцию сигналов по схеме Голда, вычисление значений определителя автокорреляционной матрицы с последующей фильтрацией этих значений низкочастотным фильтром Баттерворта с частотой среза, равной найденной средней частоте основного тона, и фильтрацию речевого сигнала полосовым фильтром Чебышева со средней частотой полосы пропускания, равной найденной средней частоте основного тона, и шириной полосы пропускания, равной 100 Гц, затем определяют моменты времени появления максимальных значений выходных функций перечисленных трех выделителей и проводят формирование из них единичных импульсов в найденные моменты времени, после чего осуществляют проверку синхронности появления этих импульсов от трех выделителей и формирование выходной последовательности единичных импульсов, соответствующих событиям синхронности, и вычисление длительности межимпульсных интервалов, по обратной величине которых проводят оценку мгновенной частоты основного тона речевого сигнала.

Кроме того, дополнительно проводят аппроксимацию полученных длительностей межимпульсных интервалов квадратичной функцией и вычисление ошибки аппроксимации, по значению которой судят о достоверности определения текущего межимпульсного интервала основного тона исследуемого речевого сигнала.

Согласно предлагаемому способу выделения мгновенной частоты основного тона все операции обработки речи можно разделить на три класса: а) операции предварительной оценки средней частоты основного тона; б) операции предварительной оценки мгновенной частоты основного тона; с) операции принятия решения о текущей частоте основного тона.

Предварительная оценка средней частоты основного тона включает в себя следующие операции обработки речевого сигнала: определение спектра Фурье на сегментах речи длительностью не менее 0,2 с, интегрирование произведения спектра Фурье и множества сумм параметрических функций Лапласа, нахождение абсолютного максимума этого множества интегралов, получение предварительной оценки средней частоты основного тона на основе известного значения максимума.

Множество предварительных оценок мгновенной частоты основного тона использует три вида выделителей основного тона, выполняющих следующие операции: амплитудную селекцию по схеме Голда, вычисление значений определителя автокорреляционной матрицы с последующей фильтрацией этих значений низкочастотным фильтром Баттерворта с частотой среза, равной найденной средней частоте основного тона, фильтрацию речевого сигнала полосовым фильтром Чебышева со средней частотой полосы, равной найденной средней частоте основного тона, определение моментов времени появления максимальных значений выходных функций выделителей и формирование единичных импульсов в эти моменты времени, проверка синхронности появления этих импульсов у всех трех выделителей, формирование выходной последовательности единичных импульсов, соответствующих событиям синхронности, вычисление длительности межимпульсных интервалов, обратная величина которой соответствует предварительной оценке мгновенной частоты основного тона.

Принятие окончательного решения о текущей частоте основного тона включает в себя следующие операции: аппроксимацию длительностей межимпульсных интервалов квадратичной функцией, вычисление ошибки аппроксимации, на основании которой принимается решение о том, является ли текущий межимпульсный интервал основным тоном.

Изобретение поясняется чертежом, на котором представлена блок-схема устройства для реализации способа.

Устройство включает в себя блок вычисления спектра Фурье (блок 1), см., например, [4].

Блок 2 (интегратор, см., например, [5]) проводит интегрирование полученного спектра Фурье с суммой функций Лапласа, зависящих от параметра

в соответствии с формулой

где F(w)-cneктp Фурье,

Аргумент максимума данного интеграла используется в дальнейшем, как среднее значение частоты основного тона, т. е.

_от = argmax(

(

)). Далее происходит подстройка параметров каждого из выделителей в соответствии с полученной средней частотой основного тона.

Блок 3 соответствует выделителю основного тона по схеме Голда, описанному в [6]. Этот блок подстраивается под вычисленную среднюю частоту основного тона. Такая подстройка соответствует тому, что анализироваться будут только межимпульсные интервалы, длительность которых d удовлетворяет условию

где

d - допустимое отклонение длительности межимпульсных интервалов.

Работа блока 4 основана на вычислении значений определителя автокорреляционной матрицы (см., например, [7]) с последующей фильтрацией этих значений низкочастотным фильтром Баттерворта (см., например, [8]), такая подстройка соответствует тому, что срез фильтра Баттерворта устанавливается равным средней частоте основного тона.

В блоке 5 для выделения основного тона используется полосовой фильтр Чебышева, описанный в [9] , для которого устанавливается средняя частота полосы пропускания, равная найденной средней частоте основного тона, и ширина полосы пропускания, равная 100 Гц.

После подстройки параметров выделителей основного тона, с целью получения множества мгновенных оценок частоты основного тона на вход каждого из выделителей подается речевой сигнал. Каждый i-ый выделитель генерирует на своем выходе единичные импульсы

в те моменты времени t'_j, когда либо выходные функции фильтров испытывают максимальные значения (для фильтров Баттерворта и Чебышева) либо принимается решение об окончании одного импульса основного тона и начале другого импульса (для схемы Голда). Величина обратная скважности выходных импульсов каждого выделителя является оценкой мгновенной частоты основного тона.

Блок 6 (см., например, [10]) предназначен для проверки синхронности появления импульсов на выходе выделителей. Эта проверка происходит на основе решения неоднородного дифференциального уравнения звена первого порядка с правой частью, равной сумме выходных функций выделителей основного тона

как только для решения уравнения выполняется условие вида

(t) = Q, то принимается решение о синхронности выходных импульсов выделителей, где Q -порог, который принимает значение 2,3.

События синхронности импульсов порождают новую последовательность единичных импульсов. Последовательность скважностей {L_i} этих импульсов разбивается на подпоследовательности по R штук. В блоке 7 эти подпоследовательности аппроксимируются квадратичной функцией (см., например, [11])

Если ошибка аппроксимации меньше пороговой величины, т.е. F_k(a,b,c) <Q, то принимается решение о том, что импульсы этой последовательности соответствуют основному тону.

Источники информации
1. Патент РФ 2007763 С1, кл.G 10 L 5/00, G 10 L 9/12.

2. Вокодерная телефония. Под ред. А.А. Пирогова. М.: Связь, 1974.

3. М.Е. Hernandez-Diaz Huici and J.V. Lorenzo Ginori Combined algorithm for pitch detection of speech signals // Electronics Letters 5-th January 1995 Vol. 31, No. 1, pp. 15-16 - прототип.

4. Ж. Макс. Методы и техника обработки сигналов при физических измерениях, в 2-х томах. М.: Мир, том 2, стр. 85.

5. Алексенко А.Г. и др. Применение прецизионных аналоговых микросхем/ А. Г. Алексенко, Е.А. Коломбет, Г.И. Стародуб. - 2-е изд. перераб. и доп. - М.: Радио и связь, 1985, стр. 102.

6. Л. Рабинер, Б.Голд. Теория и применение цифровой обработки сигналов. М.: Мир, 1978, стр. 745.

7. Патент РФ 95122722 А.

8. У.М. Сиберт. Цепи, сигналы, системы: В 2-х ч. Ч. 1. Пер. с англ. - М. : Мир, 1988, стр.115.

9. Р.В.Хемминг. Цифровые фильтры. Пер. с англ./ Под ред. А.М. Трахтмана. - М.: Сов. Радио, 1980, стр.202.

10. Патент РФ 2092899 С1, кл. 6 G 06 G 7/38.

11. Патент РФ 98103390 А, кл. 7 Н 04 J 13/02.

Формула изобретения

1. Способ выделения частоты основного тона из речевого сигнала, заключающийся в предварительной записи речевого сигнала и его последующей обработке, отличающийся тем, что обработку речевого сигнала ведут путем его разложения в последовательность спектров Фурье на интервалах длительностью не менее 0,2 с с последующим интегрированием каждого из этих спектров с множеством сумм параметрических функций Лапласа и нахождением абсолютного максимума результатов проведенного интегрирования, последующим вычислением среднего значения аргумента последовательности полученных максимумов, по полученному значению которого осуществляют предварительную оценку средней частоты основного тона исследуемого речевого сигнала, затем, используя результаты предварительной оценки средней частоты основного тона с помощью трех видов выделителей параллельно проводят амплитудную селекцию сигналов по схеме Голда, вычисление значений определителя автокорреляционной матрицы с последующей фильтрацией этих значений низкочастотным фильтром Баттерворта с частотой среза, равной найденной средней частоте основного тона, и фильтрацию речевого сигнала полосовым фильтром Чебышева со средней частотой полосы пропускания, равной найденной средней частоте основного тона, и шириной полосы пропускания, равной 100 Гц, затем определяют моменты времени появления максимальных значений выходных функций перечисленных трех выделителей и проводят формирование из них единичных импульсов в найденные моменты времени, после чего осуществляют проверку синхронности появления этих импульсов от трех выделителей и формирование выходной последовательности единичных импульсов, соответствующих событиям синхронности, и вычисление длительности межимпульсных интервалов, по обратной величине которых проводят оценку мгновенной частоты основного тона речевого сигнала.

2. Способ по п. 1, отличающийся тем, что дополнительно проводят аппроксимацию полученных длительностей межимпульсных интервалов квадратичной функцией и вычисление ошибки аппроксимации, по значению которой судят о достоверности определения текущего межимпульсного интервала основного тона исследуемого речевого сигнала.

РИСУНКИ

Рисунок 1

Похожие патенты: