Способ обнаружения пауз в речевых сигналах и устройство его реализующее

Авторы патента:

Витязев Владимир Викторович (RU)

Розов Валерий Иванович (RU)

Волченков Владимир Андреевич (RU)

G10L15 - Распознавание речи (G10L 17/00 имеет преимущество)

G10L11/02 - обнаружение наличия или отсутствия сигналов речи (переключение направления передачи с помощью тональной частоты в телефонных системах с двухполосными громкоговорителями H04M 9/10)

Владельцы патента RU 2436173:

Государственное образовательное учреждение высшего профессионального образования "Рязанский государственный радиотехнический университет" (RU)

Изобретение относится к технике цифровой обработки речевых сигналов. Технический результат заключается в сокращении объема вычислительных операций при цифровой обработке речевых сигналов. Указанный технический результат достигается тем, что речевой сигнал с выхода электроакустического преобразователя суммируют с новым стабильным по частоте и амплитуде сигналом, полученную сумму сигналов усиливают, ограничивают по амплитуде и преобразуют путем перемножения с копией первичного речевого сигнала в новый сигнал, который сравнивают с установленным порогом и при превышении амплитуды полученного сигнала установленного значения порога принимают решение о наличии паузы в речевом сигнале. 2 н.п. ф-лы, 3 ил.

Изобретение относится к технике цифровой обработки речевых сигналов и может быть использовано в различных приложениях, например в системах аудиоархивации, в справочных службах, в системах передачи речевых сигналов, в области распознавания речи.

Известен способ обнаружения пауз в речевом сигнале [1], использующий коррекцию спектральных характеристик речевого сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированным сигналом, раздельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение. Недостатком этого способа является трудоемкость и сложность его осуществления.

Известен другой способ обнаружения пауз в речевом сигнале, использующий различие спектральных характеристик сигнала речи от сигнала в паузе (шума) [2]. Этот способ осуществляется путем определения спектрального отклонения сигнала речи от сигнала в паузе (шума) с применением оценивания параметров модели авторегрессии, сравнение суммы энергий сигнала речи и сигнала в паузе (шума) с порогом, вынесение решения о наличии на входе паузы, если уровень суммы энергий сигнала речи и сигнала в паузе (шума) ниже порогового уровня.

Недостатки данного способа: расчет характеристик инверсного фильтра проводится с применением оценивания параметров модели авторегрессии. Следует отметить, что эти модели эффективно работают, если шум «окрашен», в противном же случае, если шум абсолютно «белый», то порядок аппроксимирующей модели р должен быть бесконечно большим, что физически нереализуемо. В реальных условиях, как правило, наблюдаемый фоновый шум «окрашен» и в связи с этим может быть описан стохастическим разностным уравнением вида:

в котором порядок уравнения р - конечная величина, а параметры:

m - математическое ожидание,

σ₀ - дисперсия сигнала в паузе,

α_k - коэффициенты линейного предсказания - определяются заранее.

Необходимо подчеркнуть, что при скачкообразном изменении параметров этого уравнения, при так называемой разладке, наблюдаемая случайная последовательность по-прежнему может быть описана следующим уравнением:

но, в общем случае, другого порядка и с неизвестными параметрами m₁, σ₁, β_k. При отсутствии априорной информации о значениях параметров уравнения (2) применяют одномерную решающую функцию, построенную на анализе значения порога вида Y=σ₁/σ₀. В случае если величина отношения σ₁/σ₀ превышает порог, то принимается решение о наличии разладки, т.е. о присутствии на входе системы суммы сигнала речи и сигнала в паузе (шума). В противном случае принимается решение о наличии на входе системы только сигнала в паузе (шума).

При использовании данных решающих функций возникают так называемые "мертвые" зоны, когда решающая функция для некоторых сочетаний параметров до и после разладки или не изменяется или ее значение растет так медленно, что за приемлемое время разладки обнаруживается с вероятностью ложной тревоги.

Другим существенным недостатком способа является подавление как компонентов сигнала в паузе (шума), так и компонентов сигнала речи в случае совпадения их максимумов.

Кроме этого, при вычислении энергетического спектра процесса авторегрессии, который в математическом виде может быть записан следующим образом:

где σ² _ш - дисперсия сигнала в паузе (шума),

неточность определения α_k приводит к смещению спектра относительно истинного положения, что в свою очередь не позволяет оптимально рассчитать характеристики инверсного фильтра. Необходимость осуществления непрерывного подстраивания характеристик фильтра под текущее значение сигнала в паузе (шума) приводит к большим временным затратам на вычисления.

И, наконец, для обеспечения одинаковой вероятности обнаружения пауз в речевом сигнале, при изменении уровня входного шума, необходимо корректировать коэффициент усиления речевого тракта.

Наиболее близким к предлагаемому является способ обнаружения пауз в речевом сигнале, использующий различие спектральных характеристик сигнала речи от сигнала в паузе (шума) [3], принятый за прототип. В данном способе обнаружения пауз в речевом сигнале оценку определения спектрального отклонения сигнала речи от сигнала в паузе (шума) проводят посредством определения отклонения отношений энергии частотного спектра сигнала речи от частотного спектра сигнала в паузе (шума), выполняя следующие действия:

1. Осуществляют дискретизацию с шагом Δt и квантование сигналов с выхода микрофона (получение отсчетов);

2. Записывают в запоминающее устройство поток отсчетов отрезка определенной длины сигнала в паузе (шума) с выхода микрофона в режиме молчания диктора;

3. Разделяют поток отсчетов отрезка сигнала в паузе (шума) на ряд участков длиной R;

4. Разделяют частотный диапазон (1/Δt) энергетического спектра Фурье каждого из этих участков на ряд интервалов (i=1, …, N);

5. Вычисляют точные значения долей энергии отсчетов сигнала в паузе (шума) P_{i пауза}, соответствующих каждому из частотных интервалов, по формуле

где M=2[R/(2N)]+2;

6. Определяют среднее значение долей энергии отсчетов сигнала в паузе (шума) P_{i пауза ср} в каждом частотном интервале для всего потока отсчетов отрезка сигнала в паузе (шума);

7. Записывают в запоминающее устройство вычисленные значения энергии отсчетов сигнала в паузе (шума) P_{i пауза ср};

8. Разделяют поток отсчетов речевого сигнала на участки такой же длины, как и при анализе потока отсчетов сигнала в паузе (шума);

9. Вычисляют для каждого участка в каждом из N частотных интервалов значения долей энергии отсчетов речевого сигнала P_iпо формуле

10. Вычисляют отношения P_iк P_{i пауза ср} в каждом из N частотных интервалов всех выбранных участков и определяют из них максимальное значение max(P_i/P_{i пауза ср});

11. Передают максимальное значение max(P_i/P_{i пауза ср}) на вход порогового обнаружителя;

12. Определяют значение порога h в схеме вычисления порога с учетом вычисленного значения М;

13. Сравнивают в пороговом обнаружителе максимальное значение max(P_i/P_{i пауза ср}) со значением порога h;

14. Принимают решение о наличии паузы при значении max (P_i/P_{i пауза ср}), меньшем или равным порогу h;

15. Обновляют значение P_{i пауза ср} с учетом текущего значения P_{i пауза};

16. Производят кодирование пауз, при этом код каждой паузы содержит информацию только о моменте начала и продолжительности паузы.

И данный способ обладает рядом недостатков, основными из которых являются:

большие временные затраты на вычисления;

необходимость постоянной корректировки значений P_{i пауза ср};

необходимость постоянной корректировки значений порога h;

значительная задержка обнаружения пауз в речевом сигнале.

Известно техническое устройство, осуществляющее техническую реализацию указанного способа. В состав устройства [3] входят пороговый обнаружитель, схема вычисления порога, которая содержит алгоритмический модуль, в состав которого входит аналого-цифровой преобразователь, устройство записи, запоминающее устройство, считывающее устройство, устройство вычисления энергии спектра, устройство определения среднего значения энергии отсчетов в паузе, устройство вычисления отношений P_iк P_{i пауза ср}, устройство определения max (P_i/P_{i пауза ср}), устройство кодирования, устройство синхронизации. Причем первый вход алгоритмического модуля подключен к выходу микрофона, первый выход алгоритмического модуля подключен к первому входу порогового обнаружителя, второй выход алгоритмического модуля подключен к входу схемы вычисления порога, выход которой подключен ко второму входу порогового обнаружителя, выход порогового обнаружителя подключен ко второму входу алгоритмического модуля.

Недостатки данного устройства соответствуют недостаткам способа, который на нем реализован.

Задачей предлагаемого изобретения является создание способа и устройства для его реализации, обеспечивающее повышение достоверности обнаружения пауз в речевом сигнале и формирование синхронизирующего сигнала, соответствующего наличию пауз в речевом сигнале.

Техническим результатом использования предложенного изобретения является сокращение объема вычислительных операций при цифровой обработке сигналов речи, сокращение объема памяти для хранения речи и уменьшение графика при ее передаче.

Поставленная задача достигается тем, что в предлагаемом способе обнаружения пауз в речевом сигнале, включающем сравнение сигнала, содержащего информацию о паузах, с пороговым уровнем, вынесение решения о наличии паузы в сигнале речи определяют по уровню амплитуды нового измерительного сигнала, содержащего информацию о паузах, при этом новый сигнал, содержащий информацию о паузах, получают из речевого сигнала преобразованием речевого сигнала в новый измерительный сигнал, выполняя следующие действия:

1. Речевой сигнал S₁(t)=U₁sin(ωt) с электроакустического преобразователя 1, например с микрофона, подают на первый вход сумматора 3, где суммируют с сигналом S₂(t) и получают сигнал S₃(t)=S₁(t)+S₂(t), который подают в усилитель-ограничитель (УО) 4;

2. Генерируют генератором 2 и подают на второй вход сумматора 3 новый сигнал S₂(t)=f(U₂,f₁), имеющий стабильные предварительно установленные амплитуду U₂=const и частоту f₁=1/T₁=const;

3. Усиливают, ограничивают и нормируют по амплитуде сигнал S₃(t) в УО 4, получают сигнал S₄(t), который подают на первый вход перемножителя 6;

4. Усиливают, ограничивают и нормируют по амплитуде речевой сигнал S₁(t) в УО 5, получают сигнал S₅(t), который подают на второй вход перемножителя 6;

5. Перемножают сигналы S₄(t) и S₅(t) и выделяют сигнал S₆(t)=f(U₆(t),f₁) с амплитудой U₆(t), определяемой инверсной амплитудой сигнала S₁(t), и частотой f₁;

6. Подают сигнал S₆(t)=f(U₆(t),f₁) в фильтр низкой частоты 7 и выделяют с помощью фильтра, настроенного на частоту f₁, сигнал S₇(t)=U₇(t)sin(ω₁t) и сравнивают в пороговом устройстве 8 амплитуду U₇(t) с установленным порогом U_пор(t), вычисленным предварительно во время отсутствия речи по условию U_пор(t)=KU_{7 макс}(t), где U_{7 макс}(t) - максимальное значение амплитуды сигнала на выходе фильтра, настроенного на частоту f₁ при паузах, а коэффициент К меньше или равен единицы, причем значение К выбирается предварительно, и по результатам сравнения амплитуды U₇(t) с установленным значением U_пор(t) принимают решение о наличии паузы в речевом сигнале.

Новизна предложенного способа заключается в том, что паузы в речевых сигналах обнаруживают по уровню амплитуды нового измерительного стабильной частоты сигнала S₇(t)=U₇(t)sin(ω₁t), получаемого фильтрацией из сигнала S₆(t)=f(U₆(t),f₁), который получают путем корреляционной обработки сигналов S₄(t) и S₅(t), причем сигнал S₄(t) получают из сигнала S₃(t), усиливая, ограничивая по амплитуде сигнал S₃(t), который получают путем суммирования сигналов S₁(t) и S₂(t), где S₁(t) - исходный речевой сигнал, S₂(t) - вспомогательный измерительный сигнал, а сигнал S₅(t) получают усиливая, ограничивая по амплитуде исходный сигнал S₁(t).

Критерию «изобретательский уровень» предложенный способ соответствует, т.к. он основан на преобразовании речевого сигнала в новый измерительный стабильной частоты сигнал, имеющий амплитуду, по величине которой в пороговом устройстве определяется наличие пауз в речевом сигнале.

Для осуществления данного способа предложено устройство обнаружения пауз в речевом сигнале, включающее электроакустический преобразователь, пороговый обнаружитель и устройство анализа речевого сигнала, которое в отличие от известного вместо схемы вычисления порога, состоящей из алгоритмического модуля, в состав которого входит аналого-цифровой преобразователь, устройство записи, запоминающее устройство, считывающее устройство, устройство вычисления энергии спектра, устройство определения среднего значения энергии отсчетов сигнала в паузе, устройство вычисления отношений P_iк P_{i пауза ср}, устройство определения max (P_i/P_{i пауза ср}), устройство кодирования, устройство синхронизации, содержит генератор нового измерительного сигнала, сумматор, два усилителя-ограничителя, перемножитель и фильтр низкой частоты.

Отличительными признаками предложенного устройства, подтверждающими новизну и изобретательский уровень, являются:

- наличие устройства анализа речевого сигнала вместо алгоритмического модуля, что позволяет повысить качество анализа речевого сигнала и вероятность обнаружения пауз в речевом сигнале;

- состав устройства анализа речевого сигнала, которое включает генератор нового измерительного сигнала, сумматор, два усилителя-ограничителя, перемножитель и фильтр низкой частоты.

Сущность изобретений поясняется чертежами:

Фиг.1 - Осциллограмма фразы «Начало тестирования аппаратуры»;

Фиг.2 - Осциллограмма обнаруженных пауз во фразе «Начало тестирования аппаратуры»;

Фиг.3 - блок-схема заявляемого устройства.

На фиг.3 заявленное устройство состоит из электроакустического преобразователя 1, генератора нового измерительного сигнала 2, сумматора 3, двух усилителей-ограничителей 4 и 5, перемножителя 6, фильтра низкой частоты 7, порогового обнаружителя 8. Электроакустический преобразователь является входом устройства, а пороговое устройство - выходом устройства. Причем выход электроакустического преобразователя подключен к первому входу сумматора и к входу первого усилителя - амплитудного ограничителя, выход генератора нового измерительного сигнала подключен к второму входу сумматора, выход сумматора подключен к входу второго усилителя - амплитудного ограничителя, выход второго усилителя - амплитудного ограничителя подключен к первому входу перемножителя, выход первого усилителя - амплитудного ограничителя подключен к второму входу перемножителя, выход перемножителя подключен к фильтру низкой частоты, а выход фильтра низкой частоты подключен к входу порогового устройства.

Предложенный способ реализуют на данном устройстве следующим образом.

Речевой сигнал S₁(t) с выхода электроакустического преобразователя 1 подают на первый вход сумматора 3, генерируют в генераторе 2 новый измерительный сигнал S₂(t)=f(U₂,f₁) установленной заранее стабильной амплитуды U₂=const и частоты f₁=1/T₁=const и подают на второй вход сумматора 3, в сумматоре получают сигнал S₃(t)=S₁(t)+S₂(t), который подают в усилитель-ограничитель (УО) 4, где сигнал S₃(t)=S₁(t)+S₂(t) усиливают в k₄ раз, ограничивают и получают сигнал S₄(t), сигнал S₄(t) подают на первый вход перемножителя 6, на второй вход перемножителя 6 подают сигнал S₅(t), который получают путем преобразования сигнала S₁(t) в усилителе-ограничителе (УО) 5, имеющем те же характеристики, что и УО 4, т.е. коэффициент усиления УО 5 k₅ равен коэффициенту усиления k₄ УО 4, а амплитуда сигнала S₅(t) равна амплитуде сигнала S₄(t). В перемножителе 6 в результате перемножения сигналов S₄(t) и S₅(t) получают сигнал S₆(t)=f(U₆(t),f₁), где U₆(t) и f₁ - существенные параметры, которые используются для определения пауз в речевом сигнале. Сигнал S₆(t)=f(U₆(t),f₁) подают в фильтр низкой частоты 7 и выделяют с помощью фильтра, настроенного на частоту f₁, сигнал S₇(t)=U₇(t)sin(ω₁t) и сравнивают амплитуду U₇(t) в пороговом устройстве с установленным порогом U_пор(t), вычисленным предварительно во время отсутствия речи по условию U_пор(t)=K·U_{7 макс}(t), где U_{7 макс}(t) - максимальное значение сигнала при паузах на выходе фильтра, включенного на входе порогового устройства и настроенного на частоту f₁, а коэффициент K меньше или равен единицы, причем значение К выбирается предварительно.

В заключение отметим следующее.

1. В результате использования предложенных технических решений благодаря преобразованию речевого сигнала в новый измерительный стабильной частоты сигнал, имеющий амплитуду, по величине которой в пороговом устройстве определяется наличие пауз в речевом сигнале, предложенные способ и устройство для его осуществления позволяют разделять речевые сигналы на периоды активной речи и паузы с высокой вероятностью и при этом не влиять на сигнал речи, подлежащий цифровой обработке.

2. Полученный в пороговом устройстве сигнал, содержащий информацию об обнаруженных паузах в речевом сигнале, можно кодировать таким образом, чтобы код каждой паузы содержал информацию только о моменте начала и продолжительности пауз, что позволяет сократить объем памяти для хранения речи и уменьшить график при ее передаче.

3. Предложенные способ и устройство для его осуществления могут быть эффективно использованы при распознавании речевых сигналов.

Использованная литература

1. Авторское свидетельство СССР по заявке №836656, кл. G10L 1/04, 16.07.79.

2. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. / Под ред. О.И.Шелухина. - М.: Радио и связь, 2000. - 456 с.: ил.

3. Патент РФ 2317595 С1, кл. G10L 15/00.

1. Способ обнаружения пауз в речевом сигнале, включающий сравнение сигнала, содержащего информацию о паузах, с пороговым уровнем, отличающийся тем, что генерируют вспомогательный предварительно установленной стабильной частоты и амплитуды сигнал, который суммируют с исходным речевым сигналом, затем суммарный сигнал усиливают, ограничивают по амплитуде и умножают с исходным речевым сигналом, который перед умножением усиливают и ограничивают по амплитуде, затем из полученного в результате перемножения сигнала выделяют упомянутый стабильной частоты сигнал и производят сравнение этого сигнала по амплитуде с пороговым уровнем, и по результатам сравнения определяют начало, конец и длительность паузы.

2. Устройство обнаружения пауз в речевом сигнале, включающее электроакустический преобразователь, пороговое устройство, отличающееся тем, что содержит генератор нового измерительного сигнала, сумматор, два усилителя-амплитудных ограничителя, перемножитель, фильтр низкой частоты, причем выход электроакустического преобразователя подключен к первому входу сумматора и к входу первого усилителя-амплитудного ограничителя, выход генератора нового измерительного сигнала подключен к второму входу сумматора, выход сумматора подключен к входу второго усилителя-амплитудного ограничителя, выход второго усилителя-амплитудного ограничителя подключен к первому входу перемножителя, выход первого усилителя-ограничителя подключен к второму входу перемножителя, выход перемножителя подключен к фильтру низкой частоты, а выход фильтра низкой частоты подключен к входу порогового устройства.

Изобретение относится к способам анализа звуковых сигналов, передаваемых по каналам радиосвязи, телефонии и трактам переговорных устройств. .

Способ и устройство для естественно-речевого распознавания речевого высказывания // 2432623

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания. .

Способ и устройство для естественно-речевого распознавания речевого высказывания // 2432623

Способ аутентификации диктора по парольной фразе // 2422921

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа в помещения или информационным ресурсам. .

Способ аутентификации диктора по парольной фразе // 2422920

Повышение качества речи с использованием множества датчиков с помощью модели состояний речи // 2420813

Изобретение относится к распознаванию и передаче речи, в частности к способам и устройствам для определения правдоподобия состояния речи на основании сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости.

Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания // 2419890

Изобретение относится к области опознавания говорящего по голосу, в частности к способам идентификации говорящего по фонограммам произвольной устной речи, предназначенным в том числе для криминалистических исследований.

Способ организации синхронного перевода устной речи с одного языка на другой посредством электронной приемопередающей системы // 2419142

Изобретение относится к области электроники, в частности к переводу фраз с первого языка на второй. .

Классификатор на основе нейронных сетей для выделения аудио источников из монофонического аудио сигнала // 2418321

Изобретение относится к выделению множества произвольных и заранее неизвестных аудио источников, микшированных в отдельный монофонический аудио сигнал на основе нейронной сети.

Система эмоциональной стабилизации речевых коммуникаций "эмос" // 2408087

Изобретение относится к психофизиологии и клинической нейрофизиологии Система содержит модуль ввода, распознавания и преобразования речевого сигнала, модуль анализа и накопления частотно-амплитудных характеристик (АЧХ) речевого сигнала, модуль распознавания отклонений спектров текущего речевого сигнала, электронную базу данных эталонных шаблонов, модуль визуализации, модуль дискриминации с образованием последовательно соединенных между собой модуля распознавания отклонений спектров текущего речевого сигнала, модуля дискриминации и модуля визуализации, а также модуль психоэмоциональной коррекции, последовательно соединенный с модулем визуализации, при этом модуль анализа и накопления АЧХ речевого сигнала выполнен с возможностью определения временных колебаний высоко/низкочастотных спектров речевого сигнала, модуль распознавания отклонений спектров текущего речевого сигнала выполнен с возможностью определения отклонения упомянутых временных колебаний высоко/низкочастотных спектров речевого сигнала от эталонных шаблонов, модуль дискриминации выполнен с возможностью передачи генерируемого им управляющего сигнала временного прерывания к модулю ввода, распознавания и преобразования, а модуль психоэмоциональной коррекции выполнен с возможностью воспроизведения релаксирующего музыкального и/или речевого сопровождения или обратной трансляции фрагмента речевой коммуникации.

Системы, способы и устройства для обнаружения изменения сигналов // 2417456

Изобретение относится к обработке речевых сигналов. .

Обнаружение активности сложного сигнала для усовершенствованной классификации речи/шума в аудиосигнале // 2251750

Изобретение относится к системам сжатия аудиосигнала, в частности, к системам классификации речи/шума при сжатии аудиосигнала. .

Способ преобразования печатной информации в звуковой сигнал // 1269182

Повышение разборчивости речи в звукозаписи развлекательных программ // 2440627

Изобретение относится к обработке сигналов звукозаписи, в частности к повышению разборчивости звукозаписи развлекательных программ, таких как телевизионная звукозапись

Средство обнаружения голосовой активности с использованием нескольких микрофонов // 2450368

Изобретение относится к области обработки звука, в частности к обнаружению голосовой активности с использованием нескольких микрофонов

Повышение разборчивости речи с помощью четкости голоса // 2469423

Изобретение относится к обработке аудиосигнала, в частности к процессору или способу обработки для повышения разборчивости речи и очистки зашумленного речевого аудиосигнала

Детектирование автоответчика путем распознавания речи // 2439716

Изобретение относится к способам и устройствам детектирования автоответчика, используемым для определения того, является ли получатель вызова реальной персоной или автоответчиком

Детектирование автоответчика путем распознавания речи // 2439716

Универсальные орфографические мнемосхемы // 2441287

Изобретение относится к прогаммным приложениям распознавания голоса, более конкретно к способу управления характерными особенностями фразы посредством приложения распознавания голоса

Способ контактно-разностной акустической идентификации личности // 2451346

Изобретение относится к системам установления или подтверждения личности говорящего

Способ обработки речевого сигнала в частотной области // 2454735

Изобретение относится к области обработки сигналов и может быть использовано при выполнении предварительной обработки речевого сигнала в системах распознавания речи