Способ обработки речевого сигнала

 

1

ОПИСАНИЕ

ИЗОБРЕТЕНИЯ

К АВТОРСКОМУ СВИДЕТЕЛЬСТВУ

404l22

Союз Советски1с

Социалистических

Республик

Зависимое от авт. свидетельства №вЂ”

Заявлено 15.1.1971 (№ 1624604/18-24) с присоединением заявки №вЂ”

М. Кл. G 10l 1/02

G 061 9/00

Приоритет

Государственный комитет

Совета Министров СССР по делам изобретений и открытий

Опубликовано 26.Х.1973. Бюллетень № 43

Дата опубликования описания 19.III.1974

УДК 621.391.19 (088.8) Авторы изобретения

В. Н. Сорокин и В. С. Файн

Институт проблем передачи информации АН СССР

Заявитель

СПОСОБ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА

Изобретение касается автоматической обработки речевого сигнала.

Известные способы обработки речевого сигнала характеризуются недостаточной надежностью распознавания звуков речи из-за значительной изменчивости соответствующих им акустических сигналов. Частично эта изменчивость определяется помехами, накладываемыми на речевой сигнал в процессе его распространения по каналу связи, и описывается статистическими закономерностями. Основная же доля этой изменчивости вносится за счет различия в геометрических размерах голосовых трактов разных людей. Известно, например, что длины голосовых трактов колеблются в пределах 25%, что приводит, согласно акустической теории речеобразования, к соответствующему разбросу в значениях резонансных частот (формант). Влияние других геометрических параметров на свойства акустического сигнала значительно труднее поддается аналитической оценке, хотя и не менее велико.

Наряду с изменчивостью геометрических размеров голосового тракта значительные вариации речевых сигналов, относящихся к одним и тем же звукам, создают индивидуальные особенности произношения, в частности темпа и громкости речи.

Попытки уменьшения влияния изменчивости речевых сигналов на результаты распознавания путем более грубого измерения их параметров не дали должных результатов.

Нормализация речи по громкости и линейная нормализация по темпу также нс дают

5 существенных результатов. Это объясняется тем, что ряд геометрических параметров голосового тракта претерпевает»е только «мешающие» изменения при переходе от одного человека к другому, но и одновременно создает

10 информативную модуляцию речевого сигнала в процессе артикуляции.

Цель изобретения — сжатие речевой информации и повышение надежности распознавания.

15 Для этого по предлагаемому способу на огибающей в каждой частотной полосе выделяют амплитуды частоты н времена характерных точек, которые сравнивают со значениями этих же величин для соответствующих точек одного

20 из эталонных спектров, из результирующих сигналов сравнения формируют сигналы, пропорциональные параметрам преобразований мгновенного спектра текущего речевого сигнала к данному эталону, и классифицируют этн

25 сигналы

Если представить речевой сигнал в виде двумерной функции Ь (ю, 3) как мгновенньш взвешенный амплитудно-частотный спектр акустических колебаний речи, то искомый спо30 соб количественного описания уклонения

404122

l спектра 8;, (о, /) — реализации -ого звука от эталона S; (о, t) состоит в аппроксимации преобразований S;;(co, t) уравнениями конечных непрерывных групп преобразований (групп Ли) на плоскости, общая форма записи которых имеет вид а = f,(à„t; а„а, ..., а„)

t = f,(а„ t; а„а, ..., а„), где (о, t ) — координаты некоторой точки на

5;;(о, /); (0), t) — координаты соответственной ей точки на 5;(в, t); (аь ..., а„) — параметры преобразований.

Среди групп Ли различают два основных класса — примитивные и импримитивные группы. К числу примитивных групп относятся группы, преобразования которых не связаны с каким-либо фиксированным направлением на плоскости, например группы движения, подобия. Максимальное число параметров в таких группах равно восьми (у проективной группы). Для импримитивных групп характерно наличие некоторого преобладающего направления в плоскости (в каноническом виде — направление оси а) и потому их преобразованиям свойственна некоторая анизотропность. Вместе с тем числом п параметров для большинства импримитивных групп не ограничено.

Следующие уравнения дают пример импримитивной группы: = aai e e+ aa2

açt + a4 + a,u> + aârrr + " + a,щ" 4

Апизотроппость преобразований проявляется очевидным образом и в асимметрии этих уравнений.

Наличие естественных разрывов в речевом сигнале, например смычек, позволяет использовать уравнения со сравнительно небольшим числом параметров за счет использования кусочной аппроксимации преобразований.

Параметры уравнений групп преобразований вычисляются путем решения соответствующего уравнения для 5(со, /) путем подстановки в него координат соответственных точек на видеограммах эталона и текущей реализации некоторого звукосочетания. В качестве таких соответственных точек рационально выбирать характерные, в чем-либо отличающиеся от других, точки, например точки локальных максимумов, миксимумов ее градиентов и т. д.

Параметры уравнений групп образуют и-мерное пространство, в котором обычными методами теории распознавания образов проводятся разделяющие границы между звуками и звукосочетаниями. Тогда каждая фонема описывается номером эталона S; (в, t) и об5

40 ластью в пространстве параметров. Достоийствами такого способа обработки является возможность отделить случайные и неинформативные преобразования в речевых сигналах, причем число параметров преобразований можно сколь угодно приблизить к теоретически минимальному, а надежность распознавания — за счет сохранения всей информации о

$ (а, t) — к потенциально достижимой.

На чертеже изображена блок-схема устройства, реализующего предлагаемый способ.

Речевой сигнал поступает на микрофон 1, подвергается разложению на ряд частотных полос в гребенке полосовых фильтров 2, на выходах которых стоят амплитудные детекторы 3, выделяющие огибающие в каждой полосе. Огибающие проходят через систему блоков 4, определяющих значения амплитуды, частоты и времени характерных точек разного типа (локальные экстремумы, градиенты и т. д.), а также через блок 5, определяющий тип эталона для текущего звука. Сигналы с выхода системы блоков 4 подаются в блок 6, в котором происходит вычисление .параметров уравнений преобразований. Начало и конец вычислений, а также тип используемых уравнений определяются сигналами блока 5.

Сигналы из блока 6, пропорциональные параметрам преобразований, вместе с сигналом из блока 5 о типе эталона поступают в канал связи, а в случае распознавания — в блок решающего правила 7, сигналы на выходе которого соответствуют распознанным звукам.

Кроме того, в канал связи (или блок решающего правила) подается сигнал, пропорциональный частоте основного тона, выделенной детектором основного тона 8. Тип эталона оггределяется видом источника возбуждения (голосовой или шумовой) и числом формант в спектральном разрезе.

Предмет изобретения

Способ обработки речевого сигнала, согласно которому сигнал разлагают на ряд частотных полос, выделяют огибающие в каждой полосе и or èáàþùóro спектрального разреза, детектируют частоту основного тона, отлича ощийся тем, что, с целью сжатия речевой информации и повышения надежности распознавания, на огибающей в каждой частотной полосе выделяют амплитуды, частоты и .времена характерных точек, которые сравнивают со значениями э1их же величин для соответствующих точек одного из эталонных спектров, из результирующих сигналов формируют сигналы, пропорциональные параметрам преобразований мгновенного спектра текущего речевого сигнала к данному эталону, и классифицируют сигналы.

404122

Составитель В. Кудрявцев

Техред Т. Миронова

Редактор T. Иванова

Корректор М. Лейзерман

Типография, пр. Сапунова, 2

Заказ 612/14 Изд. М 165 Тираж 467 Подписное

ЦНИИПИ Государственного комитета Совета Министров СССР по делам изобретений и открытий

Москва, K-35, Раушская наб., д. 4/5

Способ обработки речевого сигнала Способ обработки речевого сигнала Способ обработки речевого сигнала 

 

Похожие патенты:

Изобретение относится к цифровой обработке речи

Изобретение относится к распознаванию и идентификации сигналов

Изобретение относится к области информационных технологий - обработки аудио сигналов, в частности к способу распознавания музыкальных произведений и устройству для его осуществления

Изобретение относится к автоматике и вычислительной технике
Наверх