Способ распознавания речи

Авторы патента:

А. М. Заездный, Е. И. Плоткин, О. Н. Работкин, В. Ю. Трахтман

, О. Сирота

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

329557

О П И С А Н И Е

ИЗОБРЕТЕНИЯ

К АВТОРСКОМУ СВИДЕТЕЛЬСТВУ

Союа Советских

Социалистических

Рвспуолик

Зависимое от авт. свидетельства №

Заявлено 17.lll,1969 (№ 1315858i18-24) с присоединением заявки №

Приоритет

Опубликовано 09.11.1972. Бюллетень ¹ 7

Дата опубликования описания 5.IV,.1972.Ч. 1х,т. G 101 1/02

G 061 9 00 комитет по делам иаоорвтений и открытий при Совете Министров

СССР

Ъ ДК, 621.391.19(088.8) Авторы изобретения

А. М. Заездный, Е. И. Плоткин, О. Н. Работкин, В. Ю. Трахтман и О. Л. Сирота

ОЗНАЛ

- I .-i1li1 .".. "=.

Заявитель

СПОСОБ РАСПОЗНАВАНИЯ РЕЧИ

Изобретение относится к области распознавания речи и может быть использовано в устройствах для печати устного текста, при управлении механизмами голосом, вводе информации в вычислительные машины, автоматическом переводе с одного языка на другой и т. д.

Известны следующие способы распознавания речи: формантный спектрально-полосный, на основе дифференциальных признаков, на основе динамических (спектрально-временных) признаков, на основе метода «анализ через синтез», на основе движения артикуляторных органов.

Характерной особенностью известных способов распознавания речи является то, что заранее выбирают процедуру обработки и пытаются во всех случаях получить устойчивые параметры речевого сигнала. Поскольку структура речи меняется в широких пределах, то достигнуть устойчивости параметров и вместе с тем высокой достоверности распознавания речи не удается.

Это объясняется тем, что к распознаванию речи приступают лишь после того, как сократят поток информации, например, путем априорного выбора способа анализа. Эталоны (маски), с помощью которых производят распознавание, используют лишь на конечном этапе обработки, где имеют дело с варьирующпми параметрами (прпзнакамп) речевого сш нала.

Таким образом, недостатком этих способов является неполный анализ речевого сигнала, что приводит к понижению достоверности распознавания речи.

Целью изобретения является повышение достоверности распознавания речи. Эта цель достигается тем, что электрический сигнал параллельно многократно дифференцируют и интегрируют, затем сопоставляют полученные сигналы между собой и в качестве информативных признаков речевых сигналов принимают результаты этого сопоставления.

15 Сущность изобретения заключается в представлении речевого сигнала в функциональном пространстве в виде многомерного фазового портрета, а эталонов структурных свойств в виде граничных гпперповерхностей, 2р моменты пересечения которых с многомерным фазовым портретом речи отражают структурные свойства речи.

Повышение достоверности при распознавании речи по предлагаемому способу основано

25 на следующих соображениях.

Описание речевого сигнала его многомерным фазовым портретом, т. е, зависимостью производных (плп функций от них) одного порядка от производных (плп функций от них)

Зр другого порядка, полученных для заданного

329557 речевого процесса, позволяет сохранить всю содержащугося информацию о речи в реальном масштабе времени. Прп таком представлении речи в многомерном фазовом пространстве образуют некоторый многомерный оо ьект, конфигурация которого меняется во времении.

В фазовом пространстве размещают несколько граничных гиперповерхностей и проектируют на них фазовый портрет речи. Каж- 10 дую проекцию анализируют отдельно, используя для этого другие граничные гиперповерхности низшей размерности.

Так как вариации речевого сигнала по различным координатам фазового пространства 15 различны, то выбирают такие граничные гиперповерхности, где локализуются отдельные вариации речевого сигнала. Таким образом, с помощью граничных гиперповерхностей управляют ходом анализа в зависимости от 20 структуры многомерного фазового пространства речи.

Так как эталоны (граничные гиперповерхности) выбирают на всех этапах анализа, то достигают с одной стороны повышения устой- 25 чивости параметров (признаков) речевого сигнала, с другой вЂ” снижения размерности фазового портрета и сокращения потока информации (вплоть до дискретного его представления) . 30

На чертеже приведена блок-схема, поясняющая предлагаемый способ распознавания речи, где:

1 вЂ” источник речевого сигнала;

2 вЂ” анализатор речевого сигналя; 35

8 вЂ” 8 вЂ” блоки координат фазового ггространства, в совокупности образующие многомерный фазовый портрет (осуществляют дифференцирование и интегрирование сигналов); 40

9 вЂ” блок образования граничных гиперповерхностей К-й размерности;

10 вЂ” 12 вЂ” блоки образования граничных гиперповерхностей К-размерности;

18 вЂ” 15 вЂ” блоки дискретного съема пнфор- 45 мации;

1б вЂ” логический блок.

Речевой сигнал or источника 1 подают ня анализатор 2 и на блоки 8 вЂ” 8 образования координат многомерного фазового Itðîñòðÿí- 50 ства, например производных порядка р, а. от сигнала или различных спектральных компонент.

В блоке 9 моделируют различные уравнеши гиперповерхностей (в общем случае нелиней- 55 ные, интегродифференциальпые и прочие), определяющие связи между коорд:шатамн многомерного фазового пространства и отражающие основные закономерности в речевом

=игнале. 60

Далее устанавливают блоки 10 вЂ” 12, в которых моделируют различные уравнения гиперповерхностен низшей размерности, с помощью которых обрабатывают проекции многомерного фазового портрета речи на граничные гипсрноверхности более высокой размерности.

В блоках 18 вЂ” 15 производят дискретный съем информации в логический блок 1б, где осуществляют классификацию речевых единиц.

Речевой сигнал с помощью анализатора 2 и блоков образования координат многомерного фазового пространства 8 вЂ” 8 представляют в виде многомерной фазовой гиперповерхности. С помощью блока 9 размещают в многомерном фазовом пространстве несколько граничных гиперповерхностей.

Разворачиваясь в многомерном пространстве, фазовая гиперповерхность речи проектируется на граничные гиперповерхности, образуя на них фазовые портреты низшей размерности.

Выборы граничных гинерповерхностей нормализуют речевой сигнал, чтобы вариации того илн иного параметра уменьшались на проекциях фазового портрета. Дополнительное улучшение получают, выполняя определенные функциональные преобразования при измерении параметров проекции (сглаживание, выбор системы координат и прочее). Например, нужно измерить координаты проекции в полярных координатах, где М вЂ” модуль координаты, cp вЂ” фазовый угол относительно некоторой начальной базы. Зависимость V(<) не зависит от уровня речи (масштаб фазового портрета) ср (t) не зависит от момента начала речевой единицы (сдвиг фазового портрета).

Используя граничные гиперповерхности следующего уровня, снижают размерность фазового портрета до дискретного его представления и с помощью логического блока выпоlняют распознавание речевых единиц.

Предмет изобретения

Способ распознавания речи путем преобразования звуковых колебаний в электрические сигналы, выделения совокупности признаков распознаваемой речи и сопоставления нх с эталонами. отличающийся тем, что, с целью повышения достоверности распознавания, электрический сигнал параллельно многократно дифференцируют и интегрируют, затем сопоставляюг полученные сигналы между собой путем последовательного сравнения и в качестве информативных признаков речевых сигналов принимают сигналы сопоставления.

Устройство для выявления характерных точек на спектральных разрезах речевых сиеналов // 304615

Устройство для распознавания речевых образов // 290186

Способ выделения основного тона речевого сигнала // 222036

Устройство для распознавания устных команд // 206165

Способ кодирования (распознавания) смысловой информации устной речи // 181882

Патент 181330 // 181330

Патент 168488 // 168488

Патент 161527 // 161527

Способ синтеза формант дискретных составляющих звуков речи // 149239

Способ сжатия звуковой информации и система для его реализации // 2144222

Изобретение относится к области передачи и хранения акустической информации и может быть использовано при проектировании систем цифровой радиосвязи, радио и телевидения, телефонии, систем цифровой звукозаписи и звуковоспроизведения

Способ обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции // 2148277

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ) , и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии

Устройство обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции // 2159470

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ), и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии