Устройство для распознавания речевых образов

 

ОПИСАНИЕ

ИЗОБРЕТЕНИЯ

К АВТОРСКОМУ СВИДЕТЕЛЬСТВУ

29О!86

Сок!9 Советских

Социалистических

Республик

Зависимое от авт. свидетельства М

МПК С5 01/ 1 04

G 061 9,00

Заявлено 28Х1!.1969 (№ 1351350!18-24) с присоединением заявки ¹

Приоритет Комитет ло делам изобретений и зткрытий лри Совете Министров

СССР

УДК 621.391.19(088.8) Опубликовано 22.Х11.1970. Бюллетень . !> 2 за 1971

Дата опубликовашгя описания 18.11.1971

Автор изобретения

М. К. Фатеев

Заявитель

УСТРОЙСТВО ДЛЯ РАСПОЗНАВА11ИЯ РЕ 1ЕВЫХ ОБРАЗОВ

Изобретение относится к области распознавания речевых образов и может быть испо lbзовано в качестве устройства ввода речевых команд в ЭВМ.

Известны устройства для распознавания речевых образов, но они не учитывают существующую нестабильность речевых образов.

Под нестабильностью здесь понимаются изменения в речевом образе, наблюдающиеся при его повторном произношении одним и тем >ко диктором, при произношении его р.-зли шымп дикторами (например, мужчиной и женщиной), дефек1ы речи, «проглатывание» фонем и т. д.

В связи с нестабильностью речевых образов при разработке устройств для их распознавания возникают такие затруднения, как нормализация по длительности и установление

Объективных признаков образов. Отсутствие четко установленных об.ьектпвных критериев разграничения элементов речевого потока и отсутствие в этом потоке четких стационарных участков затрудняют сегментацию, т. е. выделение элементов речи (фонем, слогов), Известно устройство, выдающее заключение

О принадлежности воспринятого речевого сигнала данной команде 110 сочетанию распознанных фонем (распознает десять цифр, произнесенных голосом). В нем распознавание производится по огибающим частотных спектров фонем. Эги огибающие выявляют формантные области, пх ширины и средние частоты формант, а также дают распределение средньй плотности по частотам.

Устройство содержит анализатор мгновенного спектра II два распознающих каскада. состоящих пз последовательно соединещ!ых матриц эталонов, блоков распознающих эле >Icнт0В и О:lока индикации. Д 15! каждой фо10 немы путем многочисленных проб на опыте выбираются эталонные изображения спектров, Ilo которым настраивают аппаратуру. Распознавание этик фонем осуществляется с гомощью матрицы переменных омическнх соI,ð0Tèâëåíèé. В;одные сигналы подвергаются компрессии и тонкоррекцин с цслью нормировки.

Недостатком известного устройства является то, что оно не у штываст нестабильность речевых образов и носледовательносп слсдования фонем. Кроме " îãî,,оно не производит сегментацию речи.

При существующей нестабильности распознаваемых образов выделение максимального сигнала является неприемлемым, так как прн э Гом 0 ПрlIIIßÄ:1!. .>ÊIIOÑÒ!I фонем делаlОTOII Ок011 чательные заключения, хотя в дальпейшcì этll 33K>IIoчения A!01 5 T оказаться ош!!бО 1н!>130 ми. Ошибка прн предварительном анализе в

2I1018|3 данном устройстве неизбежно приведет к ошибочному результату íà его выходе.

Отсутствие сегментации фонем приводит к ложным срабатываниям реле первого каскада (например, к последовательному срабатыванию двух реле при произнесении дш тором одной фонемы или срабатыванию реле под воздействием смычных звуков), что приведет к ошибкам при распознавании.

Последовательность поступления фонем является важным фактором при распознавании.

Так, многие современные устройства по распознаванию речевых образов учитывают информацию о вероятностной последовательности фонем с помощью блока использования лингвистической информации, существенно увеличивающего надежность распознавания.

Целью изобретения является увеличение колпчества распознаваемых образов и надежность их распознавания. Для этого делается попытка при предварительном анализе образа, т. е. при распознавании мелких элементов речевого потока (фонем и небольших звукосочетаний), не делать окончательного заключения о принадлежности данного элемента к данному классу, а «запомнить» все классы, к которым с определенной вероятностью относится данный образ, причем запоминание l.роизводить с индексом вероятности принадлежности данного элемента к данному классу.

Таким ооразом, заменяется пороговая логика типа «д໠— «нет» (О или 1) непрерывной логикой (— 1,0) и О+ 1) и учитывается корреляция сигнала во времени.Указанная цель достигается тем, что устройство дополнительно содержит матрицу эталонов дифференциальных признаков. блок выделения дифференциальных признаков и матрицу эталонов фонем, причем вертикальные шины матрицы эталонов дифференциальных признаков подключены к выходам анализагора мгновенного спектра, а горизонтальные — ко входам блока выделения дифференциальных признаков, горизонтальные шины матрицы эталонов фонем подключены к выходам блока выделения дифференциальных признаков, а вертикальные — к тормозящим входам распознающих элементов, выходы которых через переменные резисторы подключены к возбуждающим входам последующих распознающих э.пементов, образуя последовательные цепи »о числу распознаваемы.; команд, выходы последнего элемента каждой цепи подключены ко входам блока индикации.

Вместо реле, обладающих пороговой характеристикой зависимости выходного сигнала от входного, в устройстве используются «нейронообразные» элементы (называемые далее нейронами) с характеристикой, имеющей зону нечувствительности, зону усиления и зону насыщения. Такая характеристика распознающих элементов позволяет получать на выходе его сигнал, пропорциональный вероятности наличия в распознаваемом образе данного элемента речевого потока, 5

15 гс

Матрицы переменных омических сопротивлений первого каскада настроены так, что нейроны первого каскада распознают не фонемы, а дифференциальные признаки фонем. что делает анализ речевого образа более гиоким и позволяет в дальнейшем более полно анализировать имеющуюся информацию.

Выражение «нейрон распознает» или «нейрон выделяет» тот или иной элемент речевого потока означает то, что на выходе этого нейрона появляется сигнал при появлении ня входе всего устройства того элемента речевого потока, который должен распознавать дынный нейрон.

Для выделе яя дифференциальных признаков с положительным и отрицательным знаками в устройсгве имеются две группы нейронов первого каскада и две соответствующие матрицы переменных омических сопротивлеIIIIII.

Нейроны второго каскада имеют по два входа: возбуждающий и тормозящий. Сигнал на выходе каждого из нейронов второго каскада, производящих распознавание фонем, пе исчезает по прекращении входного сигнала (по окончании фонемы), а убывает во времени по экспоненте с некогорой постоянной времени. Такая «кратковременная память» о принадлежности воспринятого звука к данной фонеме позволяет учитывать данные предварительного анализа при окончательном анализе образа и делать исправления ранее допущенных ошибок.

Нейроны второго каскада соединяются последовательно группами, каждая из которых образует цепочку. Сигнал в таких цепочках продвигается тактами от одного нейрона к другому согласно последовательности расположения фонем в слове.

Для каждого слова (команды), которое распознает усгройство, необходимо наличие своей отдельной цепочки. Описанные нейронные цепочки позволяют использовать информацшо о порядке следования фонем, решают вопрос сегментации и нормализации по длительности, реализуют использование усгройством лингвистической информации.

При выходе из строя какой-либо связи или нейрона первого каскада все усI poHcTBQ Ilp. выйдет пз строя, а только снизит надежность распознавания. Если же произвести перенастройку сопротивления матриц, то можно практически ликвидировать полученные поврежден и я.

При выходе из строя одного из нейронов впорого каскада устройство перестанет распознавать только одно слово (команду), в распознающую цепь которого входил вышедший из строя нейрон. Таким образом достигается достаточно высокая надежность всего устройства при низкой надежности составляющих его элементов.

Выбор наиболее вероятного решения производится устройством сразу без переброса всех возможных вариантов путем пропускания cHI 290186 нала по «правильным > путям и гашения его в остальных цепочках.

На чертеже изображена блок-схема устройства, где:

1 — вход устройства; 2 — анализатор мгHoвенного спектра, который гЕредставляет собой набор полосoBblx фильтров; 8, 4 — матрицы э7алоиов дифференциа,7ьнblx признаков;

5 — блок распознающих элементов первого каскада (выделяет дифференциальные признаки); б — дополнительный блок выдс.7енкя дифференциальных признаков; 7, 8 — матрицы эталонов фонем; 9 — блок раслозиающ11х элементов второго каскада, 10, 11, ..., и — распознающие элементы (нейронные цепи): 12,.

l3, ..., к — переменные резисгоры; 14 — блок индикации.

Сигнал со входа 1 поступает в анализатор

2 мгновенного спектра, которьш представляет собой набор полосовых фильтров. С точки зрения как простоты технического выполнения, так и полноты описания наиболее целесоооразно разбиение на 12 — 1б полос, выбранных в соответствии со шкалой Кенига. Косвенным подтверждением этого являются результаты опытов по создашио полосовых вокодеров.

Выходы фильтров подсоединяются к двум матрицам 8 и 4 переменных омических сопротивлений. Горизонтальные шины этих матриц (строки матриц) подключены ко входам двух блоков 5 и б выделения дифференциа lbbblx признаков первого каскада. Выходы нейронов, входящих в блоки выделения дифференциальных признаков, соединяются с горизонтальными шиназш матриц 7 и 8 второго каскада, которые являются матрицами эталонов фонем. Вертикальные шины этих матриц подключены ко входам блока 9 распознаЕоЕцеЕх элементов второго каскада. Шины матрещы 7 подключены к возбуждающим входам распознающих элементов, а шипы матрицы 8 — к тормозящим входам.

Цепи нейронов 10, 11, ..., n oOp3çóþòcÿ за счет резисторов 12, 18, ..., к, передающих clllнал с выхода одного нейрона на возбуждающий вход другого. Величиной сопротивлен:Ея резисторов 12, 18 ..., к регулируется амплитуда возбуждения, подаваемого с данного нейрона на последующий в цепи.

Количество цепей нейронов второго каскада определяется количеством распознaB3ev.l lx устройством команд (речевых образов) ., Лля распознавания каждой команды необходимо столько нейронов одной цени, сколько фонем содержит данная команда.

Выход последнего в цепи нейрона подсоединяется к одному из входов блока индикации 14, который определяет выход с максимальным сигналом, соответствующая определенной команде.

При произнесении диктором некоторой фонемы распознаваемой команды звуковые колебания, преобразуясь в микрофоне в электрические, после усиления и нормализации их по амплитуде поступают на вход 1 по7ocoEbl.

53

6 фи IbTpoB 3на,lи33тор3 2 спектра. Анализатор спектра разлагает колебания в мгновенный спектр, которьш представлен в устройстве в виде сочетания сигналов различной амплитуды на выходах полосовых фильтров анализатора спектра.

Выде 7СННе .1111рференц Еальиых признаков производится блоками 5 и б в результате анализа мгновенного спекгра с помощью матриц

8 и 4 эталонов путем сравнения полученного спектра с эталоишеми зпачеииями. которые находягся путем проб иа некотором числе предварительных опытов. По ним настрацваЕотся матрииы эталонов. Например, для выделения диффе1ренциального признака звонкости, который характеризуется наличием гармонических Н0.7 .á3HII11 Н3 низких частотах. необходимо уменьшить величины сопротивлений соответствуЕощее1 строки матрицы на нижних частота.; и увеличить иа вьЕсоких, Для выделения признака гласности, который характеризуется наличием общего уровня энер171и Во всем спектре. необходимо, чтобы сопротивления соответствующей строки матрицы имели некоторое среднее значение.

Тогда в первом случае сигнал на строке появится при наличии сигналов значительной амплитуды на выходах фильтров низкои:астоты, а во втором — при наличии достаточно больпеиЕх сигналов на выходах всех фильтров, Чем бо.7ьше полученный спектр совпадает с эе алонным значением спектра некоторого дифференциального признака, тем больше вероятность того, что в полученном звуке имеется данный дифференциальный признак, тем

6o,7bUJ.Iÿ амплитуда на выходе соответствующего нейрона первого каскада. Таким образом, сигнал на выходе одного из нейронов блока 5 и III 6 пропорционален вероятности наличия данного дифференциального призн<1ка в грииятом речевом сигнале.

Ана7113 сигналов на выходах блоков 5 и б выделения дифференциа7bHblx признаков производится нейронами второго каскада с помощью матриц 7 е1 8.

Сопротивления матрицы 7 настраиваются

-,àê, чтобы при появлении на выходе нейрона блока 5 сигнала о некотором дифференциальном признаке этот сигнал проходил на возбуждающие входы соответствующих нейpGHoB блока 9, распознающих фонемы, для которы.; этот признак характерен, с большой

3ìïëHãó7oiI, т. е. чтобы этот сигнал проходил через»3ëblå со lpoTIIBлеиия матрицы 7. Если выделенный признак не характерен для некогорой фонемы. то сигнал о его появлении не должен попасть на возбуждающие входы соответствуюших нейронов 6.7ока 9, т. е. соответствующие сопротивления матрицы должнь1 иметь большую величину.

В матрице 8 сопротивления настраиваются противоположHb»I образом. При появлении дифференциального признака, характерного для фонемы, сигнал об этом признаке не попадает на тормозящий вход соответствующе290186 го нейрона, а при появлении нехарактерного признака — воздействует на тормозящий вход этого нейрона с большей амплитудой.

Например, дифференциальпь«й признак гласности должен вызывать тормо«кение па всех Iieitpottax второго каскада 10, 11, ..., п, распознающих согласные, и возбуи(дец««е па всех нейронах 10, 11, „,. n, pacnoaHatol;I«I гласные фонемы, Чем больше полученное сочетание сигналов па выходах неиронов блоков 5 и б выделения дифференциальных признаков совпадает с некоторым эталонным значением, тем большая вероятность наличия данной фонемы в распознаваемом речевом сбразе B рассматриваемый момент времени и тем значительнее сигнал возбуждения превышает сиг««ал торможения kt;t соответствующем нейроне блока 9. Лмплитуда сигнала на выходе нейронов 10, 11, ..., и пропорциональна вероятности того, что поступивший на вход ус«ройства речевой сигнал есть фонема, на распозназанпе которой настроены сопротивления вертикальных шин матриц 7 и 8 этого нейрона

С выхода нейрона 10 (илп 11) через переменный резистор 12 (соответственно 13) сигнал, спадая по экспоненте во времени, поступает HB столбец матрицы 7, соединенць1и с последующим в цепи нейроном в течение некоторого времени (0,2 — 0,3 сек) после о(ok;чания данной фонемы.

Сопротивления матриц 7 и 8 подобраны так, что под воздейсгвием первой фонемы команды достаточно большой сигнал может появиться только на первых в цепи нейронах.

Остальные нейроны цепей могут выдавать cnr1laл значительной амплитуды только прп o IIoBpe:!1ñkIItoì пост плении сигналов как о! предыдущего в цепочке нейрона через резисторы 12, 18, ..., к, так и со столбцов ма«рпц

7и8.

Распозпаваш«е команд условно мо.кно представить тактами, которые следуют сагласно последовательности поступления фонем. Фонема, пришедшая первой, вызове1 сигнал па выходах первых в цепочках нейроIoB, настроенных на ее распознавание. Фонема, пришедшая второй, заставит выдать си-нал только на вторые в цепях нейроны, которые, во-первых, получают возбуждение от предыдущих и, во-вторых, настроены на вссприятие этой второй фонемы. Лналогичньш процесс происходит до нейрона, последнего в цепи, выход которого подсоединен к одному из входов блока индикации 14.

Для учета нестабильности распознаваемых образов настройку переменных резисторов 12, 18, ..., к и матриц 7 и 8 можно произвести так, ITQ даже при «проглатывании» одной из фонем или сильном ее искажении сигнал в цепочке не затухает, а лишь уменьшает свою амплитуду.

1(лительность «кратковременной памяти» пааво;«яет воздействовать не только на после„у«nkltti«I нейрон цепочки, но и через этот второп нейрон воздействовать на третий в цепочке. т. е. как бы через один нейрон. В этом отношении продвижение сигнала по цепочкам протекает не тактами, а скорее лавинообраз«пи когда по одним путям сигнал продвигается, все усиливаясь, а по другим — ослабевая или под воздействием тормозящих входов резко обрываясь.

Гели поданной на вход команде нет соответству«ощей цепи, то на блоке индикации Hp. зафиксируется ни одной команды, т. е. устройство не распознает команду.

Предмет изобретения

Устройство для распознавания речевых образов, содержащее анализатор мгновенного спектра и два распознающих каскада, со30 стоящих из последовательно соединенных матриц эталонов и блоков распознающих элементoB, tt блок индикации, отличшощееся тем,, :t n, с целью увеличения надежности распознавания, оно дополнительно содержит мат35 р«шу эталонов дифференциальных признаков, блок выделения дифференциальных признаков tt матрицу эталонов фонем, причем вертикальные шины матрицы эталонов дифференциальных признаков подключены к выхо4п дам анализатора мгновенного спектра, и горизонтальные — "o входам блока выделе«п«я

;«иффере««циальп«.«х признаков, горизонтальные шины матрицы эталонов фонем подклю":åHBt к выходам блока выделения дифферен45 ппальных признаков, а вертикальные — к тормозящим входам распознающих элементов, выходы которых через переменные резисторы

«одключены к возбуждающим входам последующих распознающих элементов, образуя

5З последовательные цепи по числу распознаваемых команд, выходы последнего элемента каждой цепи подключены ко входам блока индикации, Составитель В. А. Кудрявцев

Редактор Б. С. Нанкина Текред А. А. Камышникова Корректор О. С. Зайцева

Издат. № 134 Заказ 242/17 Тираня 480 Подписное

11НИИПИ Комитета по делам изобретений и открытий при Совете Министров СССР

Москва, 5К-35, Раушская наб., д. 4 5

Типография, пр. Сапунова, 2

Устройство для распознавания речевых образов Устройство для распознавания речевых образов Устройство для распознавания речевых образов Устройство для распознавания речевых образов Устройство для распознавания речевых образов 

 

Похожие патенты:

Изобретение относится к цифровой обработке речи

Изобретение относится к распознаванию и идентификации сигналов

Изобретение относится к области информационных технологий - обработки аудио сигналов, в частности к способу распознавания музыкальных произведений и устройству для его осуществления

Изобретение относится к автоматике и вычислительной технике
Наверх