Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа



Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа

 


Владельцы патента RU 2606566:

Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) (RU)

Изобретение относится к области цифровой связи и технологиям обработки речи в условиях зашумления. Технический результат - повышение достоверности классификации сегментов зашумленной речи по типовым классификационным группам. В способе классификации сегментов зашумленной речи осуществляют полиспектральный анализ для частичного шумоподавления путем повышения адекватности Фурье-спектра сигнала, который восстанавливают из оценки биспектра обрабатываемого зашумленного речевого сигнала; далее на основе исходного речевого сигнала и нормализованного Фурье-спектра в каждом сегменте выделяют наличие/отсутствие классификационных признаков речевого сигнала и весовых коэффициентов, осуществляют их коррекцию с применением процедуры иерархии и на конечном этапе принимают решение по вопросу отнесения сегмента к типовым группам, по результатам сравнения осуществляют формирование последовательности символов, обозначающих типовые группы. 2 н. и 8 з.п. ф-лы, 7 ил.

 

Представленные изобретения объединены единым замыслом и относятся к области цифровой связи, могут быть использованы в системах телекоммуникаций при реализации процедуры классификации сегментов речевого сигнала в условиях зашумления.

Область применения изобретений: радиотелефония и системы распознавания речи, голосовое управление электронными приборами, автоматическая стенография, голосовое управление движущимися средствами на расстоянии слышимости голоса.

Несмотря на наличие большого количества технических решений в области применения заявленных изобретений существует проблема, связанная с обработкой зашумленной речи при высокой интенсивности шумового воздействия, что сильно проявляется в снижении достоверности принятых решений уже разработанных на настоящее время способов и устройств, их реализующих.

Известен способ и устройство распознавания речи (патент на изобретение США US 4624011 A, G10L 5/00, 28.01.1983), в которых распознавание речи производят путем поэтапного выполнения определенных процедур: оценивают амплитудный и фазовый Фурье-спектры, затем выделяют последовательности фонем и их акустических характеристик, вычисляемых вспомогательным модулем, которые затем сравнивают с хранящимися в памяти эталонными параметрами для анализируемых последовательностей, и далее определяют степень сходства, осуществляемую через интервальную оценку, характеризуемую среднеквадратической ошибкой. Данный способ и устройство, его реализующее, характеризуется низкой помехозащищенностью, так как в условия присутствия зашумления обрабатываемого речевого сигнала распознавание посредством сравнения с эталоном становится невозможным, что приводит к значительному снижению достоверности принимаемых решений.

Имеется способ и устройство распознавания слитной речи (патент США US 4852170, G10L 5/04, 18.12.1986), основанных на обработке речи в режиме реального времени устройством, в котором определяют спектральные оценки каждого сегмента речи заданной длительности, при этом каждый сегмент речи анализируют логически на наличие фонем и их принадлежность определенному классу, частью которого они являются, и затем частотный спектр сегмента анализируют на наличие особенностей, позволяющих распознать специфические фонемы в пределах типа. Последовательность фонем может быть сохранена в виде компактных групп и преобразована затем для синхронизации с голосом диктора.

Также известны способ и устройство распознания фонем речи (патент РФ 2268504 С9, опубл. 20.01.2006), основанных на распознавании речи устройством, включающим анализатор биспектра, в котором определяют индивидуальные эталоны каждой фонемы речи, при этом каждую аллофону индивидуальной речи логически анализируют на максимум совпадения при сравнении с каждым эталонном, хранящимся в памяти, и после сравнения принимают решение о принадлежности к определенной фонеме. Последовательность фонем сохраняют в виде компактных групп и затем преобразуют для синхронизации с голосом диктора.

Наиболее близким аналогом по совокупности существенных признаков, признанным в качестве прототипа, является система и способ распознавания речи (патент РФ №2466468, опубл. 10.11.2012) для обработки слитного речевого сигнала в режиме реального времени, включающей последовательно исполняемые этапы, согласно которым осуществляют прием речевого сигнала; выполняют его обработку, для чего производят аналого-цифровое преобразование с предустановленной частотой дискретизации и разделение на сегменты квазистационарности, выполняют спектральный анализ сегментов зашумленного речевого сигнала и нормализацию спектра; выделяют в нормализованном спектре паузы, шумы и звуковые сигналы, далее производят классификацию по типовым группам, для чего определяют на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте наличие/отсутствие классификационных признаков, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти и сравнивают определенные комбинаторные наборы классификационных признаков сегмента с предустановленными параметрами групп фонем, одновременно формируют последовательности символов, обозначающих группы фонем, с одновременным формированием последовательности символов, обозначающих группы фонем, соответствующие комбинаторным наборам классификационных признаков каждого сегмента, с использованием классификации групп фонем на основе комбинаторного набора классификационных признаков, которые характеризуют наличием или отсутствием в речевом сигнале, по меньшей мере, основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного, комбинаторное сочетание которых формирует одиннадцать групп фонем с неповторяемым набором классификационных признаков: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда, соответствующих комбинаторным наборам классификационных признаков каждого сегмента, далее осуществляют последовательным декодированием комбинаторного сочетания символов групп фонем в текст на основе словаря, размеченного по символам групп фонем.

Основным недостатком данного способа является низкая помехозащищенность к условиям интенсивного зашумления обрабатываемого речевого сигнала, что приводит к ошибкам первого рода для анализа участков речи, где наличие или отсутствие основного тона не является главным классификационным признаком, кроме того, в случае шумового воздействия однородной энергетики проявляются многие классификационные признаки разных групп фонем, основанные на наличии различных видов шумов, вследствие чего происходит снижение достоверности классификации сегментов обрабатываемого речевого сигнала, что в конечном итоге приводит к неверному распознаванию каждого символа, входящего в состав кодового слова.

Одним общим недостатком, характеризующим все аналоги и прототип, можно выделить низкую достоверность классификации по определенным типовым группам сегментов зашумленной речи в условиях шумового воздействия высокой интенсивности.

Задачей заявленных изобретений является создание способа классификации сегментов зашумленного речевого сигнала с использованием полиспектрального анализа и устройства, его реализующего, повышающих достоверность классификации сегментов обрабатываемого зашумленного речевого сигнала по определенным группам фонем.

Эта задача достигается тем, что согласно заявленному способу классификации сегментов зашумленной речи с использованием полиспектрального анализа, включающего последовательно исполняемые этапы, согласно которым осуществляют прием зашумленного речевого сигнала; выполняют аналого-цифровое преобразование с предустановленной частотой дискретизации и разделение на сегменты квазистационарности, далее вычисляют Фурье-спектры сегментов зашумленного речевого сигнала и нормализуют его, выделяют в нормализованном Фурье-спектре паузы, шумы и звуковые сигналы, далее производят классификацию по типовым группам, для чего определяют на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте наличие/отсутствие классификационных признаков, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти, и сравнивают определенные комбинаторные наборы классификационных признаков сегмента с предустановленными параметрами групп фонем, одновременно формируют последовательности символов, обозначающих группы фонем, отличающийся тем, что используют аппарат полиспектрального анализа, а именно при оценке амплитудного Фурье-спектра (далее Фурье-спектр) речевого сигнала, Фурье-спектр получают через биспектр речевого сигнала, который синтезируют путем двумерного дискретного преобразования Фурье от тройной автокорреляционной функции на участке квазистационарности обрабатываемого зашумленного речевого сигнала с целью частичного подавления гауссовых компонент шумового воздействия, кроме того, на этапе принятия решения классификации обрабатываемого сегмента зашумленного речевого сигнала с задачей отнесения к конкретной группе из 12 (двенадцати) групп фонем или к 1 (одной) группе, характеризующей паузу, вводят процедуру иерархии классификационных признаков групп, для чего вводят весовые коэффициенты, основанные на внутрисимвольных и межсимвольных связях, как в кодовом слове, так и внутри каждого символа и получают их путем оценки статистических и параметрических особенностей, как речевого сигнала, так и шума.

Заявленный способ характеризуется тем, что на этапе дискретизации устанавливают постоянное значение частоты дискретизации, равное 44100 Гц, кроме того, на этапе сегментации выбирают постоянный период квазистационарности, равный 1024 отсчетам, также при перемещении от сегмента к сегменту используют взаимное окно пересечения соседних сегментов, равное 512 отсчетам, а на этапе спектрального анализа применяют полиспектральный анализ, включающий в себя оценку и работу не только с Фурье-спектром, но и биспектром обрабатываемого зашумленного речевого сигнала, вследствие чего при операциях получения биспектра зашумленного речевого сигнала производят прямое двумерное преобразование Фурье от тройной автокорреляционной функции RU(a,b), и восстановление Фурье-спектра осуществляют непосредственно из самого биспектра зашумленного речевого сигнала, вследствие чего происходит частичное шумоподавление в обрабатываемом речевом сигнале за счет подавления гауссовых компонент шумового воздействия на основании сечения стационарного эргодического случайного процесса по кумулянту третьего порядка. Восстановление Фурье-спектров по оценке биспектра, получаемого косвенным методом, достаточно подробно представлено в (Тоцкий А.В., Астола Я. Восстановление сигналов по оценкам биспектров в присутствии гауссовых и негауссовых помех. Зарубежная радиоэлектроника, 2002, №11, с. 44-58; Никиас Х.Л., Рагувер М.Р. Биспектральное оценивание применительно к цифровой обработке сигналов. ТИИЭР, 1987, Т.75, №7, с. 5-30; Zhang Ji-Wu, Zheng Chong-Xun, and Xie Au, Bispectram analysis of focal ischemic cerebral EEG signal usingthird-order recursion method, IEE Trans. Biomedical Engineering, vol. 47, No. 3, March 2000, pp. 352-359). Тогда нахождение тройной автокорреляционной функции и биспектра осуществляют согласно следующим выражениям:

где W(a,b) - оконная функция, используемая для повышения адекватности оценки и уменьшения эффекта растекания биспектра, K - количество отсчетов в сегменте обрабатываемого речевого сигнала, a, b - величины корреляционного сдвига. Кроме того, - комплексная функция двух независимых частотных переменных p,q:

где - биамплитуда, γU(p,q) - бифаза.

В случае однородного шумового воздействия, где сам шум представляет собой гауссов случайный процесс или в высокой степени приближен к гауссову процессу, так что его можно аппроксимировать белым гауссовым шумом, то для случая аддитивного шумового воздействия вытекает справедливость частичного шумоподавления на основании сечения обрабатываемого зашумленного речевого сигнала, представленного эргодическим случайным процессом, по кумулянту третьего порядка - асимметрии. В практическом приложении это означает исследование корреляционных связей третьего порядка, которые для гауссовых процессов равны нулю, кроме того, для случайных процессов, приближенных к гауссову процессу, данные характеристики стремятся к нулю и имеют малые значения:

где - биспектр «чистого» речевого сигнала, - биспектр шумового воздействия, - спектральная компонента на частоте p Фурье-спектра «чистого» речевого сигнала, - спектральная компонента на частоте p Фурье-спектра шумового воздействия.

Амплитудный и фазовый Фурье-спектры восстанавливают из биспектра зашумленного речевого сигнала на основании итерационных рекурсивных алгоритмов посредством проведения медианного и подмедианного разреза биамплитуды и бифазы:

В нормализованном Фурье-спектре каждого сегмента на основе введения процедуры иерархии, основанной на рекурсивных межсимвольных и внутрисимвольных связях кодового слова, описание которых подробно представлено в (О.И. Шелухин, Н.Ф. Лукьянцев. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - с. 102-112, с. 123-146; Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония: учебное пособие для вузов. - М.: Радио и связь, 2003 г. - 144 с.), состоящего из символов, обозначающих группы фонем, определяют наличие/отсутствие классификационных признаков речевого сигнала, комбинаторные наборы которых характеризуют группы фонем, с использованием процедуры иерархии, параметры комбинаторных наборов предустановлены в блоке памяти, и осуществляют сравнение определенных комбинаторных наборов классификационных признаков и весовых коэффициентов сегмента с предустановленными параметрами групп фонем, с одновременным формированием последовательности символов, обозначающих группы фонем, соответствующих комбинаторным наборам классификационных признаков каждого сегмента.

При классификации сегментов обрабатываемого речевого сигнала по группам фонем используют комбинаторный набор классификационных признаков и весовых коэффициентов, включающий определение наличия или отсутствия в речевом сигнале основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного, комбинаторное сочетание которых формирует 12 групп фонем с неповторяемым набором классификационных признаков и весовых коэффициентов: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда, аффрикаты. Кроме того, дополнительной обособленной группой вводится пауза, характеризующаяся как отсутствие информативных активных составляющих на протяжении 20(двадцати) сегментов квазистационарности без учета взаимного окна пересечения соседних сегментов или наличием шумового признака и различных шумов на той же длительности.

Одной из важнейших классификационных характеристик является наличие основного тона в речевом сигнале. Присутствие основного тона оценивают по высокой интенсивности частотных составляющих в низкочастотной области в диапазоне возможных значений частоты основного тона. Интенсивность частотных составляющих в текущем окне определяют относительно их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длинной около 5 (пяти) секунд.

Кратковременные перепады интенсивности речевого сигнала, свидетельствующие о присутствии в сигнале коротких смычек, характерных для дрожащих сонантов, определяют по соотношению интенсивности речевого сигнала в трех последовательно идущих окнах обработки. Интенсивность речевого сигнала в среднем окне существенно ниже интенсивности речевого сигнала в правом и левом окнах, в то время как интенсивность речевого сигнала в правом и левом окнах практически одинакова.

Наличие широкополосных шумов в речевом сигнале, связанных с произношением щелевых согласных или присутствием взрыва, происходящего во время размыкания смычки при произнесении смычных согласных, определяют по наличию интенсивных частотных составляющих в диапазоне выше возможных значений частоты основного тона и ее первой гармоники.

Наличие высокочастотных шумов в речевом сигнале, связанных с произношением щелевых сибилянтов, определяют в диапазоне выше возможных значений частоты основного тона и ее первой гармоники, по отношению интенсивности частотных составляющих в области средних частот и интенсивности частотных составляющих в области высоких частот. Интенсивность высокочастотных шумов существенно превосходит интенсивность средних частот в случае произнесения щелевых сибилянтов.

Сонорность речевого сигнала, характерную для произнесения сонантов и гласных, в противоположность шумным согласным, определяют по высокой интенсивности частотных составляющих в диапазоне средних частот выше низкочастотной области в диапазоне возможных значений частоты основного тона, но вмещающих в себя диапазон возможных значений частот формант сонантов.

Еще одним классификационным признаком, используемым при распознавании речи и для характеристики групп фонем, является отсутствие или наличие гармонических составляющих в спектре в частотной области выше диапазона возможных значений частот формант сонантов. Отсутствие гармонических составляющих в области средних и верхних частот характерно для сонантов, а присутствие для гласных. Наличие или отсутствие гармонических составляющих определяют по отношению интенсивности частотных составляющих ниже и выше частотного порога.

Другой важной классификационной характеристикой звуков речи является качество возможно произнесенного гласного, а именно ряд его произнесения, т.е. положения основной массы языка в полости рта в горизонтальном положении. Ряд произнесения гласного определяют по соотношению интенсивности гармонических составляющих в спектре речевого сигнала в области низких частот, области средних частот и области верхних частот. Отсутствие гармонических составляющих в спектре речевого сигнала в области средних частот и области верхних частот свидетельствует о произнесении гласного заднего ряда. Присутствие гармонических составляющих в спектре речевого сигнала в области средних частот свидетельствует о произнесении гласного среднего ряда. Одновременное присутствие гармонических составляющих в спектре речевого сигнала в области низких частот и области верхних частот и их отсутствие в области средних частот свидетельствует о произнесении гласного переднего ряда. Наличие или отсутствие гармонических составляющих определяют по отношению интенсивности частотных составляющих в области низких частот, области средних частот и области верхних частот.

В заявленном изобретении используют следующие классификационные группы сегментов обрабатываемого зашумленного речевого сигнала: смычные глухие шумные согласные (O), смычные звонкие шумные согласные (B), глухие шумные щелевые согласные (С), звонкие шумные щелевые согласные (D), глухие сибилянты (E), звонкие сибилянты (F), носовые и щелевые сонанты (G), дрожащие сонанты (Н), гласные переднего ряда (I), гласные смешанного ряда (L) и гласные заднего ряда (K), аффрикаты (М), пауза (N). В скобках указан условный символ классификационной группы.

Смычные глухие шумные согласные (O) определяют с использованием следующих классификационных признаков: отсутствие основного тона и широкополосных шумов, что характеризуется смычкой, то есть фактическим отсутствием речевого сигнала, и последующими кратковременными широкополосными шумами. Смычные глухие шумные согласные отличаются от пауз между словами длиной смычки, которая значительно короче паузы между словами, и наличием последующего взрыва, характеризующегося кратковременными широкополосными шумами.

Смычные звонкие шумные согласные (B) определяют следующими классификационными признаками: наличием основного тона и отсутствием широкополосных шумов на месте смычки, а также последующими кратковременными широкополосными шумами на месте взрыва.

Глухие шумные щелевые согласные (C) определяют следующими классификационными признаками: отсутствием основного тона, наличием широкополосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.

Звонкие шумные щелевые согласные (D) определяют следующими классификационными признаками: наличием основного тона, наличием широкополосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.

Глухие сибилянты (Е) определяют следующими классификационными признаками: отсутствием основного тона, наличием широкополосных шумов, наличием высокочастотных шумов, отсутствием сонорности.

Звонкие сибилянты (F) определяют следующими классификационными признаками: наличием основного тона, наличием широкополосных шумов, наличием высокочастотных шумов, отсутствием сонорности.

Носовые и щелевые сонанты (G) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой отсутствия гласного.

Дрожащие сонанты (Н) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, наличием перепада интенсивности речевого сигнала.

Гласные переднего ряда (I) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой присутствия гласного, классификационной характеристикой переднего ряда гласного.

Гласные смешанного ряда (L) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой присутствия гласного, классификационной характеристикой смешанного ряда гласного.

Гласные заднего ряда (К) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой присутствия гласного, классификационной характеристикой заднего ряда гласного.

Аффрикаты (М) определяют как последовательное произнесение соответствующих смычного и щелевого согласного, т.е. /ц/ - это комбинация /т/ и /с/, а /ч/ - это комбинация /т/ и /ш/.

Паузу (N) определяют как многократное повторение характеристического признака b - отсутствие сигнала на протяжении 20 сегментов квазистационарности, в условиях зашумления паузу определяют при многократном повторении на той же длительности признака наличия различных невокализованных шумоподобных сегментов и шумового признака.

В заявленном изобретении используют следующие классификационные признаки групп:

a 0 - наличие основного тона; a1 - наличие гармонических составляющих в области первой форманты; а2 - наличие гармонических составляющих в области второй форманты; а3 - наличие гармонических составляющих слабой интенсивности; b - отсутствие сигнала; с - наличие перепадов; d - широкополосные шумы; е - краткие шумы; f - высокочастотные шумы; g - наличие сонорности; n - наличие шума.

Кроме того, в заявленном изобретении вводят весовые коэффициенты, определяющие иерархию, основанную на параметрических свойствах речевых сигналов и шумов:

где R:1 - подтверждение наличия кратких шумов, 0 - наличие кратких шумов ложно;

S:1 - подтверждение наличия широкополосных шумов, 0 - наличие широкополосных шумов ложно;

Т:1 - подтверждение наличия высокочастотных шумов, 0 - наличие высокочастотных шумов ложно;

V:1 - подтверждение наличия сонорности, 0 - наличие сонорности ложно.

Также существует факт ложной вокализации, например смычных глухих шумных согласных, стоящих в слове после гласных звуков, в связи с чем вводят признак иерархии, основанный на статистике вокализованных и невокализованных элементов речи, приведенной в таблице на фиг. 1:

W:1 - подтверждение наличия основного тона, 0 - наличие основного тона ложно.

Все признаки (учитывая весовые коэффициенты) и классификация 12 (двенадцати) групп фонем и 1 (одной) группы, характеризующей паузу, приведены на фиг. 2 и могут быть записаны в виде следующих выражений:

Способ, заявленный в изобретении, можно представить в виде алгоритма (фигура 3), в соответствии с которым выделяют следующие этапы обработки зашумленного речевого сигнала с целью проведения классификации по определенным группам:

I) Прием речевого сигнала U(t);

II) Дискретизация речевого сигнала U(kT);

III) Сегментация речевого сигнала с учетом взаимного окна пересечения соседних сегментов анализа;

IV) Вычисление значений тройной автокорреляционной функции (ТАКФ) RU(a,b);

V) Синтез биспектра BU(p,q), получаемого путем преобразования Фурье от ТАКФ;

VI) Получение биамплитуды и бифазы γ(p,q);

VII) Восстановление амплитудного Фурье-спектра

VIII) Нормализация амплитудного Фурье спектра

IX) Выделение сегментных классификационных признаков: а0, a1, а2, а3, а4, b, с, d, f, g, n;

X) Расчет весовых коэффициентов: R, S, Т, V;

XI) Оценка весового коэффициента - W;

XII) Коррекция сегментных классификационных признаков;

XIII) Принятие решения по вопросу классификации.

Задача изобретений достигается и тем, что устройство, реализующее способ классификации сегментов зашумленной речи с использованием полиспектрального анализа, включающее блок приема зашумленного речевого сигнала, последовательно соединенный с аналого-цифровым преобразователем, который соединен с блоком управления, блоком памяти и блоком определения классификационных признаков групп фонем с целью формирования последовательности символов, обозначающих группы фонем, выполненный с обеспечением возможности формирования по текущим комбинаторным сочетаниям классификационных признаков, присутствующих в речевом сигнале соответствующей им последовательности символов и записи кодового слова, размеченного по символам групп фонем и вызываемого из блока памяти, при этом все блоки соединены с блоком управления, который обеспечивает возможность управления режимами функционирования блоков, обмена данными между ними и взаимодействия с блоком памяти, отличающееся тем, что используется блок сегментации речевого сигнала, учитывающий взаимное окно пересечения соседних сегментов по количеству отсчетов, соединенный с совокупностью блоков полиспектрального анализа, включающей блок корреляции третьего порядка, выход которого соединен с входом блока прямого преобразования Фурье, выход которого соединен с входом блока восстановления Фурье-спектра амплитуд из оценки биспектра, выход которого соединен с входом блока определения сегментных классификационных признаков; также дополнительным введением блока коррекции классификационных признаков, блоков параметрической и статистической иерархии и блока хранения кратковременных данных; кроме того, в блоке определения классификационных признаков групп фонем реализована процедура выявления шумового признака, данные блоки соединены между собой множественными рекурсивными связями, учитывающими внутрисимвольную и межсимвольную связь в формируемой последовательности с выхода блока формирования последовательности символов.

Также на фигуре 3 представлена блок-схема устройства с привязкой к алгоритму на основе заявленного способа классификации сегментов зашумленного речевого сигнала с использованием полиспектрального анализа:

1) Уровень управляющих воздействий и предустановленных классификационных признаков (возможность реализации по совокупности процессора постоянного запоминающего устройства), имеющий технологически в своем составе:

1 - блок управления (функционально соединенный с блоком 15),

2 - блок хранения классификационных признаков на основе базы данных;

2) Этап приема непрерывного сигнала речи, имеющий технологически в составе:

3 - блок приема непрерывного сигнала речи (возможно разграничение на технические подуровни, например, не только акустоэлектрическое преобразование, но и ограничение по входному уровню);

3) Этап аналого-цифрового преобразования и сегментации речевого сигнала, имеющий технологически в составе:

4 - блок аналого-цифрового преобразования,

5 - блок сегментации дискретного обрабатываемого речевого сигнала на сегменты квазистационарности с учетом взаимных окон пересечения соседних сегментов;

4) Этап полиспектрального анализа речевого сигнала при последовательно-параллельной обработке, технологически имеющий в своем составе и функционально 2 (два) уровня:

4.1) Уровень косвенного получения биспектра обрабатываемого сегмента речевого сигнала, имеющий технологически в своем составе:

6-1…6-16 - блоки корреляции третьего порядка,

7-1…7-16- блоки преобразования Фурье;

4.2) Уровень определения сегментных классификационных признаков, имеющих технологически в своем составе:

8-1…8-16 - блоки восстановления Фурье-спектра по оценке биспектра обрабатываемого сегмента зашумленного речевого сигнала,

9-1…9-16 - блоки нормализации Фурье-спектра,

10-1…10-16 - блоки определения сегментных классификационных признаков, имеющий в своем составе гребенку полосовых фильтров, физически выполняющих функцию детекции амплитудных значений нормализованного Фурье-спектра, уровни которого предустановлены в блоке 2;

5) Этап коррекции классификационных признаков на основе параметрической и статистической иерархии признаков (возможность реализации по совокупности процессора постоянного запоминающего устройства (ПЗУ)), имеющий технологически в своем составе:

11-1…11-16 - блоки коррекции классификационных признаков,

12-1…12-16 - блоки статистической иерархии,

13-1…13-16 - блоки параметрической иерархии,

14 - блок хранения кратковременных данных (реализация возможна на оперативном запоминающем устройстве) об межсимвольных и внутрисимвольных связях;

6) Этап принятия решения по вопросу классификации по откорректированным классификационным признакам имеет технологически в своем составе:

15 - блок принятия решения (возможна реализация на базе процессора),

16 - блок формирования последовательности символов, характеризующих определенные классификационные группы.

Процедуры приема, аналого-цифрового преобразования и сегментации речевого сигнала и их реализация достаточно подробно описаны в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с. 425-446). Описание формирования и приема кадра передачи, выполняемых блоками 3, 4, 5, представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87).

Реализация совокупности блоков 1, 2, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 возможна на базе модуля TORNADO-P64, который разработан компанией "МикроЛАБ Системе" (www.mlabsys.com) Цифровая обработка сигналов CHIP NEWS Жучков К., Хоружий С., Чепель Е. Полиспектральный анализатор сигналов на базе модуля цифрового сигнального процессора TMS320C6416).

Устройство, реализующее заявленный способ, работает следующим образом (Фиг. 3):

Непрерывный зашумленный акустический сигнал речи поступает на вход блока 3, в котором происходит его акустоэлектрическое преобразование и ограничение по входному уровню. Полученный непрерывный электрический сигнал с выхода блока 3 поступает на вход блока аналого-цифрового преобразования 4, в котором осуществляется получение дискретных отсчетов речевого сигнала с частотой дискретизации, равной 44100 Гц, последовательность дискретных отсчетов с выхода блока 4 поступает на вход блока сегментации 5, где происходит разделение последовательности отсчетов на сегменты квазистационарности по 1024 отсчета с учетов взаимного окна пересечения соседних сегментов, равного 512 отсчетам, далее с выхода блока 5 посегментно речевой сигнал поступает на входы блоков корреляции третьего порядка 6, каждой из параллельных ветвей обработки речевого сигнала, где осуществляется нахождение тройной автокорреляционной функции для каждого сегмента квазистационарности, с выхода блока 6 на вход блока двумерного преобразования Фурье 7 поступает последовательность значений тройной автокорреляционной функции, где происходит процедура нахождения значений биспектра речевого сигнала для каждого сегмента квазистационарности косвенным методом, с выхода блока 7 на вход блока восстановления значений Фурье-спектров 8 поступают комплексные значения биспектра каждого сегмента речевого сигнала, где происходит разделение биспектра на биамплитуду и бифазу каждого сегмента квазистационарности с дальнейшим нахождением значений Фурье-спектров на основе итерационных алгоритмов получения значений Фурье спектров из оценок биспектра, с выхода блока 8 на вход блока нормализации Фурье-спектра 9 поступает последовательность значений Фурье-спектров, где происходит процедура нормализации путем деления значений на максимальное значение, полученное при анализе всех значений Фурье-спектров различных сегментов квазистационарности, на общей длительности которых, равной 5 (пяти) секундам, с выхода блока 9 на вход блока нахождения сегментных классификационных признаков 10 поступает последовательность значений нормализованного Фурье-спектра амплитуд, в котором путем сравнения с различными порогами выделяют наличие или отсутствие того или иного классификационного признака (в случае наличия признака поступает сигнал логической единице, в противном случае 0), с выхода блока 10 на вход блока хранения кратковременных данных 14 поступает информация в виде последовательности 1 и 0, характеризующих наличие или отсутствие тех или иных классификационных признаков каждого анализируемого сегмента квазистационарности, а также абсолютные значения, полученные во время измерения того или иного признака, в блоке 14 хранится информация о корреляционных связях между сегментами квазистационарности и рекурсивных связях между символами в кодовом слове (фразе), поступающая с выхода блока принятия решения по вопросу классификации 15, а также абсолютные значения, полученные во время измерения того или иного признака, кроме того, с выхода блока 10 информация о сегментных классификационных признаков поступает на вход блока коррекции классификационных признаков 11, кроме того, на вход блока 11 поступает информация об иерархии классификационных признаков каждого обрабатываемого сегмента квазистационарности с выхода блока статистической иерархии 12 и с выхода блока параметрической иерархии 13, на входы блоков 12 и 13 поступает информация о корреляционных и рекурсивных связях в кодовом символьном слове и между обрабатываемыми сегментами квазистационарности, а также абсолютные значения измеренных признаков, в блоках 12 и 13 происходит вычисление весовых коэффициентов, которые и поступают на вход блока коррекции классификационных признаков 11, в блоке 11 на основании значений весовых коэффициентов происходит выявление значимых и незначимых классификационных признаков, с выхода блока 11 информация обо всех классификационных признаках поступает на вход блока принятия решения, в котором происходит принятие решения по вопросу классификации обрабатываемого сегмента, с выхода блока 15 информация поступает на вход блока хранения кратковременных данных 14 и на вход блока формирования последовательности символов кодового слова, с выхода блока 16 информация в виде символов, обозначающих различные 13 (тринадцать) классификационных групп, 12 (двенадцать) из которых группы фонем и 1 (одна) группа, характеризующая паузу. Блок управления 1 работает в режиме реального времени и осуществляет общий контроль над всеми процедурами, задействованными в принятии решения по вопросу классификации, он соединен с обратной связью с блоком принятия решения 15. Блок хранения классификационных признаков на основе базы данных 2 выполнен на основе постоянного запоминающего устройства и хранит информацию о комбинаторных наборах классификационных признаков и весовых коэффициентов, характеризующие тринадцать классификационных групп, блок 2 функционально соединен с блоками 10, 11, 15.

При проведении классификации в условиях отсутствия или слабого шумового воздействия правила принятия решения, предложенные в прототипе, имеют высокую достоверность распознания порядка 95%, однако в условиях воздействия шума высокой интенсивности наблюдается снижение достоверности вследствие появления множественных классификационных признаков, что приводит к неверному определению групп фонем, и при соотношении сигнал/шум 0 дБ достоверность способа распознания, применяемого в прототипе, падает до значения 67%, что приводит к появлению ситуации неадекватных решений.

Для оценки эффекта, получаемого при введении различных действий над обрабатываемым речевым сигналом, берутся такие, как диапазон значений отношения сигнал/шум (ОСШ), характеризующийся минимальным пороговым значением по достоверности, равный 90%, и выигрыш в среднем по эффективному диапазону ОСШ по достоверности, так как повышение достоверности является техническим результатом, достигаемым предложенными изобретениями.

На фигуре 4 представлен график зависимости достоверности правильной классификации от соотношения сигнал шум способа, предложенного в заявленном изобретении, прототипа и аналогов.

Его анализ позволяет сделать вывод о том, что прототип по своим функциональным особенностям превосходит все аналоги, что говорит о правильности выбранного прототипа (в дальнейшем оценка эффективности по повышению средней достоверности будет произведена между способом по п. 5 и прототипом).

Перед непосредственным расчетом повышения в среднем достоверности классификации необходимо отметить, что для расчета будем использовать не весь диапазон, представленный на фигуре 4 от - 15 до 45 дБ, а эффективный диапазон ОСШ, при котором выполняются минимальные требования относительно порога по достоверности 90%, т.е. от 0 до 45 дБ. Оценку среднего повышения достоверности AD,% будем проводить согласно следующему выражению:

Ri - значение достоверности способа по пункту №5 от i-го соотношения сигнал/шум;

Pi - значение достоверности прототипа от i-го соотношения сигнал/шум

ΔD=5.269230769230769%

Исходя из проведенной оценки эффективности предложенного способа, согласно решению изобретательской задачи, можно с уверенностью сказать, что предложенный способ позволяет осуществлять классификацию сегментов обрабатываемого зашумленного речевого сигнала в увеличенном на 7 дБ в диапазоне значений отношения сигнал/шум (предложенный в изобретении способ позволяет проводить правильную классификацию сегментов зашумленной речи при более малых отношениях сигнал/шум) со средним повышением достоверности правильной классификации на ≈5.3%.

Достоверность технического результата подтверждена сведениями экспериментального характера, полученными в ходе испытаний (использовались различные записи речевых сигналов, которые подвергались аддитивному зашумлению белым гауссовым шумом при различных отношениях сигнал/шум (ОСШ), данные зашумленные сигналы подвергались многократным испытаниям в сравнительном характере между различными способами, реализованными в программной среде MATLAB) по принятым в отрасли стандартным методикам (согласно ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы испытаний. - М.: Госстандарт России, 1997 г. - 230 с.), которые показали, что применение данного способа позволяет повысить достоверность классификации сегментов зашумленной речи по группам фонем.

Сравнительный анализ работы прототипа и способа по п. 5 проиллюстрирован на фигурах 5-7 (не является исчерпывающим):

Пример классификации обрабатываемых сегментов на примере слова «КОКОШНИК»

Слово «кокошник»:

- орфографическая запись: кокошник;

- фонемная транскрипция: /к’ак’ошн’ик/;

- символьная транскрипция на основе признаков групп фонем:

NNOKOLEGIONN, где NN - наличие длительной паузы до и после произнесенного слова.

На фиг. 5 представлена работа прототипа и способа по пункту 5 в условиях отсутствия помех:

1) разметка речевого сигнала на аллофоны;

2) выявление классификационных признаков;

3) принятие решения по вопросу классификации сегментов по определенным группам: NNOKOLEGIONN.

Как видно из фигуры 5, прототип и способ по п. 5 обеспечивают высокую достоверность классификации в условиях отсутствия шумового воздействия.

На фигуре 6 представлена работа прототипа в условиях интенсивного зашумления (отношение сигнал/шум 0 дБ):

1) разметка речевого сигнала на аллофоны;

2) выявление классификационных признаков;

3) принятие решения по вопросу классификации сегментов по определенным группам: EEEEEEEEKELEGIBEEEEEEE.

Как видно из фиг. 6, прототип в условиях шумового воздействия высокой энергетики допускает ошибки при классификации сегментов по определенным группам фонем в связи с появлением у всех анализируемых сегментов множественных шумовых классификационных признаков.

На фигуре 7 представлена работа способа по пункту 5 в условиях шумового воздействия высокой энергетики (отношение сигнал/шум 0 дБ):

1) разметка речевого сигнала на аллофоны;

2) получение значений Фурье-спектра амплитуд из оценки биспектра речевого сигнала;

3) выявление классификационных признаков, важен момент выявления признака зашумления, который определяется в области частот нормированного Фурье-спектра амплитуд, лежащих выше диапазона речевого сигнала;

4) коррекция классификационных признаков:

а) ошибки, допущенные прототипом, отмечены как:

1, 5 - ошибка пропуска паузы,

2, 3, 4 - ошибка в классификации информационных символов в кодовом слове;

б) вычисление весовых коэффициентов:

иерархия, основанная на параметрах речевого сигнала и шума:

1, 5: r=0,95; t=0,95; s=0,97⇒R=0; Т=0; S=0.

2, 3, 4: r=1,85; t=0,95; s=0,97⇒R=1; T=0; S=0;

иерархия, основанная на статистических особенностях длительности различных фонем речевого сигнала:

2, 3, 4: W=0, так как длительность вокализации сегментов 8, 10, 15 ≈30 мс;

4) принятие решения по вопросу классификации сегментов по определенным группам: NNOKOLEGIONN

Как видно из фигуры 7, способ по п. 5 обеспечивает высокую достоверность классификации в условиях шумового воздействия высокой энергетики (отношение сигнал/шум 0 дБ).

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа классификации сегментов зашумленной речи, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности "новизна".

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Заявленное изобретение поясняется следующими фигурами:

фиг. 1 - таблица статистических особенностей длительности различных звуков речи;

фиг. 2 - таблица соответствия комбинаторных наборов классификационных признаков и весовых коэффициентов по определенным группам, 12 (двенадцать) из которых группы фонем и 1 (одна) группа, характеризующая паузу;

фиг. 3 - функциональная блок-схема устройства классификации сегментов зашумленной речи с использованием полиспектрального анализа;

фиг. 4 - график сравнительного анализа эффективности способов, предложенных в заявленном изобретении, прототипа и аналогов;

фиг. 5 - работа прототипа и способа по пункту 5 в условиях отсутствия помех;

фиг. 6 - работа прототипа в условиях интенсивного зашумления (отношение сигнал/шум 0 дБ);

фиг. 7 - работа способа по пункту 5 в условиях шумового воздействия высокой энергетики (отношение сигнал/шум 0 дБ).

Исходя из проведенной оценки эффективности предложенного способа согласно решению изобретательской задачи можно с уверенностью сказать, что предложенный способ позволяет осуществлять классификацию сегментов обрабатываемого зашумленного речевого сигнала в увеличенном на 7 дБ в диапазоне отношения сигнал/шум (предложенный в изобретении способ позволяет проводить правильную классификацию сегментов зашумленной речи при более малых отношениях сигнал/шум) со средним повышением достоверности правильной классификации примерно на 5.3%, следовательно задача заявленных изобретений достигнута.

1. Способ классификации сегментов зашумленной речи с использованием полиспектрального анализа, включающий последовательно исполняемые этапы, согласно которым осуществляют прием зашумленного речевого сигнала; выполняют аналого-цифровое преобразование с предустановленной частотой дискретизации и разделение на сегменты квазистационарности, вычисляют Фурье-спектры сегментов зашумленного речевого сигнала и нормализуют их; выделяют в нормализованном спектре амплитуд паузы, шумы и звуковые сигналы, далее производят классификацию сегментов по типовым группам, для чего определяют на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте наличие/отсутствие классификационных признаков, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти и сравнивают определенные комбинаторные наборы классификационных признаков сегмента с предустановленными параметрами групп фонем, одновременно формируют последовательности символов, обозначающих группы фонем, отличающийся тем, что используют аппарат полиспектрального анализа, а именно при оценке Фурье-спектра амплитуд речевого сигнала, получаемого через биспектр речевого сигнала, который синтезируют путем преобразования Фурье от тройной автокорреляционной функции на участке квазистационарности обрабатываемого зашумленного речевого сигнала, кроме того, на этапе принятия решения классификации обрабатываемого сегмента зашумленного речевого сигнала с отнесением к конкретной группе осуществляют коррекцию классификационных признаков групп с применением процедуры иерархии, для чего вводят весовые коэффициенты, основанные на внутрисимвольных и межсимвольных связях, как в кодовом слове, так и внутри каждого символа и получают их путем оценки статистических и параметрических особенностей как речевого сигнала, так и шума.

2. Способ по п. 1, отличающийся тем, что на этапе получения Фурье-спектров зашумленного речевого сигнала Фурье-спектры приближают к спектрам исходного речевого сигнала за счет частичного подавления гауссовой компоненты шумового воздействия на основе сечения речевого сигнала, представленного эргодическим квазистационарным случайным процессом, по кумулянту третьего порядка и далее восстанавливают Фурье-спектры непосредственно из биспектра обрабатываемого сегмента речевого сигнала.

3. Способ по п. 1, отличающийся тем, что при непосредственном процессе принятия решения классификации сегментов зашумленной речи к определенному классу групп фонем в условиях зашумления обрабатываемого речевого сигнала русской речи вводят процедуру иерархии, основанную на статистических особенностях длительности различных фонем русской речи, для чего вводят весовые коэффициенты классификационных признаков двенадцати групп фонем, основанные на рекурсивных связях внутри кодового слова, состоящего из символов, обозначающих группу фонем.

4. Способ по п. 1, отличающийся тем, что при непосредственном процессе принятия решения кластеризации сегментов зашумленной речи к определенному классу из двенадцати групп фонем и одной группы, характеризующей паузу, в условиях зашумления обрабатываемого речевого сигнала русской речи вводят процедуру иерархии, основанную на параметрических особенностях свойств шумов и речи, для чего вводят весовые коэффициенты классификационных признаков двенадцати групп фонем и одной группы, характеризующей паузу, основанные на рекурсивных связях внутри каждого символа, обозначающего группу фонем, кодового слова.

5. Способ по п. 1, отличающийся тем, что на этапе получения Фурье-спектров зашумленного речевого сигнала Фурье-спектры приближают к спектрам исходного речевого сигнала за счет частичного подавления гауссовой компоненты шумового воздействия на основе сечения речевого сигнала, представленного эргодическим квазистационарным случайным процессом, по кумулянту третьего порядка и далее восстанавливают Фурье-спектры непосредственно из биспектра обрабатываемого сегмента речевого сигнала, затем на этапе принятия решения классификации сегментов зашумленной речи к определенному классу групп фонем в условиях зашумления обрабатываемого речевого сигнала русской речи вводят процедуру иерархии, основанную на статистических особенностях длительности различных фонем русской речи, для чего вводят весовые коэффициенты классификационных признаков двенадцати групп фонем, основанные на рекурсивных связях внутри кодового слова, состоящего из символов, обозначающих группу фонем, при этом учитывают процедуру иерархии, основанную на параметрических особенностях свойств шумов и речи, для чего вводят весовые коэффициенты классификационных признаков двенадцати групп фонем и одной группы, характеризующей паузу, основанные на рекурсивных связях внутри каждого символа, обозначающего группу фонем, кодового слова.

6. Устройство классификации сегментов речи, включающее блок приема зашумленного речевого сигнала, последовательно соединенный с аналого-цифровым преобразователем, соединенным с блоком управления, блоком памяти и блоком определения классификационных признаков групп фонем для формирования последовательности символов, обозначающих группы фонем, выполненный с возможностью формирования по текущим комбинаторным сочетаниям классификационных признаков, присутствующих в зашумленном речевом сигнале соответствующей им последовательности символов, обозначающих группы фонем; записи кодового слова, размеченного по символам групп фонем и вызываемого из блока памяти, блоки коррекции сегментных классификационных признаков и блок принятия решения соединены с блоком управления, выполненным с возможностью управления режимами функционирования данных блоков, обмена информацией между ними и взаимодействия с блоком памяти, отличающееся тем, что введены блок сегментации речевого сигнала, учитывающий взаимное окно пересечения соседних сегментов по количеству отсчетов, соединенный с совокупностью блоков полиспектрального анализа, включающей блок корреляции третьего порядка, выход которого соединен с входом блока преобразования Фурье, выход которого соединен с входом блока восстановления Фурье-спектра амплитуд из оценки биспектра, выход которого соединен с входом блока определения сегментных классификационных признаков; также дополнительно введены блоки коррекции классификационных признаков, блоки параметрической и статистической иерархии и блок хранения кратковременных данных; кроме того, в блоке определения классификационных признаков групп фонем реализована процедура выявления шумового признака добавлением дополнительного полосового фильтра; введенные блоки соединены между собой множественными рекурсивными связями, учитывающими внутрисимвольную и межсимвольную связь в формируемой последовательности с выхода блока формирования последовательности символов.

7. Устройство по п. 6, отличающееся тем, что в блоке памяти предустановлены данные о комбинаторных наборах классификационных признаков и весовых коэффициентов двенадцати групп фонем и одной группы, характеризующей паузу в обрабатываемом речевом сигнале.

8. Устройство по п. 6, отличающееся тем, что блок определения классификационных признаков соединен с блоком коррекции классификационных признаков, связанным с блоками определения иерархии, путем введения взаимных рекурсивных связей при последовательно-параллельной обработке сегментов зашумленного речевого сигнала.

9. Устройство по п. 6, отличающееся тем, что блок хранения кратковременных данных связан с блоками параметрической и статистической иерархии и блоком принятия решения путем введения взаимных рекурсивных связей при последовательно-параллельной обработке сегментов зашумленного речевого сигнала.

10. Устройство по п. 6, отличающееся тем, что в блоке памяти предустановлены данные о комбинаторных наборах классификационных признаков и весовых коэффициентов двенадцати групп фонем и одной группы, характеризующей паузу в обрабатываемом речевом сигнале, кроме того, блок определения классификационных признаков соединен с блоком коррекции классификационных признаков, связанным с блоками определения иерархии, путем введения взаимных рекурсивных связей при последовательно-параллельной обработке сегментов зашумленного речевого сигнала, при этом блок хранения кратковременных данных связан с блоками параметрической и статистической иерархии и блоком принятия решения путем введения взаимных рекурсивных связей при последовательно-параллельной обработке сегментов зашумленного речевого сигнала.



 

Похожие патенты:

Изобретение относится к доступу и воспроизведению информации в компьютерной системе, а более конкретно к представлению данных на основе голосового ввода, осуществляемого пользователем.

Изобретение относится к технике обработки речевых сигналов оптическими методами и может быть использовано при распознавании сигналов для сокращения избыточности речевого потока при его вводе в вычислительную систему, работающую в режиме обмена с оператором на естественном языке.

Изобретение относится к области распознавания речи. Технический результат - обеспечение надежной оценки вариативности парольных фраз.

Изобретение относится к области распознавания речи. Техническим результатом является сокращение объема элементов памяти, необходимого для хранения предустановленного словаря, и снижение сложности вычислительного процесса распознавания.

Изобретение относится к медицине, а именно к биометрической идентификации и диагностике органов речевого аппарата. Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата состоит в том, что осуществляют регистрацию речевых сигналов, сегментацию речевых сигналов, вычисляют значения энергии информативной области, сравнивают вычисленное значение с пороговым и делают диагностическое заключение о стадии нестабильной работы органов речевого аппарата.

Изобретение относится к системам анализа речи, может быть использовано в средствах для распознавания и синтеза речи. Техническим результатом является повышение точности оценки частоты основного тона речевого сигнала.

Изобретение относится к способам контроля эффективности защиты речевого сигнала от утечки по техническим каналам. Технический результат заключается в повышении достоверности оценки защищенности речевой информации.

Изобретение относится к области информационных технологий, реализующих интерфейс между человеком и компьютером, а именно к сегментации (диаризации) или разделению дикторов в аудио-потоке.

Изобретение относится к способу использования распознавателей для обработки произнесения на основании документа на языке разметки. Технический результат заключается в ускорении процесса распознавания.

Изобретение относится к средствам распознавания эмоций человека по голосу. Технический результат заключается в повышении точности определения эмоционального состояния русскоязычного абонента.

Изобретение относится к технологиям распознавания речи, т.е. .

Изобретение относится к прогаммным приложениям распознавания голоса, более конкретно к способу управления характерными особенностями фразы посредством приложения распознавания голоса.
Наверх