Способ спектрального представления вокализованного речевого сигнала

Авторы патента:

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

1. СПОСОБ СПЕКТРАЛЬНОГО -ПРЕДСТАВЛЕНИЯ ВОКАЛИЗОВАННОГО РЕЧЕВОГО СИГНАЛА, включающий вьщеление огибающих колебаний в различных .частбтных полосах речевогосигнала, компрессирование сигналов выделенных огибающих, а .также формирование совокупности отсчетов амплитудного и фазового спектров электрического сигнала, отличающийся тем, что, с целью поЕЬШ1ения устойчивости к помехам и искажениям, при формировании совокупности отсчетов амплитудного и фазового спектров речевого сигнала формируют совокупность отсчетов амплитудных и фазовых спектров сигналов компрессированных огибающих и выделяют отсчеты амплитудного и фазового спектров, соответствующих частоте первой гармоники основного тона речи, которые характеризуют глубину модуляции полосных колебаний первой гармоникой основного тона речи, 2. Способ по п. 1, отличающийся тем, что для управления выделением отсчетов амплитудных и фазовых спектров, соответствующих частоте основного тона, попарно перемножают отсчеты амплитудных спект. ров, соответствующих разным полосам при одной частоте из диапазона частот основного тона, накапливают результаты переь1ножения для каждой из этих частот и выделяют ту частоту, которая соответствует наибольшему результату накопления и характеризует частоту основного тона речи. СО )

СОЮЗ СОВЕТСНИХ

СО@4АЛИСТИЧЕСНИХ

РЕСПУБЛИН (19) (111

3У11 G 10 L 1/00. ГОСУДАРСТВЕННЫЙ КОМИТЕТ СССР

ПО ДЕЛАМ ИЗОБРЕТЕНИЙ И ОТКРЫТИЙ

ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Н ABTOPCKOMY СВИДЕТЕЛЬСТВУ (21) 3523423/18-10 (22) 21. 12.82 (46) 30.08.84. Бюл. Ф 32 (72) Е.И. Кабанова и В.А. Махонин (71) Институт проблем передачи информации АН СССР (53) 534.782(088.8) (56) 1. Вокодерная телефония. Под ред. А.А. Пирогова. M., "Связь", 1974, с. 126-127.

2. De Mori R. et al "А Syntactic

Procedure for the Recognition of

Glottal Pulses in Continuos Speech"

Patteru Recognition, Pergamon Press, vol 9, рр. 181-189, 1977.

3. Патент США 1Ф 3681530, кл. 179-1,. 1972. (54)(57) 1. СПОСОБ СПЕКТРАЛЬНОГО

ПРЕДСТАВЛЕНИЯ ВОКАЛИЗОВАННОГО РЕЧЕВОГО СИГНАЛА, включающий выделение огибающих колебаний в различных .частотных полосах речевого сигнала, компрессирование сигналов выделенных огибающих, а .также формирование совокупности отсчетов амплитудного и фазового спектров электрического сигнала, отличающийся

1 тем, что, с целью повьш ения устойчивости к помехам и искажениям, при формировании совокупности отсчетов амплитудного и фазового спектров речевого сигнала формируют совокупность отсчетов амплитудных и фазовых спектров сигналов компрессированных огибающих и выделяют отсчеты амплитудного и фазового спектров, соответствующих частоте первой гармоники основного тона речи, которые характеризуют глубину модуляции полосных колебаний первой гармоникой основного тона речи.

2. Способ по и. 1, о т л ивЂ” ч а ю щ и " c я тем, что для управ- Е ления выделением отсчетов амплитудных и фазовых спектров, соответствую- %ФУ щих частоте основного тона, попарно С перемножают отсчеты амплитудных спект. ров, соответствующих разным полосам при одной частоте из диапазона частот основного тона, накапливают результаты перемножения для каждой из этих частот и выделяют ту частоту, которая соответствует наибольшему результату накопления и характеризует частоту основного тона речи.

1111199

Изобретение относится к приборостроению и может быть использовано для анализа, передачи и распознавания речи.

Известен способ спектрального 5 представления вокализованной речи, включающий выделение огибающих коле . бательных составляющих в совокупности спектральных полос и последующее суммирование этих огибающих $1) .

Недостатком этого способа является расфазированность огибающих, снижающая эффективность таких много-. канальных нелинейных преобразований, Известен также способ спектраль- 15 ного представления вокализованной речи с использованием логической обработки быстрых приращений компрессированных огибающих спектрополосных колебательных составляющих. Эту 20 логическую обработку осуществляет стохастический автомат, нечувствительность к шумам и искажениям сигнала достигается обучением автомата f2) .

Недостатком этого способа является необходимость доучивания автомата при смене канала и диктора., Наиболее близким по технической сущности к предлагаемому является 30 способ спектрального представления вокализованного речевого сигнала, включающий выделение и компрессирование огибающих колебательных компонент речевого сигнала в сово- З5 купности частотных полос и измерение амплитудного и фазового спектров

Этот способ обеспечивает разделение влияний характеристик канала и голосового источника, а также ослаб- 40 ление влияния искажений, вносимых каналом, на определение свойств звуков речи (3), Недостатком известного способа является неоднозначность выделения 45 параметров основного тона речи по кепстральным характеристикам, так как период основного тона проявляет-. ся на кепстре несколькими повторяющимися пиками, которые трудно 50 идентифицировать.

Цель изобретения вЂ” повышение устойчивости к помехам и искажениям спектрального представления вокализо. ванного речевого сигнала. 5S

Поставленная цель достигается тем, что согласно способу спектрального представления вокапизованного речевого сигнала, включающему выделение огибающих колебаний в различных частотных полосах речевого сигнала, компрессирование сигналов выделенных огибающих, а также формирование совокупности отсчетов амплитудного и фазового спектров речевого сигнала, при формировании совокупности отсчетов амплитудного и фазового спектров речевого сигна ла формируют совокупность отсчетов амплитудных и фазовых спектров сигналов компрессированных огибающих и выделяют отсчеты амплитудного и фазового спектров, соответствующих частоте первой гармоники основного тона речи, которые характеризуют глубину модуляции полосных колебаний первой гармоники основного тона речив

Кроме того, для управления выделением отсчетов амплитудных и фазовых спектров, соответствующих частоте основного тона речи, попарно перемножают отсчеты амплитудных спектров, соответствующих разным полосам при одной частоте из диапазона частот основного. тона, накапливают результаты перемножения для каждой из этих частот и выделяют ."ту частоту, которая соответствует наибольшему результату накопления и характеризует частоту основного тона речи.

Каждую:компрессированную полосную огибающую преобразуют как функцию времени, а затем отсчитывают значение ее спектров на частоте пер" вой гармоники основного тона. Логарифмические характеристики компрессоров обеспечивают выделение глубины амплитудной модуляции, которая нечувствительна к среднему уровню в полосе, чем обеспечивается нечувствительность к частотным искажениям речевого сигнала с точностью до разбиения на полосы.

Совокупность амплитудных спектров компрессированных огибающих полосных составляющих позволяет измерить основной тон речи без неоднозначнос-, тей выбора, свойственных известным способам. Компрессированные кроссспектры огибающих не повреждаются шумами при неперекрывающихся полосах.

Эти кросс-спектры;накапливают по ризличныМ парам полос для каждой предполагаемой фиксированной частоты основного тона. Наибольший результат накопления достигается на фиксиро3 1111 ванной частоте, ближайшей к первой гармонике основного тона. На этой фиксированной частоте выделяют амплитудные и фазовые спектральные составляющие. При этом фиксированные .частоты располагают в диапазоне час. тот основного тона, компрессированные ,огибающие фильтруют в полосе, совпа|дающей с этим диапазоном; устраненйе пульсаций вне этого диапазона 10 повышает текущую точность измерения указанных спектральных составляющих.

На чертеже схематически представлен пример осуществления предлагаемого способа на аналого-цифровом 15 првпроцессоре.

Формирование описания вокализованной речи, поступившей на вход препроцессора, начинают с выделения огибающих колебательных компонент 20 поступившего сигнала в совокупности частотных полос. Это выделение осуществляют в блоке 1 измерения амплитудных спектров, компрессирование .,выделенных огибающих осуществляют 25 в блоке 2 компрессирования, затем компрессированные огибающие фильтруют в полосе частот диапазона основного тона в блоке 3 фильтров. Далее измеряют амплитудный и фазовый спект- 30 ры каждой фильтрованной огибающей.

Эти измерения производят для всех частотйых полос в соответствующих блоках 4 и 5 измерения амплитудных и фазовых спектров. Число таких блоков равно числу полос, обычно для телефонного канала число частот199 ных полос составляет 15-20, число фиксированных тональных частот в диапазоне 75-300 Гц выбирают такого же порядка. Из совокупности значений текущих фазовых и амплитудных спектров, полученных по всем полосам, управляющими переключателями 6 вЂ” 9 выделяют спектральные составляющие, которые соответствуют частоте первой гармоники основного тона речи. Поиск этой частоты осуществляют в блоке 10 измерения частоты первой гармоники основного тона, где из совокупности амплитудных спектров по разным фиксированным тональным частотам и по разным частотным полосам формируют кросс-спектры, которые компрессируют, накапливают по всем сочетаниям пар полос при одинаковой фиксированной частоте и выбирают фиксированную частоту, соответствующую наибольшему результату накопления. Эту часто" ту, наиболее близкую к первой гармонике основного тона речи, выводят вместо со значениями текущих спектров на этой частоте. Таким образом, сформированное описание включает в себя амплитудный и фазовый спектры на выбранной фиксированной частоте и значение этой фиксированной частоты.

Использование предложенного способа обеспечивает возможность ввода речи в системы автоматического диалога человек вЂ” машина" при совме-. стном воздействии шумов и искажений в телефонном канале.

1111199

Составитель В., Суханов

Редактор С. Тимохина Техред M.Tenep

Корректор С. Шекмар

Филиал ППП "Патент", г. Ужгород, ул. Проектная, 4

Заказ 6317/41 Тираж 374 Подписное

ВНИИПИ Государственного комитета СССР по делам изобретений и открытий

113035, Москва, Ж-35, Раушская наб., д.. 4/5

Способ спектрального представления вокализованного речевого сигнала

Похожие патенты:

Синтезатор речи // 1084870

Спектрополосный анализатор для распознавания речевых команд // 1076938

Устройство для распознавания // 1030841

Периферийный процессор обработки сигналов // 1013969

Устройство для разделения сигналов тонального вызова и речи // 974403

Способ измерения периода формантных колебаний речевых сигналов // 964710

Анализатор амплитуд и частот формант речевого сигнала // 953658

Преобразователь речи в гелиево-кислородной смеси // 924744

Вокодер // 909676

Цифровой решетчатый фильтр синтезатора речи // 886760

Способ сжатия звуковой информации и система для его реализации // 2144222

Изобретение относится к области передачи и хранения акустической информации и может быть использовано при проектировании систем цифровой радиосвязи, радио и телевидения, телефонии, систем цифровой звукозаписи и звуковоспроизведения

Способ обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции // 2148277

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ) , и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии

Устройство обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции // 2159470

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ), и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии