Способ и устройство формирования гласных звуков речи из шумоподобных звуков пищеводного голоса

Авторы патента:

G10L13 - Синтезирование речи; текст для систем синтезирования речи, например речевого диапазона (электрические музыкальные инструменты G10H)

Владельцы патента RU 2320025:

Федеральное государственное образовательное учреждение высшего профессионального образования "Санкт-Петербургский государственный университет кино и телевидения" СПбГУКиТ (RU)

Изобретение предназначено для формирования из шумоподобных звуков пищеводного голоса людей без гортани звуков, похожих на звуки голоса здоровых людей. Технический результат - преобразование шумоподобных «гласных» звуков пищеводного голоса в гласные звуки с дискретным спектром гармоник, похожие на голос здорового человека. Для этого исходный сигнал демодулируют и корректируют полученную огибающую, которую перемножают на колебание с преобразованной мгновенной частотой, из входного сигнала выделяют сигналы согласных звуков речи, низкочастотную часть частотного диапазона, которую демодулируют, и спектральные составляющие возле частоты основного тона голоса, которые усиливают, дополняют сигналом, сопряженным по Гильберту, сопряженные сигналы перемножают, сигнал, сопряженный по Гильберту и ограниченный по амплитуде, суммируют с ограниченным по амплитуде сигналом, полученным в результате перемножения, и перемножают с ограниченным по амплитуде сигналом, содержащим спектральные составляющие возле частоты основного тона голоса, сигналы согласных звуков речи и преобразованные сигналы гласных звуков речи суммируют и формируют выходной речевой сигнал. 2 н.п. ф-лы, 1 ил.

Группа изобретений относится к области приборостроения и предназначена для формирования из шумоподобных "гласных" звуков пищеводного голоса людей без гортани гласных звуков речи, похожих на звуки голоса здоровых людей, для повышения качества звуков речи людей без гортани.

Как известно [1, с.26-27], любой гласный звук речи имеет спектр, состоящий в основном из гармоник колебания основного тона, причем наблюдаются максимумы (форманты) огибающей этого спектра, характерные для каждой гласной своими частотами формант [1, с.65]. В шумоподобных звуках пищеводного голоса людей без гортани сохраняются форманты, но отсутствуют и основной тон, и его гармоники.

Известен способ, позволяющий создавать звук, спектр которого содержит колебания основного тона и его гармоник, с помощью внешнего генератора механических колебаний. При этом источник механических колебаний вручную прижимают к подбородку или другой части артикуляционного тракта.

К причинам, препятствующим достижению требуемого технического результата при использовании известного способа, относится то, что внешний генератор не преобразует качество звучания звуков речи, а работает независимо от произносимых звуков, в том числе и в паузах между произнесенными звуками речи. При этом формируется речь очень низкого качества.

Наиболее близким способом того же назначения к заявленному в группе изобретений способу по совокупности признаков является способ, позволяющий отдельно преобразовывать мгновенную частоту звуковых сигналов и отдельно корректировать их огибающую, реализованный в устройстве по А.С. СССР. №714473.

Наиболее близким устройством того же назначения к заявленному устройству в группе изобретений является устройство по А.С. СССР №714473.

К причинам, препятствующим достижению требуемого технического результата при использовании известного способа и устройства для его осуществления, принятых за прототип, относится то, что для преобразования значений мгновенной частоты звукового сигнала необходимо:

- во-первых, выделить эту модулирующую функцию в виде пропорционального напряжения;

- во-вторых, преобразовать значения этого напряжения так, чтобы в результате частотной модуляции обеспечивался дискретный спектр нормального гласного звука (в простейшем случае мгновенная частота при этом может представлять собой сумму колебания с частотой основного тона и постоянной составляющей нужной величины);

- в-третьих, синтезировать по этой обработанной мгновенной частоте требуемый звуковой сигнал.

Сам по себе факт частотной демодуляции приводит к уменьшению помехоустойчивости сигнала как действие, обратное частотной модуляции, которая, как известно, позволяет получить выигрыш в помехоустойчивости. То есть отношение мощности полезного сообщения к мощности шума на выходе ЧМ демодулятора больше, чем то же отношение, но на входе приемника [2].

Другими словами, частотно-модулированный сигнал меньше искажается шумами в канале передачи, чем, например, сигналы с амплитудной модуляцией. Установлено [2], что мгновенная частота суммы сигнала и шума практически равна мгновенной частоте того колебания, которое больше по величине. В паузах звучаний в канале передачи кроме шума нет ничего. Поэтому на выходе частотного демодулятора мы получаем не только мгновенную частоту сигнала. На выходе частотного демодулятора мгновенные частоты сигнала и шума сменяют друг друга с частотой следования пауз, так как паузы являются неотъемлемой частью звуковых сигналов. Кроме того, за счет подавления слабого сигнала более сильно искаженными оказываются фрагменты сигналов при переходных процессах, а это не только начало и конец каждого звука, но иногда и самая его середина. Это объясняет заметные на слух искажения, возникающие у обработанных сигналов, и заметное понижение отношения сигнал/шум, что препятствует повышению качества звучания.

Сущность изобретения заключается в следующем.

Единая задача, на решение которой направлена заявляемая группа изобретений, заключается в повышении качества звучания речи людей без гортани.

Проведенные автором исследования [3] показали возможность повышения качества звучания речи людей без гортани.

Единый технический результат, который может быть получен при осуществлении группы изобретений, заключается в преобразовании шумоподобных "гласных" звуков пищеводного голоса в гласные звуки с дискретным спектром гармоник, похожие на голос здорового человека.

Указанный единый технический результат при осуществлении группы изобретений по объекту - способу достигается тем, что, как и в известном способе, исходный сигнал шумоподобного "гласного" звука дополняют сигналом, сопряженным с ним по Гильберту, выделяют их общую огибающую, определяя квадратный корень суммы квадратов каждого из пары сопряженных по Гильберту сигналов, которая корректируется и умножается на колебание с преобразованной мгновенной частотой, но в отличие от прототипа непреобразуемую и преобразуемую части частотного диапазона выделяют из входного сигнала соответственно широкополосным полосовым фильтром и фильтром низких частот, имеющими одну общую граничную частоту, из преобразуемой части узкополосным полосовым фильтром выделяют спектральные составляющие возле желаемой частоты основного тона голоса, усиливают, дополняют сигналом, сопряженным с ним по Гильберту, эту пару сопряженных сигналов перемножают, а сигнал произведения и каждый из этой пары сопряженных сигналов ограничивают по амплитуде, ограниченный сопряженный по Гильберту сигнал складывают с ограниченным сигналом произведения и перемножают с ограниченным сигналом, содержащим спектральные составляющие возле желаемой частоты основного тона, чем формируется колебание с преобразованной мгновенной частотой, которое после перемножения с корректированной огибающей складывают с непреобразованной частью, и тем формируют выходной сигнал.

В качестве примера реализации заявляемого способа предлагается устройство.

Указанный единый технический результат при осуществлении изобретения достигается тем, что известное устройство, которое включает в себя первый фазовращатель, реализующий преобразование Гильберта, демодулятор огибающей, состоящий из двух квадратичных детекторов, сумматора и блока извлечения квадратного корня, цепь коррекции огибающей и два перемножителя, дополнительно снабжено фильтром низких частот, широкополосным полосовым фильтром, двумя сумматорами, узкополосным полосовым фильтром, усилителем сигнала, вторым фазовращателем, третьим перемножителем и тремя ограничителями, причем входы трех фильтров соединены с входом устройства, выход фильтра низких частот соединен с входом первого фазовращателя, два выхода которого соединены с входами квадратичных детекторов, выходы которых соединены с входами сумматора в демодуляторе огибающей, а выход последнего - с входом блока извлечения квадратного корня, выход которого через цепь коррекции соединен с первым входом первого перемножителя, выход которого соединен с первым входом первого сумматора, второй вход которого соединен с выходом широкополосного полосового фильтра, а выходом первого сумматора образован выход устройства; выход узкополосного полосового фильтра соединен через усилитель сигнала со входом второго фазовращателя, два выхода которого соединены со входами второго перемножителя, выход которого и два выхода второго фазовращателя соединены с входами трех ограничителей амплитуды соответственно, причем выходы первого и второго ограничителей соединены с входами второго сумматора, выход которого соединен с первым входом третьего перемножителя, второй вход которого соединен с выходом третьего ограничителя, а выход - со вторым входом первого перемножителя.

Проведенный заявителем анализ уровня техники, включающий поиск по патентам и научно-техническим источникам информации, позволил установить, что заявителем не обнаружен аналог как для способа, так и для устройства, характеризующийся признаками, идентичными всем существенным признакам как способа, так и устройства заявленной группы изобретений, а определение из числа выявленных аналогов прототипа, как наиболее близкого по совокупности признаков, позволило определить совокупность существенных по отношению к техническому результату признаков в заявленном объекте, изложенных в формуле изобретения.

Следовательно, каждый из объектов заявленной группы изобретений соответствует требованию "новизна" действующего законодательства.

Для проверки соответствия заявленного изобретения требованию изобретательского уровня заявителем проведен дополнительный поиск известных решений с целью выявления признаков, совпадающих с признаками, отличительными от прототипа, результаты которого показали, что каждый из объектов изобретения не следует для специалиста явным образом из известного уровня техники, поскольку из уровня техники, определенного заявителем, не выявлено влияние предусматриваемых существенными признаками заявленного изобретения преобразований на достижение технического результата.

Следовательно, заявленное изобретение соответствует требованию "изобретательский уровень" действующего законодательства.

На чертеже представлена структурная схема заявляемого устройства, где 1 - широкополосный полосовой фильтр; 2 - фильтр низких частот; 3 - узкополосный полосовой фильтр; 4, 8 - фазовращатели; 5 - усилитель сигнала; 6, 7 - квадратичные детекторы; 9 - сумматор в демодуляторе огибающей; 10, 12, 15 - амплитудные ограничители; 11, 17, 18 - перемножители; 13 - блок извлечения квадратного корня; 14, 19 - сумматоры; 16 - блок коррекции огибающей.

Сведения, подтверждающие возможность осуществления изобретения с получением вышеуказанного технического результата, заключаются в следующем.

Проведенные исследования [3] показали, что в шумоподобных звуках пищеводного голоса людей без гортани сохраняются форманты, но отсутствуют и основной тон, и его гармоники. Там же было установлено, что гильбертова огибающая речевых сигналов содержит информацию о положении формант на оси частот.

Покажем, как работает предлагаемое устройство, реализующее заявленный способ.

Предлагаемое устройство работает следующим образом.

Примем в качестве математической модели входного сигнала

где S(t) - огибающая, то есть модулирующая функция, которая определяет в каждый момент времени амплитуду сигнала, x(t) - текущая фаза, которая равна

то есть текущая фаза представляет собой функцию мгновенной частоты ω(t), которая определяет частотные свойства реальных звуковых сигналов.

Входной сигнал (1) разделяется фильтрами на низкочастотную часть

и высокочастотную часть

Низкочастотная часть входного сигнала выделяется фильтром низкой частоты (2 на чертеже), верхняя граничная частота которого равна 2 кГц. Выбор верхней граничной частоты обусловлен тем, что для узнаваемости гласных важны две низкочастотные форманты, частоты которых не превышают 2 кГц [1, с.66]. Высокочастотная часть входного сигнала, в которой располагается в основном энергия спектральных составляющих согласных звуков речи, выделяется широкополосным полосовым фильтром (1 на чертеже), нижняя граничная частота которого равна 2 кГц.

Низкочастотная часть дополняется сопряженным по Гильберту сигналом с помощью первого фазовращателя (4 на чертеже), то есть на одном выходе первого фазовращателя появляется сигнал (3), а на втором выходе - сигнал:

Огибающая S_нч(t) определяется по известной формуле:

Для реализации формулы (6) сигналы (3) и (5) возводятся в квадрат с помощью двух квадратичных детекторов (6 и 7 на чертеже), суммируются (9 на чертеже) и из этой суммы извлекается квадратный корень (13 на чертеже). Огибающая корректируется (16 на чертеже) линейными и нелинейными цепями индивидуально для улучшения качества звучания голоса.

Для создания из шумоподобного "гласного" звука пищеводного голоса со сплошным спектром сигнала с дискретным спектром, характерным для гласного звука здорового человека, из преобразуемой области частот (то есть речь идет об области частот, ограниченной сверху частотой 2 кГц) узкополосным полосовым фильтром (3 на чертеже) выделяют спектральные составляющие возле желаемой частоты основного тона голоса.

При этом частоту настройки узкополосного полосового фильтра определяют индивидуально. Ее меняют, подбирая высоту основного тона голоса "на слух", ориентируясь на желание владельца голоса. Полученный сигнал усиливают (5 на чертеже) и получают почти гармоническое колебание, математическая модель которого может быть использована в данном случае в следующем виде:

На выходах второго фазовращателя (8 на чертеже) формируются сигнал (7) и сигнал, сопряженный с ним по Гильберту:

В результате перемножения (11 на чертеже) сигналов (7) и (8) формируется сигнал удвоенной частоты:

После амплитудного ограничения сигнала (8) на выходе первого ограничителя (10 на чертеже) формируется сигнал, имеющий следующий спектр:

где n=1, 2, 3 ....

После амплитудного ограничения сигнала (9) на выходе второго ограничителя (15 на чертеже) формируется сигнал, имеющий следующий спектр:

где n=1, 2, 3 ....

После амплитудного ограничения сигнала (7) на выходе третьего ограничителя (12 на чертеже) формируется сигнал, имеющий следующий спектр:

где n=1, 2, 3 ....

После сложения сигналов (10) и (11) во втором сумматоре (14 на чертеже) и перемножения полученной суммы и сигнала (12) третьим перемножителем (17 на чертеже) получим сигнал, спектр которого содержит бесконечно много гармоник колебания основного тона, а его математическая модель может быть в первом приближении записана следующим образом:

где n=1, 2, 3 ....

Колебание (13) перемножается первым перемножителем (18 на чертеже) с сигналом корректированной огибающей, в результате чего в спектре сигнала на выходе первого перемножителя появляются форманты соответствующего гласного звука. На выходе первого перемножителя заканчивается формирование из шумоподобных "гласных" звуков пищеводного голоса людей без гортани гласных звуков речи, имеющих, как и звуки голоса здоровых людей, дискретный спектр, состоящий из гармоник основного тона.

В первом сумматоре (19 на чертеже) складываются сигналы согласных звуков речи, выделяемые из входного сигнала широкополосным полосовым фильтром (1 на чертеже), и преобразованные сигналы гласных звуков, поступающие с выхода первого перемножителя (18 на чертеже), чем формируется выходной речевой сигнал, который имеет более высокое качество звучания, чем исходный сигнал с шумоподобными "гласными" звуками.

Таким образом, вышеизложенные сведения свидетельствуют о выполнении при использовании заявленного изобретения следующих условий:

- средство, воплощающее заявленное изобретение при его осуществлении, предназначено для использования с целью улучшения качества звуков речи людей без гортани;

- для заявленного изобретения, в том виде, как оно охарактеризовано в формуле изобретения, подтверждена возможность его осуществления с помощью вышеописанных в заявке или известных до даты приоритета средств и методов.

Следовательно, заявленное изобретение соответствует требованию "промышленная применимость" по действующему законодательству.

Литература

1. Сапожков М.А. Речевой сигнал в кибернетике и связи. - М.: Связь, 1963. - 452 с.

2. Виницкий А.С. Модулированные фильтры и следящий прием ЧМ. - М.: Советское радио, 1969. - 548 с.

3. Уваров В.К. Точное компандирование частотного и динамического диапазонов звуковых сигналов. - СПб.: СПбГУКиТ, 2002. - 326 с.

1. Способ формирования гласных звуков речи из шумоподобных звуков пищеводного голоса, при котором входной сигнал демодулируют и корректируют полученную огибающую, которую перемножают на колебание с преобразованной мгновенной частотой, отличающийся тем, что из входного сигнала выделяют фильтром низких частот низкочастотную часть частотного диапазона, которую демодулируют, из входного сигнала выделяют широкополосным полосовым фильтром сигналы согласных звуков речи из входного сигнала узкополосным полосовым фильтром выделяют спектральные составляющие возле частоты основного тона голоса, которые усиливают, дополняют сигналом, сопряженным по Гильберту, сопряженные сигналы перемножают и сигнал, полученный в результате перемножения, и сопряженные сигналы ограничивают по амплитуде, ограниченный по амплитуде сигнал, сопряженный по Гильберту, суммируют с ограниченным по амплитуде сигналом, полученным в результате перемножения, и перемножают с ограниченным по амплитуде сигналом, содержащим спектральные составляющие возле частоты основного тона голоса, при этом формируют колебание с преобразованной мгновенной частотой, в виде преобразованных сигналов гласных звуков речи, причем сигналы согласных звуков речи и преобразованные сигналы гласных звуков речи суммируют и формируют выходной речевой сигнал.

2. Устройство для формирования гласных звуков речи из шумоподобных звуков пищеводного голоса, содержащее демодулятор, выход которого через блок коррекции соединен с одним из входов первого перемножителя, отличающееся тем, что оно снабжено фильтром низких частот, широкополосным полосовым фильтром, узкополосным полосовым фильтром, усилителем, двумя сумматорами, фазовращателем, двумя перемножителями и тремя ограничителями, причем входы фильтра низких частот, широкополосного полосового фильтра, узкополосного полосового фильтра являются входом устройства, выход фильтра низких частот соединен с входом демодулятора, выход первого перемножителя соединен с первым входом первого сумматора, второй вход которого соединен с выходом широкополосного полосового фильтра, а выход первого сумматора является выходом устройства, выход узкополосного полосового фильтра соединен через усилитель со входом фазовращателя, два выхода которого соединены со входами второго перемножителя, выход которого и два выхода фазовращателя соединены с входами соответствующих ограничителей по амплитуде, причем выходы первого и второго ограничителей по амплитуде соединены со входами второго сумматора, выход которого соединен с первым входом третьего перемножителя, второй вход которого соединен с выходом третьего ограничителя по амплитуде, а выход со вторым входом первого перемножителя.

Изобретение относится к области синтеза речи из текста. .

Способ компиляционного фонемного синтеза русской речи и устройство для его реализации // 2298234

Изобретение относится к речевой информатике и приборостроению для синтеза речевых сообщений по тексту в системах акустического общения человека с автоматам. .

Способ и система динамической адаптации синтезатора речи для повышения разборчивости синтезируемой им речи // 2294565

Способ обнаружения и коррекции ложных импульсов при передаче речи методом импульсно-кодовой модуляции // 2191434

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линии связи методом ИКМ. .

Способ преобразования речи и устройство для его осуществления // 2166804

Изобретение относится к средствам цифрового кодирования речевых сигналов и предназначено для их компактного представления в целях передачи и хранения. .

Устройство обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции // 2159470

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ), и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии.

Передающая система на принципах различного кодирования // 2144261

Изобретение относится к радиотехнике и связи и может быть использовано в системах передачи и приема речевых и музыкальных сигналов. .

Устройство для воспроизведения речевых сигналов // 1689985

Изобретение относится к речевой информатике и может быть использовано при синтезе речи электромеханическими средствами . .

Способ компиляционного синтеза речи и устройство для его осуществления // 1683063

Устройство для синтеза речи // 1606994

Изобретение относится к речевой информатике и может быть использовано в системах взаимодействия человека и компьютера. .

Преобразование буквы в звук для синтезированного произношения сегмента текста // 2320026

Изобретение относится к области синтезирования речи из текста

Способ микширования речевых сигналов абонентов при проведении voip-конференций // 2341907

Способ предварительной обработки текста // 2386178

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи, аннотировании баз данных, а также при автоматическом синхронном переводе с языка на язык и других областях знаний

Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом // 2393548

Изобретение относится к радиотехнике и может быть использовано в качестве системы воспроизведения караоке

Способ синтеза речи // 2421827

Устройство для выполнения речевого воспроизведения текста и способ для него // 2425330

Изобретение относится к устройствам для выполнения речевого воспроизведения текста (TTS) в автомобильных спутниковых навигационных системах

Бортовое устройство речевого оповещения и коммутации // 2432622

Изобретение относится к области приборостроения, в частности к устройствам преобразования речевых сигналов, а более конкретно к синтезаторам речевых сообщений, и может быть использовано в авиационной технике, телефонии, системах связи и оповещения, вычислительной технике

Способ автоматизированной обработки текста и компьютерное устройство для реализации этого способа // 2460154

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи и других технических областях, в которых требуется обработка текстовой информации средствами вычислительной техники

Устройство на основе личности // 2471251

Изобретение относится к мобильным устройствам

Сеть связи и устройства для преобразования текста в речь и текста в анимацию лица // 2488232

Изобретение относится к области сетей связи и устройств для приема и отправки сообщений через сети связи, а именно к предоставлению пользователю анимированного изображения лица отправителя сообщения