Способ синтеза речи

Авторы патента:

G10L13/02 - способы синтезирования речи; синтезаторы речи

Изобретение относится к технике синтеза речевой информации, выводимой из ЭВМ, и может быть использовано в информаторах - синтезаторах на транспорте, связи, измерительных и технологических комплексах. Цель изобретения - повышение разборчивости синтезированной речи и скорости синтеза речи по тексту путем компиляции фразментов заранее записанных сигналов гласных и открытых слогов типа согласный - гласный (СГ - слоги) за счет подавления помех, возникающих на стыках фрагментов, а также за счет формирования фрагментов из последующих гласных только в сочетаниях согласных и для конечных согласных из СГ - слогов, что позволяет экономить число операций при преобразовании текста в последовательность фрагментов СГ - слогов и отдельных гласных и тем самым позволяет повысить скорость синтеза речи. Подавление помех и искажений на стыках фрагментов, приводящее к повышению разборчивости, достигается тем, что при воспроизведении фрагментов убавляют уровни громкости краев соединяемых фрагментов. Формирование фрагментов при синтезе групп согласных осуществляют путем последовательного считывания фрагмента СГ - слога, образованного согласным, входящим в эту группу, и последующим гласным. Для конечных согласных в качестве последующего гласного берут нейтральный гласный.

СОЮЗ СОВЕТСКИХ

СОЦИАЛИСТИЧЕСКИХ

РЕСПУБЛИК 5р 4 G 10 L 5/02

ОПИСАНИЕ ИЗОБРЕТЕНИЯ

К А BTOPCKOMY СВИДЕТЕЛЬСТВУ

2 ласный - гласный (СГ - слоги) за счет подавления помех, возникающих на стыках фрагментов, а также за счет формирования фрагментов из последующих гласных только в сочетаниях согласных и для конечных согласных из СГслогов, что позволяет экономить число операций при преобразовании текста в последовательность фрагментов СГ слогов и отдельных гласных и тем самым позволяет повысить скорость синтеза речи ° Подавление помех и искажений на стыках фрагментов, приводящее к повышению разборчивости, достигается тем, что при воспроизведении фрагментов убавляют уровни громкости краев соединяемых фрагментов. Формирование фрагментов при синтезе групп согласных осуществляют путем последовательного считывания фрагмента

СГ - слога, образованного согласным, входящим в эту группу, и последующим гласным. Для конечных согласных в качестве последующего гласного берут нейтральный гласный. 1 ил. (54) СПОСОБ СИНТЕЗА РЕЧИ

На чертеже показана блок-схема реализации предлагаемого синтеза речи.

Текстовый процессор 1 соединен шинами 2 передачи данных с адресным ПЗУ

3 и шиной 4 передачи данных с выходным преобразователем 5. ПЗУ 3 соединено шиной 6 передачи данных с блоком

7 формирования фрагментов согласныхгласных (СГ) слогов и отдельных гласГОСУДАРСТВЕННЫЙ КОМИТЕТ

ПО ИЗОБРЕТЕНИЯМ И ОТКРЫТИЯМ

ПРИ ГКНТ СССР

1 (21) 4320578/24-10 (22) 23.10.87 (46) 23.12.89. Бюл. N 47 (71) Институт проблем передачи информации АН СССР (72) И.А.Орлов (53) 534.782 (088.8) (56) Заявка Японии H 62-39753, кл. С 10 L 5/04, опублик. 25.08.87.

Авторское свидетельство СССР

М 1075300, кл. G 1О L 1/06, 21.12.82, (57) Изобретение относится к технике синтеза речевой информации, выводимой из ЭВМ, и может быть использовано в информаторах - синтезаторах на транспорте, связи, измерительных и технологических комплексах. Цель изобретения - повышение разборчивости синтезированной речи и скорости синтеза речи по тексту путем компиляции фрагментов заранее записанных сигналов гласных и открытых слогов типа согИзобретение относится к речевой информатике, предназначено для компиляции речевых сообщений, выводимых из ЭВМ, и может быть использовано для воспроизведения речевых инструкций операторами на транспорте и связи .

Цель изобретения - повышение разборчивости синтезированной речи и скорости синтеза.

„,SU„„1531133 А 1

1531133 ных, шиной 8 передачи данных с ОЗУ 9 состояний, которое соединено шиной

10 передачи данных с ПЗУ 3. Блок 7 соединен шиной 11 передачи адресов с

ПЗУ 12 данных и шиной 13 передачи данных с преобразователем 5 ° ПЗУ 12 соединено шинами 14 и 15 передачи данных с модулятором 16, выход которого соединен с шиной 17 передачи данных с блоком

7. Преобразователь 5 нагружен на громкоговоритель 18, который является Bbl ходом устройства.

В ПЗУ 12 хранят сигналы базовых элементов СГ-слогов и отдельных глас15 ных и сигналы модулирующей огибающей, изменяющейся монотонно в диапазоне от 0 до "1". Последовательность знаков входного текста синтезируемого сообщения подают на вход текстового процессора 1. Последний осуществляет членение текста на синтагмы, т.е. на последовательность знаков текста, которую воспроизводят слитно, а также выбирает просодические характеристики для каждой такой синтагмы. Процессор 1, кроме того, осуществляет фонетическую транскрипцию текста синтагмы и размечает текст синтагмы на СГ-слоги, на согласные, входящие в сочетания согласных открытых слогов, но не входящие в СГ-слоги, на отдельные гласные и на конечные согпасные. Всем открытым слогам текста синтагмы процессор 1 присваивает знак положения относительно 35 ударной позиции в слове, Оттранскрибированный текст синтагмы вместе с сопровождающими знаками, индицирующими принадлежность каждого символа текста СГ-слогу или сочетанию соглас- 40 ных в открытом слоге, или отдельному гласному, или конечному согласному, и знаками, индицирующими положение открытого слога относительно ударной

45 позиции в слове, процессор 1 направляет на свой выходной порт.

Передачу знаков текста синтагмы вместе с сопровождающей информацией, выделенной в процессоре 1, осуществляют по шине 2 данных в ПЗУ 3 в обратной последовательности относительно исходного текста синтагмы. Последовательность знаков текста синтагмы вместе с дополнительными знаками поступает по шине 2 передачи данных, 55 как последовательность значений адресов, на входной поот адресного ПЗУ который выполнен с четырьмя входными регистрами. На первый регистр поступает текущий знак текста синтагмы, на второй регистр вЂ” знак, индицирующий принадлежность каждого символа текста синтагмы к СГ-слогу или сочетанию согласных в открытом слоге, или отдельному гласному, или конечному согласному. На третий регистр поступает знак, индицирующий положение открытого слога относительно ударной позиции в слове. Эти знаки поступают по шине 2 передачи данных из процессора 1. На четвертый регистр поступает знак текущего гласного по шине 10 передачи данных от

ОЗУ 9.

Все четыре регистра образуют адресный регистр ПЗУ 3. По текущему значению адреса s этом объединенном адресном регистре выбирают ячейку в ПЗУ которая 3 содержит начальный адрес соответствующего СГ-слога или отдельного гласного в ПЗУ 12, начало фрагмента СГ-слога или отдельного гласного относительно этого начального адреса, длину этого фрагмента в отсчетах и текущий гласный. Кроме того, ячейка содержит знак хранения данных.

Знак текущего гласного по шине 8 данных поступает в ОЗУ 9 и изменяет предыдущее значение текущего гласного на новое. Остальное содержимое выбранной ячейки ПЗУ 3 переходит по шине 6 передачи данных в блок 7, где

его заносят в буферный массив памяти, если это содержимое сопровождается знаком хранения данных. Ячейки ПЗУ 3 имеют содержание, которое учитывает все возможные сочетания знаков во всех четырех регистрах входного порта ПЗУ

3. Таким путем из текста синтагмы получают последовательность адресов фрагментов СГ-слогов и отдельных гласных.

Когда встречаются сочетания согласных, то иэ них получают также последовательность фрагментов СГ-слоroB, образованных каждым согласным и текущим гласным, но длительность фрагмента гласного в таком СГ-слоге является минимальной. Полученную для всей синтагмы последовательность адресов фрагментов СГ-слогов и отдельных гласных с соответствующими параметрами по шине 11 передачи адресов считывают из ПЗУ 12 в обратной последовательности и по шине 14 передачи данных отправляют на первый

5 1531133 б

15 вход модулятора 16. Отсчеты модулирующей огибающей иэ ПЗУ 12 отправляют по шине 15 передачи данных на вто. рой вход модулятора 16. В последнем на краях каждого фрагмента СГ-слога ,или отдельного гласного на длине окна сглаживания модулируют громкость фрагмента отсчетами модулирующей огибающей, изменяющейся монотонно от

"О" до " 1" в начале фрагмента и от

"1" до "0" в конце фрагмента. Иэ модулятора 16 фрагменты СГ-слогов и отдельных гласных по шине 17 передачи данных пересылают в блок 7, где их объединяют по мере поступления в непрерывную последовательность отсчетов и с заданной тактовой частотой пересылают по шине 13 передачи данных в преобразователь 5. По шине 4 передачи данных из процессора 1 в преобразователь 5 поступают знаки просодии синтагмы, Преобразователь 5 управляет просодическими параметрами фрагмента по з на ка м просодии и преобра зует отсчеты сигналов последовательности фрагментов СГ-слогов и отдельных гласных в речевой сигнал, который поступает в громкоговоритель 18, являющийся выходом устройства и соединенный с преобразователем 5.

Предлагаемый способ синтеза речи позволяет повысить разборчивость синтезированной речи за счет подавления звуковых помех на стыках фрагментов путем монотонного уменьшения громкости фрагментов до "0" на длине окна сглаживания на краях фрагмента. Формирование согласных с переходными фрагментами иэ последующих гласных только в сочетаниях согласных звуков путем выбора соответствующеro фрагмента СГ-слога, образованного сог25

40 ласным и последующим гласным, отвечает законам коартикуляции, улучшает восприятие согласных и также повышает за счет этого разборчивость синтезированной речи, а кроме того, сокращает число операций по получению из текста синтагмы последовательности фрагментов СГ-слогов и отдельных гласных с соответствующими параметрами, что позволяет повысить скорость синтеза речи.

Этот способ синтеза речи может применяться в синтезаторах-информаторах на транспорте, в технологических и измерительных комплексах, в связи, в обучающих устройствах, в терминалах ЭВМ.

Формула изобретения

Способ синтеза речи по тексту путем компиляции фрагментов заранее записанных сигналов гласных и открытых слогов типа согласный-гласный, отличающийся тем, что, с целью повышения разборчивости синтезированной речи и скорости синтеза, при воспроизведении убавляют уровни громкости краев соединяемых фрагментов, а при синтезе групп согласных для каждого согласного звука, кроме последнего, воспроизводят согласный с переходным фрагментом путем последовательного считывания фрагмента слога, составленного из этого согласного и последующего гласного, причем для синтеза конечных согласных воспроизводят согласный с переходным фрагментом путем последовательного считывания фрагмента .слога, составленного иэ этого согласного и нейтрального гласного.

1531133

Составитель В.Махонин

ТехредМ.Ходанич Корректор Э.Лончакова

Редактор М.Бланар

Заказ 7959/52 Тираж 343 Подписное

ВНИИПИ Государственного комитета по изобретениям и открытиям при ГКНТ СССР

113035, Москва, Ж-35, Раушская наб., д. 4/5

Производственно-издательский комбинат "Патент", r Ужгород, ул.Гагарина,101

Изобретение относится к речевой информатике и может быть использовано в вычислительной технике и технике связи для выделения и реконструкции речевых сообщений

Устройство для воспроизведения звуковых сообщений // 1456991

Устройство для синтеза речи // 1451762

Изобретение относится к речевой информатике и может быть использовано в системах речевого взаимодействия человека с ЭВМ

Способ синтеза речевых сигналов и устройство для его осуществления // 1408450

Цифровой синтезатор речи // 1297098

Изобретение относится к технике обработки сигналов для речевой информатики и синтеза речевых сообщений для абонентов телефонных связей.Цель изобретения - повышение качества звучания речи, синтезируемой под контролем компьютера, обслуживающего сеть цифровых абонентских синтезаторов речи

Устройство для формирования сигналов управления синтезом речи // 1152028

Синтезатор речи // 1084870

Цифровой синтезатор речи // 1080198

Способ формирования сигналов управления синтезом речи и устройство для его осуществления // 1043737

Цифровой синтезатор речи // 993315

Передающая система на принципах различного кодирования // 2144261

Изобретение относится к радиотехнике и связи и может быть использовано в системах передачи и приема речевых и музыкальных сигналов

Устройство обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции // 2159470

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ), и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии

Способ преобразования речи и устройство для его осуществления // 2166804

Изобретение относится к средствам цифрового кодирования речевых сигналов и предназначено для их компактного представления в целях передачи и хранения

Способ обнаружения и коррекции ложных импульсов при передаче речи методом импульсно-кодовой модуляции // 2191434

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линии связи методом ИКМ

Устройство на основе личности // 2471251

Изобретение относится к мобильным устройствам

Способ компиляционного синтеза речи // 1599888

Изобретение относится к речевой информатике

Устройство для синтеза речи // 1606994

Изобретение относится к речевой информатике и может быть использовано в системах взаимодействия человека и компьютера

Способ компиляционного синтеза речи и устройство для его осуществления // 1683063

Устройство синтеза речи // 2606312

Изобретение направлено на формирование речевого сигнала с заданными характеристиками. Технический результат заключается в повышении естественности, разборчивости речи и ее эмоциональной окраски при генерации речевого сигнала при уменьшении вычислительной сложности за счет усовершенствования структуры элементов системы синтеза речи и разделения используемых баз данных. Устройство синтеза речи на основе текста, содержит блок, принимающий текстовую строку и формирующий из нее последовательность идентификаторов звуковых единиц, подаваемую в блок формирования звукового сигнала, а затем в блок воспроизведения. В блок формирования звукового сигнала параллельно подаются дополнительные команды управления, вырабатываемые из сформированной последовательности идентификаторов звуковых единиц блоком формирования управляющих команд, зависящих от языка, блоком формирования управляющих команд, зависящих от моделируемых параметров диктора, а именно параметров голоса и/или его физических и физиологических параметров, и блоком формирования управляющих параметров окраса голоса, настроенных на определенное психофизиологическое состояние, предназначенных для формирования управляющих параметров для коррекции интенсивности речевого сигнала. 1 з.п. ф-лы, 1 ил.