Способ компиляционного фонемного синтеза русской речи и устройство для его реализации

Изобретение относится к речевой информатике и приборостроению для синтеза речевых сообщений по тексту в системах акустического общения человека с автоматам. Состав элементов компиляции акустической базы данных согласная-гласная (СГ-слоги) и гласная-согласная (ГС-слоги), отдельные гласные и согласные. Способы их соединения: непосредственное соединение либо микширование для фонемосочетаний вида согласная-гласная-согласная-согласная (...СГСС...) и согласная-гласная-согласная конечная (...СГСконечная). Устройство для компиляционного фонемного синтеза русской речи, содержащее текстовый процессор, соединенный с акустической базой данных и блоком формирования звукового сигнала, который соединен с блоком воспроизведения, блока формирования СГС, вход которого соединен с соответствующими выходами акустической базы данных и текстового процессора, а выход соединен с входом блока формирования звукового сигнала. Технический результат - повышение естественности речи и скорости синтеза по тексту за счет совершенствования структуры элементов компиляции и использования способа соединения их с учетом фонетических особенностей русского языка. 2 н.п. ф-лы, 2 ил.

 

Изобретение относится к речевой информатике и приборостроению для синтеза речевых сообщений по тексту в системах акустического общения человека с автоматами.

Известен способ синтеза речи по тексту путем компиляции фрагментов заранее записанных сигналов гласных и открытых слогов типа согласный-гласный (СГ-слоги) и формирования фрагментов из последующих гласных только в сочетаниях согласных из СГ-слогов и для конечных согласных из нейтральных СГ-слогов, а также за счет уменьшения громкости краев фрагментов, соединяемых при воспроизведении [1].

Недостатком этого способа является то, что при формировании сочетания фонем вида согласная-гласная-согласная (СГС) между гласной и согласной нет естественного перехода, что снижает качество синтезированной речи.

Из известных наиболее близким по сущности является способ компиляционного синтеза речи, основанный на стыковке фрагментов фонограмм заранее записанных дифонов (80-120 мс) и протяжных гласных звуков, которые вводят на 20-40 мс перед предударными дифонами и на 40-60 мс перед ударными [2].

Недостатком способа является наличие двух разрывов при вставке стационарных гласных между дифонами в сочетаниях фонем вида согласная-гласная-согласная (СГС), а также гласная при этом формируется соединением 3-х различных звуковых единиц, что ведет к ухудшению качества речи и снижению скорости синтеза.

Известно устройство, описанное в [2], которое осуществляет ввод текста с дополнительными знаками ударений в тестовый процессор, соединенный с постоянными раздельными запоминающими устройствами, где хранят заранее записанные дифоны и протяжно произнесенные отдельные гласные звуки соответственно. Считываемые фонограммы поблочно через буферное запоминающее устройство соответственно выбранным длительностям преобразуют цифроаналоговым преобразователем и воспроизводят электроакустическим агрегатом.

Недостаток устройства заключается в том, что оно не позволяет уменьшить число соединений и количество звуковых единиц при формировании гласной для сочетания фонем вида согласная-гласная-согласная (СГС).

Цель изобретения - повышение естественности и разборчивости речи и скорости синтеза по тексту за счет совершенствования структуры элементов компиляции и использования способов соединения их с учетом фонетических особенностей русского языка.

Это достигается тем, что в способе компиляционного фонемного синтеза речи производят образование фрагмента компиляции для согласных разделенных гласной типа согласная-гласная-согласная (СГС) за счет объединения на участке гласной открытых СГ-слогов и закрытых ГС-слогов в сочетаниях фонем вида согласная-гласная-согласная-согласная (...СГСС...) и согласная-гласная-согласная конечная (СГСконечная) в слове. Улучшение же качества соединения в сочетаниях СГС достигается тем, что слог выступает как фонетическая единица в правилах русского слогоделения и сохранение естественных переходов в открытых СГ- и закрытых ГС-слогах наиболее предпочтительно в соединениях гласных между согласными, а использование этих переходов одновременно обеспечивает улучшение качества синтезируемой речи [3, 4, 5]. В этом случае объединение реализуется фазированным сложением конечного участка СГ-слога и начального участка, дополнительно сформированного ГС-слога с укороченным интервалом гласной до длительности участка наложения (δt=40-60 мс). При этом выполняются изменения уровня огибающей от 1 до 0 и от 1 до 0 соответственно для этих элементов компиляции на данном участке при сохранении длительности гласной в слове. Например, слово убранство после фонетического анализа состоит из идентификаторов элементов компиляции (акустических данных), разделенных между собой чертой: УБ-РА-АН-С-Т-ВО, где

УБ - закрытый ГС-слог;

С, Т, - отдельные согласные;

РА, ВО - открытые СГ-слоги;

АН - ГС-слог для формирования фрагмента компиляции СГС.

Объединение элементов компиляции для идентификаторов РА и АН выполняется вариантом микширования (фиг.1), для остальных - непосредственным соединением. В этом примере изменения уровня огибающей от 1 до 0 и от 1 до 0 на участке соединения элементов компиляции выполнены по линейному закону.

Фрагменты звуковых сигналов ра и ан подвергнуты предварительному изменению уровня огибающей по закону от 1 до 0 и от 0 до 1 на участках t0-t1 и t0-t2 и подлежат микшированию на этом участке (δt) общей гласной а. Формирование фонетических единиц производится по значениям их приоритетов: СГ-слоги (1 уровень, высший), признак формирования фрагмента компиляции типа СГС (2 уровень), основные ГС-слоги (3 уровень), отдельные гласные и согласные (4 уровень). Анализ последовательности до 4-х фонем обеспечивает возможность формирования всех типов фонетических единиц.

Сущность изобретения пояснены на фиг.1, где схематически представлены порядок формирования фрагмента компиляции СГС и устройство на фиг.2, реализующее предлагаемый способ компиляционного фонемного синтеза русской речи.

Устройство содержит блоки: 1 - текстовый процессор; 2 - база акустических данных; 3 - блок формирования согласная-гласная-согласная (СГС); 4 - блок формирования звукового сигнала; 5 - блок воспроизведения. Текстовый процессор (1) выполняет функции: нормализация текста; фонетическая транскрипция по разбивке слова на фонетические единицы по принципу приоритетов; идентификация звуковых единиц; селекция фонемосочетаний вида согласная-гласная-согласная-согласная (...СГСС...) и согласная-гласная-согласная (...СГСконечная); организация управления параметрами элементов компиляции и слоговым ударением. Акустическая база данных (2) содержит используемые звуковые единицы естественной речи русского языка, выполненные для слогов в ударном и безударном вариантах. Номера внутри блока (2) обозначают структуру вызываемых звуковых единиц по их типам: отдельные гласные и согласные (2.1); открытые СГ-слоги (2.2); закрытые ГС-слоги (2.3). Блок формирования СГС (3) предназначен для формирования звуковой единицы типа согласная-гласная-согласная (СГС) за счет объединения СГ-слога и ГС-слога. Блок формирования звукового сигнала (4) выполняет операции формирования элементов компиляции с изменением акустических единиц по заданным управляющим параметрам и реализации их соединения. Блок воспроизведения (5) воспроизводит синтезированную речь.

Предлагаемый способ реализуется следующим образом. Информация после текстового процессора (1), освобожденная от цифр и знаков пунктуации, представляет последовательность идентификаторов звуковых единиц, поступающую вместе с признаком ударения на вход акустической базы данных (2). Одновременно с этим текстовый процессор (1) в результате селекции последовательности типов фонем вида ...СГСС... и ...СГСконечная вырабатывает признак на формирование фрагмента компиляции СГС, который поступает на блок формирования СГС (3), в котором производится генерирование фрагмента компиляции типа СГС при наличии признака формирования фрагмента СГС. Информация управления параметрами элементов компиляции с текстового процессора (1), звуковые единицы акустической базы данных (2) и элементы компиляции типа СГС блока формирования СГС (3) подаются на блок формирования звукового сигнала (4), где производится полная сборка звукового сигнала, который поступает на блок воспроизведения (5).

Источники информации

1. Авторское свидетельство СССР №1531133, кл. G 10 L 5/02, 23.12.89.

2. Авторское свидетельство СССР №1599888, кл. G 10 L 5/02, 15.10.90.

3. В.Н.Сорокин. Синтез речи. - М.: Наука. Гл. ред. Физ-мат. лит., 1992 г.

4. Искусственный интеллект: в 3 кн. к.1 Системы общения и экспертные системы: справочник под ред. Э.В.Попова. М.: Радио и связь, 1990. - 484 с.

5. Современный русский язык. Фонетика. Лексика. Фразеология. Морфология (имена). Конспект лекций. Назаренко Е., г.Ростов-на-Дону, изд-во «Феникс», 2003 г.

1. Способ компиляционного фонемного синтеза русской речи путем стыковки фрагментов фонограмм заранее записанных дифонов (80-120 мс) и протяжных гласных звуков, которые вводят на 20-40 мс перед предударными дифонами и на 40-60 мс перед ударными, отличающийся тем, что сначала производят запись в акустическую базу данных звуковых единиц естественной речи типа согласная-согласная (СГ-слоги), гласная-согласная (ГС-слоги) и отдельные гласные и согласные, затем при фонетической транскрипции текста осуществляют приоритетное разбиение слова с выделением фрагмента типа согласная-гласная-согласная СГС, а затем при синтезе генерируют элементы компиляции типа согласный-гласный-согласный (СГС) для сочетаний фонем вида согласный-гласный-согласный-согласный (...СГСС...) и согласный-гласный-согласный (...СГСконечная) процедурой соединения СГ- и ГС-слогов способом фазированного сложения их на конечном интервале общей гласной равном 40-60 мс с изменением огибающей на этих интервалах при сохранении длительности гласной в слове, а также формируют элементы компиляции по сигналам служебной информации с последующим их соединением.

2. Устройство для компиляционного фонемного синтеза русской речи, содержащее текстовый процессор, соединенный с акустической базой данных и блоком формирования звукового сигнала, который соединен с блоком воспроизведения, отличающееся тем, что введен блок формирования СГС, вход которого соединен с соответствующими выходами акустической базы данных и текстового процессора, а выход соединен с входом блока формирования звукового сигнала.



 

Похожие патенты:

Изобретение относится к области синтеза речи из текста

Изобретение относится к области синтезирования речи из текста

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи, аннотировании баз данных, а также при автоматическом синхронном переводе с языка на язык и других областях знаний

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи и других технических областях, в которых требуется обработка текстовой информации средствами вычислительной техники

Изобретение относится к области сетей связи и устройств для приема и отправки сообщений через сети связи, а именно к предоставлению пользователю анимированного изображения лица отправителя сообщения

Изобретение направлено на формирование речевого сигнала с заданными характеристиками. Технический результат заключается в повышении естественности, разборчивости речи и ее эмоциональной окраски при генерации речевого сигнала при уменьшении вычислительной сложности за счет усовершенствования структуры элементов системы синтеза речи и разделения используемых баз данных. Устройство синтеза речи на основе текста, содержит блок, принимающий текстовую строку и формирующий из нее последовательность идентификаторов звуковых единиц, подаваемую в блок формирования звукового сигнала, а затем в блок воспроизведения. В блок формирования звукового сигнала параллельно подаются дополнительные команды управления, вырабатываемые из сформированной последовательности идентификаторов звуковых единиц блоком формирования управляющих команд, зависящих от языка, блоком формирования управляющих команд, зависящих от моделируемых параметров диктора, а именно параметров голоса и/или его физических и физиологических параметров, и блоком формирования управляющих параметров окраса голоса, настроенных на определенное психофизиологическое состояние, предназначенных для формирования управляющих параметров для коррекции интенсивности речевого сигнала. 1 з.п. ф-лы, 1 ил.

Изобретение относится к средствам синтеза речи по тексту. Технический результат заключается в повышении естественности человеческого голоса в синтезированной речи. Акустическая пространственная модель обучается на основе обучающих данных речевых атрибутов с использованием глубокой нейронной сети для определения факторов взаимозависимости между речевыми атрибутами в обучающих данных. Глубокая нейронная сеть создает единственную непрерывную акустическую пространственную модель на основе факторов взаимозависимости. Акустическая пространственная модель, таким образом, учитывает множество взаимозависимых речевых атрибутов и дает возможность моделировать непрерывный спектр взаимозависимых речевых атрибутов. Далее происходит получение текста; получение выбора одного или нескольких речевых атрибутов, причем каждый речевой атрибут обладает весом выбранного атрибута. Текст преобразуется в синтезированную речь с использованием акустической пространственной модели, и синтезированная речь обладает выбранным речевым атрибутом. Синтезированная речь выводится в виде аудио, обладающего выбранным речевым атрибутом. 2 н. и 12 з.п. ф-лы, 4 ил.

Изобретение относится к области обработки текстов. Технический результат заключается в обеспечении более точной обработки текста. Такой результат достигается за счет того, что способ обработки текстов, выполняемый на компьютерном устройстве, содержащем память, на которой хранятся одно или несколько правил трансформации фразы, которые были сгенерированы на основании анализа множеств признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, включает следующие этапы: получение текстовой фразы; определение того, что сходство текстовой фразы с фразой-источником превышает пороговое значение на основании по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника; и применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы. 4 н. и 23 з.п. ф-лы, 10 ил.

Изобретение относится к вычислительным системам. Технический результат направлен на повышение точности, извлекаемой из текстов на естественном языке информации. Способ извлечения информации из текстов на естественном языке включает выполнение обрабатывающим устройством семантико-синтаксического анализа по меньшей мере одной части текста на естественном языке для получения множества семантических структур, интерпретацию с помощью набора продукционных правил, определение значения по меньшей мере одного атрибута, ассоциированного с по меньшей мере одним информационным объектом из множества информационных объектов, определение степени уверенности, ассоциированной со значением по меньшей мере одного атрибута, при определении того, что степень уверенности ниже порогового значения уверенности, подтверждение и/или изменение значения по меньшей мере одного атрибута, добавление к обучающей выборке данных по меньшей мере одной части текста на естественном языке, определение с помощью обучающей выборки данных по меньшей мере одного параметра указанной функции уверенности. 3 н. и 22 з.п. ф-лы, 16 ил.
Наверх