Способ и система динамической адаптации синтезатора речи для повышения разборчивости синтезируемой им речи

Изобретение относится, в частности, к способу и системе адаптации синтезатора речи с помощью поступающих в реальном масштабе времени данных. При осуществлении способа и системы динамической модификации синтезированной речи на основе вводимого текста и множества значений параметров динамического управления генерируют синтезированную речь. Далее на основе входного сигнала, характеризующего разборчивость речи воспринимающим ее слушателем, формируют поступающие в реальном масштабе времени данные, на основе которых модифицируют одно или несколько значений параметров динамического управления. Технический результат - повышение разборчивости синтезированной речи. 3 н. и 27 з.п. ф-лы, 6 ил.

 

Предпосылки создания изобретения

Область техники, к которой относится изобретение

Настоящее изобретение относится к синтезу речи. Изобретение относится, в частности, к способу и системе, которые позволяют на основе поступающих в реальном масштабе времени данных повышать разборчивость синтезированной речи в динамическом режиме.

Краткое изложение сущности изобретения

В последнее время были разработаны системы, назначение которых состоит в повышении разборчивости воспроизводимого в виде синтезированной речи звука и улучшения его восприятия слушателем в самых разнообразных окружающих условиях, например в салоне автомобиля, в кабине самолета, а также в жилых и офисных помещениях. Так, например, в результате последних разработок, направленных на улучшение характеристик, соответственно, качества воспроизведения звука автомобильными аудиосистемами, были созданы эквалайзеры, которые позволяют либо вручную, либо автоматически регулировать спектральный состав воспроизводимого аудиосистемой звука. В отличие от традиционных систем, в которых подобная регулировка осуществлялась слушателем вручную с помощью различных органов управления аудиосистемой, в более современных разработках предусмотрен выборочный контроль за условиями воспроизведения звука в окружающем пространстве, в котором находится слушатель. Подход, основанный на использовании эквалайзеров в аудиосистемах, обычно требует знания значительного объема информации об условиях, которые предположительно будут преобладать в окружающем пространстве, в котором будет эксплуатироваться аудиосистема. Тем самым подобный тип адаптации звука к условиям его воспроизведения ограничивается регулированием выходных параметров аудиосистемы и применительно к автомобилю обычно привязан к конкретной его марке и модели.

Помимо этого на протяжении уже многих лет в связи для управления воздушным движением и в военной связи используется фонетический алфавит, основанный при произнесении слова по буквам на их замене словами, начинающихся с этих же букв (т.е., например, в английском языке букве "а" соответствует слово "alpha", букве "b" соответствует слово "bravo", букве "с" соответствует слово "Charlie" и т.д.), и позволяющий исключить возможность неоднозначного толкования отдельно произносимых букв в сложных условиях связи. В основе подобного подхода, таким образом, также лежит теоретическое предположение, согласно которому при наличии шума в канале связи и/или фонового шума некоторые звуки по своей природе обладают большей разборчивостью по сравнению с другими.

В качестве еще одного примера повышения разборчивости речи можно назвать обработку сигналов в мобильных или сотовых телефонах для уменьшения различимых на слух искажений, возникающих при передаче сигнала по восходящим/нисходящим линиям связи или через базовую станцию. При этом следует отметить, что подобный подход направлен на устранение искажений, обусловленных шумом в канале связи (или шумом, возникающим при сверточном кодировании сигнала), и не позволяет учитывать фоновый (или аддитивный) шум, присутствующий в окружающем пространстве, в котором находится слушатель. Еще одним примером повышения разборчивости речи служит традиционная система подавления эхо-сигналов, которую обычно используют в конференц-связи.

Необходимо также отметить, что ни один из описанных выше методов улучшения воспроизведения звука не позволяет модифицировать синтезированную речь в динамическом режиме. Вместе с тем в настоящее время существует острая необходимость в разработке подобных методов динамической модификации синтезированной речи, поскольку синтез речи быстро приобретает популярность, учитывая прогресс, достигнутый в последнее время в улучшении выходных характеристик синтезаторов речи. Однако несмотря на все достигнутые в последнее время в этой области успехи по-прежнему не решенным остается целый ряд проблем, связанных с синтезом речи. Так, в частности, одна из таких проблем состоит в том, что уже при разработке всех обычных синтезаторов речи для установки их управляющих параметров на определенные значения необходимо заранее располагать информацией об условиях, которые предположительно будут преобладать в окружающем пространстве, в котором будет использоваться синтезатор речи. Очевидно, что подобный подход является абсолютно негибким и допускает возможность применения того или иного конкретного синтезатора речи в сравнительно ограниченном наборе окружающих условий, в которых возможна оптимальная работа синтезатора речи. Исходя из вышеизложенного, представляется целесообразным разработать способ и систему, которые позволяли бы модифицировать синтезированную речь на основе поступающих в реальном масштабе времени данных и тем самым улучшать ее разборчивость.

Эта и другие задачи решаются с помощью предлагаемого в изобретении способа модификации синтезированной речи. Этот способ заключается в том, что на основе вводимого текста и множества значений параметров динамического управления генерируют синтезированную речь. Далее на основе входного сигнала, характеризующего разборчивость речи воспринимающим ее слушателем, формируют поступающие в реальном масштабе времени данные. Затем в соответствии с предлагаемым в изобретении способом на основе этих поступающих в реальном масштабе времени данных модифицируют одно или несколько значений параметров динамического управления, в результате чего повышается разборчивость синтезированной речи. Модификация указанных значений параметров управления синтезатором речи в динамическом режиме, а не на стадии его разработки, обеспечивает высокий уровень адаптации, которого невозможно достичь при традиционных подходах.

В настоящем изобретении предлагается также способ модификации одного или нескольких параметров динамического управления синтезатором речи. Этот способ заключается в том, что получают поступающие в реальном масштабе времени данные и на основе этих поступающих в реальном масштабе времени данных определяют релевантные характеристики синтезированной речи. Такие релевантные характеристики синтезированной речи имеют соответствующие, относящиеся к ним параметры динамического управления. Затем в соответствии с предлагаемым в изобретении способом значения параметров динамического управления изменяют в соответствии с регулировочными значениями, внося таким путем необходимые изменения в релевантные характеристики синтезированной речи.

Еще одним объектом настоящего изобретения является система адаптации синтезатора речи, имеющая преобразующий текст в речь (ТВР) синтезатор, систему аудиоввода и устройство управления адаптацией. Указанный синтезатор генерирует синтезированную речь на основе вводимого текста и множества значений параметров динамического управления. Система аудиоввода формирует поступающие в реальном масштабе времени данные на основе фонового шума, присутствующего в окружающем пространстве, в котором воспроизводится синтезированная речь. Устройство управления адаптацией функционально связанно с этими синтезатором и системой аудиоввода. Такое устройство управления адаптацией на основе поступающих в реальном масштабе времени данных модифицирует одно или несколько значений параметров динамического управления, что обеспечивает уменьшение взаимных помех между фоновым шумом и синтезированной речью.

Следует отметить, что приведенное выше общее описание и последующее подробное описание изобретения носят исключительно иллюстративный характер и предназначены в первую очередь для пояснения общих принципов и концепций, лежащих в основе изобретения. Прилагаемые к описанию чертежи дополнительно служат для более наглядного пояснения предлагаемого в изобретении решения и в соответствии с этим являются составной частью настоящего описания. Эти чертежи, на которых представлены различные отличительные особенности изобретения и варианты его осуществления, наряду с описанием служат для пояснения лежащих в основе изобретения принципов и функциональных особенностей предлагаемой в нем системы.

Краткое описание чертежей

Различные отличительные особенности и преимущества настоящего изобретения более подробно рассмотрены в последующем описании и в формуле изобретения со ссылкой на прилагаемые к описанию чертежи, на которых показано:

на фиг.1 - схема предлагаемой в изобретении системы адаптации синтезатора речи,

на фиг.2 - блок-схема, иллюстрирующая процесс модификации синтезированной речи в соответствии с настоящим изобретением,

на фиг.3 - блок-схема, иллюстрирующая процесс формирования поступающих в реальном масштабе времени данных на основе входного сигнала согласно одному из вариантов осуществления настоящего изобретения,

на фиг.4 - блок-схема, иллюстрирующая процесс определения характеристик фонового шума и их представления в виде поступающих в реальном масштабе времени данных согласно одному из вариантов осуществления настоящего изобретения,

на фиг.5 - блок-схема, иллюстрирующая процесс модификации одного или нескольких значений параметров динамического управления согласно одному из вариантов осуществления настоящего изобретения, и

на фиг.6 - схема, на которой изображены релевантные характеристики и соответствующие им параметры динамического управления согласно одному из вариантов осуществления настоящего изобретения.

Подробное описание предпочтительных вариантов осуществления изобретения

На фиг.1 показана выполненная по предпочтительному варианту система 10 адаптации синтезатора речи. Обычно такая система 10 адаптации имеет преобразующий текст в речь (ТВР) синтезатор 12, который на основе вводимого текста 16 и множества значений 42 параметров динамического управления генерирует синтезированную речь 14. На основе фонового шума 22, присутствующего в некотором окружающем пространстве 24, в котором воспроизводится синтезированная речь 14, системой 18 аудиоввода формируются поступающие в реальном масштабе времени данные (ПРМВД) 20. С этими синтезатором 12 и системой 18 аудиоввода функционально связано устройство 26 управления адаптацией. Такое устройство 26 управления адаптацией на основе поступающих в реальном масштабе времени данных 20 модифицирует одно или несколько значений 42 параметров динамического управления, что обеспечивает уменьшение взаимных помех между фоновым шумом 22 и синтезированной речью 14. Для преобразования звуковых колебаний в электрические система 18 аудиоввода в предпочтительном варианте имеет преобразователь акустического сигнала в электрический, например микрофон.

Фоновый шум 22 может создаваться целым рядом различных источников, некоторые из которых в качестве примера показаны на чертеже. Подобные источники фонового шума, создающего помехи восприятию речи, воспроизводимой синтезатором, классифицируются по их типу и характеристикам. Так, например, некоторые источники шума, в частности сирена 28 полицейского автомобиля и пролетающий самолет (не показан), создают кратковременные шумовые помехи высокого уровня, обычно с быстро изменяющимися характеристиками. Другие источники шума, например работающие механизмы, установленные на производстве 30, и кондиционеры (не показаны), обычно создают длительный постоянный фоновый шум низкого уровня. Третьи источники шума, например радиоприемники 32 и различного рода бытовая аппаратура (не показана), часто создают непрерывные шумовые помехи, в частности в виде музыки или пения, характеристики которых аналогичны характеристикам синтезированной речи 14. Источником шумовых помех могут являться, кроме того, и присутствующие в окружающем пространстве 24 разговаривающие между собой люди 34, характеристики речи которых практически идентичны характеристикам синтезированной речи 14. Помимо этого преобладающие в окружающем пространстве 24 условия также могут влиять на характеристики воспроизведения синтезированной речи 14. При этом условия в окружающем пространстве 24, а тем самым и оказываемое ими влияние могут динамически изменяться во времени.

Следует отметить, что настоящее изобретение не ограничено показанной на чертеже в качестве примера системой 10 адаптации, в которой поступающие в реальном масштабе времени данные 20 формируются на основе фонового шума 22, присутствующего в окружающем пространстве 24, где воспроизводится синтезированная речь 14. Так, например, поступающие в реальном масштабе времени данные 20 могут также формироваться на основе информации, вводимой самим слушателем 36 через соответствующее устройство 19 ввода, как это более подробно описано ниже.

На фиг.2 показана блок-схема 38, иллюстрирующая процесс модификации синтезированной речи. В соответствии с этой блок-схемой на шаге 40 на основе вводимого текста 16 и множества значений 42 параметров динамического управления генерируется синтезированная речь. На шаге 44 на основе входного сигнала 46, характеризующего разборчивость речи воспринимающим ее слушателем, формируются поступающие в реальном масштабе времени данные 20. Как уже упоминалось выше, источником входного сигнала 46 может служить непосредственно фоновый шум в окружающем пространстве либо сам слушатель (или иной пользователь). Однако в любом случае входной сигнал 46 содержит данные, относящиеся к разборчивости речи, и в соответствии с этим является важным источником информации, используемой для адаптации речи в динамическом режиме. На шаге 48 на основе поступающих в реальном масштабе времени данных 20 модифицируется одно или несколько значений 42 параметров динамического управления, в результате чего повышается разборчивость синтезированной речи.

Как уже указывалось выше, в одном из вариантов осуществления настоящего изобретения поступающие в реальном масштабе времени данные 20 формируются на основе фонового шума, присутствующего в окружающем пространстве, в котором воспроизводится синтезированная речь. В соответствии с этим на фиг.3 проиллюстрирован предпочтительный процесс формирования поступающих в реальном масштабе времени данных 20 на шаге 44. Согласно показанной на этом чертеже блок-схеме на шаге 52 фоновый шум 22 преобразуется в электрический сигнал 50. Затем на шаге 54 из соответствующей базы данных, в которой хранятся модели шумовых помех (не показана), выбирается одна или несколько моделей 56 шумовых помех. После этого на шаге 58 на основе электрического сигнала 50 и моделей 56 шумовых помех можно определить характеристики фонового шума и представить их в виде поступающих в реальном масштабе времени данных 20.

На фиг.4 показана блок-схема, иллюстрирующая предпочтительный процесс определения характеристик фонового шума на шаге 58. Согласно показанной на этом чертеже блок-схеме сначала на шаге 60 электрический сигнал 50 для определения его временных характеристик подвергается анализу во временной области. Полученные в результате этого анализа данные 62 об изменении электрического сигнала во времени содержат значительную часть информации, которая используется при выполнении рассмотренных в настоящем описании операций. Аналогичным образом на шаге 64 электрический сигнал 50 подвергается анализу в частотной области с получением данных 66 о его частотных характеристиках. При этом следует отметить, что порядок выполнения операций на шагах 60 и 64 не имеет существенного значения и не влияет на конечный результат.

Необходимо также отметить, что на шаге 58, на котором определяются характеристики фонового шума, предусмотрено выявление типа различного рода шумовых помех, присутствующих в фоновом шуме. В качестве примера подобных шумовых помех, присутствующих в фоновом шуме, можно назвать, но не ограничиваясь только ими, помехи высокого уровня, помехи низкого уровня, кратковременные помехи, длительные помехи, изменяющиеся помехи и постоянные помехи. На шаге 58, на котором определяются характеристики фонового шума, могут быть также предусмотрены операции по выявлению потенциальных источников фонового шума, по выявлению речи в фоновом шуме и по определению местонахождения всех таких источников фонового шума.

На фиг.5 показана блок-схема, на примере которой более подробно поясняется предпочтительный процесс модификации значений 42 параметров динамического управления. Согласно показанной на этом чертеже блок-схеме после получения на шаге 68 поступающих в реальном масштабе времени данных 20 затем на их основе на следующем шаге 70 определяются релевантные характеристики 72 синтезированной речи. Такие релевантные характеристики 72 синтезированной речи имеют соответствующие, относящиеся к ним параметры динамического управления. Далее на шаге 74 значения параметров динамического управления изменяются в соответствии с регулировочными значениями, в результате чего в релевантные характеристики 72 синтезированной речи также вносятся необходимые изменения.

На фиг.6 более подробно показаны возможные релевантные характеристики 72 синтезированной речи, описанные выше. Обычно такие релевантные характеристики 72 можно подразделить на характеристики 76, описывающие особенности говорящего, на характеристики 77, описывающие эмоциональность, на характеристики 78, описывающие особенности выговора, и на характеристики 79, описывающие особенности содержащейся в синтезированной речи информации. Характеристики 76, описывающие особенности говорящего, в свою очередь можно подразделить на характеристики 80, описывающие особенности голоса, и на характеристики 82, описывающие особенности стиля речи. К числу параметров, от которых зависят характеристики 80, описывающие особенности голоса, относятся, но ограничиваясь только ими, темп речи, тембр (основная частота), громкость, параметрическая ассимиляция звуков, форманты (частота формант и ширина полосы частот формант), образование звуков в голосовой щели, смещение энергетического спектра речи, пол, возраст и индивидуальность. К числу параметров, от которых зависят характеристики 82, описывающие особенности стиля речи, относятся, но ограничиваясь только ими, динамическая просодия (ритм, ударение и интонация) и артикуляция. Так, в частности, внятность речи можно повысить за счет четкого произношения конечных согласных и т.д., что позволяет потенциально улучшить разборчивость синтезированной речи.

Для привлечения внимания слушателя можно также использовать параметры, относящиеся к характеристикам 77, описывающим эмоциональность, такие как актуальность воспроизводимого в виде синтезированной речи сообщения. К числу характеристик 78, описывающих особенности выговора, можно отнести произношение и артикуляцию (форманты и т.д.). Очевидно, что к характеристикам 79, описывающим особенности содержащейся в синтезированной речи информации, относятся такие параметры, как плеоназм, повтор и лексика. Так, например, наличие или отсутствие плеоназма в речи определяется использованием слов- и фраз-синонимов (например, в английском языке для воспроизведения речевого сообщения с указанием текущего времени суток в 5 часов дня может использоваться фраза "five pm" либо фраза "five o'clock in the afternoon" ("пять часов пополудни")). Повтор предполагает избирательное повторение определенных частей сообщения, воспроизводимого с помощью синтезированной речи, с целью сделать более четкий акцент на содержащейся в нем важной информации. Помимо этого использование ограниченной лексики и ограниченного синтаксиса, обеспечивающее упрощение языка, также может способствовать повышению разборчивости речи.

В отношении показанной на фиг.1 системы следует также отметить, что для создания эффекта изменения пространственного местоположения источника синтезированной речи 14 в сочетании с системой 84 аудиовывода может использоваться полифоническая обработка звука, основанная на поступающих в реальном масштабе времени данных 20.

Из приведенного выше описания для специалиста в данной области техники очевидно, что предлагаемое в изобретении решение допускает возможность его практической реализации разнообразными путями. В соответствии с этим настоящее изобретение не ограничено конкретными вариантами его осуществления, на примере которых оно рассмотрено выше, а предполагает возможность внесения в них различных, очевидных для специалиста изменений и модификаций на основе описания изобретения, формулы изобретения и прилагаемых к описанию чертежей.

1. Способ модификации синтезированной речи, заключающийся в том, что на основе вводимого текста и множества значений параметров динамического управления генерируют синтезированную речь, на основе входного сигнала, характеризующего разборчивость речи воспринимающим ее слушателем, формируют поступающие в реальном масштабе времени данные и на основе этих поступающих в реальном масштабе времени данных модифицируют одно или несколько значений параметров динамического управления, в результате чего повышается разборчивость синтезированной речи, причем, по меньшей мере, один из параметров динамического управления определяют как просодический параметр, используемый для синтеза вводимого текста.

2. Способ по п.1, в котором поступающие в реальном масштабе времени данные формируют на основе фонового шума, присутствующего в окружающем пространстве, в котором воспроизводится синтезированная речь.

3. Способ по п.2, в котором фоновый шум преобразуют в электрический сигнал, из базы данных, в которой хранятся модели шумовых помех, выбирают одну или несколько моделей шумовых помех и на основе электрического сигнала и моделей шумовых помех определяют характеристики фонового шума, представляя их в виде поступающих в реальном масштабе времени данных.

4. Способ по п.3, в котором электрический сигнал для определения его временных характеристик подвергают анализу во временной области.

5. Способ по п.3, в котором электрический сигнал для определения его частотных характеристик подвергают анализу в частотной области.

6. Способ по п.3, в котором стадия определения характеристик фонового шума предусматривает выполнение операций, выбранных из группы, преимущественно включающей выявление в фоновом шуме помех высокого уровня, выявление в фоновом шуме помех низкого уровня, выявление в фоновом шуме кратковременных помех, выявление в фоновом шуме длительных помех, выявление в фоновом шуме изменяющихся помех, выявление в фоновом шуме постоянных помех, определение пространственного местонахождения источников фонового шума, выявление потенциальных источников фонового шума и выявление речи в фоновом шуме.

7. Способ по п.1, в котором получают поступающие в реальном масштабе времени данные, на основе поступающих в реальном масштабе времени данных определяют релевантные характеристики синтезированной речи, имеющие соответствующие относящиеся к ним параметры динамического управления, и значения параметров динамического управления изменяют в соответствии с регулировочными значениями, внося таким путем необходимые изменения в релевантные характеристики синтезированной речи.

8. Способ по п.7, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие особенности говорящего.

9. Способ по п.8, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие особенности голоса.

10. Способ по п.9, в котором изменяемыми характеристиками являются параметры, выбранные из группы, преимущественно включающей темп речи, тембр, громкость, параметрическую ассимиляцию звуков, частоту формант и ширину полосы частот формант, образование звуков в голосовой щели, смещение энергетического спектра речи, пол, возраст и индивидуальность.

11. Способ по п.8, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие стиль речи.

12. Способ по п.11, в котором изменяемыми характеристиками являются параметры, выбранные из группы, преимущественно включающей динамическую просодию и артикуляцию.

13. Способ по п.7, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие эмоциональность.

14. Способ по п.13, в котором изменяемой характеристикой является актуальность воспроизводимого в виде синтезированной речи сообщения.

15. Способ по п.7, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие особенности выговора.

16. Способ по п.15, в котором изменяемыми характеристиками являются параметры, выбранные из группы, преимущественно включающей произношение и артикуляцию.

17. Способ по п.7, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие особенности содержащейся в синтезированной речи информации.

18. Способ по п.17, в котором изменяемыми характеристиками являются параметры, выбранные из группы, преимущественно включающей повтор, плеоназм и лексику.

19. Способ по п.1, в котором для создания эффекта изменения пространственного местоположения источника синтезированной речи используют полифоническую обработку звука на основе поступающих в реальном масштабе времени данных.

20. Способ по п.1, в котором поступающие в реальном масштабе времени данные формируют на основе информации, вводимой слушателем.

21. Способ по п.1, в котором синтезированную речь используют для воспроизведения голосовых сообщений в автомобиле.

22. Способ модификации одного или нескольких параметров динамического управления синтезатором речи, заключающийся в том, что получают поступающие в реальном масштабе времени данные, на основе этих поступающих в реальном масштабе времени данных определяют релевантные характеристики синтезированной речи, имеющие соответствующие относящиеся к ним параметры динамического управления, и значения параметров динамического управления изменяют в соответствии с регулировочными значениями, внося таким путем необходимые изменения в релевантные характеристики синтезированной речи.

23. Способ по п.22, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие особенности говорящего.

24. Способ по п.23, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие особенности голоса.

25. Способ по п.23, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие стиль речи.

26. Способ по п.22, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие эмоциональность.

27. Способ по п.22, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие особенности выговора.

28. Способ по п.22, в котором в качестве релевантных характеристик синтезированной речи изменяют релевантные характеристики, описывающие особенности содержащейся в синтезированной речи информации.

29. Система адаптации синтезатора речи, имеющая преобразующий текст в речь синтезатор, который на основе вводимого текста и множества значений параметров динамического управления генерирует синтезированную речь, систему аудиоввода, которая на основе фонового шума, присутствующего в окружающем пространстве, в котором воспроизводится синтезированная речь, формирует поступающие в реальном масштабе времени данные, и функционально связанное с этими синтезатором и системой аудиоввода устройство управления адаптацией, которое на основе поступающих в реальном масштабе времени данных модифицирует одно или несколько значений параметров динамического управления, что обеспечивает уменьшение взаимных помех между фоновым шумом и синтезированной речью.

30. Система адаптации по п.29, в которой система аудиоввода имеет преобразователь акустического сигнала в электрический.



 

Похожие патенты:

Изобретение относится к речевой информатике и приборостроению для синтеза речевых сообщений по тексту в системах акустического общения человека с автоматам

Изобретение относится к области синтеза речи из текста

Изобретение относится к области синтезирования речи из текста

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи, аннотировании баз данных, а также при автоматическом синхронном переводе с языка на язык и других областях знаний

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи и других технических областях, в которых требуется обработка текстовой информации средствами вычислительной техники

Изобретение относится к области сетей связи и устройств для приема и отправки сообщений через сети связи, а именно к предоставлению пользователю анимированного изображения лица отправителя сообщения

Изобретение направлено на формирование речевого сигнала с заданными характеристиками. Технический результат заключается в повышении естественности, разборчивости речи и ее эмоциональной окраски при генерации речевого сигнала при уменьшении вычислительной сложности за счет усовершенствования структуры элементов системы синтеза речи и разделения используемых баз данных. Устройство синтеза речи на основе текста, содержит блок, принимающий текстовую строку и формирующий из нее последовательность идентификаторов звуковых единиц, подаваемую в блок формирования звукового сигнала, а затем в блок воспроизведения. В блок формирования звукового сигнала параллельно подаются дополнительные команды управления, вырабатываемые из сформированной последовательности идентификаторов звуковых единиц блоком формирования управляющих команд, зависящих от языка, блоком формирования управляющих команд, зависящих от моделируемых параметров диктора, а именно параметров голоса и/или его физических и физиологических параметров, и блоком формирования управляющих параметров окраса голоса, настроенных на определенное психофизиологическое состояние, предназначенных для формирования управляющих параметров для коррекции интенсивности речевого сигнала. 1 з.п. ф-лы, 1 ил.

Изобретение относится к средствам синтеза речи по тексту. Технический результат заключается в повышении естественности человеческого голоса в синтезированной речи. Акустическая пространственная модель обучается на основе обучающих данных речевых атрибутов с использованием глубокой нейронной сети для определения факторов взаимозависимости между речевыми атрибутами в обучающих данных. Глубокая нейронная сеть создает единственную непрерывную акустическую пространственную модель на основе факторов взаимозависимости. Акустическая пространственная модель, таким образом, учитывает множество взаимозависимых речевых атрибутов и дает возможность моделировать непрерывный спектр взаимозависимых речевых атрибутов. Далее происходит получение текста; получение выбора одного или нескольких речевых атрибутов, причем каждый речевой атрибут обладает весом выбранного атрибута. Текст преобразуется в синтезированную речь с использованием акустической пространственной модели, и синтезированная речь обладает выбранным речевым атрибутом. Синтезированная речь выводится в виде аудио, обладающего выбранным речевым атрибутом. 2 н. и 12 з.п. ф-лы, 4 ил.

Изобретение относится к области обработки текстов. Технический результат заключается в обеспечении более точной обработки текста. Такой результат достигается за счет того, что способ обработки текстов, выполняемый на компьютерном устройстве, содержащем память, на которой хранятся одно или несколько правил трансформации фразы, которые были сгенерированы на основании анализа множеств признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, включает следующие этапы: получение текстовой фразы; определение того, что сходство текстовой фразы с фразой-источником превышает пороговое значение на основании по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника; и применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы. 4 н. и 23 з.п. ф-лы, 10 ил.
Наверх