Способ коммуникации пользователя с информационной диалоговой системой

Авторы патента:

Сиротин Павел Александрович (RU)

Гельфенбейн Илья Геннадьевич (RU)

Платонов Илья Андреевич (RU)

Гельфенбейн Ольга Александровна (RU)

Гончарук Артем Владимирович (US)

G10L15/22 - методы, используемые в процессе распознавания речи, например диалог человека с машиной

G10L15/18 - с использованием моделирования естественного языка

G10L13/033 - Синтезирование речи; текст для систем синтезирования речи, например речевого диапазона (электрические музыкальные инструменты G10H)

G06F3/16 - ввод с помощью звука; вывод в виде звука (преобразование речи в дискретную информацию или наоборот G10L)

Владельцы патента RU 2530267:

Общество с ограниченной ответственностью "Спиктуит" (RU)

Изобретение относится к информационным технологиям, в частности к способу коммуникации пользователя с информационной диалоговой системой, и может быть использовано для организации взаимодействия пользователя с информационной диалоговой системой на основе естественного языка. Технический результат - возможность взаимодействия с системой посредством ввода текста и использования естественного языка. Способ коммуникации пользователя с информационной диалоговой системой включает в себя: активацию подсистемы пользовательского ввода, получение подсистемой запроса пользователя и преобразование его в текст, обработку диалоговым модулем полученного текста и ответа на запрос, отображение и/или воспроизведение сформированного ответа, причем по истечении заранее заданного интервала времени после отображения и/или воспроизведения сформированного ответа выполняется автоматическая повторная активация подсистемы пользовательского ввода для обеспечения возможности получения нового или уточняющего запроса. 15 з.п. ф-лы, 1 ил.

Заявляемое изобретение относится к информационным технологиям, в частности к способу коммуникации пользователя с информационной диалоговой системой, и может быть использовано для организации взаимодействия пользователя с информационной диалоговой системой на основе естественного языка.

На сегодняшний день информационные диалоговые системы получили широкое распространение и используются в различных областях общественной жизни, например для организации автоматической проверки знаний, автоматизированной службы поддержки пользователей, для диагностики заболеваний и прочее. Однако существующие информационные диалоговые системы предназначены для решения задач узкого профиля, то есть они способны поддерживать только диалог на заданную тему. Кроме того, большинство из них не имеет возможности формировать ответ на естественном языке, придавать эмоциональную окраску формируемому ответу, выполнять какие-либо дополнительные действия, в том числе взаимодействовать с другими информационными системами и подсистемами. Наличие таких возможностей позволило бы выполнять не только двухсторонний обмен информацией, инструкциями и командами между пользователем и системой, но и вести полноценный диалог, создавая у пользователя впечатление общения с живым собеседником, а также решать поставленные пользователем задачи гораздо эффективнее. Поэтому на данный момент остается актуальной разработка такого способа коммуникации пользователя с информационной диалоговой системой, который расширил бы возможности взаимодействия пользователя с информационной диалоговой системой.

Ближайшим аналогом заявляемого изобретения является адаптивный естественно-языковой интерфейс и способ получения, интерпретации и выполнения пользовательского ввода на естественном языке, описанные в патенте США № 7216080 (опубл. 08.05.2007). Способ включает ввод пользователем запроса, прием и преобразование запроса пользователя в текст, обработку текста и формирование ответа в виде выходной команды, преобразование выходной команды в исполнительную, выведение исполнительной команды в дополнительную систему и/или подсистемы для исполнения.

К недостаткам описанного решения можно отнести то, что пользователь может вводить запрос только на естественном языке, при этом, в случае возникновения необходимости, у него нет возможности вводить текст с помощью вспомогательных устройств, например клавиатуры. Помимо этого голосовая реплика на запрос пользователя не содержит эмоциональную окраску, отображающую эмоциональное состояние информационной диалоговой системы.

В основу изобретения положена задача разработать способ коммуникации пользователя с информационной диалоговой системой, реализация которого обеспечит возможность упрощения взаимодействия пользователя с информационной диалоговой системой, уменьшение количества необходимых для выполнения коммуникации действий, а также обеспечит возможность взаимодействия с указанной системой не только посредством ввода текста, но и с использованием естественного языка.

Поставленная задача решается тем, что разработанный способ коммуникации пользователя с информационной диалоговой системой включает активацию пользователем подсистемы пользовательского ввода, ввод пользователем запроса, прием и преобразование запроса пользователя в текст подсистемой пользовательского ввода, передачу текста, полученного в результате преобразования запроса диалоговому модулю, обработку диалоговым модулем полученного текста, формирование диалоговым модулем ответа на запрос, передачу ответа пользователю, отображение и/или воспроизведение сформированного ответа, при этом после отображения и/или воспроизведения сформированного ответа выполняют автоматическую активацию подсистемы пользовательского ввода, после чего пользователь выполняет ввод нового или уточняющего запроса.

Информационной диалоговой системой в контексте данной заявки является система, оснащенная подсистемой пользовательского ввода, подсистемой генерации и распознавания голоса, дисплеем и клавиатурой пользовательского устройства, дополнительными кнопками, диалоговым модулем, дополнительными системами и/или подсистемами, профилем пользователя, клиентской памятью и т.п. При этом подсистемой пользовательского ввода является подсистема, содержащая по меньшей мере два компонента, с помощью которых могут быть выполнены прием и преобразование пользовательского ввода. Указанными компонентами являются компонент записи и распознавания голоса, клавиатура, а также подобные указанным устройства, компоненты и средства, сопровождаемые соответствующим программным обеспечением, если таковое необходимо.

Под пользовательским устройством подразумеваются мобильные устройства, такие как ноутбук, нетбук, планшет, мобильные телефоны, смартфоны и подобные устройства, а также стационарные электронные устройства, такие как компьютер и подобные ему устройства.

Под дополнительными кнопками понимаются физические кнопки пользовательского устройства и программные кнопки диалоговой информационной системы. Например, выполнение пользователем нажатия программной кнопки «Микрофон» запускает/отключает компонент записи и распознавания голоса, программной кнопки «Отмена» - отменит выполнение текущей операции, которую выполняют посредством информационной диалоговой системы и т.п. Предполагается наличие других дополнительных функциональных кнопок, которые могут быть реализованы в рамках заявляемого изобретения.

Дополнительными системами и/или подсистемами в контексте данной заявки являются системы работы с функциями устройств пользователя, например система глобального позиционирования.

Профиль пользователя - учетная запись, содержащая настройки, предпочтения, инструкции, информацию пользователя.

Клиентская память хранит информацию о пользователе, взаимодействующем с информационной диалоговой системой.

Под запросом пользователя понимается подаваемая им голосовая команда или вводимый с клавиатуры текст.

При реализации заявляемого способа коммуникации пользователя с информационной диалоговой системой пользователю предоставляется возможность отключения компонента записи и распознавания голоса. Таким образом, пользователь может взаимодействовать с информационной диалоговой системой посредством ввода запросов с клавиатуры.

Предпочтительна реализация способа, при которой автоматическую активацию подсистемы пользовательского ввода факультативно выполняют по истечении заранее заданного диалоговым модулем интервала времени после отображения и/или воспроизведения сформированного ответа.

В случае если ответ, сформированный информационной диалоговой системой, содержит дополнительные результаты, требующие дополнительного времени для прочтения и ознакомления с ними, целесообразно активировать подсистему пользовательского ввода, в частности компонента записи и распознавания голоса по истечении некоторого промежутка времени, при этом деактивация этого компонента может выполняться как пользователем самостоятельно, так и в соответствии с инструкциями, содержащимися в ответе диалогового модуля на запрос. Согласно указанным инструкциям активация компонента записи и распознавания голоса может производиться по истечении заранее заданного диалоговым модулем интервала времени или не производиться вовсе. Кроме того, диалоговым модулем может быть задано значение, насколько долго компонент записи и распознавания голоса должен ожидать ввод пользователем запроса.

Целесообразна такая реализация изобретения, при которой ввод пользователем запроса выполняют посредством голосовой команды и/или с использованием клавиатуры. Таким образом, в ходе ведения диалога с информационной диалоговой системой пользователь имеет возможность осуществления ввода как с помощью голосовой команды, так и путем ввода текста запроса с клавиатуры.

Предпочтительна реализация способа, при которой формирование диалоговым модулем ответа выполняют в виде текста, при этом воспроизведение сформированного ответа дополнительно выполняют посредством подсистемы генерации и воспроизведения голоса, отображение и/или воспроизведение сформированного ответа выполняют посредством голосовой реплики и/или отображения текста на дисплее. Таким образом, после передачи ответа пользователю выполняют отображение текста ответа на дисплее и/или воспроизведение этого текста посредством подсистемы генерации и воспроизведения голоса в виде голосовой реплики.

Целесообразна такая реализация изобретения, при которой обработку диалоговым модулем полученного текста выполняют с использованием дополнительных систем и/или подсистем. В зависимости от содержания запроса, вводимого пользователем для формирования достоверного ответа, может возникнуть необходимость в использовании функций дополнительных систем и/или подсистем, таких как система глобального позиционирования и прочие. Таким образом, обеспечивается формирование точного исчерпывающего ответа на запрос пользователя.

Предпочтительна реализация способа, при которой в формируемый диалоговым модулем ответ на запрос включают дополнительные метаданные, при этом в дополнительные метаданные включают инструкции, направляемые дополнительным системам и/или подсистемам. Указанные дополнительные метаданные являются дополнением к ответу, сформированному диалоговым модулем. Указанные метаданные могут содержать информацию об эмоциональной окраске формируемого ответа информационной диалоговой системы, которую отображают на дисплее и/или воспроизводят посредством подсистемы генерации и воспроизведения голоса, инструкции, направляемые дополнительным системам и/или подсистемам. Таким образом, присутствие каких-либо эмоций в ответе создает у пользователя впечатление общения с живым собеседником, тем самым повышая удобство взаимодействия с информационной диалоговой системой. Кроме того, указанные метаданные могут дополнительно содержать расширения ответов, специфичные для реализации конкретной диалоговой подсистемы.

Формируемый диалоговым модулем ответ также может быть рассмотрен как уточняющий запрос, направленный пользователю, выполняющему взаимодействие с информационной диалоговой системой, или как действие информационной диалоговой системы, сопровождаемое текстом, отображаемым на дисплее, и/или голосовой репликой. Например, пользователь ввел запрос, содержащий команду отправки СМС сообщения. Ответом системы будет выполнение отправки СМС сообщения и текстовое и/или голосовое подтверждение выполнения запроса. Заявляемый способ коммуникации может выполняться циклично, при этом цикл реализации способа завершают по инициативе пользователя. Таким образом, реализуется диалог пользователя с информационной диалоговой системой, то есть каждый раз после получения ответа пользователь вводит новый или уточняющий запрос.

Заявляемое изобретение поясняется при помощи чертежа, где представлена обобщенная блок-схема реализации способа коммуникации пользователя с информационной диалоговой системой.

На чертеже изображена обобщенная блок-схема реализации способа коммуникации пользователя с информационной диалоговой системой, содержащая обязательные для выполнения и опциональные этапы способа коммуникации пользователя с информационной диалоговой системой, такие как:

1 - активация пользователем подсистемы пользовательского ввода и ввод пользователем запроса, при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода;

2 - передача текста, полученного в результате преобразования, диалоговому модулю, после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос;

3 - передача ответа пользователю;

4 - отображение сформированного ответа в виде текста на дисплее;

5 - воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса, после чего выполняют автоматическую активацию подсистемы пользовательского ввода;

6 - нажатие пользователем дополнительных кнопок (например, отключение компонента записи и распознавания голоса);

7 - выполнение соответствующих дополнительным кнопкам действий;

8 - взаимодействие с дополнительными системами и/или подсистемами (отправка диалоговым модулем запроса дополнительной системе и/или подсистеме, обработка системой и/или подсистемой полученного запроса, передача результата диалоговому модулю);

9 - взаимодействие с профилем пользователя (отправка диалоговым модулем запроса, получение информации из профиля пользователя);

10 - взаимодействие с клиентской памятью.

Этапы 6, 7, 8, 9, 10 являются факультативными.

Далее описаны примеры осуществления способа коммуникации пользователя с информационной диалоговой системой.

А) Автоматический запуск компонента записи и распознавания после выполнения отображения и/или воспроизведения сформированного ответа

Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5). Затем выполняют автоматическую активацию подсистемы пользовательского ввода, при этом пользователь имеет возможность отключить компонент записи и распознавания голоса. В случае, если ввод следующего запроса пользователь выполняет с помощью клавиатуры, компонент записи и распознавания автоматически деактивируют.

Б) Отключение компонента записи и распознавания голоса

Б 1) Как упоминалось ранее, ответ, формируемый диалоговым модулем, может содержать дополнительные метаданные, на ознакомление с которыми необходимо дополнительное время, следовательно, целесообразно не активировать подсистему пользовательского ввода, в частности компонент записи и распознавания голоса.

Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5). Затем выполняют автоматическую активацию подсистемы пользовательского ввода, при этом автоматическую активацию компонента записи и распознавания голоса не выполняют.

Б 2) Как упоминалось ранее, в ответ информационной диалоговой системы могут включать дополнительные метаданные, а в них - инструкции, направляемые дополнительным системам и/или подсистемам. В таком случае целесообразно не активировать компонент записи и распознавания голоса.

Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5), при этом автоматическую активацию компонента записи и распознавания голоса не выполняют.

В) Автоматическая активация компонента записи и распознавания голоса по истечении заданного промежутка времени

Как упоминалось ранее, ответ, формируемый диалоговым модулем, может содержать дополнительные метаданные, на ознакомление с которыми необходимо дополнительное время, следовательно, целесообразно активировать подсистему пользовательского ввода, в частности компонента записи и распознавания голоса по истечении некоторого промежутка времени.

Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5). Затем выполняют автоматическую активацию подсистемы пользовательского ввода, при этом автоматическую активацию компонента записи и распознавания голоса выполняют по истечении заранее заданного диалоговым модулем интервала времени.

Г) Отключение подсистемы генерации и воспроизведения голоса

Как упоминалось ранее, ответ, формируемый диалоговым модулем, может быть отображен и/или воспроизведен. В случае если пользователю достаточно, чтобы ответ был отображен на дисплее в виде текста, воспроизведение ответа не выполняют, и, следовательно, активацию подсистемы генерации и воспроизведения голоса не выполняют.

Таким образом, реализация способа коммуникации пользователя с информационной диалоговой системой обеспечивает упрощение взаимодействия пользователя с информационной диалоговой системой, уменьшение количества необходимых для выполнения коммуникации действий, а также обеспечивает возможность взаимодействия с указанной системой не только посредством ввода текста, но и с использованием естественного языка.

1. Способ функционирования информационной диалоговой системы, включающий этапы:
активации подсистемы пользовательского ввода,
получения подсистемой пользовательского ввода запроса пользователя и преобразования запроса пользователя в текст,
обработки диалоговым модулем полученного текста,
формирования диалоговым модулем ответа на запрос,
отображения и/или воспроизведения сформированного ответа, отличающийся тем, что после отображения и/или воспроизведения сформированного ответа по истечении заранее заданного интервала времени после отображения и/или воспроизведения сформированного ответа выполняют автоматическую повторную активацию подсистемы пользовательского ввода для обеспечения возможности получения нового или уточняющего запроса от пользователя.

2. Способ по п.1, отличающийся тем, что упомянутый интервал времени заранее задан диалоговым модулем.

3. Способ по п.1, отличающийся тем, что информационная диалоговая система выполнена с возможностью приема запроса пользователя, представленного в виде голосовой команды и/или с использованием клавиатуры.

4. Способ по п.1, отличающийся тем, что формирование диалоговым модулем ответа выполняют в виде текста.

5. Способ по п.1, отличающийся тем, что воспроизведение сформированного ответа дополнительно выполняют посредством подсистемы генерации и воспроизведения голоса.

6. Способ по п.1, отличающийся тем, что отображение и/или воспроизведение сформированного ответа выполняют посредством обеспечения звукового сообщения и/или отображения текста на дисплее.

7. Способ по п.1, отличающийся тем, что в формируемый диалоговым модулем ответ на запрос включают дополнительные метаданные.

8. Способ по п.7, отличающийся тем, что в дополнительные метаданные включают инструкции, направляемые дополнительным системам и/или подсистемам.

9. Способ по п.1, отличающийся тем, что этапы способа выполняют циклично.

10. Способ по п.1, отличающийся тем, что активация подсистемы пользовательского ввода осуществляется пользователем при нажатии программной кнопки.

11. Способ по п.1, отличающийся тем, что автоматическую повторную активацию подсистемы пользовательского ввода осуществляют на заранее предопределенный период времени.

12. Способ по п.1, отличающийся тем, что дополнительно содержит этап, на котором деактивируют подсистемы пользовательского ввода после ее автоматической повторной активации.

13. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода и диалоговый модуль выполнены в мобильном телефоне.

14. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода и диалоговый модуль выполнены в портативном или стационарном компьютере.

15. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода содержит компонент записи и распознавания голоса.

16. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода содержит клавиатуру.

Изобретение относится к средствам электронного оценивания диалога. .

Детектирование автоответчика путем распознавания речи // 2439716

Изобретение относится к способам и устройствам детектирования автоответчика, используемым для определения того, является ли получатель вызова реальной персоной или автоответчиком.

Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения // 2349969

Изобретение относится к доступу и представлению информации в компьютерной системе с использованием распознавания и понимания. .

Способ управления услугами сервисного центра в системе связи (варианты) и устройство для его осуществления // 2316145

Изобретение относится к области информационных технологий - к способу и устройству управления услугами сервисного центра системы связи. .

Устройство для синтеза речи // 1606994

Изобретение относится к речевой информатике и может быть использовано в системах взаимодействия человека и компьютера. .

Аналого-цифровой преобразователь речевых сигналов // 1601635

Изобретение относится к вычислительной технике для анализа речевых сигналов. .

Устройство для анализа речевых сигналов // 1277180

Способ выделения частоты основного тона и устройство для его осуществления // 1167643

Устройство для распознавания речевыхкоманд // 834743

Устройство выделения спектра сигнала и его основной частоты // 705502

Устройство и способ основанного на контексте арифметического кодирования и устройство и способ основанного на контексте арифметического декодирования // 2493652

Изобретение относится к способам кодирования и декодирования аудиосигнала без потерь. Техническим результатом является повышение эффективности кодирования и снижение требуемого для кодирования объема памяти.

Способ и устройство для естественно-речевого распознавания речевого высказывания // 2432623

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания. .

Бортовое устройство речевого оповещения и коммутации // 2432622

Изобретение относится к области приборостроения, в частности к устройствам преобразования речевых сигналов, а более конкретно к синтезаторам речевых сообщений, и может быть использовано в авиационной технике, телефонии, системах связи и оповещения, вычислительной технике.

Устройство для выполнения речевого воспроизведения текста и способ для него // 2425330

Изобретение относится к устройствам для выполнения речевого воспроизведения текста (TTS) в автомобильных спутниковых навигационных системах. .

Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом // 2393548

Изобретение относится к радиотехнике и может быть использовано в качестве системы воспроизведения караоке. .

Способ микширования речевых сигналов абонентов при проведении voip-конференций // 2341907

Способ и устройство формирования гласных звуков речи из шумоподобных звуков пищеводного голоса // 2320025

Музыкальный звукогенерирующий инструмент и машиночитаемый носитель // 2502119

Инструмент включает в себя: накопитель, сконфигурированный для хранения в нем данных песни и аудиоданных, при этом (а) данные песни включают в себя высоту тонов и информацию о времени, указывающую распределение временных интервалов генерации музыкальных звуков песни, и (б) аудиоданные являются данными аккомпанемента для песни данных песни; генератор музыкальных звуковых данных, сконфигурированный для генерирования музыкальных звуковых данных заданных музыкальных звуков на основании манипуляций множеством звукоизвлекающих элементов; и проигрыватель аудиоданных, сконфигурированный считывать и воспроизводить аудиоданные согласно информации о прошедшем времени, полученной с помощью информации о времени, содержащейся в данных песни.

Способы и устройство для осуществления распределенных многомодальных приложений // 2494444

Изобретение относится к средствам для синхронизации данных между визуальным и голосовым представлениями, связанными с распределенными многомодальными приложениями.

Система ориентирования, навигации и информации, специально адаптированная для слепых или людей с ограниченными зрительными возможностями // 2490694

Изобретение относится к системе ориентирования, навигации и информации, специально адаптированной для слепых или людей с ограниченными зрительными возможностями.

Устройство и способ аудио-визуального поиска и просмотра интерфейса, машиночитаемый носитель // 2453899

Изобретение относится к обеспечению возможности поиска и просмотра аудио и видео контента (AVSBI). .