Способ (варианты) и электронное устройство (варианты) обработки речевого запроса пользователя

Авторы патента:

ПАНИН Александр Геннадьевич (RU)

G10L15/08 - классификация речи или поиск (распознавание знаков G06K 9/00)

Владельцы патента RU 2654789:

Общество с ограниченной ответственностью "Яндекс" (RU)

Изобретение относится к способам и электронным устройствам для обработки речевого запроса. Технический результат заключается в обеспечении обработки речевого запроса. Электронное устройство для обработки речевого запроса, поданного пользователем содержит процессор и память, функционально связанную с процессором и обеспечивающую хранение приложений, причем каждое из по меньшей мере двух приложений, содержит инструкции программы, выполняемые процессором с целью получения каждым приложением речевого запроса, определения одним приложением из по меньшей мере двух приложений функции другого приложения, запрошенного в речевом запросе, и выполнения указанной функции определенным приложением из по меньшей мере двух приложений. 4 н. и 22 з.п. ф-лы, 7 ил.

Область техники, к которой относится изобретение

Настоящее изобретение относится к области обработки речевых запросов пользователей, поданных посредством электронных устройств.

Уровень техники

В последнее время, в частности, после выхода на рынок смартфонов, укомплектованных микрофонами и мощными процессорами, все более широко используется программное обеспечение распознавания речи.

Многие смартфоны, а также другие вычислительные устройства, имеющиеся на рынке в настоящее время, содержат аппаратное обеспечение, предоставляющее пользователям возможность ввода текстовой информации посредством произнесения слова или фразы в микрофон смартфона. Например, программное обеспечение для преобразования речи в текст, такое как программа DragonDictate™ может использоваться для интерпретации записанного звукового представления данных и генерирования полученного в результате преобразования текстового представления речевых данных.

Некоторые вычислительные устройства также предоставляют пользователям возможность подачи команд в виде речевых запросов, обеспечивая, таким образом по меньшей мере частично выполнение при помощи речевых сигналов операций управления указанными устройствами, которые обычно осуществлялись посредством ввода пользователем данных с использованием нажатия на клавиши мыши, ввода с клавиатуры и (или) прикосновения к сенсорному экрану. Хорошо известными примерами такого программного обеспечения являются приложение для распознавания речи Apple™, программа Siri™, установленная на различных типах смартфонов iPhone™ и других устройствах, работающих на основе операционной системы iOS™, приложение для распознавания речи Google Now™, которое работает, среди прочего, на смартфонах, функционирующих на основе операционной системы Google Android™, и приложение для распознавания речи Microsoft Cortana™, установленное на большом числе устройств, в которых используется операционная система Windows Phone™. Указанные приложения для распознавания речи иногда называют также интеллектуальными персональными

распознавания речи иногда называют также интеллектуальными персональными помощниками, поскольку они предоставляют комплексный набор услуг, подобный услугам персонального помощника, обеспечивая прием потенциально неопределенных запросов пользователя и непосредственное предоставление ответов на простые запросы или передачу запросов специализированным приложениям, таким как веб-браузеры и приложения для преобразования данных, если предполагается, что для обработки запроса требуется использование специальных функций.

Раскрытие изобретения

Авторы изобретения разработали примеры осуществления настоящей технологии на основе анализа по меньшей мере одного недостатка известных систем. А именно, хотя известные способы обработки речевых запросов пользователя при помощи централизованного интеллектуального персонального помощника в некоторых ситуациях могут быть предпочтительными, в других случаях более рациональным является децентрализованный подход к решению этой задачи, предусматривающий предоставление различным приложениям, которые имеют функции подачи ответа на речевые запросы пользователя, возможности непосредственной или опосредованной передачи речевых запросов пользователя друг другу.

Таким образом, предлагаемая технология разработана на основе определения авторами изобретения того, что в некоторых случаях может быть желательным, чтобы приложение содержало функции передачи полученного речевого запроса пользователя другому приложению, обеспечивающему возможность более эффективной обработки речевого запроса пользователя. Кроме того, может быть желательным выполнение передачи таких речевых запросов пользователя без обязательного использования интеллектуального персонального помощника, предусмотренного в операционной системе. Одним из преимуществ такой непосредственной передачи речевых запросов пользователя между приложениями является то, что разработчики указанных приложений сохраняют контроль над типами передаваемых речевых запросов пользователя, условиями передачи запросов и приложениями, которым они передаются. Например, разработчик веб-браузера может предусмотреть передачу речевых запросов пользователя, полученных приложением указанного веб-браузера, которое обеспечивает функции навигации (например, запроса «Показать маршрут к ближайшему кафе»), приложению этого же разработчика, осуществляющему отображение карт. Таким образом, пользователю предоставляются услуги в пределах пакета приложений одного разработчика, вместо передачи контроля над выбором приложения для обработки речевого запроса пользователя интеллектуальному персональному помощнику на общей платформе, который, возможно, был предоставлен другим разработчиком, имеющим иные коммерческие интересы.

Таким образом, в соответствии с первым аспектом настоящей технологии предложенная технология предусматривает реализацию компьютерного способа обработки речевого запроса, поданного пользователем электронного устройства, которое содержит процессор, предназначенный для выполнения приложений, причем указанный способ может осуществляться каждым из по меньшей мере двух приложений и включать этапы:

- определения того, что речевой запрос пользователя касается функции, выполняемой другим приложением из по меньшей мере двух приложений; и

- обеспечения выполнения функции другим приложением из по меньшей мере двух приложений.

В соответствии со вторым аспектом настоящей технологии предложенная технология предусматривает создание электронного устройства для обработки речевого запроса, поданного пользователем, которое содержит: процессор; и память, функционально связанную с процессором и обеспечивающую хранение приложений, причем каждое из по меньшей мере двух приложений, содержит инструкции программы, выполняемые процессором с целью:

- обеспечения выполнения указанной функции другим приложением из по меньшей мере двух приложений.

В некоторых примерах осуществления первого аспекта или второго аспекта настоящей технологии этап определения того, что речевой запрос пользователя касается конкретной функции, включает определение того, что текстовое представление речевого запроса пользователя касается указанной функции. В некоторых других примерах реализации технологии этап обеспечения выполнения функции другим приложением из по меньшей мере двух приложений включает передачу по меньшей мере части текстового представления речевого запроса пользователя другому приложению из по меньшей мере двух приложений.

В некоторых дополнительных примерах осуществления первого аспекта указанный способ дополнительно включает этап обеспечения обработки звукового представления речевого запроса пользователя с целью получения текстового представления речевого запроса пользователя перед определением того, что речевой запрос пользователя касается указанной функции. Аналогичным образом, в некоторых последующих примерах осуществления второго аспекта каждое из по меньшей мере двух приложений дополнительно содержит инструкции программы, выполняемые процессором с целью обеспечения обработки звукового представления речевого запроса пользователя для получения текстового представления речевого запроса пользователя, перед определением того, что речевой запрос пользователя касается указанной функции. В некоторых последующих примерах осуществления технологии этап обеспечения обработки звукового представления речевого запроса пользователя с целью получения текстового представления звукового запроса пользователя включает обеспечение выполнения инструкций программы преобразования речи в текст, содержащихся в библиотеке программного обеспечения, установленной в электронном устройстве.

В некоторых последующих примерах осуществления первого аспекта настоящей технологии указанный способ дополнительно включает этап приема текстового представления речевого запроса пользователя от приложения преобразования речи в текст, которое является одним из указанных приложений, перед определением того, что текстовое представление речевого запроса пользователя касается указанной функции, причем приложение преобразования речи в текст осуществляет обработку звукового представления речевого запроса пользователя с целью получения текстового представления речевого запроса пользователя. Аналогичным образом, в некоторых дополнительных примерах осуществления второго аспекта настоящей технологии по меньшей мере одно приложение содержит инструкции программы, выполняемые процессором с целью обработки звукового представления речевого запроса пользователя для получения текстового представления речевого запроса пользователя перед определением того, что текстовое представление речевого запроса пользователя касается указанной функции.

В некоторых дополнительных примерах осуществления первого аспекта настоящей технологии указанный способ дополнительно включает этап приема текстового представления речевого запроса пользователя от инструкций программы преобразования речи в текст, являющихся частью операционной системы электронного устройства, перед определением того, что текстовое представление речевого запроса пользователя касается указанной функции, причем инструкции программы преобразования речи в текст осуществляют обработку звукового представления речевого запроса пользователя для получения текстового представления речевого запроса пользователя. Аналогичным образом, в некоторых дополнительных примерах осуществления второго аспекта настоящей технологии память дополнительно обеспечивает хранение операционной системы электронного устройства, содержащей инструкции программы, выполняемые процессором с целью обработки звукового представления речевого запроса пользователя для получения текстового представления речевого запроса пользователя перед определением того, что текстовое представление речевого запроса пользователя касается указанной функции.

В соответствии с третьим аспектом осуществления настоящей технологии предлагается компьютерный способ обработки речевого запроса, поданного пользователем электронного устройства, содержащего процессор, предназначенный для выполнения приложений, причем указанный способ включает этапы:

- определения приема речевого запроса пользователя первым приложением;

- передачи первым приложением речевого запроса пользователя второму приложению;

- определения вторым приложением того, что речевой запрос пользователя касается функции, выполняемой третьим приложением; и

- обеспечения вторым приложением выполнения указанной функции третьим приложением.

В соответствии с четвертым аспектом осуществления настоящей технологии предлагается электронное устройство для обработки речевого запроса пользователя, содержащее: процессор; и память, функционально связанную с процессором и обеспечивающую хранение приложений, в том числе первого приложения, второго приложения и третьего приложения, причем первое приложение выполняется процессором с целью определения приема речевого запроса пользователя и передачи речевого запроса пользователя второму приложению, второе приложение выполняется процессором с целью определения того, что речевой запрос пользователя касается функции, реализуемой третьим приложением, и обеспечения выполнения указанной функции третьим приложением.

В некоторых примерах осуществления третьего аспекта и четвертого аспекта первое приложение и третье приложение представляют собой одно приложение. Другими словами, второе приложение обеспечивает выполнение функции, соответствующей речевому запросу пользователя, тем же приложением, которое передало второму приложению речевой запрос пользователя. В других примерах осуществления технологии третье приложение отличается от первого приложения.

В некоторых примерах осуществления третьего аспекта и четвертого аспекта настоящей технологии этап определения того, что речевой запрос пользователя касается указанной функции, включает определение того, что текстовое представление речевого запроса пользователя касается указанной функции. В некоторых дополнительных примерах осуществления настоящей технологии этап обеспечения выполнения функции третьим приложением включает передачу по меньшей мере части текстового представления речевого запроса пользователя третьему приложению.

В некоторых последующих примерах осуществления третьего аспекта настоящей технологии этап определения приема речевого запроса пользователя включает анализ звукового представления речевого запроса пользователя, этап передачи речевого запроса пользователя включает передачу звукового представления речевого запроса пользователя, причем указанный способ дополнительно включает этап обработки звукового представления речевого запроса пользователя вторым приложением с целью получения текстового представления речевого запроса пользователя перед определением того, что текстовое представление речевого запроса пользователя касается указанной функции. Аналогичным образом, в некоторых других примерах осуществления четвертого аспекта настоящей технологии этап определения приема речевого запроса пользователя включает анализ звукового представления речевого запроса пользователя, этап передачи речевого запроса пользователя включает передачу звукового представления речевого запроса пользователя, причем второе приложение дополнительно выполняется с целью обработки звукового представления речевого запроса пользователя для получения текстового представления речевого запроса пользователя перед определением того, что текстовое представление речевого запроса пользователя касается указанной функции.

В соответствии с другими аспектами осуществления настоящей технологии предлагается постоянный машиночитаемый носитель данных, содержащий инструкции программы, выполняемые процессором электронного устройства с целью реализации по меньшей мере одного из способов, описанных выше.

В контексте настоящего описания технологии, если явно не указано иное, «электронное устройство» означает любое аппаратное или программное обеспечение, пригодное для выполнения соответствующей задачи. Таким образом, некоторые (не имеющие ограничительного характера) примеры электронных устройств охватывают компьютеры (серверы, настольные компьютеры, переносные компьютеры, нетбуки и т.д.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы.

В контексте настоящего описания технологии, если явно не указано иное, «дисплей» электронного устройства означает любой электронный компонент, обеспечивающий представление изображения пользователю электронного устройства. Примерами таких компонентов, не имеющими ограничительного характера, являются электронно-лучевые трубки, жидкокристаллические индикаторы, плазменные панели, проекторы и нашлемные дисплеи, такие как Google Glass™.

В контексте настоящего описания технологии, если явно не указано иное, «сервер» означает одно или большее число цифровых электронных устройств, которые возможно, но не обязательно, включают в себя один или большее число процессоров, обеспечивающих выполнение соответствующего программного обеспечения, которые могут по сети получать запросы (например, поданные клиентскими устройствами) и выполнять эти запросы или обеспечивать выполнение указанных запросов. В контексте настоящего описания технологии использование термина «сервер» не означает, что каждая задача (например, связанная с полученными инструкциями или запросами) или какая-либо конкретная задача будет получена, выполнена или ее выполнение будет обеспечено конкретным сервером (то есть, конкретным программным и (или) аппаратным обеспечением); это означает, что в процесс приема и передачи, выполнения или обеспечения выполнения любой задачи или запроса либо результатов получения любой задачи или запроса может быть вовлечено любое количество элементов программного обеспечения или устройств и все указанное программное и аппаратное обеспечение может представлять собой один сервер или несколько серверов, причем использование термина «сервер» охватывает оба варианта.

В контексте настоящего описания технологии, если явно не указано иное, «информация» охватывает информацию любого содержания или типа, которая может храниться в базе данных. Таким образом, информация охватывает, среди прочего, аудиовизуальные произведения (изображения, фильмы, звукозаписи, презентации и т.д.), данные (данные местоположения, числовые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы и т.д.

В контексте настоящего описания технологии, если явно не указано иное, выражение «указывает на» предназначено для указания информации любого типа или объема, обеспечивающей идентификацию объекта, определяемого этой информацией, независимо от того, включает или не включает данная информация сам объект. Например, выражение «указывает на текст» означает информацию, обеспечивающую идентификацию соответствующего текста, независимо от наличия или отсутствия данного текста в указанной информации. Примерами, не имеющими ограничительного характера, указаний, которые не содержат сам объект, являются гиперссылки, ссылки и указатели.

В контексте настоящего описания технологии, если явно не указано иное, «изображение снимка экрана» обозначает изображение, по существу, отображающее визуальное содержимое экрана в заданный момент времени (обычно, но не обязательно, соответствующий моменту подачи запроса на генерирование изображения снимка экрана).

В контексте настоящего описания технологии, если явно не указано иное, термин «компонент» означает аппаратное обеспечение, программное обеспечение или комбинацию аппаратного и программного обеспечения, которое является необходимым и достаточным для выполнения конкретной указанной функции (функций). Например, «компонент распознавания речи» включает в себя аппаратное и (или) программное обеспечение, выполняющее преобразование живой или ранее записанной речи в текстовый эквивалент.

В контексте настоящего описания технологии, если явно не указано иное, выражение «машиночитаемый носитель данных» охватывает носители данных любого типа и исполнения, в том числе оперативные запоминающие устройства, постоянные запоминающие устройства, диски (компакт-диски, DVD-диски, гибкие диски, жесткие диски и т.д.), USB-ключи, твердотельные накопители, накопители на магнитных лентах и т.д.

В контексте настоящего описания технологии, если явно не указано иное, слова «первый», «второй», «третий» и т.д. используются в форме прилагательных только для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей указания какой-либо конкретной связи между этими существительными. Таким образом, например, следует учитывать, что использование выражений «первое приложение» и «третье приложение» не подразумевает какого-либо конкретного порядка, категории, хронологии, иерархии или независимого либо сравнительного ранжирования (например) приложений, а эти выражения (сами по себе) не предполагают обязательного наличия в данном случае какого-либо «второго приложения». Кроме того, как указано в настоящем описании, упоминание «первого» элемента и «второго» элемента не исключает возможности того, что эти два элемента фактически представляют собой один элемент. Таким образом, например, в некоторых случаях «первый» компонент и «второй» компонент могут быть одним компонентом программного и (или) аппаратного обеспечения, а в других случаях они могут представлять собой различные компоненты программного и (или) аппаратного обеспечения.

Примеры осуществления настоящей технологии предусматривают по меньшей мере реализацию одной из указанных выше целей и (или) одного из аспектов, но не обязательно содержат все указанные цели и аспекты. Следует учитывать, что некоторые аспекты настоящей технологии, полученные в результате попыток достижения указанной выше цели, могут не удовлетворять критериям данной цели и (или) могут удовлетворять критериям других целей, которые конкретно не указаны в настоящем документе.

Дополнительные и (или) альтернативные признаки, аспекты и преимущества примеров осуществления настоящей технологии будут очевидными из последующего описания, приложенных чертежей и формулы изобретения.

Краткое описание чертежей

Для углубления понимания предложенной технологии, а также других аспектов и дополнительных признаков указанной технологии представлено нижеследующее описание, которое следует рассматривать совместно с прилагаемыми чертежами.

Фиг. 1 иллюстрирует контекстную схему сетевой вычислительной среды, пригодной для реализации примеров осуществления технологии, описанной в настоящем документе.

Фиг. 2 иллюстрирует структурную схему компьютерной системы, содержащей различные компоненты оборудования, пригодные для реализации предлагаемой технологии.

Фиг. 3 иллюстрирует изображение снимка экрана, представляющего окно приложения, обеспечивающего функционирование музыкального проигрывателя, которое может быть отображено на электронном устройстве, содержащем компоненты предложенной технологии.

Фиг. 4 и 5 иллюстрируют изображения снимков экрана, представляющих окна веб-браузера, которые могут быть отображены на электронном устройстве, содержащем компоненты предложенной технологии.

Фиг. 6 и 7 иллюстрируют структурные схемы способов обработки речевых запросов пользователя в соответствии с примерами осуществления предлагаемой технологии.

Осуществление изобретения

На фиг. 1 представлена схема сетевой вычислительной среды 100, содержащей смартфон 120, осуществляющий обмен данными с поисковой системой130 при помощи сети 101 передачи данных (например, сети Интернет или аналогичной сети). Следует учитывать, что различные элементы сетевой вычислительной среды 100, представленные на данной фигуре и описанные далее, предназначены только для иллюстрации некоторых возможных примеров осуществления предложенной технологии. Указанное далее описание не предназначено для определения объема или ограничения настоящей технологии. В некоторых случаях далее описаны полезные примеры осуществления изменений сетевой компьютерной среды 100. Эти примеры указаны только для углубления понимания, а не для определения объема или ограничения настоящей технологии. Указанные изменения не являются исчерпывающими, и для специалистов в данной области техники очевидно, что возможна реализация других изменений. Далее, отсутствие примеров реализации изменений не следует интерпретировать как отсутствие возможности внесения изменений и (или) представлять рассмотренный пример осуществления как единственный вариант реализации данного элемента предложенной технологии. Для специалистов в данной области техники очевидно, что это не так. Следует также учитывать, что элементы сетевой вычислительной среды 100 могут представлять собой сравнительно простые варианты осуществления предлагаемой технологии, и в этом случае они представляются таким образом с целью упрощения понимания. Для специалистов в данной области техники очевидно, что возможны различные более сложные варианты осуществления предлагаемой технологии. Программные модули или просто модули, которые представляют собой программное обеспечение, могут быть представлены в настоящем документе в виде любой комбинации элементов структурной схемы или других элементов, соответствующих этапам процесса и (или) текстовому описанию. Эти модули могут быть реализованы на основе аппаратного обеспечения, которое явно указано или использование которого подразумевается.

Смартфон 120, изображенный на фиг. 1, представляет собой смартфон Apple™ iPhone™, функционирующий на основе операционной системы iOS™. В других примерах осуществления технологии может использоваться другая приемлемая операционная система (например, Google Android™, Microsoft Windows Phone™, BlackBerry OS™). Кроме того, поскольку предложенная технология не ограничивается мобильными устройствами, в других примерах осуществления настоящей технологии смартфон 120 может быть заменен немобильным устройством. В представленном примере осуществления технологии смартфон 120 содержит сенсорный экран 122, кнопку 124 начальной страницы, кнопку 126 включения питания и микрофон 128. Смартфон 120 эксплуатируется пользователем 110, который подает речевой запрос 112.

На фиг. 2 представлена структурная схема компьютерной системы 200 (например, смартфона 120), пригодной для реализации предложенной технологии. Компьютерная система 200 содержит компоненты аппаратного обеспечения, в том числе процессор 210, память 220, запоминающее устройство 230 и сетевой интерфейс 240. Каждое устройство группы, включающей в себя память 220, запоминающее устройство 230 и сетевой интерфейс 240, осуществляет обмен данными с процессором 210 при помощи одной или большего числа шин 250 (например, шины PCI, шины USB, шины SATA).

Представленный на фиг. 3, 4 и 5 ряд операций со смартфоном 120, выполняемых пользователем 110, иллюстрирует различные аспекты предложенной технологии. Пользователь 110 может начать последовательность операций посредством запуска приложения, отображающего визуальное содержимое на сенсорном экране 122. Например, пользователь 110 может известным способом (то есть, посредством прикосновения к значку, отображаемому на начальном экране операционной системы смартфона 120) осуществить запуск приложения 300, обеспечивающего функционирование музыкального проигрывателя, и выполнить операции с приложением 300, обеспечивающим функционирование музыкального проигрывателя, с целью воспроизведения песни «Weight of Love» в исполнении группы «The Black Keys», как указано на фиг. 3.

После прослушивания песни в течение некоторого времени пользователю 110 может потребоваться дополнительная информация об исполнителе. Если приложение 300, обеспечивающее функционирование музыкального проигрывателя, содержит функции обработки речевых запросов пользователя, реализованные на основе предложенной технологии, то пользователь 110 может подать речевой запрос 112, представляющий собой фразу, такую как «Найти группу The Black Keys». Следует отметить, что в некоторых примерах осуществления настоящей технологии пользователю 110 может сначала потребоваться подать команду приложению 300, обеспечивающему функционирование музыкального проигрывателя, с использованием известных средств (например, посредством прикосновения к элементу интерфейса пользователя, такому как кнопка с изображением микрофона на сенсорном экране 122 (кнопка с изображение микрофона на фиг. 3 не указана)) для перевода приложения 300, обеспечивающего функционирование музыкального проигрывателя, в режим записи, позволяющий определить подачу и выполнить прием речевого запроса 112 пользователя при помощи микрофона 128 смартфона 120.

В других примерах осуществления технологии приложение 300, обеспечивающее функционирование музыкального проигрывателя, может постоянно находиться в режиме готовности к приему речевых запросов пользователя, так что пользователь 110 просто подает речевой запрос 112 без предварительного перевода приложения 300, обеспечивающего функционирование музыкального проигрывателя, в режим готовности к приему речевого запроса 112 пользователя. В последующих примерах осуществления технологии вместо приложения 300, обеспечивающего функционирование музыкального проигрывателя, в режиме прослушивания может постоянно находиться операционная система смартфона 120, которая также выполняет предварительную обработку речевого запроса 112 пользователя.

После подачи пользователем 110 речевой запрос 112 может быть записан при помощи микрофона 128 с целью формирования звукового представления речевого запроса 112 пользователя (например, звукового файла, содержащего речевые данные (то есть, звуковое представление), представляющие речевой запрос 112 пользователя). Инструкции программы, осуществляющей запись звукового представления речевого запроса 112 пользователя, могут (в качестве примеров, не имеющих ограничительного характера) быть частью приложения 300, обеспечивающего функционирование музыкального проигрывателя, частью библиотеки программного обеспечения (не показана), установленного на смартфоне 120, выполнение которого может инициировать приложение 300, обеспечивающее функционирование музыкального проигрывателя, или частью операционной системы смартфона 120.

Далее, звуковое представление речевого запроса 112 пользователя обрабатывается с целью формирования текстового представления речевого запроса 112 пользователя (например, для получения строки текста «найти группу the black keys»). И в данном случае, аналогично указанному выше при рассмотрении инструкций, касающихся записи звукового сигнала, инструкции преобразования речи в текст могут (в качестве примеров, не имеющих ограничительного характера) быть частью приложения 300, обеспечивающего функционирование музыкального проигрывателя, частью библиотеки программного обеспечения (не показана), установленной на смартфоне 120, или частью операционной системы смартфона 120.

После получения текстового представления речевого запроса 112 пользователя «найти группу the black keys» приложение 300, обеспечивающее функционирование музыкального проигрывателя, далее выполняет инструкции программы с целью определения того, что речевой запрос 112 касается определенной функции (выполнения поиска), осуществляемой другим приложением, установленным на смартфоне 120, а именно, веб-браузером 400, указанным на фиг. 4 и 5. Следует учитывать, что предложенная технология не ограничивается каким-либо конкретным способом определения того, что речевой запрос 112 пользователя касается функции, выполняемой веб-браузером 400, а может использоваться любой известный способ. Например, приложение 300, обеспечивающее функционирование музыкального проигрывателя, может выполнить анализ текстового представления речевого запроса 112 пользователя и интерпретировать слово «найти», как указывающее на необходимость выполнения поиска с использованием фразы «the black keys» в качестве запроса поиска, а в приложении 300, обеспечивающем функционирование музыкального проигрывателя, может быть в процессе компиляции или выполнения предусмотрена передача запросов поиска веб-браузеру 400. В результате этого, приложение 300, обеспечивающее функционирование музыкального проигрывателя, инициирует выполнение поиска веб-браузером 400. Данная операция может предусматривать передачу приложением 300, обеспечивающим функционирование музыкального проигрывателя по меньшей мере части текстового представления речевого запроса 112 пользователя (например, в данном примере запроса поиска «the black keys») веб-браузеру 400.

На фиг. 4 представлено изображение окна веб-браузера 400, которое может быть представлено после выполнения поиска элемента «the black keys» по запросу приложения 300, обеспечивающего функционирование музыкального проигрывателя. Например, поиск может быть выполнен веб-браузером 400 в результате обмена данными с поисковой системой 130 при помощи сети 101 обмена данными, указанной на фиг. 1. Искомые слова «the black keys» запроса 412 поиска указываются в строке 410 поиска, причем результаты 420 поиска отображены выше. Процесс выполнения поисковой системой 130 поиска и отображения результатов, в общем, осуществляется в соответствии с известными способами и как таковой далее подробно не описывается.

После рассмотрения результатов 420 поиска пользователю 110 может быть представлено напоминание, касающееся другого любимого исполнителя пользователя - Дженнифер Лопес, и пользователь может принять решение выполнить поиск ее песен. Если веб-браузер 400 содержит функции обработки речевых запросов пользователя, реализованные на основе предложенной технологии, то пользователь 110 может выполнить новую операцию поиска посредством подачи нового речевого запроса 112 пользователя, представляющего собой фразу «Найти Дженнифер Лопес» или, возможно, просто «Дженнифер Лопес». Как и в случае приложения 300, обеспечивающего функционирование музыкального проигрывателя, в некоторых примерах осуществления веб-браузера 400 может сначала потребоваться, чтобы пользователь 110 сначала подал команду перехода в режим записи звукового сигнала, обеспечивающий прием нового речевого запроса 112 пользователя, а в других примерах осуществления технологии устройство может постоянно функционировать в режиме прослушивания, обеспечивающем прием речевых запросов 112 пользователя в любое время.

Записанное звуковое представление нового речевого запроса 112 пользователя далее обрабатывается веб-браузером 400 аналогично первоначальному речевому запросу 112 пользователя, который был обработан приложением 300, обеспечивающим функционирование музыкального проигрывателя, для получения текстового представления нового речевого запроса 112 пользователя (то есть, текста «найти дженнифер лопес» или «дженнифер лопес»). Однако следует отметить, что конкретный способ преобразования речи в текст, используемый веб-браузером 400, не обязательно должен быть (но может быть) идентичным способу преобразования речи в текст, использованному приложением 200, обеспечивающим функционирование музыкального проигрывателя. Далее, веб-браузер 400 интерпретирует новый речевой запрос 112 пользователя как команду проведения новой операции поиска с использованием запроса поиска «дженнифер лопес». На фиг. 5 представлено окно веб-браузера 400, которое может отображаться после проведения второй операции поиска, касающейся словосочетания «дженнифер лопес».

В то же время приложение 300, обеспечивающее функционирование музыкального проигрывателя, может работать в фоновом режиме, продолжая воспроизведение песни «Тле Weight of Love» в исполнении группы «The Black Keys». Пользователь 110, более заинтересованный в прослушивании песни Дженнифер Лопес, может принять решение сделать паузу в прослушивании текущей песни, которая воспроизводится приложением 300, обеспечивающим функционирование музыкального проигрывателя. С этой целью пользователь 110 подает следующий речевой запрос 112, произнеся на этот раз фразу «Пауза воспроизведения музыки». Веб-браузер 400, находящийся в активном режиме, может далее получить текстовое представление последнего речевого запроса 112, содержащего фразу «Пауза воспроизведения музыки».

Далее, веб-браузер определяет, что речевой запрос 112 пользователя не представляет собой запрос выполнения поиска, а соответствует функции, выполняемой приложением 300, обеспечивающим функционирование музыкального проигрывателя, а именно, включению паузы воспроизведения музыки. В результате этого веб-браузер 400 осуществляет включение паузы воспроизведения песни приложением 300, обеспечивающим функционирование музыкального проигрывателя.

Фиг. 6 иллюстрирует структурную схему, представляющую компьютерный способ 600 обработки речевого запроса 112, поданного пользователем 110 электронного устройства (например, смартфона 120), содержащего процессор 210, предназначенный для выполнения приложений, причем указанный способ может быть реализован каждым приложением из по меньшей мере двух приложений. Следует отметить, что компьютерный способ 600, указанный на фиг. 6, выполняется в соответствии с примером осуществления настоящей технологии, не имеющим ограничительного характера.

На этапе 610 обеспечивается обработка звукового представления речевого запроса 112 пользователя. В некоторых примерах осуществления технологии такая обработка может включать в себя этап 612, на котором обеспечивается выполнение инструкций преобразования речи в текст, содержащихся в библиотеке программного обеспечения, установленной на электронном устройстве (например, смартфоне 120), с целью получения текстового представления речевого запроса 112 пользователя (например, строки символов «найти группу the black keys», указанной в примерах, рассмотренных выше).

На этапе 620 осуществляется определение того, что речевой запрос 112 пользователя касается функции, выполняемой другим приложением из по меньшей мере двух приложений. В некоторых примерах осуществления технологии этап 620 может включать в себя этап 622, на котором осуществляется определение того, что текстовое представление речевого запроса 112 пользователя касается указанной функции. На этапе 630 обеспечивается выполнение функции другим приложением из по меньшей мере двух приложений. В некоторых примерах осуществления технологии этап 630 может включать в себя этап 632, на котором выполняется передача по меньшей мере части текстового представления речевого запроса 112 пользователя другому приложению из по меньшей мере двух приложений.

В различных альтернативных примерах осуществления настоящей технологии специализированное приложение распознавания речи может выполнять некоторые или все указанные далее задачи, которые требуются для реализации функций по меньшей мере двух приложений, а именно: запись звукового представления речевого запроса 112 пользователя, обработка звукового представления речевого запроса 112 пользователя с целью формирования текстового представления речевого запроса 112 пользователя, определение того, что речевой запрос 112 пользователя касается функции, выполняемой одним из приложений, и обеспечение выполнения указанной функции одним из приложений.

Фиг. 7 иллюстрирует структурную схему, представляющую некоторые альтернативные варианты осуществления технологии, а именно, компьютерный способ 700 обработки речевого запроса, поданного пользователем электронного устройства, содержащего процессор, предназначенный для выполнения приложений. Способ 700, представленный на фиг. 7, реализован в соответствии с еще одним примером осуществления настоящей технологии, не имеющим ограничительного характера.

Способ 700 включает в себя несколько этапов. На этапе 710 первое приложение (например, приложение 300, обеспечивающее функционирование музыкального проигрывателя) определяет, что получен речевой запрос 112 пользователя. Далее, на этапе 712 первое приложение выполняет анализ звукового представления речевого запроса 112 пользователя. На этапе 720 речевой запрос 112 пользователя передается второму приложению (например, специализированному приложению распознавания речи, выполняемому в фоновом режиме на смартфоне 120). Этап 720 может включать в себя этап 722, на котором осуществляется передача звукового представления речевого запроса 112 пользователя второму приложению.

На этапе 730 второе приложение (например, специализированное приложение распознавания речи) осуществляет определение того, что речевой запрос 112 пользователя касается функции, выполняемой третьим приложением. В некоторых случаях третье приложение может, фактически, представлять собой первое приложение. Например, речевой запрос 112 пользователя, представленный фразой «Пауза воспроизведения музыки», может быть получен приложением 300, обеспечивающим функционирование музыкального проигрывателя, и передан специализированному приложению распознавания речи, которое определяет, что речевой запрос 112 пользователя касается функции, выполняемой приложением 300, обеспечивающим функционирование музыкального проигрывателя, от которого был получен речевой запрос 112 пользователя. В других случаях третье приложение может отличаться от первого приложения (например, первое приложение может представлять собой приложение 300, обеспечивающее функционирование музыкального проигрывателя, а третье приложение может представлять собой веб-браузер 400).

В некоторых примерах осуществления настоящей технологии этап 730 включает в себя этап 732, на котором выполняется обработка звукового представления речевого запроса 112 пользователя с целью получения текстового представления речевого запроса 112 пользователя. Этап 730 может дополнительно включать в себя этап 734, на котором второе приложение осуществляет определение того, что текстовое представление речевого запроса 112 пользователя касается конкретной функции. На этапе 740 второе приложение обеспечивает выполнение функции третьим приложением. Этап 740 может включать в себя передачу вторым приложением третьему приложению по меньшей мере части текстового представления речевого запроса 112 пользователя.

Для специалистов в данной области техники очевидно, что в указанные выше примеры осуществления настоящей технологии могут быть внесены изменения и усовершенствования. Представленное описание является иллюстративным и не имеет ограничительного характера. Соответственно, объем настоящей технологии определяется исключительно приложенной формулой изобретения.

1. Способ обработки речевого запроса, поданного пользователем электронного устройства, содержащего процессор, предназначенный для выполнения по меньшей мере двух приложений, каждое из которых выполнено с возможностью получения речевого запроса, включающий: определение каждым одним приложением из по меньшей мере двух приложений функции другого приложения, запрошенного в речевом запросе; и выполнение указанной функции определенным приложением из по меньшей мере двух приложений.

2. Способ по п. 1, в котором этап определения функции другого приложения включает определение того, что текстовое представление речевого запроса пользователя касается указанной функции.

3. Способ по п. 2, в котором указанный этап выполнения функции другим приложением из по меньшей мере двух приложений включает в себя передачу по меньшей мере части текстового представления речевого запроса пользователя другому приложению из по меньшей мере двух приложений.

4. Способ по п. 2, который дополнительно включает этап обеспечения обработки звукового представления речевого запроса пользователя с целью получения текстового представления речевого запроса пользователя перед определением того, что текстовое представление речевого запроса пользователя касается указанной функции.

5. Способ по п. 4, в котором указанный этап обеспечения обработки звукового представления речевого запроса пользователя с целью получения текстового представления речевого запроса пользователя включает обеспечение выполнения инструкций программы преобразования речи в текст, содержащихся в библиотеке программного обеспечения, установленной в электронном устройстве.

6. Способ по п. 2, который дополнительно включает этап приема текстового представления речевого запроса пользователя от приложения преобразования речи в текст, которое является одним из указанных приложений, перед выполнением указанного этапа определения того, что текстовое представление речевого запроса пользователя касается указанной функции, причем приложение преобразования речи в текст обрабатывает звуковое представление речевого запроса пользователя с целью получения текстового представления речевого запроса пользователя.

7. Способ по п. 2, который дополнительно включает этап приема текстового представления речевого запроса пользователя от инструкций программы преобразования речи в текст, представляющей собой часть операционной системы электронного устройства, перед выполнением указанного этапа определения того, что текстовое представление речевого запроса пользователя касается указанной функции, причем инструкции программы преобразования речи в текст обрабатывают звуковое представление речевого запроса пользователя с целью получения текстового представления речевого запроса пользователя.

8. Электронное устройство для обработки речевого запроса, поданного пользователем, содержащее: процессор; и память, функционально связанную с процессором и обеспечивающую хранение приложений, причем каждое из по меньшей мере двух приложений содержит инструкции программы, выполняемые процессором с целью: получения каждым приложением речевого запроса; определения одним приложением из по меньшей мере двух приложений функции другого приложения, запрошенного в речевом запросе; и выполнения указанной функции определенным приложением из по меньшей мере двух приложений.

9. Электронное устройство по п. 8, в котором для этапа определения функции другого приложения содержит инструкции программы, которые дополнительно обеспечивают определение процессором того, что текстовое представление речевого запроса пользователя касается указанной функции.

10. Электронное устройство по п. 9, которое для обеспечения выполнения функции другим приложением из по меньшей мере двух приложений инструкции программы дополнительно обеспечивают передачу процессором по меньшей мере части текстового представления речевого запроса пользователя другому приложению из по меньшей мере двух приложений.

11. Электронное устройство по п. 9, в котором каждое из по меньшей мере двух приложений дополнительно содержит инструкции программы, выполняемые процессором с целью обеспечения обработки процессором звукового представления речевого запроса пользователя для получения текстового представления речевого запроса пользователя перед определением процессором того, что текстовое представление речевого запроса пользователя касается функции приложения.

12. Электронное устройство по п. 11, в котором для обеспечения обработки звукового представления речевого запроса пользователя с целью получения текстового представления речевого запроса пользователя инструкции программы дополнительно обеспечивают выполнение инструкций программы преобразования речи в текст, содержащейся в библиотеке программного обеспечения, хранящейся в памяти.

13. Электронное устройство по п. 9, в котором каждое из по меньшей мере двух приложений дополнительно содержит инструкции программы, выполняемые процессором с целью обеспечения обработки процессором звукового представления речевого запроса пользователя для получения текстового представления речевого запроса пользователя перед определением процессором того, что текстовое представление речевого запроса пользователя касается функции приложения.

14. Электронное устройство по п. 9, в котором память дополнительно содержит операционную систему электронного устройства, включающую в себя инструкции программы, выполняемые процессором с целью обработки звукового представления речевого запроса пользователя для получения текстового представления речевого запроса пользователя перед определением процессором того, что текстовое представление речевого запроса пользователя касается функции приложения.

15. Компьютерный способ обработки речевого запроса, поданного пользователем электронного устройства, содержащего процессор, предназначенный для выполнения приложений, включающий этапы: определения приема речевого запроса пользователя первым приложением; передачи речевого запроса пользователя первым приложением второму приложению; определения вторым приложением того, что речевой запрос пользователя касается функции, выполняемой третьим приложением; и обеспечения вторым приложением выполнения указанной функции третьим приложением.

16. Способ по п. 15, в котором первое приложение и третье приложение представляют собой одно приложение.

17. Способ по п. 15, в котором третье приложение отличается от первого приложения.

18. Способ по п. 15, в котором этап определения того, что речевой запрос пользователя касается указанной функции, включает определение того, что текстовое представление речевого запроса пользователя касается указанной функции.

19. Способ по п. 18, в котором этап обеспечения выполнения функции третьим приложением включает передачу по меньшей мере части текстового представления речевого запроса пользователя третьему приложению.

20. Способ по п. 18, в котором определение приема речевого запроса пользователя включает анализ звукового представления речевого запроса пользователя; передача речевого запроса пользователя включает передачу звукового представления речевого запроса пользователя; и указанный способ дополнительно включает обработку звукового представления речевого запроса пользователя вторым приложением с целью получения текстового представления речевого запроса пользователя перед определением того, что текстовое представление речевого запроса пользователя касается указанной функции.

21. Электронное устройство для обработки речевого запроса пользователя, содержащее: процессор; и память, функционально связанную с процессором и обеспечивающую хранение приложений, в том числе первого приложения, второго приложения и третьего приложения, причем первое приложение выполняется процессором с целью определения приема речевого запроса пользователя и передачи речевого запроса пользователя второму приложению, второе приложение выполняется процессором с целью определения функции приложения третьего приложения и выполнения указанной функции третьим приложением.

22. Электронное устройство по п. 21, в котором первое приложение и третье приложение представляют собой одно приложение.

23. Электронное устройство по п. 21, в котором третье приложение отличается от первого приложения.

24. Электронное устройство по п. 21, в котором этап определения того, что речевой запрос пользователя касается указанной функции, включает определение того, что текстовое представление речевого запроса пользователя касается указанной функции.

25. Электронное устройство по п. 24, в котором этап обеспечения выполнения функции третьим приложением включает передачу по меньшей мере части текстового представления речевого запроса пользователя третьему приложению.

26. Электронное устройство по п. 24, в котором определение приема речевого запроса пользователя включает анализ звукового представления речевого запроса пользователя; передача речевого запроса пользователя включает передачу звукового представления речевого запроса пользователя; и второе приложение дополнительно обеспечивает обработку звукового представления речевого запроса пользователя с целью получения текстового представления звукового запроса пользователя перед определением того, что текстовое представление речевого запроса пользователя касается указанной функции.

Изобретение относится к средствам для поиска в компьютерных системах и базах данных. Технический результат заключается в обеспечении возможности подбора музыкальной и текстовой информации друг к другу на основании их ритмических свойств.

Способ оценки мгновенной частоты речевого сигнала в точках локального максимума // 2621647

Изобретение относится к области техники анализа речи, в частности к способу оценки мгновенной частоты в точках локального максимума речевых сигналов. Техническим результатом является уменьшение количества вычислений для оценки мгновенной частоты в точках локального экстремума.

Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа // 2606566

Изобретение относится к области цифровой связи и технологиям обработки речи в условиях зашумления. Технический результат - повышение достоверности классификации сегментов зашумленной речи по типовым классификационным группам.

Представление данных на основе введенных пользователем данных // 2360281

Изобретение относится к доступу и воспроизведению информации в компьютерной системе, а более конкретно к представлению данных на основе голосового ввода, осуществляемого пользователем.

Дистанционное вокодирование по линии связи на большую дальность действия // 2147771

Устройство для распознавания речевых сигналов // 1695376

Изобретение относится к технике обработки речевых сигналов оптическими методами и может быть использовано при распознавании сигналов для сокращения избыточности речевого потока при его вводе в вычислительную систему, работающую в режиме обмена с оператором на естественном языке.

Устройство для автоматического распознавания фонем речевого сигнала // 1352523

Способ селекции признаков для распознавания речевых сигналов // 1037292

Устройство для распознавания речевых сигналов // 1030840

Способ обработки речевого сигнала // 1027761