Детектирование автоответчика путем распознавания речи

Авторы патента:

ЮЙ Дун (US)

ФИШЕР Крейг М. (US)

ВАН Е-И (US)

АСЕРО Алехандро (US)

ЦЗЮЙ Юй-Чэн (US)

H04M1/67 - Телефонная связь (счетные механизмы G06M; схемы управления нетелефонной аппаратурой по телефонному кабелю и не содержащие коммутационных устройств G08; катушки или другие натяжные устройства для телефонных шнуров H02G 11/00; многоканальная передача между коммутационными центрами H04J; устройства для выбора линий H04Q; громкоговорители, микрофоны, адаптеры или подобные электромеханические преобразователи звука H04R)

G10L15/22 - методы, используемые в процессе распознавания речи, например диалог человека с машиной

G10L15/06 - создание эталонных шаблонов; обучение систем распознавания речи, например по характеристикам голоса говорящего (G10L 15/14 имеет преимущество)

Владельцы патента RU 2439716:

МАЙКРОСОФТ КОРПОРЕЙШН (US)

Изобретение относится к способам и устройствам детектирования автоответчика, используемым для определения того, является ли получатель вызова реальной персоной или автоответчиком. Техническим результатом является повышение точности детектирования автоответчика. Указанный результат достигается тем, что способ содержит посредством процессора прием звукового ответа от получателя вызова и обработку звукового ответа посредством распознавателя речи, имеющего языковую модель для преобразования звукового ответа в вывод, указывающий распознанную речь в текстовой форме; и обработку вывода, указывающего распознанную речь, в текстовой форме со статистическим классификатором, настроенным по словесным фразам, обычно используемым реальными персонами и автоматическими системами, наряду с установлением несловесных особенностей, ассоциированных со звуковым ответом для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком. Классификатор является отдельным от языковой модели. Обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме наряду с несловесными особенностями. Статистический анализ проверяет содержимое вывода, указывающего распознанную речь, и, на основании этой проверки, определяет, является ли вывод, указывающий распознанную речь, более статистически согласуемым со словесными фразами, обычно используемыми реальными людьми или автоматическими системами. 3 н. и 15 з.п. ф-лы, 6 ил.

Уровень техники

Данный раздел приведен исключительно для предоставления общего уровня техники и не предназначен для использования в качестве помощи при определении объема формулы изобретения.

В настоящее время широко используются автоматические телефонные системы для исходящих вызовов. Кроме применения в маркетинговых целях, подобные системы также могут использоваться медицинскими учреждениями или клиниками для связи с пациентами, чтобы назначать или изменять время посещения, учебными заведениями для информирования студентов об изменениях расписания, благотворительными организациями для получения взносов, государственными учреждениями для распространения уведомлений или другой информации и т.п.

Во многих случаях может быть необходимо или желательно автоматически определять, является ли получатель телефонного вызова реальной персоной или автоответчиком. В зависимости от того, ответила ли на вызов реальная персона или используется автоответчик, телефонной системой для исходящих вызовов могут быть выполнены различные действия. Тем не менее, данная задача - анализ вызова - является достаточно сложной и в настоящее время решение ее не обеспечивает точности.

Анализ вызова обычно выполняется на уровне аппаратного переключателя. Анализ выполняется в течение короткого интервала, начиная с момента, когда получатель отвечает на вызов, и до того момента, когда вызов соединяется с телефонным приложением. В течение данного интервала, когда получатель начинает говорить, система обрабатывает принятые звуковые сигналы в части, например, энергии, мощности или других параметров звуковых сигналов, чтобы определить, является ли получатель реальной персоной или автоответчиком. Следует отметить, что на данном этапе телефонному приложению даже не известно о том, что на вызов ответили, и, следовательно, оно не предоставляет каких-либо начальных запросов. Соответственно, на другом конце линии, несмотря на то, что получатель ответил на вызов и выслушал приветствие, такое как "Здравствуйте", после этого он больше нечего не слышит, поскольку в это время система выполнят анализ вызова. Во многих случаях получатель просто повесит трубку.

Сущность изобретения

Разделы "Сущность изобретения" и "Реферат" приведены, чтобы представить в упрощенной форме выборку концепций, которые подробно описываются ниже, в разделе "Подробное описание". Разделы "Сущность изобретения" и "Реферат" не предназначены ни для определения ключевых или существенных отличительных признаков сущности формулы изобретения, ни для использования в качестве вспомогательного средства при определении объема сущности формулы изобретения. В добавление, объем формулы изобретения не ограничивается реализациями, которые устраняют какие-либо или все недостатки, перечисленные в разделе "Уровень техники".

Модуль детектирования автоответчика используется для определения того, является ли получатель вызова реальной персоной или автоответчиком. Модуль детектирования автоответчика включает в себя распознаватель речи и модуль анализа вызова. Распознаватель речи принимает звуковой ответ от получателя вызова. Распознаватель речи обрабатывает звуковой ответ и предоставляет вывод, указывающий распознанную речь. Модуль анализа вызова обрабатывает вывод распознавателя речи, чтобы сгенерировать вывод, указывающий, является ли получатель вызова реальной персоной или автоответчиком. В одном варианте осуществления модуль анализа вызова может включать в себя модуль классификатора, который выполняет статистический анализ вывода из распознавателя речи, чтобы определить, является ли получатель вызова реальной персоной или автоответчиком.

Также описан способ для обеспечения того, чтобы сообщение вызывающего было записано автоответчиком целиком. В частности, задействуется распознаватель речи, чтобы детектировать события вмешательства в разговор, выполняемые автоответчиком, причем если детектируется событие вмешательства в разговор, то сообщение воспроизводится повторно. Несмотря на то, что данная процедура может привести к тому, что сообщение воспроизводится один или более раз, это особенно полезно, поскольку наличие какого-либо события вмешательства в разговор указывает на то, что приветствие автоответчика не было завершено, и, соответственно, автоответчик не готов записать сообщение. Когда сообщение повторно воспроизводится после каждого события вмешательства в разговор, если после последнего события вмешательства в разговор данное сообщение воспроизводится, то обеспечивается гарантия того, что сообщение будет записано целиком, когда автоответчик готов записать сообщение.

Краткое описание чертежей

Фиг.1 - структурная схема, иллюстрирующая систему набора номера;

Фиг.2 - структурная схема, иллюстрирующая компоненты системы набора номера с Фиг.1,

Фиг.3 - структурная схема для обработки вызова;

Фиг.4 - схема последовательности операций для обработки вызова;

Фиг.5 - более подробная схема последовательности операций для обработки вызова;

Фиг.6 - пример вычислительного окружения.

Подробное описание

Фиг.1 и 2 представляют собой структурные схемы системы 100 для исходящих вызовов (или системы набора номера). Система 100 реализована, например, в одном из вычислительных окружений, описанных в привязке к Фиг.6, описанной ниже, или в другом подходящем вычислительном окружении. Как показано на Фиг.1, система 100 для исходящих вызовов вызывает любого из или множество получателей 102 вызова (проиллюстрированы получатели 102-1 ~ 102-М). В контексте данного документа "получателем вызова" может быть либо реальная персона, либо автоответчик. После вызова одного из получателей 102-1 ~ 102-М вызова система 100 для исходящих вызовов определяет, является ли получатель вызова реальной персоной или используется автоответчик.

Фиг.2 представляет собой более подробную иллюстрацию компонентов и модулей системы 100 для исходящих вызовов согласно одному примеру осуществления. Как показано, система 100 для исходящих вызовов осуществляет вызовы одного или более получателей 102 вызова. Модуль 106 детектирования автоответчика используется для определения того, является ли получатель 102 вызова реальной персоной или автоответчиком. В типовом приложении модуль 104 приложения инициирует набор телефонного номера получателя вызова, извлеченного из, например, базы 108 данных телефонных номеров. Далее, модуль 106 детектирования автоответчика используется для определения того, является ли получатель 102 вызова реальной персоной или автоответчиком. В зависимости от вывода модуля 106 детектирования, система 100 для исходящих вызовов может выполнять различные действия. Например, если получатель вызова является реальной персоной, то модуль 104 приложения может перевести вызов на оператора 110 или войти в контакт с получателем в режиме автоматического разговора. В других случаях модуль 104 приложения может использоваться, чтобы оставить сообщение на автоответчике получателя 102 вызова. На Фиг.2 получатели 102 вызова, база 108 данных телефонных номеров и оператор 110 показаны в пунктирных линиях, чтобы показать, что они не являются частью системы 100 для исходящих вызовов, или что их наличие в системе 100 необязательно. Сверх того, структурная схема системы 100 для исходящих вызовов приведена в схематическом виде в целях разъяснения и предоставления примера взаимосвязей между модулем 106 детектирования автоответчика и его компонентами, а также другими компонентами системы 100 исходящих вызовов. Следует понимать, что это всего лишь один пример осуществления, и что в других вариантах осуществления один или более компонентов системы 100 для исходящих вызовов и модуль 106 детектирования автоответчика могут быть исключены из состава и/или комбинированы в других конфигурациях.

В проиллюстрированном варианте осуществления модуль 106 детектирования автоответчика включает в себя распознаватель 120 речи и модуль 122 анализа вызова. Фиг.3 и 4 представляют собой структурную схему и схему последовательности операций способа 200, соответственно, иллюстрирующие работу этих модулей. На этапе 202 распознаватель 120 речи принимает звуковой ответ 124 получателя 102 вызова на вызов, размещенный системой 100 для исходящих вызовов. Распознаватель 120 речи обрабатывает звуковой ответ 124 и предоставляет вывод 126, указывающий распознанную речь, а в одном варианте осуществления, также фразы, обычно в форме текстовых данных. В использованном здесь значении термин "фраза" обозначает множество слов в контексте, предоставленном получателем вызова.

На этапе 204 вывод 126 из распознавателя 120 речи предоставляется в качестве ввода в модуль 122 анализа вызова. Модуль 122 анализа вызова обрабатывает вывод 126 распознавателя речи 120, чтобы сгенерировать вывод 128, указывающий, является ли получатель вызова реальной персоной или автоответчиком. Модуль 122 анализа вызова может включать в себя модуль 123 классификатора, который выполняет статистический анализ содержимого фраз(ы) в выводе 126. Принципы действия распознавателя 120 речи и модуля 123 классификатора широко известны, и данные компоненты могут быть реализованы посредством известных методов. Тем не менее, следует отметить, что тренинг языковой модели 130 (например, N-грамма, контекстно-свободная грамматика, гибридная модель и т.п.), используемой распознавателем 120 речи и моделью 132 классификатора, как правило, выполняется только по фразам или приветствиям, используемым людьми и автоответчиками, когда они отвечают на вызов. Например, реальная персона может ответить на вызов приветствием "Алло", "Чем могу быть полезен?", "Это Стив" или просто назвав свое имя. В отличие от этого автоответчик может ответить приветствием "Это мой автоответчик. Я не могу Вам ответить в настоящий момент. Пожалуйста, оставьте сообщение" или просто "Пожалуйста, оставьте сообщение". Тем не менее, при детектировании автоответчика на основании содержимого может потребоваться распознать важные фразы, такие как "не могу Вам ответить в настоящий момент" или "оставьте сообщение".

Аналогично, в случае прохождения процедуры системы телефонного экрана на стороне получателя может потребоваться распознавание фразы типа "нажмите 2". Для распознавания таких фраз с высокой точностью, тренинг языковой модели 130 может быть выполнен посредством важных фраз, и эта модель может быть сглажена с помощью модели заполнителя N-граммы, чтобы выполнить захват слов, не входящих в важные фразы. Пример модели заполнителя N-граммы описан авторами D. Yu, Y. С. Ju, Y.Wang и А.Acero в документе "Модель заполнителя на основе N-граммы для устойчивого авторинга грамматики", опубликованном в материалах Международной Конференции по Акустике, Обработке Речи и Сигналов, Май 2006. Соответствующий тренинг языковой модели 130 и модели 132 классификатора может быть выполнен посредством достаточного количества примеров (либо общих примеров, либо примеров, присущих приложению).

Что касается модуля 122 анализа вызова и этапа 204, то альтернативно или в добавление к выводу 126 распознавателя 120 речи также могут использоваться несловесные особенности 136. Примеры несловесных особенностей 136 включают в себя, но не ограничиваются перечисленным, событие вмешательства в разговор получателя 102 вызова (то есть прерывание приглашения, когда приложение 104 выполняет диалог), длительность звукового ответа, выполненного получателем 102 вызова при ответе на вызов, и то, смог ли распознаватель 120 речи распознать звуковой ответ 124 как действительную фразу. На Фиг.3 несловесные особенности 136 производятся из генератора 128 несловесных особенностей, который может принимать и обрабатывать звуковой ответ 124 или иную входную информацию 138, относящуюся к вызову, от системы 100 для исходящих вызовов. На Фиг.4 прием несловесных особенностей 136 показан на этапе 203.

Следует отметить, что распознаватель 120 речи не должен распознавать весь звуковой ответ 124, а из-за шумного окружения у получателя 102 вызова, шума в записанном приветствии или шума от телефонной системы и природы самого ответа, только одна или более частей звукового ответа 124 могут быть распознаваемыми и, соответственно, использованы для определения того, является ли получатель 102 вызова реальной персоной или автоответчиком.

Фиг.5 представляет собой схему последовательности операций иллюстративного способа 300, выполняемого модулем 122 анализа вызова при исполнении этапа 204 на Фиг.3. Этап 302 представляет начало распознавания речи после выполнения вызова. Первой несловесной особенностью, которая может быть опционально использована для определения того, является ли получатель вызова реальной персоной или автоответчиком, является наличие или отсутствие тишины сразу после приема вызова. В частности, было выявлено, что реальная персона может выждать, например, секунду или две до того как начать говорить. Соответственно, если на этапе 304 определяется наличие тишины после ответа на вызов (например, если измеренное таймером значение с момента этапа 302 превышает выбранное), то может быть сделано заключение, что получатель 102 вызова реальная персона.

С другой стороны, если после ответа вызова на этапе 302 шум отсутствует, или если этап 302 отсутствует, то длительность звукового ответа может использоваться для определения того, является ли получатель вызова реальной персоной. Этапы 306 и 308 иллюстрируют обработку несловесной особенности, включая длительность звукового ответа. Если на этапе 306 определяется, что длительность звукового ответа очень коротка (например, примерно меньше одной секунды), то более чем вероятно, что на вызов ответил реальная персона. А если длительность звукового ответа очень длинная (например, примерно четыре или более секунд), как проиллюстрировано на этапе 308, то получатель вызова наверняка является автоответчиком. Следует отметить, что порядок этапов 306 и 308 необязателен, и что данные этапы могут быть выполнены в обратном порядке. Аналогично, может быть отрегулирована длительность специфицированных временных периодов.

Если определение того, является ли получатель вызова реальной персоной или автоответчиком, не было выполнено до этапа 308, то процесс переходит к этапу 310, где снова может быть использована длительность звукового ответа. В частности, на этапе 310 измеряется длительность звукового ответа, чтобы определить, является ли она относительно короткой, например две или три секунды. Результат данного этапа комбинируется с информацией, относящейся к контексту звукового ответа и распознанной распознавателем 120 речи посредством модуля 123 классификатора. Иначе говоря, модуль 123 классификатора анализирует вывод 126 из распознавателя 120 речи, чтобы определить, соответствуют ли статистически одна или более фраз фразам, используемым реальной персоной, или фразам, используемым автоответчиком. На Фиг.5 информация из модуля 123 классификатора представлена на этапах 312 и 314. В частности, если на этапе 312 информация из модуля 123 классификатора указывает, что очень вероятно (с высоким уровнем доверия), что фразы в звуковом ответе от реальной персоны, то вывод 128 модуля 122 анализа вызова укажет, что получателем 102 вызова является реальная персона. А если на этапе 312 определяется, что нет высокого уровня доверия в том, что получатель вызова является реальной персоной, то вывод модуля 122 анализа вызова укажет, что получатель 102 вызова является автоответчиком. Аналогично, если на этапе 314 информация из модуля 123 классификатора указывает, что очень вероятно, что фразы в звуковом ответе исходят от автоответчика, то вывод модуля 122 анализа вызова укажет, что получатель вызова является автоответчиком, тогда как если нет высокого уровня доверия, что получатель вызова автоответчик, то вывод модуля 122 анализа вызова укажет, что получатель 102 вызова является реальной персоной. Следует отметить, что в данном примере есть склонность к ошибке в части неправильного классифицирования получателя вызова как реальной персоны, а не автоответчика. При желании может быть заложена склонность к классифицированию получателя вызова как автоответчика, или данная склонность может быть исключена согласно стоимости, связанной с различными ошибками.

Следует отметить, что описанный выше статистический классификатор является лишь иллюстративным примером. Модуль 122 анализа вызова может использовать множество других классификаторов, таких как классификаторы по методу максимума энтропии. Сверх того, для обеспечения сопоставимой точности модуль 122 анализа вызова также может использовать вспомогательные векторные машины, компоненты, использующие деревья решений, а также искусственные нейронные сети.

В примере с Фиг.5 несловесные особенности, такие как наличие шума после ответа вызова и длительность звукового ответа, используются до фактической классификации содержимого звукового ответа, чтобы определить, является ли получатель вызова реальной персоной или автоответчиком. Кроме того, для распознавания звукового ответа также могут использоваться другие несловесные особенности, такие как то, был ли прерван разговор получателя, или смог ли распознаватель 120 речи распознать звуковой ответ. В добавление, тренинг классификатора может быть выполнен на основании несловесной(ых) особенности(ей), и классификатор 123 предоставляет вывод на основании распознанных фраз звукового ответа, чтобы предоставить индикацию о том, является ли получатель вызова реальной персоной и автоответчиком. Аналогично, тренинг одного классификатора может быть выполнен на основании несловесной(ых) особенности(ей) и распознанных фраз звукового ответа, чтобы предоставить индикацию о том, является ли получатель вызова реальной персоной или автоответчиком.

В некоторых приложениях может потребоваться воспроизвести сообщение получателю вызова, например, если было определено, что получатель вызова является автоответчиком. Несмотря на то, что автоответчики предоставляют тон или тишину, указывающую, что приветствие закончилось и что сейчас следует оставить сообщение, распознавание данного тона сложно выполнить. Поскольку во многих случаях данный тон или тишина не могут быть точно распознаны, по меньшей мере, часть сообщения может быть воспроизведена в течение приветствия, и, соответственно, начальная часть сообщения не может быть записана.

Опциональный этап, проиллюстрированный на Фиг.4, предоставляет средство и способ для обеспечения того, чтобы сообщение было записано автоответчиком целиком, или, при желании, было прослушано реальной персоной. В частности, сообщение воспроизводится при включенном распознавателе 120 речи и активированной функции "детектирования вмешательства в разговор" (чтобы детектировать завершение приветствия) до завершения сообщения. Например, предположим, что автоответчик проигрывает следующее приветствие "Вы позвонили … Ерику Мо … Пожалуйста, оставьте сообщение", где “…” представляет тишину в течение приветствия. Во многих существующих системах сообщение может быть воспроизведено при детектировании одного из этих периодов тишины, из-за чего сообщение будет проиграно, но не будет записано автоответчиком, поскольку проигрывание приветствия не было завершено. Используя описанный здесь способ, распознаватель 120 речи с активированной функцией детектирования вмешательства в разговор детектирует каждую часть приветствия и каждый раз приводит к проигрыванию сообщения сначала. После того, как приветствие определенно достигло конца, сообщение воспроизводится снова, но в этот раз оно воспроизводится до конца, чтобы гарантировать то, что сообщение было прослушано или записано целиком.

Фиг.6 иллюстрирует пример подходящего вычислительного окружения 400 системы, в которой могут быть реализованы описанные в настоящем документе концепции. В частности, определенный вид окружения 400 вычислительной системы может использоваться для системы 100 для исходящих вызовов или ее частей. Тем не менее, вычислительное окружение 400 системы является лишь одним примером подходящего вычислительного окружения для каждого из этих компьютеров, и оно не предназначено для определения границ объема использования или функциональных возможностей настоящего изобретения. Кроме того, вычислительное окружение 400 не должно быть интерпретировано как имеющее зависимость или требования, относящиеся к какому-либо компоненту или комбинациям компонентов, проиллюстрированных в примере рабочего окружения 400.

В добавление к предоставленным примерам с описанными здесь концепциями могут использоваться другие известные вычислительные системы, окружения и/или конфигурации. Подобные системы включают в себя, но не ограничиваются перечисленным, персональные компьютеры, серверные компьютеры, карманные или портативные устройства, многопроцессорные системы, системы на микропроцессорах, телевизионные приставки, программируемую потребительскую электронику, сетевые персональные компьютеры, миникомпьютеры, мэйнфреймы, распределенные вычислительные окружения, которые включают в себя любые из упомянутых систем или устройств, и т.п.

Описанные в настоящем документе концепции могут быть реализованы в общем контексте выполняемых компьютером инструкций, таких как программные модули, которые выполняются компьютером. В общем, программные модули включают в себя рутинные процедуры, программы, объекты, компоненты, структуры данных и т.п., которые выполняют конкретные задачи или осуществляют конкретные абстрактные типы данных. Специалисты в данной области техники могут реализовать приведенное в настоящем документе описание и/или фигуры как выполняемые компьютером инструкции, которые могут быть реализованы в любой форме машиночитаемых носителей, описанных ниже.

Описанные в настоящем документе концепции также могут быть применены в распределенных вычислительных окружениях, где задачи выполняются посредством удаленных устройств обработки, которые объединены через сеть связи. В распределенном вычислительном окружении программные модули могут быть расположены как в среде хранения локального компьютера, так и в среде хранения удаленного компьютера, включая устройства памяти.

Ссылаясь на Фиг.6, пример системы включает в себя вычислительное устройство общего назначения в форме компьютера 410. Компоненты компьютера 410 могут включать в себя, но не ограничены перечисленным, блок 420 обработки, системную память 430 и системную шину 421, которая соединяет различные компоненты системы, в том числе соединяет системную память с блоком 420 обработки. Системная шина 421 может быть любого типа из ряда типов структур шин, включающих в себя шину памяти или контроллер памяти, периферийную шину и локальную шину, используя любую архитектуру из разнообразия архитектур шин. В качестве примера, но не ограничиваясь перечисленным, подобные архитектуры включают в себя шину стандарта Industry Standard Architecture (ISA), шину стандарта Micro Channel Architecture (MCA), шину стандарта Enhanced ISA (EISA), локальную шину стандарта Video Electronics Standards Association (VESA) и шину стандарта Peripheral Component Interconnect (PCI), также известную как шина расширения.

Компьютер 410, как правило, включает в себя ряд машиночитаемых средств. Машиночитаемые средства могут быть любым доступным средством, к которому компьютер 410 может выполнить доступ, и они включают в себя как энергозависимые, так и энергонезависимые средства, съемные и несъемные средства. В качестве примера, но не ограничиваясь перечисленным, машиночитаемые средства могут содержать компьютерные средства хранения. Компьютерное средство хранения включает в себя энергозависимую, энергонезависимую, съемное и несъемное средство, реализованное посредством какого-либо способа или технологии для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерное средство хранения включает в себя, но не ограничено этим, ОЗУ, ПЗУ, ЭСППЗУ, флэш-память или другую технологию памяти, диски CD-ROM, цифровые универсальные диски (DVD) или иные оптические дисковые носители, магнитные кассеты, магнитные ленты, магнитные дисковые носители или другие магнитные устройства хранения, или любое другое средство, которое может быть использовано, чтобы хранить желаемую информацию, и к которой может быть выполнен доступ компьютером 400.

Системная память 430 включает в себя компьютерное средство хранения в форме энергозависимой и/или энергонезависимой памяти, такой как ПЗУ 431 и ОЗУ 432. Базовая система 433 ввода/вывода (BIOS), содержащая базовые рутинные процедуры, которые помогают передавать информацию между элементами в компьютере 410, как например во время загрузки, хранится в ПЗУ 431. ОЗУ 432, как правило, содержит данные и/или программные модули, которые непосредственно доступны и/или задействованы процессорным блоком 420. В качестве примера, но не ограничиваясь этим, Фиг.6 иллюстрирует операционную систему 434, прикладные программы 435, другие программные модули 436 и программные данные 437. Упомянутые прикладные программы 435, программные модули 436 и программные данные 437 реализуют одну или более концепций, описанных выше.

Компьютер 410 может также включать в себя другой съемный/несъемный энергозависимый/энергонезависимый компьютерный носитель информации. Исключительно в качестве примера, Фиг.6 иллюстрирует привод 441 жесткого диска, который считывает с или записывает на несъемный, энергонезависимый магнитный носитель, привод 451 магнитного диска, который считывает с или записывает на съемный, энергонезависимый магнитный диск 452, и привод 455 оптического диска, который считывает с или записывает на съемный, энергонезависимый оптический диск 456, такой как CD-ROM или другой оптический носитель информации. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители информации, которые могут быть использованы в примере рабочего окружения, включают в себя, но не ограничиваются перечисленным, кассеты с магнитной лентой, карты флэш-памяти, цифровые универсальные диски, цифровые видео ленты, твердотельные ОЗУ, твердотельные ПЗУ и т.п. Привод 441 жесткого диска, как правило, соединен с системной шиной 421 через интерфейс несъемной памяти, такой как интерфейс 440, а привод 451 магнитного диска и привод 4 55 оптического диска, как правило, соединены с системой шиной 421 посредством интерфейса съемной памяти, такого как интерфейс 450.

Приводы и связанные с ними компьютерные носители информации, описанные выше и проиллюстрированные на Фиг.6, предоставляют хранение машиночитаемых команд, структур данных, программных модулей и других данных для компьютера 410. На Фиг.6, например, привод 441 жесткого диска проиллюстрирован как хранящий операционную систему 44 4, прикладные программы 4 45, другие программные модули 44 6 и программные данные 447. Следует отметить, что эти компоненты могут быть такими же, как операционная система 434, прикладные программы 4 35, другие программные модули 436 и программные данные 437, или же отличаться от них. Операционная система 444, прикладные программы 445, другие программные модули 446 и программные данные 447 обозначены различными номерами, чтобы проиллюстрировать, что, по меньшей мере, они представляют собой различные копии.

Пользователь может вводить команды и информацию в компьютер 410 посредством устройств ввода, таких как клавиатура 462, микрофон 463 и указывающее устройство 461, такое как мышь, трекбол или сенсорная панель. Эти и другие устройства ввода часто соединяются с процессорным блоком 420 через интерфейс 460 ввода пользователя, который соединен с системной шиной, но они могут также быть соединены посредством другого интерфейса и структур шины, такой как параллельный порт или универсальная последовательная шина (USB). Монитор 491 или другой тип устройства отображения также соединен с системой шиной 421 посредством интерфейса, такого как видео интерфейс 490.

Компьютер 410 может работать в сетевом окружении, используя логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 4 80. Удаленный компьютер 480 может быть персональным компьютером, карманным устройством, сервером, маршрутизатором, сетевым персональным компьютером, устройством однорангового узла или другим обычным сетевым узлом, и он, как правило, включает в себя многие или все элементы, описанные выше относительно компьютера 410. Логические соединения, изображенные на Фиг.6, включают в себя локальную сеть (Local Area Network, LAN) 471 и глобальную сеть (Wide Area Network, WAN) 473, но могут также включать в себя другие сети. Подобные сетевые окружения типичны для учреждений, компьютерных сетей масштаба предприятия, интранета и Интернета.

При использовании в сетевом окружении локальной сети компьютер 410 соединен с локальной сетью 471 через сетевой интерфейс или адаптер 470. При использовании в сетевом окружении глобальной сети компьютер 410, как правило, включает в себя модем 472 или иное средство для установления связи через глобальную сеть 473, такую как Интернет. Модем 472, который может быть внутренним или внешним, может быть соединен с системной шиной 421 посредством интерфейса 460 ввода пользователя или иного подходящего механизма. В сетевом окружении программные модули, изображенные относительно компьютера 410, или их части могут храниться в удаленном устройстве памяти. В качестве примера, но не ограничиваясь этим, Фиг.6 иллюстрирует удаленные прикладные программы 485 как находящиеся на удаленном компьютере 480. Очевидно, что показанные сетевые соединения представляют собой лишь примеры, и могут быть использованы другие средства для установления линии связи между компьютерами.

Следует отметить, что описанные в настоящем документе концепции могут быть реализованы в компьютерной системе, такой как описанная со ссылкой на Фиг.6. Тем не менее, другие подходящие системы включают в себя сервер, компьютер, выделенный для обработки сообщений, или распределенную систему, в которой различные части концепций реализуются в различных частях распределенной вычислительной системы.

Несмотря на то, что сущность настоящего изобретения была описана в привязке к структурным особенностям и/или методологическим действиям, следует понимать, что сущность, определенная в прилагаемой формуле изобретения, не ограничена конкретными особенностями или действиями, описанными выше. Скорее, описанные выше конкретные структурные особенности и действия раскрыты как примеры форм осуществления пунктов формулы изобретения.

1. Реализуемый компьютером способ определения, является ли получатель вызова реальной персоной или автоответчиком, способ содержит
посредством процессора:
прием звукового ответа от получателя вызова и обработку звукового ответа посредством распознавателя речи, имеющего языковую модель для преобразования звукового ответа в вывод, указывающий распознанную речь в текстовой форме; и
обработку вывода, указывающего распознанную речь, в текстовой форме со статистическим классификатором, настроенным по словесным фразам, обычно используемым реальными персонами, и по словесным фразам, обычно используемым автоматическими системами наряду с установлением несловесных особенностей, ассоциированных со звуковым ответом для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, при этом указанный классификатор является отдельным от указанной языковой модели, указанная обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме наряду с несловесными особенностями, статистический анализ, проверяющий содержимое вывода, указывающего распознанную речь, и на основании этой проверки определение, является ли вывод, указывающий распознанную речь, более статистически согласуемым со словесными фразами, обычно используемыми реальными людьми, или со словесными фразами обычно используемыми автоматическими системами.

2. Реализуемый компьютером способ по п.1, в котором обработка включает в себя определение длительности звукового ответа и использование длительности звукового ответа в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом модель статистического классификатора является сглаженной для захвата слов, не включенных в словесные фразы, обычно используемые реальными людьми, и в словесные фразы, обычно используемые автоматическими системами.

3. Реализуемый компьютером способ по п.1, в котором обработка включает в себя определение, присутствует ли в начале звукового ответа тишина, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом языковая модель является языковой моделью n-граммы.

4. Реализуемый компьютером способ по п.3, в котором обработка включает в себя установление, присутствует ли тишина с периодом, соразмерным выбранной длине, в звуковом ответе изначально, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом обработка звукового ответа с распознаванием речи для преобразования звукового ответа для вывода, указывающего распознанную речь в текстовой форме, содержит распознаватель речи, распознающий только часть звукового ответа.

5. Реализуемый компьютером способ по п.1, в котором обработка включает в себя использование индикации о том, смог ли распознаватель речи распознать какую-либо речь в звуковом ответе, в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом обработка звукового ответа с распознаванием речи для преобразования звукового ответа для вывода, указывающего распознанную речь в текстовой форме, содержит распознаватель речи, распознающий каждую часть звукового ответа.

6. Реализуемый компьютером способ по п.2, в котором обработка включает в себя использование статистического анализа, когда длительность фрагмента речи лежит в выбранном диапазоне, и при этом языковая модель сглажена, используя модель заполнителя n-граммы.

7. Реализуемый компьютером способ по п.1, в котором обработка включает в себя использование статистического анализа, когда длительность фрагмента речи лежит в выбранном диапазоне, и при этом языковая модель является контекстно-свободной грамматической моделью.

8. Машиночитаемый носитель, содержащий инструкции, которые при выполнении компьютером, определяют, является ли получатель вызова реальной персоной или автоответчиком, инструкции содержат:
прием звукового ответа от получателя вызова;
вызов языковой модели и использование распознанной речи для преобразования звукового ответа в вывод, указывающий распознанные словесные фразы в текстовой форме; и
обработку вывода, указывающего распознанные словесные фразы в текстовой форме для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, указанная обработка является основанной на статистическом анализе словесных фраз, используемых посредством получателя вызова в звуковом ответе, и независима от языковой модели, при этом каждая из указанных словесных фраз содержит множество слов, и при этом статистический анализ включает в себя вычисление уровня доверия, чтобы вывод, указывающий распознанные словесные фразы, соответствовал реальной персоне, и вычисление уровня доверия, что вывод, указывающий распознанные словесные фразы, соответствует автоответчику, вывод, указывающий, является ли получатель вызова реальной персоной или автоответчиком, является основанным, по меньшей мере, в части на вычисленных уровнях доверия.

9. Машиночитаемый носитель по п.8, в котором обработка содержит обработку словесных фраз посредством статистического классификатора, и использование вывода из статистического классификатора в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом вывод, указывающий является ли получатель вызова реальной персоной или автоответчиком, является смещенным в сторону классификации получателя вызова как реальной персоны.

10. Машиночитаемый носитель по п.8, в котором обработка включает в себя обработку звукового ответа, чтобы определить несловесные особенности, ассоциированные со звуковым ответом, и использование несловесных особенностей в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом вывод, указывающий является ли получатель вызова реальной персоной или автоответчиком, смещается в сторону классификации получателя вызова как автоответчика.

11. Машиночитаемый носитель по п.8, в котором обработка включает в себя определение длительности звукового ответа и использование длительности звукового ответа в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом вывод, указывающий является ли получатель вызова реальной персоной или автоответчиком, не имеет смещения.

12. Машиночитаемый носитель по п.8, в котором обработка включает в себя определение того, присутствует ли тишина в звуковом ответе изначально, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком.

13. Машиночитаемый носитель по п.12, в котором обработка включает в себя определение того, присутствует ли тишина с периодом, соразмерным выбранной длине, в звуковом ответе изначально, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком.

14. Машиночитаемый носитель по п.8, в котором обработка включает в себя использование индикации о том, смог ли распознаватель речи распознать какую-либо речь в звуковом ответе, в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком.

15. Машиночитаемый носитель по п.9, в котором обработка включает в себя использование статистического анализа, когда длительность фрагмента речи лежит в выбранном диапазоне.

16. Машиночитаемый носитель по п.9, дополнительно содержащий приведение в действие распознавателя речи, чтобы детектировать события вмешательства в разговор получателем вызова, и повторное воспроизведение сообщения получателю вызова, если событие вмешательства в разговор детектируется до того, как сообщение будет воспроизведено целиком.

17. Машиночитаемый носитель по п.16, в котором повторное воспроизведение сообщения получателю вызова включает в себя повторное воспроизведение сообщения получателю вызова, если получатель вызова является автоответчиком.

18. Реализуемый компьютером способ оставления сообщения на автоответчике, при этом способ содержит:
детектирование, является ли получатель вызова реальной персоной или автоответчиком, при этом детектирование содержит получение звукового ответа от получателя вызова и обработку звукового ответа посредством процессора, действующего как распознаватель речи, имеющий доступ к языковой модели для обеспечения вывода, указывающего распознанную речь;
обработку вывода, указывающего распознанную речь для обеспечения вывода, указывающего является ли полученный вызов реальной персоной или автоответчиком, указанная обработка, использующая статистический классификатор, настроенный по словесным фразам, обычно используемым реальной персоной, и по словесным фразам, обычно используемым автоматическими системами, вместе с установлением несловесных особенностей, ассоциированных с распознавателем речи для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, при этом указанный классификатор является отдельным от указанной языковой модели, указанная обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме вместе с несловесными особенностями, статистический анализ, проверяющий содержимое вывода, указывающего распознанную речь, и на основании этой проверки определяющий, является ли вывод, указывающий распознанную речь более статистически согласуемым с словесными фразами, обычно используемыми реальными людьми, или с словесными фразами, обычно используемыми автоматическими системами; и
если получатель вызова является автоответчиком, затем выполняется распознавание речи, чтобы детектировать события вмешательства в разговор автоответчиком, при этом события вмешательства в разговор являются детектированием части приветствия от автоответчика после периода молчания;
детектирование множества событий вмешательства в разговор от автоответчика внутри одной сессии вызова; и
повторение перезапуска сообщения и проигрывание сообщения сначала на автоответчике при детектировании каждого из множества событий вмешательства до того, как сообщение будет воспроизведено целиком.

Похожие патенты:

Терминал связи // 2439656

Мобильное устройство связи и способ управления мобильным устройством связи // 2438237

Изобретение относится к области мобильных устройств связи, включающих в себя сенсорный экран, а именно к способу работы такого устройства, в котором перечень меню прокручивается в ответ на прикосновение к сенсорному экрану.

Устройство громкой связи для использования в транспортном средстве // 2437242

Изобретение относится к области вспомогательных устройств телефонной связи, а именно к устройству громкой связи в транспортном средстве, которое устанавливает канал линии связи с сотовым телефоном, который поднесен в область связи на коротком расстоянии.