Способ эмуляции голосового бота при обработке голосового вызова (варианты)

Изобретение относится к области вычислительной техники для обработки речи или голоса. Технический результат заключается в упрощении эмуляции голосового бота в части выполнения интеллектуального семантического анализа текста в режиме постобработки вне рамок диалога. Технический результат достигается за счет обработки высказываний собеседника, формирования и воспроизведения высказывания, где воспроизведения и формирование высказывания включает эвристический выбор, который может состоять в случайном выборе медиафайла высказывания из некоторого предопределенного множества медиафайлов высказываний, подходящих предметной области, которое может включать по крайней мере одно подмножество приоритетных медиафайлов высказываний, которое сформировано по результату обработки данных публичных или коммерческих баз данных нежелательных вызовов, и может быть дополнено анализом сигнальных характеристик абонента, а воспроизведение выбранного медиафайла высказывания в диалоге выполняется после обнаружения паузы в диалоге. 2 н. и 2 з.п. ф-лы, 3 ил.

 

Изобретение относится к области телекоммуникаций, в частности к способам взаимодействия операторов сотовой связи NP (Network Provider) с абонентами и может быть использовано в сетях сотовой связи стандартов GSM, IN, IMS.

Общеизвестны и повсеместно применяются виртуальные собеседники или боты (bot), также именуемые как чат-бот (chat bot), голосовой бот (voice bot), виртуальный ассистент (intelligent virtual assistant IVA), персональный ассистент (intelligent personal assistant IPA) электронный помощник и т.д. В общем случае бот это программа, которая выполняет автоматическое общение с пользователем с помощью текста или голоса на основе семантической обработки естественного языка. Основным качественным свойством бота является его интеллектуальность, способность взаимодействовать с пользователем на уровне человека. Известен тест Тьюринга для проверки достаточного уровня интеллектуальности бота. Основными признаками интеллектуальности бота являются, отсутствие уточняющих вопросов, просьб повтора высказывания, мгновенное переключение на любую тему, возможность ответить на любой вопрос. Создание такой программы представляет собой комплексную и весьма сложную задачу, сопряженную с большими затратами на решение множества технических проблем, которые в общем случае обусловлены:

- использованием различных диалектов и индивидуальных особенностей речи;

- неоднозначностью множества слов, фраз и выражений языка, которые могут быть осмыслены по-разному;

- необходимость понимания контекста для правильной интерпретации смысла выражения;

- пренебрежением правилами грамматики, кратким ответом, не соблюдением формальной структуры предложения;

- использование сленга, жаргона, юмора, сарказма;

- допущение ошибок правописания и произношения.

Обозначенные сложности многократно повышают затраты на разработку интеллектуального бота до уровня на котором коммерчески успешная разработка технических средств (программного и аппаратного обеспечения), реализующих интеллектуального бота, становится возможной только для крупных IT компаний. Запуск в эксплуатацию, обслуживание и поддержка такого интеллектуального бота также требует весьма дорогостоящего оборудования и соответствующих затрат.

На текущем уровне техники существует множество прикладных специальных задач функционал и предметная область которых ограничены настолько, что полноценный бот со всем громоздким интеллектуальным функционалом является технически избыточным и экономически нецелесообразным. Главная и часто единственная цель таких задач – в ограниченном пространстве времени и условий, в рамках одного контекста (предметной области) и небольшого количества исходов провести собеседника по сценарию диалога к предопределенной алгоритмом достаточно простой полезной цели. Основным требованием и свойством решения таких задач является низкая стоимость разработки, внедрения и поддержки при достаточном уровне эффективности.

Авторы поставили перед собой задачу разработать способ эмуляции голосового бота для решения специальных прикладных задач, преимущественно в сетях сотовой связи преимущественно в сервисах блокировки рекламы, который отвечает требованиям необходимой и достаточной правдоподобности и низкой стоимости разработки, внедрения и поддержки в условиях ограниченной предметной области, ограниченного времени работы и предопределенной цели.

Ограничение предметной области достигается, сегментированием возможной предметной области (SEGMENT) диалога – политика, мода, частная, общественная жизнь, работа, реклама и др.

Ограничение цели достигается алгоритмическим предопределением простого, в лучшем случае бинарного исхода диалога - например распознавание рекламного или мошеннического содержания высказываний или сервиса автоматического обзвона или не распознавание.

Ограничение времени является объективным обстоятельством нежелательного входящего вызова, который быстро прекращается по инициативе абонента при осознании соединения с ботом.

За счет выполнения организационно-технических мероприятий, обусловленных вышеуказанными ограничениями, представляется возможность изменить сложную алгоритмическую парадигму семантического анализа голосового бота на упрощенную парадигму сегментирования предметной области, семантическую постобработку текста и автоматический выбор и подстановку высказываний из предопределенного множества высказываний. Причем для генерирования и подстановки высказываний авторы предлагают применить эвристический подход к выбору высказывания и выбору времени подстановки выбранного высказывания в диалоге. Такой подход позволяет многократно снизить стоимость разработки, внедрения и поддержки технических средств, реализующих голосового бота, что существенно повышает его экономическую эффективность. Для решения небольших прикладных задач в ограниченном пространстве времени, условий и исходов такой подход показывает достаточную техническую эффективность.

Предлагаемый способ эмуляции голосового бота предполагает упрощенную реализацию, в рамках которой представляется возможным снять требования по постобработке высказываний и сегментировании предметной области на ее основе. Упрощенная реализация ограничивается автоматическим выбором и подстановкой высказываний из предопределенного множества и также полагается на эвристический метод выбора и подстановки высказываний.

Таким образом авторы предлагают для решения специальных прикладных задач, характеризующихся ограничением по пространству условий, времени и исходов заменить устоявшийся на текущем уровне техники стандартный подход онлайн обработки высказываний естественного языка системами машинного обучения и/или искусственного интеллекта методом сегментирования предметной области, эвристического выбора и подстановки высказывания, а интеллектуальный семантический анализ текста выполнять в режиме постобработки вне рамок диалога. Причем в упрощенной реализации предлагаемый авторами способ ограничен эвристическим выбором и подстановки высказываний без выполнения обработки высказываний и последующего сегментирования предметной области.

В контексте заявки приняты следующие определения: MS (Mobil station) HomeNet абонент - абонент, зарегистрированный в сети оператора сотовой связи NP (Network Provider). MS OffNet абонент– абонент, не зарегистрированный в сети NP. Абонент MS А - вызывающий абонент или вызывающая сторона, абонент MS B - вызываемый абонент или вызываемая сторона. В общем случае принято, что абонент A является offNet абонентом, в частном случае абонент А может быть как homeNet так и offNet абонентом. Голосовой вызов - вызов совершаемый абонентом А абоненту В по стандартным протоколам сети сотовой связи, сети общего пользования PSTN (Public Switched Telephone Network), а также по любым протоколам голосовых вызовов сервисов обмена сообщениями; диалог DIALOG – последовательность высказываний и пауз двух собеседников обусловленная предметной областью; высказывание STRING – осмысленная написанная или озвученная последовательность слов и пробелов на естественном языке; пауза PAUSE – период времени диалога в течение которого собеседник не воспроизводит высказывание; собеседник MS – сторона диалога, выраженная человеком или ботом; предметная область SEGMENT – часть знаний которая может рассматриваться в одном определенном контексте; информационный портрет собеседника – любые обезличенные данные абонента, обеспечивающие распознавание его характеристик и тематического интереса соотнесенный с к каким-либо цифровым идентификатором; цифровой идентификатор MSISDN, IMEI, IP и др. – любой стандартизованный стабильный идентификатор абонента связанный с предоставлением услуг и начисления оплаты; эвристика HEURISTIC – основанное на некотором суждении правило выбора и подстановки высказывания, которое предполагается оптимальным для решения задачи.

Из уровня техники известна заявка заявителя RU2021113167, которая описывает способ распознавания и обработки спам-звонка, в соответствии с которым в случае если за предыдущие 30 дней нет подтверждения о факте соединения вызывающего абонента с вызываемым абонентом, оператор сотовой связи маршрутизирует входящий вызов на сетевой узел голосовой почты VMS с программной логикой компьютерного анализа и синтеза текстов на естественных языках которая выполняет поиск шаблонов в высказываниях вызывающей стороны для распознавания в вызывающей стороне голосового бота или человека, а также рекламного или мошеннического контента.

Такая прикладная задача распознавания вызывающего абонента является достаточно линейной по сценарию, специальной задачей обработки высказываний Недостатком описания заявки авторы отмечают отсутствие раскрытия технологии (алгоритма и методики) распознавания абонента или голосового бота.

Известен патент RU2383938 выбранный в качестве прототипа, в соответствии с которым для сортировки полезных сообщений голосовой почты создается контекстно свободная грамматика для каждого абонента которая для идентификации вызывающего абонента взаимодействует с системой распознавания голоса. Каждая грамматика содержит указание на высоковероятных вызывающих абонентов. Т. н. указание алгоритмически реализовано на основе сбора данных о вызовах абонента, его списка контактов, геолокации вызывающих абонентов. Указание на вызывающего абонента включает предварительную запись голоса вызывающего абонента в предыдущих вызовах и идентификацию абонента по голосовым характеристикам. Система распознавания голоса применяется для идентификации только голосовых характеристик вызывающего абонента без проведения семантического анализа его высказываний. Для побуждения вызывающего абонента к высказыванию система генерирует предварительно сохраненные вопросительные высказывания.

Способ по патенту RU2383938 решает задачу упрощения распознавания собеседника без привлечения дорогих технологий семантического анализа высказываний. Недостатком системы представляется принятие решения об идентификации абонента только на основе косвенных данных (вызовы, геолокации, аудио параметры голоса). Таким образом решение по патенту RU2383938 не анализирует и не учитывает текущий контекст вызова, а основывается на статистических данных, т. е. по сути выходит за рамки определения бота.

Технический результат предлагаемого способа эмуляции голосового бота при обработке голосового вызова в стандартном и упрощенном техническом облике состоит в существенном повышении экономической эффективности голосового бота для решения прикладных специальных задач, которые характеризуются ограниченным пространством условий, времени и исходов.

Технический результат достигается за счет стандартного способа эмуляции голосового бота при обработке голосового вызова, в соответствии с которым в диалоге вызывающего и вызываемого абонентов по крайней мере один из собеседников является голосовой бот, который выполняет обработку высказываний собеседника, формирует и воспроизводит высказывания, и который предусматривает:

- выполнение обработки высказываний собеседника после завершения диалога стандартными программными средствами семантического анализа текста на основе языков регулярных выражений и методов машинного обучения и дополняется анализом сигнальных характеристик абонента;

- постановку в соответствие цифровому идентификатору собеседника предметной области диалога по результату обработки высказываний собеседника и/или обработки данных публичных или коммерческих баз данных нежелательных вызовов за счет создания записи в базе данных, которая содержит цифровой идентификатор абонента и предметную область, и/или за счет маршрутизацией вызова на предопределённый сетевой узел;

- формирование высказывания путем эвристического выбора высказывания из некоторого предопределенного множества высказываний, подходящих предметной области, которая поставлена в соответствие цифровому идентификатору собеседника, который в частном случае состоит в случайном выборе медиафайла из некоторого предопределенного множества медиафайлов, подходящих предметной области, которое включает по крайней мере одно подмножество приоритетных медиафайлов;

- воспроизведение выбранного высказывания в диалоге после обнаружения паузы в диалоге.

Технический результат упрощенного способа эмуляции голосового бота при обработке голосового вызова, в соответствии с которым в диалоге вызывающего и вызываемого абонентов по крайней мере один из собеседников является голосовой бот, который выполняет обработку высказываний собеседника, формирует и воспроизводит высказывания, и который предусматривает:

- формирование высказывания путем эвристического выбора высказывания из некоторого предопределенного множества высказываний который состоит в случайном выборе медиафайла из некоторого предопределенного множества медиафайлов, которое сформировано по результату обработки данных публичных или коммерческих баз данных нежелательных вызовов и может быть дополнена анализом сигнальных характеристик абонента.;

- воспроизведение выбранного высказывания в диалоге после обнаружения паузы в диалоге.

При этом способ эмуляции голосового бота при обработке голосового вызова в стандартном и упрощенном техническом облике предусматривает, что:

- обработка голосового вызова обусловлена, но не ограничена неуспешным вызовом по причине занятости, отсутствия в сети вызываемого абонента, не ответа на вызов или сброса вызова до ответа на вызов вызываемым абонентом, а цифровым идентификатором абонента является любой стандартизованный идентификатор абонента, связанный с предоставлением услуг и начисления оплаты – MSISDN, IMEI, IP;

- паузой, определяющей разделение отдельных слов, является отсутствие высказывания собеседника менее секунды, а паузой, определяющей разделение отдельных высказываний, является отсутствие воспроизведения собеседником высказывания более секунды.

Изобретение иллюстрируется чертежами:

На фиг. 1 показана упрощенная архитектура сигнальной CS сети оператора NP с сервером голосовой почты IP VMS который реализует эмулятор голосового бота.

На фиг.2 представлена обобщенная блок схема работы эмуляции голосового бота в режиме онлайн.

На фиг.3 представлена обобщенная блок схема работы эмуляции голосового бота в режиме постобработки.

На фиг.1 для упрощения узел коммутации для архитектур IN и IMS сетей обозначен через дробь. Сигнальные SIP, ISUP соединения IN и IMS сети обозначены пунктирной линией, не программное взаимодействие сетевых узлов вне сигнальной сети обозначены непрерывной линией. Базовая (опорная сеть оператора сотовой связи NP) обведена штриховой линией.

Фиг.1 иллюстрирует упрощенную архитектуру сигнальной сети CS оператора сотовой связи NP (Network Provider) в которой зарегистрирован вызываемый homeNet абонент MS (Mobil Station) B, обслуживающийся текущим узлом коммутации SSP (Service Switching Point) CSCF/VMSC который выполняет функции коммутации сигнальных соединений по сигнальным протоколам SIP, ISUP. В IMS сети функции SSP реализует стандартный SIP сервер, выполняющий функции управления SIP сеансами P/I/S-CSCF (Call/Session Control Function). В IN сети функции SSP выполняет сетевой узел VMSC (Visitor Mobile Switching Center). В общем случае принято и на фигурах показано, что вызывающий абонент MS A - абонент другого offNet оператора NP. В частном случае, без какого-либо ограничения заявленного способа абонент MS А может быть homeNet абонентом или абонентом телефонной сети общего пользования PSTN (Public Switched Telephone Network).

Платформа интеллектуальной периферии IP VMS (Intelligent Peripheral Voicemail System) - сетевой узел голосовой почты. В IN и IMS сетях IP VMS реализует логику дополнительных услуг VAS (Value Added Services). Программный алгоритм эмулятора голосового бота в стандартном и упрощенном техническом облике установлен и выполняется в памяти интеллектуальной платформы IP VMS.

Для выполнения диалога программный алгоритм эмулятора голосового бота включает программные модули, которые во время диалога в режиме онлайн (фиг.1 ONLINE MODULE) выполняют

- поиск сегмента собеседника FIND MSISDN A IN SEGMENT C для определения предметной области диалога;

- запись высказываний собеседника RECORD в аудиофайл и сохранение его в памяти AND SAVE STRING A;

- эвристический выбор медиафайла (высказывания) в предопределенном множестве медиафайлов HEURISTIC SELECT STRING s IN SEGMENT 1

- анализ тишины PAUSE ANALYZER, для обнаружения и фиксации паузы в диалоге и воспроизведение аудиофайла с высказыванием PLAY STRING 3.

Программный алгоритм ONLINE MODULE выстаивает сценарий диалога с собеседником с целью максимально возможного сбора данных о собеседнике для постобработки и распознавания принадлежности собеседника к определенной предметной области. Дополнительной задачей программного алгоритма ONLINE MODULE является максимально возможное время удержания собеседника на соединении для генерирования выручки оператора сотовой связи NP за обслуживание входящего вызова. Так как основная и дополнительная цели не противоречат, основной задачей ONLINE MODULE является продолжение беседы максимально возможное время.

Для формирования информационного портрета и определения сегмента собеседника программный алгоритм эмулятора голосового бота включает стандартные, известные из уровня техники, программные модули семантического анализа (фиг.1 SEMANTIC MODULE), которые после завершения диалога в офф лайн режиме постобработки выполняют:

- преобразование аудиопотока (высказываний) собеседника в строки текста (транскрибирование) и семантический анализ строк текста высказываний собеседника по предопределенным шаблонам TRANSCRIB AND PARSE STRING A;

- анализ сигнальных данных маршрутизации вызова MS A SIGNALING DATA PROCESSING A;

- распознавание предметной области SEGMENT с и формирование или обновление информационного портрета собеседника PROFILE по результатам семантического анализа высказываний и обработки сигнальных данных MS A DETERM SEGMENT с AND UPDATE PROFILE A.

Программный алгоритм SEMANYIC MODULE выполняет основную часть внутренней аналитики платформы IP VMS которая включает семантический анализ теста (строк текста) на основе известных из текущего уровня техники программных инструментов семантического анализа текста на основе языков регулярных выражений и методов машинного обучения. Анализ сигнальных данных маршрутизации программный алгоритм выполняет по данным журналирования (логирования) данных о событиях сигнальных протоколов SIP ISUP за период - день, неделя, месяц и т. д., например т.н. CDR файлы. Такие данные включают количество входящих и исходящих вызовов MS A, длительность вызовов, сторона инициатор завершения вызова. Эти данные косвенно служат признаками распознавания абонента MS A совершающего нежелательного вызова. Например, если MS A выполняет значительное число исходящих вызовов при минимуме входящих, причем завершение вызовов MS A происходит по инициативе вызываемой MS B стороны, а средняя длительность вызова незначительна. То такое поведение MS A в сети NP соответствует информационному портрету нежелательного абонента.

Для сегментирования предметной области SEGMENT программный алгоритм эмулятора голосового включает взаимодействующие между собой программные хранилища (STORAGE):

- база данных, содержащая множество записей об информационных портретах собеседников PROFILE, каждая из которых соотнесена с цифровым идентификатором (MSISDN, IMEI, IP) собеседника;

- база данных, содержащая множество записей цифровых идентификаторов собеседников (MSISDN, IMEI, IP), каждый из которых поставлен в соответствие определенной предметной области SEGMENT c;

- база данных, включающая множество медиафайлов STRING s, каждый из которых воспроизводит какое-то высказывание, подходящих предметной области SEGMENT с, которое относится к подмножеству более или менее приоритетных высказываний.

Структура данных PROFILE представляющая собой информационный протрет собеседника, включает данные о предметной области диалога собеседника, данные о рекламном или мошенническом содержании его высказываний, маркер бота, данные о причинах адресации на IP VMS, и другие данные, обеспечивающие распознавание характеристик и предметной области собеседника. Эта структура данных используется для внутренней аналитики платформы IP VMS, в том числе в рамках других сервисов. С целью упрощения на фиг. 1 база данных с записями PROFILE не показана.

Сортировка множества аудиофайлов STRING s на подмножества более или менее приоритетных является частью метода эмуляции интеллектуального генерирования высказываний и состоит в первоначальном выборе высказываний из подмножества более приоритетных, семантически более обобщенных, высказываний типа «Здравствуйте», «Привет», «Расскажите подробнее» и т. д. Выбор последующих высказываний по мере продолжения диалога выполняется из подмножеств менее приоритетных высказываний которые имеют более конкретную семантику, близкую к предметной области SEGMENT например «Расскажите о автомобиле марки ВАЗ», «Я планирую поездку в Крым, расскажите условия отдыха» и т.д.

Внутренняя аналитика платформы IP VMS включает сортировку высказываний по приоритетным подмножествам может выполняться в автоматическом и/или ручном режиме по результатам аналитики нежелательных вызовов в сетях сотовой связи на основе обработки информационных портретов абонентов PROFILE. Высказывания STRING, в том числе одинаковые, могут быть записаны в медиафайлах различными голосами для создания слухового впечатления о диалоге каждый раз с новым собеседником. Внутренняя аналитика может дополняться и/или опираться на внешнюю аналитика которая предусматривает обработку данных внешних ресурсов - известных публичных и коммерческих баз данных нежелательных вызовов, содержащие цифровой идентификатор MSISDN нежелательного абонента MS A и его информационный портрет.

Упрощенная реализация эмулятора голосового бота не предусматривает внутренней аналитики SEMANTIC MODULE в связи с отсутствием какой-либо обработки высказываний собеседника. Архитектура ONLINE MODULE ограничена программными модулями:

- эвристический выбор медиафайла (высказывания) в предопределенном множестве медиафайлов HEURISTIC SELECT STRING s IN SEGMENT 1

- анализ тишины PAUSE ANALYZER, для обнаружения и фиксации паузы в диалоге и воспроизведение аудиофайла с высказыванием PLAY STRING 3. эвристического выбора HEURISTIC SELECT STRING s IN STORAGE из хранилища

Программное хранилище STORAGE в упрощенной реализации эмулятора голосового бота не имеет делений на предметные области SEGMENT, включает множество аудиофайлов STRING s, каждый из которых воспроизводит какое-то высказывание и может относиться к подмножеству более или менее приоритетных высказываний. В связи с отсутствием в упрощенной реализации эмулятора голосового бота какой-либо обработки высказываний собеседника и SEMANTIC MODULE, данные внешней аналитики не являются обязательным требованием в связи с отсутствием правил распознавания нежелательного собеседника. В этой реализации задача программного алгоритма ONLINE MODULE сводится только к максимальному возможному удержанию собеседника на соединении для генерирования выручки оператора сотовой связи NP за обслуживание входящего вызова.

На фиг.2 без ограничения объема правовой охраны заявленного способа, работа эмулятора голосового бота, показана на решении задачи распознавания мошенника и/или сервиса автоматического обзвона абонентов для выполнения сервиса блокировки рекламы (adBlock) в рамках способа по заявке заявителя RU2021113167.

Соединение вызывающего абонента MS A с эмулятором голосового бота IP VMS выполняется стандартными средствами сигнальных протоколов SIP, ISUP. В преимущественном варианте реализации в IN сетях узел коммутации SSP маршрутизирует входящий SIP, ISUP вызов на сетевой узел IP VMS по срабатыванию T-CSI (Terminating CAMEL Subscription Information) триггера обработки входящих вызовов на VMSC. Для IMS сетей узел CSCF (SSP) маршрутизирует входящий SIP вызов MS A на IP VMS по правилу IFC (Initial Filter Criteria) homeNet абонента MS B подписки абонента MS B на услугу блокировки спам звонков. Маршрутизация входящего вызова по подписке обусловлена, сценариями неуспешного вызова по причине занятости, отсутствия в сети вызываемого абонента MS B, не ответа или сброса вызова до ответа на вызов вызываемым MS B абонентом. Сценарий не ответа вызываемого абонента на входящий вызов в общем случае обусловлен периодом 25-30 сек.

После соединения входящего вызова MS A с IP VMS программный алгоритм ONLINE MODULE (фиг.2) выполняет:

- запись и сохранение высказываний собеседника RECORD AND SAVE STRING A;

- поиск цифрового идентификатора в базе данных для определения предметной области собеседника FIND MSISDN A IN SEGMENT C;

- эвристический выбор высказывания в множестве высказываний найденной предметной области HEURISTIC SELECT STRING s IN SEGMENT c;

- анализ тишины для регистрации паузы и воспроизведение найденного высказывания во время паузы PAUSE ANALYZER AND PLAY STRING s;

Программа завешает выполнение алгоритма END при разъединении вызова 5 END CALL.

Аналитически авторами определено что пауза длительностью менее секунды как правило соответствует пробелу между словами а пауза длительностью более секунды как правило соответствует пробелу между высказываниями. Поэтому алгоритм эмулятора голосового бота начинает воспроизведение высказывания сразу после истечения первой секунды не воспроизведения собеседником высказывания. При этом программный алгоритм может предусматривать воспроизведения как в первой найденной паузе, так и в последующих с любым периодом сдвига.

После сохранения аудиофайла высказываний собеседника SAVE STRING A в память эмулятора голосового бота SEMANTIC MODULE выполняет постобработку, которая включает (фиг.3):

- преобразование аудиопотока (высказываний) собеседника в строки текста (транскрибирование) и семантический анализ строк текста высказываний собеседника по предопределенным шаблонам и/или нейронной сетью TRANSCRIB AND PARSE STRING A;

- анализ сигнальных данных SIP, ISUP протоколов в сети по цифровому идентификатору MSISDN вызывающего абонента на предмет количества вызовов в сети за период, причины и сторона, инициировавшая завершение вызовов и др. MS A SIGNALING DATA PROCESSING A;

- распознавание предметной области SEGMENT с и формирование или обновление информационного портрета собеседника PROFILE по результатам семантического анализа высказываний, обработки сигнальных данных и возможно внешней аналитики DETERM SEGMENT с UPDATE PROFILE A;

- в случае если выполнение этапов 2,3 показывают изменение предметной области SEGMENT собеседника программный алгоритм перезаписывает его цифровой идентификатор с новой актуальной предметной областью UPDATE MSISDN IN SEGMENT.

Программный алгоритм постобработки повторяется при записи в память нового аудиофайла высказываний собеседника 5 SAVE STRING A или завершает работу END.

В частной реализации предметные области SEGMENT в разных сочетаниях могут быть разнесены по разным сетевым узлам IP VMS или их аналогов. В этой реализации коммутирующий узел содержит таблицу маршрутизации MS А по принадлежности вызова MSISDN А к предметной области SEGMENT, которая в свою очередь может опираться на внутреннюю и/или внешнюю аналитику. Разнесение предметных областей SEGMENT по разным сетевым узлам может быть следствием балансировки нагрузки в сети оператора сотовой связи или являться следствием какой-либо технической или коммерческой целесообразности.

Как видно из блок-схем фиг.2,3 алгоритм эмулятора голосового бота в стандартном и упрощенном технических обликах не выполняет интеллектуальный семантический анализ высказываний собеседника в режиме онлайн.

Стандартный алгоритм эмулятора голосового бота в режиме онлайн ограничивается запоминанием высказываний собеседника STRING, определением предметной области диалога SEGMENT, эвристическим выбором высказывания, и воспроизведения его в найденной паузе. Эмуляция интеллектуальности высказываний бота реализована за счет сегментирования предметной области и приоритезации высказываний STRING. В общем случае в онлайн режиме алгоритм выполняет только поиск предметной области SEGMENT в множестве C и эвристический (не осмысленный) выбор высказывания, и его воспроизведение. Такой прием вносит преобладающий вклад в удешевление разработки эмулятора голосового бота по сравнению с полноценным интеллектуальным голосовым ботом.

Упрощенный алгоритм эмулятора голосового бота в режиме онлайн предельно упрощает разработку за счет снятия задач внутренней аналитики, сегментирования предметной области SEGMENT и, возможно, приоритезации высказываний, следствием чего является существенное снижение эмуляции интеллектуальности голосового бота. В своей реализации он опирается или на данные внешней аналитики, или на формирование множества высказываний STRING семантически релевантных для любой предметной области SEGMENT. Как понятно специалисту такое крайнее упрощение эмулятора голосового бота качественно снижает показатель стоимость/эффективность и не является преимущественной реализацией эмулятора голосового бота. В месте с тем такой упрощенный технический облик эмулятора голосового бота приемлем для решения отдельных задач, например для поддержания беседы с ботом сервиса автоматического обзвона.

В стандартном техническом облике эмулятора голосового бота вся высокопроизводительная, интеллектуальная обработка высказываний собеседника вынесена в офф лайн режим постобработки SEMANTIC MODULE. Распознавание предметной области SEGMENT, формирование информационного портрета PROFILE абонента MS A, требующие сложных высокопроизводительных алгоритмов выполняются после завершения диалога, что снимает требование о дорогостоящем высокопроизводительном оборудовании. Такой прием вносит преобладающий вклад в удешевление внедрения и поддержки эмулятора голосового бота по сравнению с полноценным интеллектуальным голосовым ботом.

Эвристика (HEURISTIC) или эвристический метод выбора строки высказывания STRING из подмножества S предметной области SEGMENT и выбора паузы для ее воспроизведения PLAY STRING может быть реализована различными правилами. Эти правила могут быть сформированы за счет обобщения накопленных и/или внешних данных о нежелательных вызовах, которые включают доминирующие высказывания, обобщенное время диалога, отношение пауз и высказываний диалога, экспериментальные данные о побудительных и ответных высказываниях нежелательного собеседника. Например, одним из наиболее простых приемов распознавания сервиса автоматического обзвона является метод проигрывания аудиозаписи во время озвучивания собеседником высказывания. Признаком распознавания в данном случая является отсутствие прерывания собеседника. Простейшим эвристическим правилом может быть случайный RANDOM выбор высказывания STRING на этапе 3 и случайный выбор времени проигрывания записи на этапе 4, например в первую же обнаруженную паузу. Алгоритм эмулятора голосового бота может предусматривать более сложные эвристические правила на основе разумных предположений.

Эвристические правила в общем случае должны соответствовать требованиям простоты дерева решений, в силу ограниченных условий и времени диалога, и требованию малого количества исходов, в лучшем случае бинарного исхода (да или нет) для возможного упрощения решения. При несоблюдении этих требований алгоритм решения задачи усложняется настолько, что заявленный метод утрачивает экономическую эффективность. Вместе с тем указанные требования хорошо укладываются в парадигму решения специальных прикладных задач, небольшое пространство условий которых это позволяет.

Проведенные заявителем испытания показали, что продемонстрированный выше способ эмулятора голосового бота для задач распознавания абонента, совершающего нежелательные вызовы и распознавания сервиса автоматического обзвона абонентов, позволяет получить достаточно хорошие результаты при небольшом, приемлемом проценте ошибок. Причем в дополнение к хорошим результатам распознавания нежелательного вызова, показанный выше эмулятор голосового бота достаточно успешно удерживает на соединении входящий нежелательный вызов в среднем на 20–30 секунд, за счет чего оператор NP генерирует дополнительную выручку за обслуживание вызова. С учетом низких затрат на разработку и поддержку средства удержания - эмулятора голосового бота оператор NP существенно повышает экономическую эффективность своей операционной деятельности.

1. Способ эмуляции голосового бота при обработке голосового вызова, в соответствии с которым в диалоге вызывающего и вызываемого абонентов, по крайней мере, одним из собеседников является голосовой бот, который выполняет обработку высказываний собеседника, формирует и воспроизводит высказывания, отличающийся тем, что обработка высказываний собеседника выполняется после завершения диалога посредством семантического анализа текста на основе языков регулярных выражений, и/или методов машинного обучения, и/или сигнальных характеристик абонента, цифровому идентификатору собеседника ставится в соответствие предметная область диалога по результату обработки высказываний собеседника и/или обработки данных публичных или коммерческих баз данных нежелательных вызовов за счет создания записи в базе данных, которая содержит цифровой идентификатор абонента и предметную область, или за счет маршрутизации вызова на предопределённый сетевой узел, формирование высказывания включает эвристический выбор высказывания из некоторого предопределенного множества высказываний, подходящих предметной области, которая поставлена в соответствие цифровому идентификатору собеседника, который может состоять в случайном выборе медиафайла высказывания из некоторого предопределенного множества медиафайлов высказываний, подходящих предметной области, которое может включать, по крайней мере, одно подмножество приоритетных медиафайлов высказываний, а воспроизведение выбранного медиафайла высказывания в диалоге выполняется после обнаружения паузы в диалоге.

2. Способ эмуляции голосового бота при обработке голосового вызова, в соответствии с которым в диалоге вызывающего и вызываемого абонентов, по крайней мере, одним из собеседников является голосовой бот, который выполняет обработку высказываний собеседника, формирует и воспроизводит высказывания, отличающийся тем, что формирование высказывания включает эвристический выбор, который может состоять в случайном выборе медиафайла высказывания из некоторого предопределенного множества медиафайлов высказываний, подходящих предметной области, которое может включать, по крайней мере, одно подмножество приоритетных медиафайлов высказываний, которое сформировано по результату обработки данных публичных или коммерческих баз данных нежелательных вызовов, и может быть дополнено анализом сигнальных характеристик абонента, а воспроизведение выбранного медиафайла высказывания в диалоге выполняется после обнаружения паузы в диалоге.

3. Способ эмуляции голосового бота при обработке голосового вызова по пп. 1, 2, отличающийся тем, что обработка голосового вызова обусловлена, но не ограничена, неуспешным вызовом по причине занятости, отсутствия в сети вызываемого абонента, неответа на вызов или сброса вызова до ответа на вызов вызываемым абонентом, а цифровым идентификатором абонента является любой стандартизованный идентификатор абонента, связанный с предоставлением услуг и начисления оплаты - MSISDN, IMEI, IP.

4. Способ эмуляции голосового бота при обработке голосового вызова по пп. 1, 2, отличающийся тем, что паузой, определяющей разделение отдельных слов, является отсутствие высказывания собеседника менее секунды, а паузой, определяющей разделение отдельных высказываний, является отсутствие воспроизведения собеседником высказывания более секунды.



 

Похожие патенты:

Изобретение относится к средствам голосового ввода. Техническим результатом является повышение эффективности выполнения операций приложений электронного устройства на основании голосового ввода.

Группа изобретений относится к области распознавания речи и может быть использована для перевода речи в текст. Техническим результатом является повышение точности распознавания.

Настоящее изобретение относится к устройству помощи в управлении для транспортных средств, которое работает для получения информации рекомендации, подходящей для состава пользователей, включающего в себя отношения между людьми, и выдачи информации рекомендации для помощи в различных операциях с транспортным средством, выполняемых одним или более пользователями.

Изобретение относится к вычислительной технике. Технический результат заключается в достижении удобства вывода информации в соответствии с речевым вводом.

Изобретение относится к области вычислительной техники для обработки аудиоданных системами обработки информации, а именно к способам построения систем распознавания речи. Технический результат заключается в повышении достоверности дикторонезависимого распознания речи.

Изобретение относится к области компьютерной техники. Технический результат - обеспечение в реальном времени автоматизированного анализа сообщений пользователя для выбора наиболее релевантной реакции для автоматического ответа со стороны диалоговой системы.

Изобретение относится к способу и системе идентификации завершения пользовательского высказывания по цифровому аудиосигналу. Технический результат заключается в повышении точности идентификации завершения пользовательского высказывания.

Изобретение относится к автоматизированному рабочему месту оператора и способу интерактивной поддержки сессии обслуживания клиента. Технический результат заключается в генерации визуального отображения в зависимости от входящего аудиопотока.

Изобретение относится к средствам, обеспечивающим автоматизированное выполнение диагностических процедур в части выполнения доврачебной оценки качества распознавания речи и скрининговой аудиометрии с помощью алгоритмов на базе машинного обучения. Техническим результатом является обеспечение доврачебной оценки качества распознавания речи в шуме и скрининговой аудиометрии на базе единого вычислительного устройства.

Настоящее изобретение относится к области вычислительной техники для автоматизированной оценки качества распознавания речи пациентом. Технический результат заключается в обеспечении автоматической оценки качества распознавания речи пациентом за счет преобразования голосовых ответов пациента в текстовый формат и сравнения результатов с тестовой последовательностью слов.
Наверх