Способ и система аутентификации пользователя с помощью голосовой биометрии

Авторы патента:

КХЕМИРИ Хуссемиддин (FR)

ЛИБЕР Грегори (FR)

ПЕТРОВСКИ ШОЛЛЕ Дийана (FR)

G10L17/02 - Установление или подтверждение личности говорящего

G10L15/20 - техника распознавания речи, специально предназначенная для крайне неблагоприятных условий окружения, например в шуме, при речи, вызванной стрессом (G10L 21/02 имеет преимущество)

G06F21/32 - Обработка цифровых данных с помощью электрических устройств (вычислительные машины, в которых часть вычислений осуществляется гидравлическими или пневматическими устройствами G06D; оптическими средствами G06E; автономные внешние вводные и выводные устройства G06K; компьютерные системы, основанные на специфических вычислительных моделях G06N; цепи полного /активного и реактивного/ сопротивления H03H)

Владельцы патента RU 2747935:

ПВ ГРУП (FR)

Изобретение относится к области вычислительной техники для аутентификации пользователя с помощью голосовой биометрии. Технический результат заключается в повышении надежности аутентификации пользователя с помощью голосовой биометрии и устойчивости к атакам. Технический результат достигается за счет получения контрольных данных авторизованного пользователя, во время которого пользователь произносит контрольную фразу по меньшей мере один раз и фразу преобразуют в последовательность контрольных символов посредством статистического преобразования, общего для всех пользователей, контрольные данные которых подлежат получению, и тестирования аутентификации, включающего в себя первый этап, во время которого пользователь-кандидат произносит контрольную фразу по меньшей мере один раз и произнесенную фразу преобразуют так же, как и контрольную фразу во время предварительного этапа, путем использования того же преобразования, в последовательность символов-кандидатов, и второй этап, во время которого последовательность символов-кандидатов сравнивают с последовательностью контрольных символов для определения результата сравнения и результат сравнивают с одним заданным пороговым значением с тем, чтобы принять решение относительно того, действительно ли пользователь-кандидат, произнесший фразу во время этапа тестирования, является авторизованным пользователем, тем самым подтверждая его подлинность. 2 н. и 3 з.п. ф-лы, 2 ил.

Область техники, к которой относится изобретение

Настоящее изобретение относится к способу и системе аутентификации пользователя с помощью голосовой биометрии.

Распознавание говорящего с использованием способа голосовой биометрии представляет собой способ, который начинает использоваться в различных приложениях.

В общем, способ этого типа может применяться, например, в системах управления доступом, например, в помещения, или для других целей, таких как доступ к банковским, административным и т.д. услугам.

Следует отметить, что эти способы и системы аутентификации должны быть как можно более надежными во избежание любых проблем, таких как подделки или атаки в целом.

Фактически известно, что эти подделки или атаки могут быть различной природы, например, повторное воспроизведение, преобразование голоса или синтез голоса.

Повторное воспроизведение является формой кражи идентификационных данных, в которой злоумышленник атакует систему верификации говорящего путем повторного воспроизведения последовательности слов целевого говорящего, которого он записал заранее.

Например, существует два типа повторного воспроизведения, а именно: нетехническое повторное воспроизведение или повторное воспроизведение с помощью микрофона или техническое повторное воспроизведение, которое также называется передачей или обработкой повторного воспроизведения.

Нетехническое повторное воспроизведение или повторное воспроизведение с помощью микрофона является повторным воспроизведением, которое не требует каких-либо специальных технических знаний.

Это происходит в микрофоне системы.

Эта атака состоит из повторного воспроизведения перед микрофоном аудиофайла целевого говорящего, который был записан заранее с помощью устройства, такого как смартфон или записывающее устройство, компьютер и т.д.

Техническое повторное воспроизведение, или передача или обработка повторного воспроизведения требуют специальных технических навыков.

Это происходит при передаче или обработке аудиосигнала.

При таком типе атаки предполагается, что злоумышленник смог получить доступ, в общем, к каналу передачи или обработки, аудио или речевым файлам, например, путем пиратства, и что он непосредственно вводит предварительно записанный аудиофайл целевого говорящего в систему.

Различие между этими двумя типами повторного воспроизведения состоит в том, что при нетехническом воспроизведении импульсная переходная характеристика говорящих устройства повторного воспроизведения, а также помещение, где выполняется атака, добавляется в аудиосигнал, записанный заранее злоумышленником.

Задача изобретения состоит в том, чтобы предложить усовершенствование в способе и системе аутентификации этого типа для того, чтобы дополнительно повысить их надежность и устойчивость к атакам.

В связи с этим изобретение относится к способу аутентификации пользователя с помощью голосовой биометрии, которая характеризуется тем, что он включает в себя предварительный этап предварительного обращения к авторизованному пользователю, во время которого этот пользователь произносит контрольную фразу по меньшей мере один раз, и эта фраза преобразуется в последовательность контрольных символов посредством статистического преобразования, взаимного для всех пользователей, к которым необходимо обратиться, и этап тестирования аутентификации, включающий в себя первый этап, во время которого пользователь-кандидат произносит контрольную фразу по меньшей мере один раз, и эта произнесенная фраза преобразуется таким же образом, как и контрольная фраза во время предварительного этапа за счет использования одинакового преобразования в последовательность символов-кандидатов, и второй этап, во время которого последовательность символов-кандидатов сравнивается с последовательностью контрольных символов для того, чтобы определить результат сравнения, и этот результат сравнивается по меньшей мере с одним заданным пороговым значением с тем, чтобы принять решение относительно того, действительно ли пользователь-кандидат, произнесший фразу во время этапа тестирования, является авторизованным пользователем, тем самым подтверждая его подлинность.

В соответствии с другими особенностями способа согласно изобретению, рассмотренными отдельно или вместе:

- статистическое преобразование является преобразованием, для которого обучение выполняется неконтролируемым образом;

- при статистическом преобразовании используются скрытые модели Маркова;

- результатом сравнения является расстояние, вычисленное между двумя последовательностями символов;

- расчетное расстояние представляет собой расстояние Левенштейна;

- результат сравнения сравнивается с заданными пороговыми значениями для обнаружения повторного воспроизведения;

- результат сравнения сравнивается с двумя заданными пороговыми значениями для обнаружения повторного воспроизведения посредством воспроизведения записи авторизованного пользователя, захваченной без его понимания, когда пользователь произносит контрольную фразу или во время ее передачи или обработки;

- пользователя просят повторить контрольную фразу по меньшей мере два раза подряд, и результат сравнения соответствующей следующей последовательности символов сравнивается по меньшей мере с одним заданным пороговым значением для обнаружения проблем, связанных с аудиосредой.

Согласно другому аспекту изобретение также относится к системе аутентификации пользователя с помощью голосовой биометрии для выполнения способа, как описано ранее, характеризующегося тем, что он включает в себя средство для предварительного обращения к авторизованному пользователю, в котором этот пользователь произносит контрольную фразу по меньшей мере один раз, и эта фраза преобразуется в последовательность контрольных символов посредством статистического преобразования, взаимного для всех пользователей, к которым необходимо обратиться, и средство тестирования аутентификации, включающее в себя первое средство, в котором пользователь-кандидат произносит контрольную фразу по меньшей мере один раз, и эта произнесенная фраза преобразуется таким же образом, как и контрольная фраза во время предварительного этапа, за счет использования одинакового преобразования, в последовательность символов-кандидатов, и второе средство, в котором последовательность символов-кандидатов сравнивается с последовательностью контрольных символов для определения результата сравнения, и этот результат сравнивается по меньшей мере с одним заданным пороговым значением с тем, чтобы принять решение относительно того, действительно ли пользователь-кандидат, произнесший фразу во время этапа тестирования, является авторизованным пользователем, тем самым подтверждая его подлинность.

Изобретение станет более понятным после прочтения последующего описания, предоставленного исключительно в качестве примера и приведенного со ссылкой на прилагаемые чертежи, на которых:

на фиг.1 показана блок-схема, иллюстрирующая часть системы аутентификации, которая наглядно демонстрирует нетехнические и технические зоны повторного воспроизведения, и

на фиг.2 показана блок-схема одного примерного варианта осуществления способа аутентификации согласно изобретению.

Эти фигуры и, в частности, фиг.1, фактически иллюстрируют часть системы для аутентификации пользователя с помощью голосовой биометрии.

Как показано на фиг.1, пользователь системы аутентификации обозначен поз.1.

Этот пользователь имеет микрофонную систему, обозначенную поз.2, подключенную к средству для извлечения голосовых характеристик, обозначенных поз.3.

Остальная часть цепочки обработки не проиллюстрирована, так как фиг.1 представлена только для определения того, что в настоящей заявке образует нетехническое повторное воспроизведение и техническое повторное воспроизведение, и в случае, когда могут осуществляться соответствующие атаки.

Фактически и как описано выше, нетехническое повторное воспроизведение или повторное воспроизведение с помощью микрофона представляет собой повторное воспроизведение, которое не требует каких-либо специальных технических знаний, и это происходит в микрофонной системе 2.

Это повторное воспроизведение состоит из атаки, во время которой аудиофайл целевого говорящего, который был предварительно записан, повторно воспроизводится перед микрофоном с помощью устройства, такого как смартфон, планшетный компьютер и т.д.

Поэтому нетехническое повторное воспроизведение является повторным воспроизведением, которое происходит в зоне, обозначенной поз.4 на фиг.1.

В свою очередь, техническое повторное воспроизведение, или передача или обработка повторного воспроизведения повторно воспроизводятся, что требует технических навыков и выполняется при передаче или обработке сигнала, то есть из зоны, обозначенной поз.5 на фиг.1.

При такой атаке предполагается, что злоумышленник смог получить доступ к каналу передачи или обработки аудиофайлов, например, путем пиратства, и что он непосредственно вводит записанный заранее аудиофайл целевого говорящего в цепочку обработки или передачи.

Как также было указано ранее, изобретение предусматривает улучшение способов и систем этого типа для повышения их устойчивости к такому типу атаки.

На фиг.2 показан способ аутентификации пользователя с помощью голосовой биометрии, согласно изобретению.

Этот способ включает в себя предварительный этап предварительного обращения к авторизованному пользователю.

На этой фигуре этот этап обозначен поз.10.

Во время этого этапа пользователь, обозначенный на этой фигуре поз.11, произносит контрольную фразу по меньшей мере один раз.

Например, это можно выполнить посредством микрофонной системы, обозначенной поз.12.

Эта контрольная фраза, произнесенная во время этого предварительного этапа обращения к пользователю, затем преобразуется в последовательность контрольных символов путем статистического преобразования, взаимного для всех пользователей, к которым необходимо обратиться, в системе.

Это статистическое преобразование может быть, например, преобразованием, для которого обучение выполняется неконтролируемым образом.

В качестве примера, в этом статистическом преобразовании используются скрытые модели Маркова.

Эта операция преобразования также называется способом MMC и обозначена поз.13 на фиг.2.

Это преобразование позволяет получить последовательность знаков, например, обозначенную на этой фигуре поз.14.

Затем каждый из пользователей, к которому будут обращаться, проходит через этот этап предварительного обращения для формирования базы данных авторизованных пользователей в системе.

Согласно изобретению способ также включает в себя этап тестирования аутентификации.

Этот этап тестирования аутентификации обозначен поз.15 на фиг.2.

Во время этого этапа тестирования аутентификации пользователь-кандидат, обозначенный на этой фигуре поз.16, произносит контрольную фразу по меньшей мере один раз.

Например, это выполняется через микрофонное средство, обозначенное на этой фигуре поз.17.

Эта фраза, произнесенная во время этого этапа 15 тестирования аутентификации, также преобразуется таким же образом, как и контрольная фраза, произнесенная во время этапа 10 предварительного обращения с использованием того же самого преобразования, в последовательность символов, которая затем представляет собой последовательность символов-кандидатов.

При преобразовании, которое обозначено поз.18 на фиг.2, используются также, например, скрытые модели Маркова.

Последовательность символов-кандидатов, полученных после преобразования, обозначена поз.19.

Последовательность символов-кандидатов 19, полученных после преобразования фразы, произнесенной пользователем-кандидатом во время этого этапа аутентификации, затем сравнивается с последовательностью контрольных символов 14.

Например, это сравнение обозначено поз.20 на фиг.2.

Затем получается результат сравнения между последовательностями, обозначенными поз.21 на фиг.2.

Затем этот результат 21 сравнения сравнивается по меньшей мере с одним заданным пороговым значением с тем, чтобы принять решение относительно того, действительно ли пользователь-кандидат, произнесший фразу во время этапа 15 тестирования, является авторизованным пользователем, тем самым подтверждая его подлинность.

Это сравнение результата сравнения по меньшей мере с одним заданным пороговым значением обозначено поз.22 на фиг.2, и решение принимается на этапе 23.

В качестве примера, результат 21 сравнения, выполненного на этапе 20, может представлять собой степень подобия или расстояние, вычисленное между двумя последовательностями символов.

В частности, этим расстоянием может быть расстояние Левенштейна.

В общем, результат 21 сравнения можно затем сравнить с заданными пороговыми значениями для того, чтобы обнаружить повторные воспроизведения, как это было описано ранее.

Действительно, результат 21 сравнения можно сравнивать с заданными пороговыми значениями, например, с двумя, для обнаружения повторного воспроизведения посредством воспроизведения записи авторизованного пользователя, захваченной без его понимания, когда пользователь произносит контрольную фразу или во время ее передачи или обработки в остальной части системы.

Выше эти атаки были описаны с помощью нетехнического и технического повторных воспроизведений.

Как было указано ранее, во время этапа 10 предварительного обращения и этапа 15 тестирования аутентификации пользователь может попросить произнести фразу тестирования по меньшей мере один раз.

В частности, пользователь может попросить повторить контрольную фразу по меньшей мере два раза подряд.

Затем это также позволяет, например, сравнивать соответствующую следующую последовательность символов и сравнивать результат этого сравнения по меньшей мере с одним заданным пороговым значением для обнаружения проблем, связанных с аудиосредой, в частности, когда становится шумно.

Конечно, могут быть рассмотрены и другие варианты осуществления этого способа и этой системы.

Затем верификация говорящего состоит из определения того, действительно ли говорящий является тем, кем он себя заявляет.

Способ и система согласно изобретению имеют, в качестве входных данных, выборку речевого сигнала и установленный идентификатор пользователя с образцом.

Измерение подобия или расстояния производится между выборкой и образцом говорящего, который соответствует запрограммированному идентификатору.

Во время этого измерения система принимает или отклоняет говорящего.

При верификации говорящего в зависимости от текста текст, произносимый говорящим, который должен распознать система, является таким же, как и текст, который он произносил для создания этого образца.

Следовательно, проблема системы верификации говорящего в зависимости от текста состоит в том, чтобы смоделировать как характеристики говорящего, так и лексическое содержание произнесенной фразы.

Поэтому система верификации говорящего в зависимости от текста должна быть способна отклонить говорящего, произнесшего фразу, которая отличается от его контрольной фразы.

В способе и системе согласно изобретению способы сегментации аудиоданных применяются со статистическими моделями, изученными неконтролируемым образом, для верификация говорящего в зависимости от текста.

При использовании этого способа, аудиоданные преобразуются в цепочку символов. Таким образом, можно сравнивать образец и тестовые аудиоданные, и можно измерить степень подобия или расстояние между ними.

Чтобы измерить расстояние или подобие между двумя аудиофайлами, преобразованными в последовательности символов, предпочтительно используется расстояние Левенштейна.

Таким образом, установив пороговое значение можно принять или отклонить говорящего и обнаружить то, что произнесенная фраза действительно является контрольной фразой.

Разумеется, могут быть рассмотрены и другие варианты осуществления.

1. Способ аутентификации пользователя с помощью голосовой биометрии, отличающийся тем, что он включает в себя предварительный этап (10) получения контрольных данных авторизованного пользователя, во время которого пользователь произносит контрольную фразу по меньшей мере один раз и фразу преобразуют в последовательность (14) контрольных символов посредством статистического преобразования (13), общего для всех пользователей, контрольные данные которых подлежат получению, и этап (15) тестирования аутентификации, включающий в себя первый этап, во время которого пользователь-кандидат произносит контрольную фразу по меньшей мере один раз и произнесенную фразу преобразуют таким же образом, как и контрольную фразу во время предварительного этапа, посредством использования того же преобразования (18), в последовательность символов-кандидатов (19), и второй этап, во время которого последовательность символов-кандидатов (19) сравнивают (на этапе 20) с последовательностью контрольных символов (14) для определения результата (21) сравнения и результат (21) сравнивают (на этапе 22) по меньшей мере с одним заданным пороговым значением с тем, чтобы принять решение относительно того (на этапе 23), действительно ли пользователь-кандидат, произнесший фразу во время этапа тестирования, является авторизованным пользователем, тем самым подтверждая его подлинность, при этом

результатом (21) сравнения является расстояние, вычисленное между двумя последовательностями символов, причем вычисленное расстояние является расстоянием Левенштейна,

результат (21) сравнения сравнивают с двумя заданными пороговыми значениями для обнаружения повторного воспроизведения посредством воспроизведения записи авторизованного пользователя, захваченной без его ведома, во время передачи или во время обработки контрольной фразы;

причем способ аутентификации пользователя зависит от текста и содержит этап, на котором моделируют как характеристики говорящего, так и лексическое содержание произнесенной фразы.

2. Способ аутентификации пользователя с помощью голосовой биометрии по п.1, в котором статистическое преобразование (13, 18) является преобразованием, для которого обучение выполняется неконтролируемым образом.

3. Способ аутентификации пользователя с помощью голосовой биометрии по п.1, в котором при статистическом преобразовании (13, 18) используют скрытые модели Маркова.

4. Способ аутентификации пользователя с помощью голосовой биометрии по любому из пп. 1-3, в котором пользователя просят повторить контрольную фразу по меньшей мере два раза подряд и результат сравнения соответствующей следующей последовательности символов сравнивается по меньшей мере с одним заданным пороговым значением для обнаружения проблем, связанных с аудиосредой.

5. Система аутентификации пользователя с помощью голосовой биометрии для выполнения способа по любому из пп. 1-4, отличающаяся тем, что система включает в себя средство для предварительного получения контрольных данных авторизованного пользователя, при этом пользователь произносит контрольную фразу по меньшей мере один раз, и упомянутое средство выполнено с возможностью преобразования фразы в последовательность контрольных символов посредством статистического преобразования, общего для всех пользователей, контрольные данные которых подлежат получению, и средство тестирования аутентификации, включающее в себя первое средство, в котором пользователь-кандидат произносит контрольную фразу по меньшей мере один раз и указанное средство выполнено с возможностью преобразования произнесенной фразы таким же образом, как и контрольной фразы во время предварительного этапа, посредством использования того же преобразования, в последовательность символов-кандидатов, и второе средство, выполненное с возможностью сравнения последовательности символов-кандидатов с последовательностью контрольных символов для определения результата сравнения и сравнения результата сравнения по меньшей мере с одним заданным пороговым значением с тем, чтобы принять решение относительно того, действительно ли пользователь-кандидат, произнесший фразу во время этапа тестирования, является авторизованным пользователем, тем самым подтверждая его подлинность, при этом

причем система аутентификации пользователя выполнена с возможностью аутентификации пользователя в зависимости от текста и моделирования как характеристики говорящего, так и лексического содержания произнесенной фразы.

Изобретение относится к системам для определения личности говорящего пользователя управляемого голосом устройства. Технический результат заключается в повышении точности идентификации определенного говорящего пользователя.

Биометрический способ идентификации абонента по речевому сигналу // 2742040

Изобретение относится к области вычислительной техники и связи. Технический результат заключается в обеспечении возможности дистанционной идентификации абонента.

Способ и устройство аутентификации личности // 2738325

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности и надежности аутентификации личности.

Способ создания модели анализа диалогов на базе искусственного интеллекта для обработки запросов пользователей и система, использующая такую модель // 2730449

Изобретение относится к области обработки данных. Технический результат заключается в расширении арсенала средств.

Способ верификации голосовых биометрических данных // 2723902

Изобретение относится к области вычислительной техники, в частности к технологиям верификации пользователей. Технический результат заключается в повышении безопасности верификации голосовых биометрических данных и защиты от фальсификации голосовых биометрических данных.

Способ и оборудование распознавания эмоций в речи // 2720359

Изобретение относится к средствам для распознавания эмоций в речи. Технический результат заключается в повышении точности распознавания эмоций.

Способ диагностики психоэмоционального состояния по голосу // 2718868

Изобретение относится к средствам распознавания эмоциональных состояний человека по анализу голосового сигнала. Технический результат заключается в повышении точности определения психоэмоционального состояния человека.

Способ приема речевых сигналов // 2716556

Изобретение относится к области обработки и преобразования акустических сигналов в электрические в роботе. Техническим результатом является снижение помех и уменьшение уровня звукового сигнала от громкоговорителей робота.

Устройство и способ обработки информации // 2714611

Изобретение относится к средствам голосового управления операцией вождения транспортного средства. Техническим результатом является обеспечение возможности устройства обработки информации, управляющего операцией вождения транспортного средства на основе высказывания пассажира, которому разрешается выполнять операцию вождения транспортного средства, быть мобильным.

Устройство автоматической верификации личности по голосу // 2704723

Изобретение относится к области вычислительной техники для распознавания голоса. Технический результат заключается в повышении точности распознавания голоса для идентификации личности.

Способ и система для формирования текстового представления фрагмента устной речи пользователя // 2731334

Группа изобретений относится к области обработки естественного языка. Техническим результатом является формирование текстового представления фрагмента устной речи пользователя с учетом характеристик пользователя и акустических свойств фрагмента речи.