Способ оценки вариативности парольной фразы (варианты)

Авторы патента:

Хитров Михаил Васильевич (RU)

Дырмовский Дмитрий Викторович (RU)

G10L17/14 - Установление или подтверждение личности говорящего

G10L15/00 - Распознавание речи (G10L 17/00 имеет преимущество)

Владельцы патента RU 2598314:

Общество с ограниченной ответственностью "Центр речевых технологий" (ООО "ЦРТ") (RU)

Изобретение относится к области распознавания речи. Технический результат - обеспечение надежной оценки вариативности парольных фраз. Способ оценки вариативности парольной фразы, включающий получение парольной фразы от пользователя и оценку ее вариативности, отличающийся тем, что получают от пользователя парольную фразу в виде акустической фразы, преобразуют акустическую парольную фразу в последовательность акустических признаков, рассчитывают последовательность предопределенных речевых признаков по этой акустической фразе и определяют вариативность парольной фразы по этим признакам, после чего сравнивают определенную вариативность парольной фразы с предустановленным лимитом. 2 н. и 4 з.п. ф-лы, 7 ил.

Изобретение относится главным образом к технологиям распознавания речи, в частности к системам, сравнивающим голос пользователя с записанным голосом другого пользователя и выдающим оценку схожести голосов, и может быть использовано в системах ограничения несанкционированного доступа в помещения или информационным ресурсам.

Распознавание речи - это процесс автоматического распознавания говорящего на основании индивидуальной информации, содержащейся в звуковых сигналах. Этот процесс может быть разделен на идентификацию и верификацию. Идентификация определяет, кто именно говорит из имеющегося числа дикторов. Верификация определяет соответствие или несоответствие личности говорящего. Верификация может быть использована для контроля доступа к ограниченным сервисам, к примеру телефонный доступ к банковским операциям, совершение покупок или доступ к секретному оборудованию.

Способ использования технологии обычно представляет собой процесс, когда пользователь произносит короткую фразу в микрофон. Затем измеряются и определяются различные акустические параметры (звуки, частота, высота тона и другие физические характеристики голосовых каналов, которые обычно называют звуковыми характеристиками). Затем эти элементы используются для установления набора уникальных звуковых параметров пользователя (которые обычно называются «отпечаток голоса» или «голосовая модель»). Данный процесс обычно называют регистрацией. Регистрация в этом случае представляет собой получение образца голоса. Затем полученный образец голоса обрабатывается (трансформируется в соответствующий отпечаток голоса), и отпечаток голоса хранится совместно с идентификаторами личности для использования в протоколах безопасности. Во время процесса верификации диктору предлагается повторить фразу, которая использовалась при регистрации. Алгоритм верификации голоса сравнивает голос диктора с записью голоса, сделанной во время регистрации. Технология верификации затем принимает или отклоняет попытку диктора установить соответствие голосовому образцу. Если голосовой образец соответствует, то пользователю предоставляется защищенный доступ. Если нет - то пользователю будет отказано в предоставлении доступа. Системы верификации диктора могут быть текстозависимыми или текстонезависимыми, либо являться их комбинацией. В текстозависимых системах человек произносит заранее заданное слово или фразу. Данная информация (обычно называемая «голосовой пароль» «кодовая фраза», «голосовой отпечаток») может представлять собой такую информацию, как имя, место рождения, любимый цвет или последовательность чисел. В текстозависимых системах распознавание диктора происходит без требования заранее установленной кодовой фразы.

Для оценки новизны и технического уровня заявленного решения рассмотрим ряд известных заявителю технических средств аналогичного назначения, характеризуемых совокупностью сходных с заявленным изобретением признаков, известных из сведений, ставших общедоступными до даты приоритета изобретения.

Известен способ аутентификации диктора по входному речевому сигналу диктора в виде парольной фразы, включающий сравнение параметров этого сигнала с заданной точностью с заранее сохраненными эталонами параметров входных речевых сигналов в виде той же парольной фразы, произносимой заранее известными дикторами, с последующей аутентификацией, отличающийся тем, что в качестве упомянутых параметров берется низкочастотная часть вейвлет преобразования от нормированной функции распределения особых точек вдоль звукового файла, отвечающего входному речевому сигналу диктора в виде парольной фразы, выделенных сравнением отсчета в этой точке в звуковом файле с предшествующими и последующими отсчетами посредством обобщенных коэффициентов линейного предсказания и порога Т, при этом нормирование функции распределения сводится к приведению ее к стандартной длине Len, принятой при подсчете эталонных параметров входных речевых сигналов в виде парольной фразы, произносимой заранее известным дикторами, см. патент РФ №2422921.

Известен способ аутентификации диктора по парольной фразе, включающий посегментное сравнение входного речевого сигнала диктора с заранее сохраненными эталонами параметров эталонных фраз, произносимых заранее известными дикторами, для чего осуществляют сравнение параметрических описаний последовательных сегментов входного речевого сигнала с параметрическими описаниями последовательных сегментов из выбранных для сравнения с упомянутым эталоном с последующей аутентификацией диктора, отличающийся тем, что в качестве упомянутых параметрических описаний берут матрицу переходов, построенную в соответствии с правилом, заключающимся в том, что строят последовательность особых точек, выделенных сравнением отсчета в сегменте с окружением отсчета, определенным посредством обобщенных коэффициентов линейного предсказания и порога Т, далее агрегируют последовательности особых точек в блоки длины L, строят матрицу переходов, аналогичную матрице переходов в цепи Маркова, по числу особых точек в блоке и сравнивают полученную матрицу с образцом эталонной матрицы с заданной точностью и принимают решение о правильности аутентификации диктора, см. патент РФ №2422920.

Существуют определенное число различных технологий, используемых для создания голосовых отпечатков: скрытые модели Маркова (HMMs), Gaussian Mixture Models (GMMs), искусственные нейронные сети или совокупности вышеуказанных техник. Одной из проблем с вышеописанной технологией распознавания является вариативность голосового пароля (кодовой фразы, голосового отпечатка). Кодовая фраза может быть фонетически богата или фонетически скудна. «Фонетически скудная кодовая фраза» означает, что эта кодовая фраза содержит только ограниченное количество уникальных звуков (фонем) и, соответственно, вариативность этой кодовой фразы мала. Если вариативность кодовой фразы мала (в крайних случаях кодовая фраза содержит только набор идентичных звуков, например, «а-а-а-а»), невозможно оценить соответствующие физические характеристики голосовых каналов диктора. В результате создается неэффективный голосовой отпечаток и эффективность системы распознавания диктора резко снижается.

Необходимо отметить, что эта проблема отличается от проблемы криптографической защищенности текстового пароля. В самом деле, если голосовой пароль содержит ограниченное число уникальных текстовых знаков (в крайних случаях кодовая фраза содержит только набор идентичных знаков, например, «qqqqq»), его криптографическая защищенность существенно низка. Однако это означает только, что пароль может быть легко угадан и является недостаточно сложным, чтобы отразить криптографические атаки.

В противоположность этому система распознавания диктора не может создать эффективные голосовые отпечатки в связи с недостатком звуков в кодовой фразе. Результатом слабого голосового отпечатка в процессе верификации или идентификации является низкое качество распознавания диктора. К примеру, одним из обычно используемых коэффициентов вероятности для оценки работы системы распознавания является Уровень равновероятной ошибки (Equal Error Rate - EER). Чем ниже EER, тем лучше система распознавания. Было установлено, что EER увеличивается с 6% для фонетически богатых парольных фраз до 18% для фонетически скудных парольных фраз.

Задача изобретения заключается в создании способа для оценки вариативности парольной фразы, которая могла бы быть затем использована для генерирования фонетически богатых паролей в текстозависимых системах распознавания, для оценки вариативности входных данных парольной фразы в текстозависимой системе при регистрации и для генерирования предупреждения диктора в случае низкой вариативности парольной фразы. Определение вариативности парольной фразы затем может быть использовано для генерации фонетически представительных паролей в текстозависимых системах идентификации диктора по голосу, для оценки вариативности входной фразы в текстонезависимых системах в процессе регистрации и для генерации предупредительного сообщения клиенту в случае низкой вариативности парольной фразы.

Сущность первого независимого объекта заявляемого изобретения как технического решения выражается в следующей совокупности существенных признаков, достаточной для достижения указанного выше обеспечиваемого изобретением технического результата.

Согласно первому независимому объекту изобретения способ оценки вариативности парольной фразы, включающий получение парольной фразы от пользователя и оценку ее вариативности, характеризующийся тем, что получают от пользователя парольную фразу в виде акустической фразы, преобразуют акустическую парольную фразу в последовательность акустических признаков, рассчитывают последовательность предопределенных речевых признаков по этой акустической фразе и определяют вариативность парольной фразы по этим признакам, после чего сравнивают определенную вариативность парольной фразы с предустановленным лимитом.

В этом заключается совокупность существенных признаков первого независимого варианта изобретения, обеспечивающая получение технического результата во всех случаях, на которые распространяется испрашиваемый объем правовой охраны.

Кроме того, первой независимый варианта изобретения характеризуется наличием ряда факультативных признаков, описывающих частные случаи его реализации, а именно:

- преобразование акустической парольной фразы в последовательность акустических признаков осуществляют путем преобразования парольной фразы в последовательность спектров, после чего преобразуют спектры в первую последовательность формантов;

- вариативность парольной фразы определяют по оценке гистограмм N-Dim для каждой траектории формант, затем оценивают минимальные и максимальные значения для каждой форманты, выводят по меньшей мере одну совокупности бинов гиперкуба, определяют место каждой форманты как единицы в соответствующей совокупности бинов гиперкуба и используют гистограммы N-Dim для оценки энтропии и максимального значения данной энтропии;

- оценивают абсолютную псевдоэнтропию;

- оценивают относительную псевдоэнтропию.

Согласно второму независимому объекту изобретения способ оценки вариативности парольной фразы, включающий получение парольной фразы от пользователя и оценку ее вариативности, характеризующийся тем, что получают от пользователя текстовую парольную фразу, преобразуют текстовую парольную фразу в последовательность фонетических символов и определяют вариативность текста парольной фразы по последовательности фонетических символов, после чего сравнивают определенную вариативность парольной фразы с предустановленным лимитом.

За счет реализации отличительных признаков изобретения достигается технический результат, заключающийся в том, что, заявленный способ в обоих вариантах его реализации обеспечивает надежную оценку вариативности парольных фраз, полученных как в акустическим, так и в текстовом виде.

Сущность изобретения поясняется чертежами, где на фиг. 1 представлена блок-схема реализации заявленного способа в обоих вариантах, на фиг. 2 - схема реализации первого варианта заявленного способа, при получении парольной фразы в фонетическом виде, на фиг. 3 - схема реализации второго варианта заявленного способа, при получении парольной фразы в текстовом виде, на фиг. 4 - график зависимости Equal Error Rate (EER) от информационной вариативности, на фиг. 5 - график зависимости Equal Error Rate (EER) от относительной вариативности на фиг. 6 - график зависимости Equal Error Rate (EER) от абсолютной вариативности, 1-й взвешенной (оцененной) суммы и 2-й взвешенной (оцененной) вариативности, на фиг.7 - таблицы, иллюстрирующие числовые данные Equal Error Rate (EER) как функцию различных вариативностей.

Заявленный способ реализуют следующим образом.

В первом варианте получают от пользователя парольную фразу в виде акустической фразы, преобразуют акустическую парольную фразу в последовательность акустических признаков, рассчитывают последовательность предопределенных речевых признаков по этой акустической фразе и определяют вариативность парольной фразы по этим признакам, после чего сравнивают определенную вариативность парольной фразы с предустановленным лимитом.

Преобразуют акустическую парольную фразу в последовательность акустических признаков, осуществляют путем преобразования парольной фразы в последовательность спектров, после чего преобразуют спектры в первую последовательность формантов. Вариативность парольной фразы определяют по оценке гистограмм N-Dim для каждой траектории формант, затем оценивают минимальные и максимальные значения для каждой форманты, выводят по меньшей мере одну совокупности бинов гиперкуба, определяют место каждой форманты как единицы в соответствующей совокупности бинов гиперкуба и используют гистограммы N-Dim для оценки энтропии и максимального значения данной энтропии. Оценивают абсолютную и относительную псевдоэнтропию.

Во втором варианте получают от пользователя текстовую парольную фразу, преобразуют текстовую парольную фразу в последовательность фонетических символов и определяют вариативность текста парольной фразы по последовательности фонетических символов, после чего сравнивают определенную вариативность парольной фразы с предустановленным лимитом.

Устройство, реализующее оба варианта заявленного способа, представляет собой взаимосвязанные носитель информации, центральный процессор и графический интерфейс, где на носителе информации имеются машинные команды, включающие команды на получение парольной фразы от пользователя, расчета последовательности предопределенных акустических признаков или фонетических символов, оценки вариативности парольной фразы на основе этих признаков, сравнение рассчитанной вариативности парольной фразы с предопределенным порогом и сообщение пользователю результата сравнения значения вариативности парольной фразы с предопределенным порогом.

Данное устройство может быть реализовано с использованием известных компьютерных или мультипроцессорных систем.

1. Способ оценки вариативности парольной фразы, включающий получение парольной фразы от пользователя и оценку ее вариативности, отличающийся тем, что получают от пользователя парольную фразу в виде акустической фразы, преобразуют акустическую парольную фразу в последовательность акустических признаков, рассчитывают последовательность предопределенных речевых признаков по этой акустической фразе и определяют вариативность парольной фразы по этим признакам, после чего сравнивают определенную вариативность парольной фразы с предустановленным лимитом.

2. Способ по п. 1, отличающийся тем, что преобразование акустической парольной фразы в последовательность акустических признаков осуществляют путем преобразования парольной фразы в последовательность спектров, после чего преобразуют спектры в первую последовательность формантов.

3. Способ по п. 1, отличающийся тем, что вариативность парольной фразы определяют по оценке гистограмм N-Dim для каждой траектории формант, затем оценивают минимальные и максимальные значения для каждой форманты, выводят по меньшей мере одну совокупности бинов гиперкуба, определяют место каждой форманты как единицы в соответствующей совокупности бинов гиперкуба и используют гистограммы N-Dim для оценки энтропии и максимального значения данной энтропии.

4. Способ по п. 1, отличающийся тем, что оценивают абсолютную псевдоэнтропию.

5. Способ по п. 1, отличающийся тем, что оценивают относительную псевдоэнтропию.

6. Способ оценки вариативности парольной фразы, включающий получение парольной фразы от пользователя и оценку ее вариативности, отличающийся тем, что получают от пользователя текстовую парольную фразу, преобразуют текстовую парольную фразу в последовательность фонетических символов и определяют вариативность текста парольной фразы по последовательности фонетических символов, после чего сравнивают определенную вариативность парольной фразы с предустановленным лимитом.

Изобретение относится к средствам звуковой аутентификации для регистрации в беспроводной сети. Технический результат заключается в улучшении эргономичности регистрации в защищенной беспроводной сети.

Способы и устройство для осуществления распределенных многомодальных приложений // 2494444

Изобретение относится к средствам для синхронизации данных между визуальным и голосовым представлениями, связанными с распределенными многомодальными приложениями.

Способ аутентификации диктора по парольной фразе // 2422921

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа в помещения или информационным ресурсам. .

Способ аутентификации диктора по парольной фразе // 2422920

Аутентификация пользователя посредством комбинирования установления личности говорящего и обратного теста тьюринга // 2406163

Изобретение относится к технике аутентификации пользователя. .

Способ и устройство автоматической верификации личности по голосу // 2399102

Изобретение относится к системам установления или подтверждения личности говорящего. .

Усовершенствованная идентификация вызывающего абонента на основе распознавания речи // 2383938

Изобретение относится к идентификации вызывающего абонента. .

Способ верификации пользователя в системах санкционирования доступа // 2351023

Изобретение относится к системам биометрии человека по индивидуальным характеристикам его голоса к санкционированному доступу, например, к операционной системе, компьютерным ресурсам, банковскому счету или физическому доступу к помещению и к случаям, требующим санкционированного доступа.

Система голосового распознавания пользователя транспортного средства // 2337020

Изобретение относится к системам распознавания человека, в частности к системам идентификации личности по голосу, и предназначено для использования в охранных и противоугонных системах для транспортных средств (ТС).

Способ и система автоматической проверки присутствия лица живого человека в биометрических системах безопасности // 2316051

Изобретение относится к системам безопасности и контроля. .

Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа // 2597498

Изобретение относится к области распознавания речи. Техническим результатом является сокращение объема элементов памяти, необходимого для хранения предустановленного словаря, и снижение сложности вычислительного процесса распознавания.

Устройство отображения, интерактивная система и способ обеспечения ответной информации // 2583445

Изобретение относится к устройству отображения, интерактивному серверу и способу обеспечения ответной информации. Техническим результатом является повышение точности ответной информации относительно различной высказанной речи пользователя.

Способ управления внешним вводом и устройство приема вещания // 2582070

Изобретение относится к управлению внешним вводом, распознаванию голоса пользователя в интерактивной системе распознавания голоса. Техническим результатом является обеспечение активации разъема внешнего ввода посредством использования функции распознавания голоса.

Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата // 2582050

Изобретение относится к медицине, а именно к биометрической идентификации и диагностике органов речевого аппарата. Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата состоит в том, что осуществляют регистрацию речевых сигналов, сегментацию речевых сигналов, вычисляют значения энергии информативной области, сравнивают вычисленное значение с пороговым и делают диагностическое заключение о стадии нестабильной работы органов речевого аппарата.

Распознавание с помощью повторного распознавания и статистической классификации // 2571519

Изобретение относится к области распознавания речи. Техническими результатами являются уменьшение задержки распознавания речи, увеличение точности распознавания речи, а также увеличение общего грамматического охвата в распознавании речи.

Способ оценки частоты основного тона речевого сигнала // 2546311

Изобретение относится к системам анализа речи, может быть использовано в средствах для распознавания и синтеза речи. Техническим результатом является повышение точности оценки частоты основного тона речевого сигнала.

Способ контроля эффективности защиты информации // 2541122

Изобретение относится к способам контроля эффективности защиты речевого сигнала от утечки по техническим каналам. Технический результат заключается в повышении достоверности оценки защищенности речевой информации.

Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке // 2530314

Изобретение относится к области информационных технологий, реализующих интерфейс между человеком и компьютером, а именно к сегментации (диаризации) или разделению дикторов в аудио-потоке.

Основанные на языке разметки выбор и использование распознавателей для обработки произнесения // 2525440

Изобретение относится к способу использования распознавателей для обработки произнесения на основании документа на языке разметки. Технический результат заключается в ускорении процесса распознавания.

Электронно-вычислительное устройство // 2523220

Изобретение относится к вычислительной технике. Технический результат заключается в распознавании речи злектронно-вычислительным устройством, используя чтение по губам.

Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа // 2606566

Изобретение относится к области цифровой связи и технологиям обработки речи в условиях зашумления. Технический результат - повышение достоверности классификации сегментов зашумленной речи по типовым классификационным группам. В способе классификации сегментов зашумленной речи осуществляют полиспектральный анализ для частичного шумоподавления путем повышения адекватности Фурье-спектра сигнала, который восстанавливают из оценки биспектра обрабатываемого зашумленного речевого сигнала; далее на основе исходного речевого сигнала и нормализованного Фурье-спектра в каждом сегменте выделяют наличие/отсутствие классификационных признаков речевого сигнала и весовых коэффициентов, осуществляют их коррекцию с применением процедуры иерархии и на конечном этапе принимают решение по вопросу отнесения сегмента к типовым группам, по результатам сравнения осуществляют формирование последовательности символов, обозначающих типовые группы. 2 н. и 8 з.п. ф-лы, 7 ил.