Способ идентификации личности диктора по цифровым сигналам низкоскоростных кодеков речи

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении точности идентификации личности диктора. Технический результат достигается за счет того, что выполняют предварительную селекцию сигнала s на основе вычисления отношения сигнал/шум на коротком интервале времени, выделения информативных сегментов исследуемого цифрового сигнала с вокализованными звуками, а также использованием библиотеки уточненных эталонных образов. Уменьшение вероятности ошибок при идентификации личности диктора достигается за счет снижения числа эталонных образов, с которыми осуществляют сравнение сигнала входной реализации. Последнее достигается благодаря предварительной классификации эталонных образов дикторов по NГД голосовым группам. 5 ил., 1 табл.

 

Изобретение относится к области вычислительной техники и радиосвязи, обеспечивает идентификацию личности диктора (ИЛД) по цифровым информационным сигналам низкоскоростных кодеков речи (НКР), используемых в современных телекоммуникационных системах (ТКС) для передачи речевых сообщений, и востребовано при создании средств аутентификации и идентификации личности по биометрическим данным в различных областях деятельности по обеспечению общественной безопасности, включая криминалистику, радиомониторинг (РМ) и противодействие терроризму.

Заявленное техническое решение повышает эффективность средств аналогичного назначения за счет исключения процесса декодирования цифровых информационных сигналов, сформированных в передающих частях НКР и полученных по радиоканалам ТКС, использования в качестве признаков ИЛД значений параметров речевых сигналов, оцениваемых кодерами в процессе функционирования, и передаваемых в виде двоичных символов по радиоканалам ТКС, а также за счет предварительной классификации цифровых сигналов по голосовым группам, более точного описания образа входной реализации и эталонных образов дикторов на основе анализа сегментов цифрового информационного сигнала, содержащих данные о параметрах вокализованных звуков речи.

Известна система голосовой идентификации диктора (см. Патент РФ №2385272, МПК B64D 47/00, B60R 25/00, G10L 15/00, опубл. 27.03.2010, бюл. 9), в которой оцифрованный речевой сигнал с импульсно-кодовой модуляцией (ИКМ) делят на перекрывающиеся сегменты равной длительности, следующие друг за другом, осуществляют преобразование Фурье по сегментам речевого сигнала с ИКМ, на основе значений коэффициентов Фурье, полученных по каждому сегменту, формируют последовательности признаков, выделяют информативный вектор признаков и сравнивают его с эталонными векторами признаков, ассоциированными с известными дикторами, проводят вычисление условной вероятности того, что информативный вектор признаков порожден данным диктором, принимают решение, какому из дикторов принадлежит информативный вектор признаков на основе определения аргумента максимума по совокупности полученных условных вероятностей.

Аналог является универсальным для решения задач ИЛД по речевым сигналам, в том числе при использовании радиоканалов ТКС с НКР, каждый из которых включает кодер и декодер. Низкоскоростной кодер обеспечивает сжатие исходного речевого сигнала с ИКМ и формирование цифрового сигнала s, содержащего N3 двоичных символов (элементов), которые передаются по радиоканалу телекоммуникационной системы. В низкоскоростном декодере по принятому цифровому сигналу s осуществляется синтез речевого сигнала с ИКМ, подобного исходному сигналу . Однако, сжатие и декодирование, а также влияние шумов и помех в радиоканале, приводят к снижению качества синтезированного речевого сигнала с ИКМ, что вызывает уменьшение эффективности ИЛД.

Наиболее близким по своей технической сущности к заявленному является способ ИЛД, учитывающий особенности функционирования НКР сотовой системы связи стандарта GSM (см. GSM speech coding and speaker recognition / L. Besacier, S. Grassi, A. Dufaux, M. Ansorge, F. Pellandini // International conference: Acoustic, speech and signal processing (ICASSP). - Istambul, 5-9 June 2000. - Pp.1085 - 1088), состоящий в том, что принимают в течение интервала времени цифровой информационный сигнал s, в составе которого любой блок двоичных символов постоянной размерности сформирован с помощью заданного низкоскоростного кодера, по имеющимся идентификаторам последовательно выделяют из цифрового информационного сигнала s все блоки двоичных символов, соответствующие интервалам времени речевой активности диктора (РАД), и извлекают из каждого выделенного блока набор двоичных символов содержащий информацию о спектре речевого сигнала диктора, формируют признаки ИЛ диктора путем преобразования значений двоичных символов из каждого набора в значения мел-кепстральных коэффициентов, по которым формируют усредненный вектор мел-кепстральных коэффициентов выбранной размерности с помощью меры близости где - условный номер диктора, - количество идентифицируемых дикторов, описываемое моделью гауссовых смесей (МГС), сравнивают усредненный вектор являющийся образом входной реализации и определяемый по всему интервалу времени РАД, с каждым заранее сформированным эталонным образом ассоциированный с номером диктора, который включает вектор усредненных значений мел-кепстральных коэффициентов, ковариационную матрицу и совокупность весов МГС, на основе которого вычисляют значений меры близости входного образа и каждого эталонного образа принимают решение о принадлежности входной реализации s к одному из дикторов с помощью функции выбора значения аргумента по правилу, при котором значение меры близости образа входной реализации и эталонного образа максимально и больше пороговой величины .

В способе-прототипе учитываются особенности преобразования исходного речевого сигнала в конкретном (известном) низкоскоростном кодере RPE-LTP-13000 (FR GSM 06.10) либо VSELP-5600 (HR GSM 06.20), либо ACELP-10600 (EFR GSM 06.53) и не осуществляется декодирование входного цифрового информационного потока, что приводит к снижению вероятности ошибки ИЛД. Однако достижение высокого значения вероятности правильной ИЛД затруднительно из-за малого объема используемой информации о спектре речевого сигнала диктора, извлекаемой из каждого блока в виде совокупности двоичных символов что характерно для низкоскоростных кодеров, применяемых в современных ТКС для передачи речевых сообщений. При этом остальные компоненты блока которые могут содержать информацию об особенностях речи диктора, не используются. Кроме того, идентификация осуществляется на всем интервале РАД, в котором не выделяются наиболее информативные вокализованные фрагменты речевого сигнала. В результате, потери информации при сжатии речевых сигналов в кодере, а также появление битовых ошибок в принятых цифровых информационных сигналах, вызванное шумами и помехами в радиоканалах ТКС, приводят к уменьшению эффективности ИЛД до уровня ниже, чем задано требуемым значением вероятности правильной ИЛД, т.е.

Целью заявленного технического решения является разработка способа ИЛД по принятым цифровым информационным сигналам НКР, который обеспечивает повышение значения вероятности правильной идентификации за счет отбора информативных сегментов исследуемых цифровых сигналов и более полного использования содержащейся в них информации об индивидуальных особенностях речи диктора в условиях реальных радиоканалов ТКС и отсутствия априорной информации о типе используемого протокола НКР.

Поставленная цель достигается тем, что в известном способе автоматической ИЛД принимают в течение интервала времени цифровой информационный сигнал s, в составе которого любой блок sб двоичных символов постоянной размерности сформирован с помощью заданного низкоскоростного кодера, по имеющимся идентификаторам последовательно выделяют из цифрового информационного сигнала s все блоки двоичных символов, соответствующие интервалам времени речевой активности диктора, и извлекают из каждого выделенного блока набор двоичных символов содержащий информацию о спектре речевого сигнала диктора, формируют признаки ИЛ диктора путем преобразования значений двоичных символов из каждого набора в значения мел-кепстральных коэффициентов, по которым формируют усредненный вектор мел-кепстральных коэффициентов выбранной размерности с помощью меры близости где - условный номер диктора, - количество идентифицируемых дикторов, описываемое моделью гауссовых смесей, сравнивают усредненный вектор являющийся образом входной реализации и определяемый по всему интервалу времени РАД, с каждым заранее сформированным эталонным образом ассоциированный с номером диктора, который включает вектор усредненных значений мел-кепстральных коэффициентов, ковариационную матрицу и совокупность весов МГС, на основе которого вычисляют значений меры близости входного образа и каждого эталонного образа принимают решение о принадлежности входной реализации s к одному из дикторов с помощью функции выбора значения аргумента по правилу, при котором значение меры близости образа входной реализации и эталонного образа максимально и больше пороговой величины на предварительном этапе определяют тип протокола низкоскоростного кодирования речи (НКР), используемого для формирования цифровых информационных сигналов, оценивают качество цифровых информационных сигналов qmos на основе метода срединных субъективных оценок, осуществляют отбор входных реализаций, соответствующих требованиям по качеству где - требуемое значение качества цифровых информационных сигналов, при невыполнении пороговых условий к качеству анализируемых сигналов прекращают ИЛ диктора, в противном случае последовательно присваивают информационным блокам из состава цифрового информационного сигнала s порядковые номера формируют прямоугольную информационную матрицу размеров путем последовательного размещения друг под другом информационных блоков в соответствии с их порядковыми номерами начиная с первого информационного блока выявляют по идентификаторам, содержащимся в каждой строке информационной матрицы те ее строки, которые соответствуют интервалам передачи диктором вокализованных звуков речи, последовательно присваивают каждой выявленной строке матрицы новое обозначение и номер где - число выявленных строк, формируют, начиная с первой строки прямоугольную матрицу вокализованных компонентов размером путем последовательного размещения друг под другом выявленных строк, содержащих вокализованные звуки речи, формируют матрицу значений основного тона (ОТ) речи путем выделения из информационной матрицы столбцов, содержащих в соответствии с используемым протоколом НКР информацию о частоте ОТ речи диктора, оценивают по полученной матрице среднее значение частоты ОТ, выделяют из матрицы столбцы, содержащие информацию о спектре вокализованных звуков речи, более точно описывающих индивидуальные особенности диктора, присваивают, начиная с первого, каждому выделенному из матрицы столбцу обозначение с порядковым номером где - число выделенных столбцов, формируют информативную матрицу размеров путем последовательного размещения друг за другом столбцов двоичных символов, содержащих информацию о спектре речевого сигнала, вычисляют по каждому столбцу информативной матрицы среднее значение уточненного информативного признака с номером и составляют из них набор z уточненных значений признаков ИЛ диктора размерностью на этапе обучения составляют выборку цифровых информационных сигналов, сформированных с помощью используемого низкоскоростного кодера и ассоциированных с дикторами, которым присвоены номера последовательно выделяют из выборки ассоциированный цифровой информационный сигнала и известным путем составляют ассоциированную информационную матрицу на основе которой формируют ассоциированную матрицу значений ОТ, по которой вышеизложенным путем оценивают среднее значение частоты осуществляют сравнение значений частоты с заранее установленными значениями частоты характеризующими голосовую группу дикторов с номером где - количество классифицируемых голосовых групп, определяют номер голосовой группы к которой относится данный диктор, по наименьшему отклонению между оцененным значением и заранее установленным значениям выделяют из ассоциированной информационной матрицы столбцы двоичных символов, содержащих информацию о спектре речевого сигнала, формируют из них ассоциированную информативную матрицу и присваивают ей новое обозначение добавлением номера голосовой группы, определяют по ассоциированной информативной матрице значения параметров уточненного эталонного образа из группы с номером диктора включая соответствующие значения математического ожидания ковариационную матрицу и совокупность весов компонентов МГС, используемой для вычисления значения условной вероятности того, что набор z порожден диктором с номером входящим в голосовую группу сравнивают значение с заранее установленными значениями характеризующими голосовую группу дикторов с номером по наименьшему отклонению между значениями определяют номер голосовой группы, к которой относится предполагаемый диктор, вычисляют значение условной вероятности, на основе вычисления аргумента максимума от совокупности полученных значений условной вероятности принимают решение, кому из дикторов, входящих в голосовую группу принадлежал данный набор z уточненных значений признаков ИЛ, указывая на его номер

Благодаря новой совокупности существенных признаков в заявленном способе обеспечивается ИЛД по цифровым сигналам s заданного низкоскоростного кодера с высокой вероятностью правильной ИЛД за счет отбора реализаций, соответствующих требованиям по качеству где - требуемое значение качества цифровых информационных сигналов, выполнения предварительной классификации дикторов по одной из голосовых групп, формирования и использования уточненных эталонных образов дикторов , выделения в реализациях s наиболее информативных сегментов соответствующих интервалам передачи диктором вокализованных звуков.

Заявленный способ поясняется чертежами, на которых показаны:

на фиг.1 - алгоритм ИЛД по цифровым сигналам НКР;

на фиг.2 - порядок составления информативных матриц из цифрового информационного сигнала s;

на фиг.3 - зависимость значений расстояния Махалонобиса между эталонным образом диктора с номером и его уточненным эталонным образом, которые сформированы по цифровым сигналам низкоскоростного кодека речи MELP-10-2400 (STANAG 4591);

на фиг.4 - графическая зависимость вероятности правильной ИЛД от вероятности появления битовых ошибок в цифровых сигналах, сформированных с помощью низкоскоростного кодека речи RPE-LTP-13000 (FR GSM 06.10), при различном числе Nд эталонных образов.

на фиг.5 - зависимость вероятности правильной ИЛД от вероятности появления битовых ошибок в цифровых сигналах, сформированных с помощью низкоскоростного кодека речи ACELP-10600 (EFR GSM06.53), при различном числе эталонных образов.

Широко известны способы ИЛД на основе анализа речевых сигналов с ИКМ. Находят применение при решении задач общественной безопасности, включая РМ и противодействие терроризму. Для этого используются речевые сигналы, передаваемые по радиоканалам систем сотовой или спутниковой связи, в состав которых входят НКР. Поэтому ИЛД осуществляют по синтезированным речевым сигналам с ИКМ и информационной скоростью кбит/с, которые сформированы в приемной части НКР из цифровых сигналов, имеющих скорость кбит/с (см. Neustein A., Patil Н.А. Forensic speaker recognition: Law enforcement and counter-terrorism. - New York: Springer, 2012. - 546 p.- ISBN 978-1-4614-0262-6).

Существующие НКР осуществляют преобразования сигналов с потерей информации. Количественной мерой потери информации является снижение качества синтезируемых речевых сигнала по сравнению с исходными. Требования к качеству синтезированных речевых сигналов при решении задачи ИЛД определены ГОСТ Р 51061-97. Последние устанавливаются на основе метода средних субъективных оценок qmos качества речи MOS (англ. - mean opinion score) с использованием пятибалльной шкалы с точностью 0,1 балла согласно рекомендации ITU-T Р.830. В соответствии с ГОСТ Р 51061-97 полная потеря узнаваемости диктора возникает при значениях Значительное ухудшение узнаваемости проявляется в пределах Незначительные нарушения узнаваемости возможны при Высокая узнаваемость диктора отмечается в случае выполнения условия Значения качества речевых сигналов с ИКМ, синтезируемых НКР при заданных (нормальных) условиях передачи радиосигналов, лежат в пределах Нарушения нормальных условий передачи радиосигналов, возникающие при вероятности битовой ошибки приводят к появлению существенной доли битовых ошибок в принимаемых цифровых информационных сигналах и снижению значения качества до уровня, меньше требуемого Это приводит к несоблюдению минимально возможного требования по вероятности правильной ИЛД Следовательно, в качестве входных реализаций, пригодных для осуществления ИЛД, могут рассматриваться синтезированные речевые сигналы с ИКМ, удовлетворяющие следующему критерию

Применение НКР для передачи речевых сообщений сопровождается снижением значений вероятности правильной ИЛД, которое вызвано, помимо влияния акустического канала и битовых ошибок в дискретном канале ТКС, потерями информации при выполнении операций сжатия исходного речевого сигнала с ИКМ в низкоскоростном кодере и синтеза в низкоскоростном декодере речевого сигнала с ИКМ, подобного исходному.

Возможность повышения значения вероятности правильной ИЛД по цифровым сигналам, сформированных НКР и переданных через радиоканалы ТКС, обуславливает актуальность этой технической задачи. В ряде случаев, решение задачи ИЛД по цифровым сигналам НКР невозможно из-за низкого значения качества вызванного влиянием битовых ошибок, возникающих в радиоканалах ТКС, что определяет необходимость применения предварительной оценки качества цифровых сигналов и их отбора по критерию (1).

Повышение эффективности ИЛД по цифровым сигналам низкоскоростных кодеров, полученных приемными средствами РМ, возможно за счет предварительной селекции реализаций s, соответствующих по качеству критерию (1). Эта операция может быть выполнена по речевым сигналам с ИКМ, синтезированных соответствующим декодером на основе вычисления значений отношения сигнал / шум на коротком интервале времени (см. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. О.И. Шелухина. - М.: Радио и связь, 2000. - 456 с). Также известен способ автоматической оценки качества цифровых сигналов НКР (см. Патент РФ на изобретение №RU 2748935 от 01.06.2021. Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием // В.А. Аладинский, С.В. Кузьминский, П.Л. Смирнов. - РФ: Федеральная служба по интеллектуальной собственности, бюлл. №30, 2021), в котором не требуется декодирование исследуемого цифрового сигнала s к формату sp. Кроме того, данный способ позволяет осуществлять распознавание протоколов НКР, используемых при формировании реализаций S. Описание условий передачи сигналов S в ТКС представляется в виде закономерностей появления битовых ошибок. По результатам анализа выполняется селекция (отбор) сигналов, сформированных с помощью заданных НКР, и режекция других реализаций.

Повышение вероятности правильной ИЛД при прочих равных условиях достигается за счет использования информативных сегментов исследуемого цифрового сигнала, содержащих информацию об индивидуальных особенностях речевого тракта в моменты времени РАД, к которым относятся вокализованные (гласные, некоторые взрывные и фрикативные согласные) звуки (см. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу. - М: Радио и связь, 1981. - С. 48-49), и уточненных эталонных образов, также формируемых по цифровым сигналам, принадлежащих диктору с номером и содержащих вокализованные звуки речи. Кроме того, на этапе обучения для повышения вероятности необходимо осуществлять выбор наиболее информативного набора z признаков идентификации из их большого числа. К числу наиболее известных признаков относится: вектор мел-кепстральных коэффициентов, вектор линейных кепстральных коэффициентов. Уточненные эталонные образы также могут включать признаки, содержащиеся непосредственно в принятом цифровом сигнале: вектор коэффициентов линейного предсказания либо вектор линейных спектральных частот, либо вектор логарифмических коэффициентов отражения, математически взаимосвязанных друг с другом (см. Chu W.C. Speech coding algorithms: Foundation and evolution of standardized codes. - New Jersey: Wiley - Interscience. 2003. - 558 p.).

Уменьшение вероятности ошибок ИЛД достигается за счет снижения числа эталонных образов, с которыми осуществляется сравнение одного образа z входной реализации s (см. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу. - М.: Радио и связь, 1981. - С.110-111). Это обеспечивается предварительной классификацией эталонных образов дикторов по голосовым группам. Последние формируются на этапе обучения в результате кластеризации признакового пространства голосовых групп, описываемого совокупностью значений частоты ОТ, характеризующих голосовые группы дикторов с номерами Начальное значение количества групп обеспечивает классификацию дикторов по полу (мужчина/женщина), максимальное значение зависит от количества эталонных образов дикторов, а также от свойств НКР, применяемых в радиоканалах ТКС для передачи речевых сообщений. Значение устанавливается по результатам обучения на основе критерия достоверной классификации дикторов по голосовым группам, т.е. вероятность правильной классификации по голосовым группам После достоверного определения принадлежности (классификации) входной реализации s к одной из голосовых групп не требуется попарное сравнение всех уточненных эталонных образов с образом z входной реализации s. Поэтому осуществляется сравнение образа z входной реализации s с каждым уточненным эталонным образом входящим в голосовую группу . В результате отмечается снижение количества парных сравнений, что приводит к уменьшению вычислительных затрат и повышению полноты либо оперативности обработки при большом количестве входных реализаций, поступающих на вход средства ИЛД.

Таким образом, положительный эффект в предлагаемом способе ИЛД в повышении значений вероятности при прочих равных условиях достигается на основе:

отбора цифровых информационных сигналов, сформированных с помощью известных НКР, переданных по радиоканалам ТКС и соответствующих требованиям по качеству;

предварительной классификации каждой входной реализации s по голосовым группам дикторов, определения номера голосовой группы, к которой относится исследуемая реализация и последующим сравнением образа z входной реализации s с уточненными эталонными образами из состава данной голосовой группы;

более точного описания образа z входной реализации s и использования уточненных эталонных образов дикторов полученных на основе обучающей выборки с максимальным значением оценки качества q речевого сигнала по выборкам

выбора при обучении наиболее информативных признаков идентификации, используемых для формирования уточненного образа z входной реализации и совокупности уточненных эталонных образов дикторов .

Реализация заявленного способа ИЛД может быть осуществлена следующим образом (см. фиг.1). До этапа ввода исходных данных (блок 1) целесообразно установить длительность интервала анализа для входной реализации s и длительность интервала анализа для реализаций из состава обучающей выборки Значения длительностей, устанавливаемые в современных средствах ИЛД, составляют В предлагаемом способе используются наиболее информативные сегменты цифрового сигнала, соответствующие вокализованным звукам речи. Так как доля вокализованных звуков в речи превышает 60% от длительности интервала РАД, то рекомендуется увеличить временные интервалы до значений Устанавливают начальное количество голосовых групп Также требуются описания процессов преобразования НКР, представленных совокупностью (Nкp - количество описываемых НКР), содержащиеся в опубликованных стандартах (см. ETSI/TC SMR. Recommendation GSM 06.10 GSM full rate speech transcoding. 1992 либо STANAG 4591 C3 (Edition 1) The 600 bit/s, 1200 bit/s, 2400 bit/s NATO interoperable narrow band voice coder. - NATO Standardization Agency. 3 October 2008. - 129 p.).

После установки начальных значений при отсутствии в совокупности эталонных образов (т.е. Nд = 0), при дополнении совокупности либо при несоответствии эффективности ИЛД заданным требованиям в блоке 2 осуществляется выбор режима «Обучение». В режиме «Обучение» осуществляют формирование исходных данных (блок 3), представленных обучающей выборкой . Каждый цифровой информационный сигнал сформирован с помощью заданного низкоскоростного кодека ассоциирован с диктором, имеет максимально возможное значение качества q и длительность Далее в блоке 4 разбивают (кластеризуют) обучающую выборкуна групп (классов) дикторов по признакуОсуществляют выбор вектора z признаков (блок 5), обладающего наибольшей информативностью, и формируют совокупность эталонных образов . В блоке 6 вычисляют по обучающей выборке совокупность значений меры близости, устанавливают пороговое значение и затем осуществляют регистрацию результатов обучения (блок 7). Выводят сообщение - «Обучение завершено. Количество дикторов -

При наличии эталонных описаний выбирают режим «Контроль» (блок 9) с целью проверки эффективности разработанного способа ИЛД. Для этого в блоке 10 составляют контрольную выборку , цифровые сигналы из состава также сформированы с помощью заданного низкоскоростного кодера ассоциированы с известными дикторами и имеют качество удовлетворяющее критерию (1), длительность Выборки не пересекаются, т.е.

На этапе исследования эффективности разработанного способа ИЛД (режим «Контроль») в блоке 11 по контрольной выборке осуществляют ИЛД с помощью выбранной меры близости и установленного порогового значения . Оценивают вероятность правильной идентификации личности (блок 12) по формуле

где - количество реализаций из контрольной выборки , по которым дикторы идентифицированы правильно, - мощность множества.

Принимают решение (блок 13) о выборе информативного набора z признаков ИЛД, меры и порогового значения при оценке с использованием критерия эффективности

При невыполнении условия (3) выводят сообщение: «Эффективность ИЛД низкая. Необходимо переобучение». В этом случае переходят к формированию более информативного набора z признаков ИЛД, обновлению совокупности эталонных образов и порога принятия решения , при использовании которых критерий (3) эффективности ИЛД выполняется.

В режиме «Работа» (блок 16) на вход поступает цифровой информационный сигнал s. В блоке 17 на основе цифрового информационного сигнала s составляют матрицы . С использованием информационной матрицы проверяют гипотезу о том, что входная реализация s сформирована на основе одного из заданных (известных) протоколов НКР (блок 18), а также оценивают качество цифрового сигнала s известным способом (см. Патент РФ на изобретение № RU 2748935 от 01.06.2021. Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием // В.А. Аладинский, С.В. Кузьминский, П.Л. Смирнов. - РФ:

Федеральная служба по интеллектуальной собственности, бюлл. №30, 2021), в котором обеспечивается вычисление значения оценки качества исследуемого цифрового сигнала s, сформированного низкоскоростным кодером, без преобразования к формату ИКМ. Проверяют свойства входной реализации в блоке 18 путем сравнения полученных результатов распознавания протокола НКР с имеющимися описаниями протоколов НКР и значения с требуемым значением При выявлении неизвестного протокола НКР и/или невыполнении критерия (1) выводят сообщение «Входная реализация не соответствует требованиям» и прекращают решение задачи ИЛД по данному цифровому сигналу s.

В противном случае осуществляют определение принадлежности (классификацию) цифрового информационного сигнала s к одной из групп дикторов (блок 21). В блоке 21 осуществляют ИЛД в группе дикторов с номером . Если при последовательном сравнении с эталонами дикторов из этой группы установлен диктор номером который является наиболее вероятным источником речевого сигнала, то выводят сообщение «Идентифицирован диктор с номером В противном случае осуществляют ИЛД в остальных группах дикторов (блок 25). Если и в этом случае диктор не установлен, то выводят сообщение «Диктор не идентифицирован. Необходимо дообучение» и заканчивают выполнение алгоритма.

Процедура ИЛД, реализованная в блоках 11, 21 и 25, отличается исходными данными и заключается в следующем. Осуществляют ввод сформированных исходных данных, к которым относится цифровой информационный сигнал и эталонные описания. В режиме «Контроль» (блок 11) цифровой информационный сигнал принадлежащий известному диктору с номером сравнивается со всеми уточненными эталонными описаниями из множества В режиме «Работа» (блоки 21 и 25) предварительно осуществляется определение принадлежности поступившего для анализа цифрового информационного сигнала s, к одной из групп дикторов, т.е. . В блоке 21 сигнал последовательно сравнивают с уточненными эталонными описаниями из группы с номером При невозможности правильной идентификации этот сигнал в блоке 25 сравнивается с остальными уточненными эталонными описаниями Исходные данные для процедуры ИЛД в блоках 11,21 и 25 приведены в таблице 1.

На следующем этапе процедуры ИЛД вычисляют значение меры близости по каждому эталонному описанию, в результате чего формируется вектор значений меры близости. В качестве меры в современных способах ИДЛ рассматривается МГС, представленной формулой

где - весовой коэффициент с номером - количество компонент Гауссовой смеси;

где - мерная нормальная плотность распределения, т - операция транспонирования.

Веса смеси удовлетворяют условию вида

Процесс принятия решения для исследуемой пары образов z и реализуется с помощью следующего критерия:

где arg max - функция, определяющая значение аргумента при котором значение меры близости уточненного образа входной реализации z и уточненного эталонного образа диктора с номером принадлежащего группе дикторов с номероммаксимальна и превышает значение пороговой величины.

Эффективность предложенных решений оценивалась по речевому корпусу TIMIT (англ. - Texas Instruments & Massachusetts Institute of Technology), в записи которого принимало участие 630 дикторов из 8 региональных диалектных зон США. Соотношение между тендерными группами дикторов - около 70% мужчин и 30% женщин. Для оценки разработанного способа (см. фиг.1) его программная реализации выполнена в среде MATLAB.

При формировании исходных данных речевые сигналы с ИКМ из речевого корпуса TIMIT подвергнуты сжатию с помощью НКР MELP-10-2400 (STANAG 4591), RPE-LTP-13000 (FR GSM06.10), ACELP-10600 (EFR GSM06.53), на основе которых сформированы исходные данные для обучения, разделенные по тендерному признаку на две группы. Выбранные признаки идентификации представлены вектором мел-кепстральных коэффициентов.

По обучающим выборкам длительностью не менее для каждого из дикторов сформированы уточненные эталонные образы учитывающие дополнительную информации о принадлежности к одной из групп дикторов по наиболее информативным сегментам цифровых сигналов, соответствующих вокализованным звукам речи. Кроме того, для группы из дикторов были сформированы эталонные образы не учитывающие дополнительную информацию. При сравнении эталонных образов и принадлежащих одному и тому же диктору, с помощью метрики для выбора признаков идентификации, в качестве которой выступает расстояние Махалонобиса между эталонным образом диктора с номером и его уточненным эталонным образом определено, что уточненные образы в данной метрике более компактны при различных значениях вероятности битовой ошибки. Об этом свидетельствует на фиг.3 разность расстояний между значениями которые получены для образов по цифровым сигналам кодека MELP-10-2400 (STANAG 4591). Эти данные на этапе выбора признаков, при прочих равных условиях, подтверждают преимущество способа ИЛД, в котором применяются уточненные эталонные образы.

По завершении обучения в режиме «Контроль» выполнена оценка эффективности разработанного способа ИЛД. При этом использованы уточненные реализации, представленные вектором и уточненные эталонные образы сформированные на основе цифровых информационных сигналов при различных значениях а также образов и реализации не учитывающие дополнительную информацию, при

Результаты оценки эффективности ИЛД при использовании уточненных реализаций, представленных вектором и уточненных эталонных образов сформированных на основе цифровых информационных сигналов кодека RPE-LTP-13000 (FR GSM 06) приведены на фиг.4 в виде графической зависимости вероятности правильной ИЛД от вероятности появления битовых ошибок в цифровых информационных сигналах при различном числе эталонных образов. Результаты оценки эффективность ИЛД на основе анализа цифровых информационных сигналов кодека ACELP-10600 (EFR GSM06.53) приведены на фиг.5.

На фиг.4 и фиг.5 представлена зависимость вероятности правильной ИЛД от вероятности появления битовых ошибок. Последние получены для образов при и реализаций вида которые не учитывают дополнительную информацию. Одновременно с ними приведены зависимости полученные при использовании уточненных эталонных образов и уточненных реализаций. Сравнительный анализ показывает преимущество последних по числу распознаваемых дикторов - до 40 при Также отмечается лучшая помехоустойчивость разработанного способа, подтверждаемая выполнением требования при большем уровне ошибок. Это отражается в виде разности между значениями вероятности которые достигнуты при ИЛД с использованием уточненных эталонных образов и уточненных реализаций, и значениями вероятности при ИЛД по эталонным образам Величина может достигать 0,031 (см. фиг.4).

Эффективность ИЛД при использовании уточненных эталонных образов формируемых на основе цифровых информационных сигналов кодека MELP-10-2400 (STANAG 4591), близка к результатам, полученным для кодека RPE-LTP-13000 (FR GSM 06). Это свидетельствует о большем приросте эффективности ИЛД с учетом меньшей информационной скорости цифровых информационных сигналов и худшего качества синтезируемой речи для данного кодека.

Способ идентификации личности (ИЛ) диктора по цифровым сигналам низкоскоростных кодеков речи, заключающийся в том, что принимают в течение интервала времени Тс цифровой информационный сигнал s, в составе которого любой блок sб двоичных символов постоянной размерности сформирован с помощью заданного низкоскоростного кодера, по имеющимся идентификаторам последовательно выделяют из цифрового информационного сигнала s все блоки двоичных символов, соответствующие интервалам времени речевой активности диктора (РАД), и извлекают из каждого выделенного блока набор двоичных символов содержащий информацию о спектре речевого сигнала диктора, формируют признаки ИЛ диктора путем преобразования значений двоичных символов из каждого набора в значения мел-кепстральных коэффициентов, по которым формируют усредненный вектор мел-кепстральных коэффициентов выбранной размерности с помощью меры близости где - условный номер диктора, - количество идентифицируемых дикторов, описываемое моделью гауссовых смесей (МГС), сравнивают усредненный вектор являющийся образом входной реализации и определяемый по всему интервалу времени РАД, с каждым заранее сформированным эталонным образом ассоциированный с номером диктора, который включает вектор усредненных значений мел-кепстральных коэффициентов, ковариационную матрицу и совокупность весов МГС, на основе которого вычисляют значений меры близости входного образа и каждого эталонного образа принимают решение о принадлежности входной реализации s к одному из дикторов с помощью функции выбора значения аргумента по правилу, при котором значение меры близости образа входной реализации и эталонного образа максимально и больше пороговой величины отличающийся тем, что на предварительном этапе определяют тип протокола низкоскоростного кодирования речи (НКР), используемого для формирования цифровых информационных сигналов, оценивают качество цифровых информационных сигналов на основе метода срединных субъективных оценок, осуществляют отбор входных реализаций, соответствующих требованиям по качеству где - требуемое значение качества цифровых информационных сигналов, при невыполнении пороговых условий к качеству анализируемых сигналов прекращают ИЛ диктора, в противном случае последовательно присваивают информационным блокам из состава цифрового информационного сигнала s порядковые номера nб=1, 2, …, Nб, формируют прямоугольную информационную матрицу Sи размеров Nc×Nб путем последовательного размещения друг под другом информационных блоков в соответствии с их порядковыми номерами nб=1, 2, …, Nб, начиная с первого информационного блока sб(1), выявляют по идентификаторам, содержащимся в каждой строке sб(nб) информационной матрицы Sи, те ее строки, которые соответствуют интервалам передачи диктором вокализованных звуков речи, последовательно присваивают каждой выявленной строке матрицы Sи новое обозначение sбв и номер nв=1, 2, …, NB, где NB - число выявленных строк, формируют, начиная с первой строки sбв(1), прямоугольную матрицу SB вокализованных компонентов размером Nc×Nв путем последовательного размещения друг под другом выявленных строк, содержащих вокализованные звуки речи, формируют матрицу Sот значений основного тона (ОТ) речи путем выделения из информационной матрицы Sв столбцов, содержащих в соответствии с используемым протоколом НКР информацию о частоте ƒот ОТ речи диктора, оценивают по полученной матрице Sот среднее значение частоты ОТ, выделяют из матрицы Sв столбцы, содержащие информацию о спектре вокализованных звуков речи, более точно описывающих индивидуальные особенности диктора, присваивают, начиная с первого, каждому выделенному из матрицы Sв столбцу обозначение sос(nвс) с порядковым номером nвс=1, 2, …, Nвс, где Nвс - число выделенных столбцов, формируют информативную матрицу Soc размеров Noc×Nвс путем последовательного размещения друг за другом столбцов двоичных символов, содержащих информацию о спектре речевого сигнала, вычисляют по каждому столбцу sос(nвс) информативной матрицы Soc среднее значение уточненного информативного признака z(nвс) с номером nвс=1, 2, …, Nвс и составляют из них набор z уточненных значений признаков ИЛ диктора размерностью Nвс; на этапе обучения составляют выборку цифровых информационных сигналов, сформированных с помощью используемого низкоскоростного кодера ϕнк и ассоциированных с Nд дикторами, которым присвоены номера nд=1, 2, …, Nд, последовательно выделяют из выборки ассоциированный цифровой информационный сигнала s(nд) и известным путем составляют ассоциированную информационную матрицу s(nд), на основе которой формируют ассоциированную матрицу Sос(nд) значений ОТ, по которой вышеизложенным путем оценивают среднее значение частоты осуществляют сравнение значений частоты с заранее установленными значениями частоты характеризующими голосовую группу дикторов с номером nгд=1, 2, …, Nгд, где Nгд - количество классифицируемых голосовых групп, определяют номер голосовой группы nгд, к которой относится данный диктор, по наименьшему отклонению между оцененным значением и заранее установленным значениям выделяют из ассоциированной информационной матрицы столбцы двоичных символов, содержащих информацию о спектре речевого сигнала, формируют из них ассоциированную информативную матрицу и присваивают ей новое обозначение добавлением номера голосовой группы, определяют по ассоциированной информативной матрице значения параметров уточненного эталонного образа из группы nгд с номером диктора включая соответствующие значения математического ожидания ковариационную матрицу и совокупность весов компонентов МГС, используемой для вычисления значения условной вероятности того, что набор z порожден диктором с номером входящим в голосовую группу сравнивают значение с заранее установленными значениями характеризующими голосовую группу дикторов с номером по наименьшему отклонению между значениями определяют номер голосовой группы, к которой относится предполагаемый диктор, вычисляют значение условной вероятности, на основе вычисления аргумента максимума от совокупности полученных значений условной вероятности принимают решение, кому из дикторов, входящих в голосовую группу принадлежал данный набор z уточненных значений признаков ИЛ, указывая на его номер



 

Похожие патенты:

Настоящее изобретение относится к устройству помощи в управлении для транспортных средств, которое работает для получения информации рекомендации, подходящей для состава пользователей, включающего в себя отношения между людьми, и выдачи информации рекомендации для помощи в различных операциях с транспортным средством, выполняемых одним или более пользователями.

Настоящее техническое решение относится к области вычислительной техники. Технический результат заключается в сохранении конфиденциальности пользователя в многопользовательской среде при голосовом взаимодействии с устройством виртуального помощника по дому.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении возможности разметки (сегментации) аудиосигнала с малой погрешностью и с малым энергопотреблением на основе данных, полученных с двух микрофонов, в том числе в режиме реального времени.

Изобретение относится к области вычислительной техники для аутентификации пользователя с помощью голосовой биометрии. Технический результат заключается в повышении надежности аутентификации пользователя с помощью голосовой биометрии и устойчивости к атакам.

Изобретение относится к системам для определения личности говорящего пользователя управляемого голосом устройства. Технический результат заключается в повышении точности идентификации определенного говорящего пользователя.
Изобретение относится к области вычислительной техники и связи. Технический результат заключается в обеспечении возможности дистанционной идентификации абонента.

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности и надежности аутентификации личности.

Изобретение относится к области обработки данных. Технический результат заключается в расширении арсенала средств.
Изобретение относится к области вычислительной техники, в частности к технологиям верификации пользователей. Технический результат заключается в повышении безопасности верификации голосовых биометрических данных и защиты от фальсификации голосовых биометрических данных.

Изобретение относится к средствам для распознавания эмоций в речи. Технический результат заключается в повышении точности распознавания эмоций.

Изобретение относится к области вычислительной техники для обработки цифровых данных. Технический результат заключается в обеспечении автоматизированной оценки по заданным маркерам качества работы операторов контакт-центров с помощью голосового робота.
Наверх