Способ выявления эмоционального состояния человека по голосу



Способ выявления эмоционального состояния человека по голосу
Способ выявления эмоционального состояния человека по голосу

 


Владельцы патента RU 2553413:

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") (RU)

Изобретение относится к системам анализа речи и может быть использовано для определения эмоционального состояния человека по голосу, применительно к задачам криминалистики, медицины, системам контроля и управления доступом и др. Технический результат заключается в повышении достоверности и воспроизводимости оценок эмоционального состояния диктора. Способ заключается в записи речевого сигнала и его последующей обработке, включающей в себя расчет коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости. Коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования. 1 з.п. ф-лы, 1 ил.

 

Изобретение относится к системам анализа речи и может быть использовано для определения эмоционального состояния человека по голосу, применительно к задачам криминалистики, медицины, системам контроля и управления доступом и др.

Известен способ обнаружения эмоций (Патент РФ №2287856, G06N 5/00, G10L 15/00, G06K 9/00, 2006), заключающийся в записи и анализе голосового сигнала, при котором выявляется изменение во времени, во-первых, интенсивности голоса, во-вторых, его темпа как характеристики скорости изменения голосового сигнала и, в-третьих, его интонации, характеризующей изменение интенсивности в каждом отрезке голосового сигнала. По полученным трем величинам изменения параметров голосового сигнала автоматически определяются состояния по меньшей мере гнева, печали и удовольствия.

Указанный способ характеризуется низкой достоверностью и плохой воспроизводимостью результатов, из-за неустойчивости к вариациям произнесения речевого материала диктором, так как результат детектирования эмоций существенным образом зависит от набора и характеристик голосовых фильтров, применяемых для установления специфических текстозависимых частотных компонент речевого сигнала;

отсутствия критерия оценки численного значения характерного времени речевых сегментов, соответствующего конкретной эмоции, а также математической неопределенности критерия выявления значимого рассогласования для различных эмоций «рисунка изменения интенсивности» в каждом слове голоса.

В другом способе определения эмоционального состояния человека по голосу (Горшков Ю.Г. Новые решения речевых технологий безопасности / Ю.Г.Горшков // Специальная техника. - 2006. - №4. - С.1-13) из записанного речевого сигнала с применением вейвлет-анализа выделяются и анализируются одновременно его основные параметры и кратковременные высокочастотные составляющие.

Недостатком данного способа является ограниченность его применения и неоднозначность получаемых результатов из-за отсутствия критериев различия и мер различимости, необходимых для детектирования эмоций, а также неопределенности параметров используемого вейвлета и выбора отсчетов масштаба вейвлет-преобразования.

Наиболее близким по совокупности признаков является способ анализа речи (Патент РФ №2403626, G10L 11/04, 2010), заключающийся в записи голосового сигнала диктора, его интегральном преобразовании в амплитудный спектр, вычислении автокорреляционного колебания при сдвиге полученного амплитудного спектра на частотной оси и вычислении частоты основного тона на основе локального интервала между одним из максимумов и одним из минимумов автокорреляционного колебания с последующим анализом изменения частоты основного тона на основе меры различимости.

В способе не определена мера различимости для сравнения различных эмоций, не используется информация о значениях амплитуд спектральных компонент голосового сигнала (распределении энергии голосового сигнала в значимых для решаемой задачи областях его амплитудного спектра); не учитывается форма частотно-временного распределения спектральных компонент, которые существенным образом определяют эмоциональное состояние человека (Галунов В.И. О возможности определения эмоционального состояния по речи / В.И.Галунов // Речевые технологии. - 2008. - №1. - С.60-66).

Все это приводит к уменьшению достоверности оценок эмоционального состояния диктора и их плохой воспроизводимости для различных дикторов.

Заявляемое изобретение предназначено для повышения вероятности правильных оценок эмоционального состояния человека по его речевому сигналу за счет использования непрерывного вейвлет-преобразования в качестве ядра интегрального преобразования и общей для детектирования различных видов эмоционального состояния диктора меры различимости.

Технический результат заключается в повышении достоверности и воспроизводимости оценок эмоционального состояния диктора.

Технический результат достигается тем, что в известном способе выявления эмоционального состояния человека по голосу, заключающийся в записи речевого сигнала и его последующей обработке, включающей в себя расчет коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости, согласно изобретению, коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования; при этом для вычисления коэффициентов локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала используется вейвлет Морле.

Получаемый при осуществлении изобретения технический результат, а именно, повышение достоверности и воспроизводимости оценок эмоционального состояния человека по речевому сигналу, достигается за счет применения частотно-временного анализа существенных параметров речевого сигнала, адекватно описывающих эмоциональное состояние человека. В основе такого анализа лежит регистрация изменений во времени спектра непрерывного вейвлет-преобразования речевого сигнала, что позволяет получать аналитические выражения для практической оценки существенных параметров.

В непрерывном вейвлет-преобразовании в качестве материнского вейвлета используется вейвлет Морле (Голубинский А.Н. Выявление эмоционального состояния человека по речевому сигналу на основе вейвлет-анализа // Вестник ВИ МВД России. - 2011. - №3. - С.144-153), частотно-временные характеристики которого аналогичны характеристикам базилярной мембраны (Юрков П.Ю. Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов: автореф. дис. канд. техн. наук: 05.13.19, 05.13.17 / П.Ю.Юрков. - Таганрог, 2006. - 16 с.). Существенные отсчеты масштаба непрерывного вейвлет-преобразования выбираются с использованием показательной аппроксимации функции масштаба (Голубинский А.Н., Асташов Р.А. К вопросу о выборе масштаба непрерывного вейвлет-преобразования для обработки речевых сигналов // Охрана, безопасность, связь - 2011: Материалы международной научно-практической конференции. Часть 1. - Воронеж: Воронежский институт МВД России, 2011. - С.64-68). Для детектирования эмоционального состояния применяется мера различимости между локальными спектрами НВП, что позволяет обеспечить повышение реальной и потенциальной точности оценки эмоционального состояния (Голубинский А.Н. Выявление эмоционального состояния человека по речевому сигналу на основе вейвлет-анализа // Вестник ВИ МВД России. - 2011. - №3. - С.144-153).

Заявляемый способ поясняется фиг.1, где схематически изображены основные блоки, реализующие способ выявления эмоционального состояния человека по голосу.

Блок-схема алгоритма выявления эмоционального состояния человека по голосу (фиг.1) включает источник речевого сигнала в цифровой или аналоговой форме, например микрофон (М) 1 и аналого-цифровой преобразователь (АЦП) 2, блок расчета существенных отсчетов масштаба непрерывного вейвлет-преобразования (БРСОМНВП) 3, блок расчета коэффициентов локального спектра непрерывного вейвлет-преобразования (БРКЛСНВП) 4, коммутатор 5, который работает следующим образом: нижнее положение переключателя - получение эталонных параметров голоса диктора, верхнее положение переключателя - детектирование эмоционального состояния, блок расчета мер различимости между локальными спектрами непрерывного вейвлет-преобразования (БРМРЛСНВП) 6, блок запоминания эталонных параметров голоса диктора (БЗЭПГД) 7, блок принятия решения об эмоциональном состоянии диктора (БПРЭСД) 8.

Предложенная блок-схема показывает работу в двух режимах: режиме обучения и режиме детектирования эмоционального состояния.

В режиме обучения речевой сигнал с микрофона 1 подают через АЦП 2 в блок 3, в котором на основе показательной аппроксимации функции масштаба вычисляются отсчеты масштаба НВП:

a m = a 0 2 Θ m = a 0 e θ m ,  m = 0 ,1 , ,M .                  ( 1 )

Константы в показателях (1) связаны выражением:

Θ=θ/ln(2).

Минимальное значение масштаба вейвлета:

,

где Δt - эффективный временной размер материнского вейвлета, для вейвлета Морле равный: ; fd - частота дискретизации; σ - параметр масштаба.

Номер наибольшего отсчета масштаба рассчитывается по формуле:

Здесь   - округление до ближайшего целого числа; fmin - минимальная существенная частота в спектре речевого сигнала;

,

где ξ - доминантная частота, принимаемая равной: ξ=5/σ.

Значение М-го отсчета масштаба рассчитывается по формуле:

.

Затем в блоке 4 осуществляется расчет коэффициентов локального спектра непрерывного вейвлет-преобразования по формуле:

здесь - коэффициенты дискретного преобразования Фурье для отсчетов xi, вычисляемые на основе алгоритма быстрого преобразования Фурье (Баскаков С.И. Радиотехнические цепи и сигналы: Учебник для вузов / С.И.Баскаков. - 4-е изд. - М.: Высшая школа, 2005. - С.389-395.); N - количество отсчетов; ψ(k,m) - преобразование Фурье от материнского вейвлета Морле:

После этого в блоке 7 осуществляется запоминание значений коэффициентов локального спектра непрерывного вейвлет-преобразования.

В режиме детектирования эмоционального состояния после процедуры расчета коэффициентов локального спектра непрерывного вейвлет-преобразования в блоке 6 осуществляется расчет меры различимости по формуле:

δ W q = m = 0 N a 1 n = 0 N b 1 ( E д Б в х ( m , n ) E д Б q ( m , n ) ) 2 m = 0 N a 1 n = 0 N b 1 ( E д Б 0 ( m , n ) ) 2 100 % .                      ( 4 )

Здесь E д Б в х - коэффициенты локального спектра непрерывного вейвлет-преобразования (в децибелах) входной реализации речевого сигнала; q = 1, Q ¯ , где Q - количество видов эмоциональных состояний человека (в базе данных), например: депрессия, тоска, печаль, норма, радость, страх, гнев; ЕдБ0(m,n) - локальный спектр непрерывного вейвлет-преобразования в логарифмическом масштабе для эмоции "норма".

Затем в блоке 8 осуществляется определение наименьшего значения меры различимости δ W min = min 4 [ δ W q ] . Если δWmin не превышает заданного порогового значения W0, то принимается решение, что входному речевому материалу соответствует эмоциональное состояние диктора, при котором наблюдалось δWmin.

Принципом детектирования какого-либо эмоционального состояния человека по его голосу, общим, для всех известных способов, является сравнение текущих значений некоторого набора параметров голосового сигнала, существенных для решения данной задачи, с «эталонными» значениями того же набора, однозначно характеризующими наличие данного эмоционального состояния. Вероятность соответствия текущего эмоционального состояния детектируемому состоянию будет тем выше, чем меньше значение меры различимости текущих и «эталонных» значений существенных параметров.

Достоверность способа детектирования эмоционального состояния диктора в общем случае обеспечивается эффективностью (прецизионностью) решающего критерия, состоящего из правила сравнения (решения) и меры различимости, т.е. в основном определяется прецизионностью меры различимости, которая в свою очередь обеспечивается:

- выбором существенных параметров как аргументов меры различимости;

- способом формирования значений существенных параметров, обеспечивающим высокую контрастность сопоставления текущего и заданного эмоционального состояния;

- способом формирования численного значения или вектора меры различимости.

Повышение вероятности правильного определения эмоционального состояния человека по его голосу в заявляемом способе обеспечивается:

- использованием в качестве существенных параметров коэффициентов локального спектра непрерывного вейвлет-преобразования, характеризующихся большой чувствительностью к изменению базовой функции, т.е. обладающих более существенными взаимными отличиями по сравнению с соответствующими значениями первичных параметров речевого сигнала (интенсивности, темпа, спектральной плотности мощности и др.);

- использованием вейвлета Морле в качестве материнского вейвлета в непрерывном вейвлет-преобразовании речевого сигнала, что повышает различимость существенных параметров;

- применением евклидовой невязки в качестве меры различимости, что позволяет однозначно и прецизионно сопоставлять текущее эмоциональное состояние диктора одновременно со всем набором детектируемых эмоциональных состояний по единственному текущему численному значению.

1. Способ выявления эмоционального состояния человека (депрессия, тоска, печаль, норма, радость, страх, гнев) по голосу, заключающийся в записи речевого сигнала и его последующей обработке, включающей в себя расчет частотно-временных параметров в виде коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости, отличающийся тем, что коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования, эмоциональное состояние выявляется по наименьшему из значений меры различимости для всех эмоциональных состояний человека в базе данных, а для исключения из анализа речевого сигнала с не соответствующим базе данных эмоциональным состоянием диктора проводится сравнение меры различимости с заданным пороговым значением.

2. Способ по п. 1, отличающийся тем, что при вычислении коэффициентов локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала используется вейвлет Морле.



 

Похожие патенты:

Группа изобретений относится к средствам для анализа временных вариаций аудио сигналов. Технический результат заключается в создании средств, обладающих повышенной надежностью, для получения параметра, описывающего временные изменения сигнальной характеристики.

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности выделения речевого сигнала в условиях наличия помех.

Изобретение относится к средствам оценки качества аудиосигнала для мультимедийной телекоммуникационной службы. Технический результат заключается в повышении точности определения качества аудиосигнала.

Способ и дискриминатор для классификации различных сегментов сигнала, предназначенный для того, чтобы классифицировать различные сегменты сигнала, включающий сегменты, по крайней мере, первого и второго типов, например музыкальные и речевые сегменты, сигнал краткосрочной классификации (150) на основе, по крайней мере, одной краткосрочной особенности, извлеченной из сигнала, и краткосрочный результат классификации (152); сигнал долгосрочной классификации (154) на основе, по крайней мере, одной краткосрочной особенности и, по крайней мере, одной долгосрочной особенности, извлеченной из сигнала, и долгосрочный результат классификации (156).

Изобретение относится к вычислительной технике. .

Изобретение относится к устройствам и способам кодирования и декодирования, которые используются для того, чтобы кодировать стереофоническую речь. .
Изобретение относится к радиотехнике, а именно к способам точной оценки частоты одиночного гармонического колебания в ограниченном диапазоне. .

Изобретение относится к области адаптивного дистанционного обслуживания подвижных составов с помощью машинного обучения правилам. Техническим результатом является обеспечение автоматического обновления правил, применяемых для группировки диагностической информации, для более точной группировки диагностической информации.

Изобретение относится к медицинской вычислительной технике. Технический результат - повышение эффективности оценки действий обучаемого трансфеморальной аортографии.

Изобретение относится к области моделирования. .

Изобретение относится к системам управления знаниями для разрешения ситуаций (СУЗ PC) и предназначено для поддержки разрешения проблемных ситуаций, связанных с неудовлетворительным качеством конкретных объектов.

Изобретение относится к автоматизированным компьютерным системам, использующим модели, основанные на знаниях, и предназначено для разработки технического задания на создаваемый (проектируемый) медико-инженерный объект.

Изобретение относится к медицине, в частности к кардиологии, и может быть использовано для оценки состояния по данным электрокардиографического обследования пациента при скрининге или в условиях скорой и неотложной помощи.

Изобретение относится к области моделирования сетей связи и может быть использовано при проектировании сетей связи для оценки эксплуатационных показателей. .

Изобретение относится к системам и способам безопасности вычислительных средств и более конкретно к системам и способам проверки веб-ресурсов на наличие вредоносных, потенциально опасных и нежелательных компонент и предназначено для решения проблемы эффективного и оперативного детектирования фактов или возможности заражений веб-ресурсов.

Изобретение относится к вычислительной технике. .

Изобретение относится к компьютерным системам, использующим модели, основанные на знаниях, а именно к системам, синтезирующим интеллектуальные решения и новые знания по запросу пользователя.

Изобретение относится к методам и средствам прицеливания и наводки, используемым в зенитных самоходных установках (ЗСУ) сухопутных войск. Способ применим в случае выхода из строя системы измерения дальности собственной радиолокационной системы, в т.ч. при постановке помех. С помощью оптического прицела на ЗСУ измеряются текущие угловые координаты воздушной цели. На подвижном пункте разведки и управления (ППРУ) методами радиолокации устанавливают линейную скорость и угол курса цели, которые передают по радиолинии на аппаратуру приема и реализации данных целеуказания. Существующие образцы этой аппаратуры устанавливают на ЗСУ. Измеренные на ЗСУ и переданные с ППРУ данные вводят в цифровую вычислительную систему, где наклонная дальность до цели рассчитывается по соответствующим формулам. Технический результат изобретения состоит в повышении точности определения наклонной дальности воздушной цели, что, в свою очередь, повышает точность стрельбы по ней. 4 ил.
Наверх