Способ выявления патологии голосоведения в речи

Авторы патента:

Воронин Евгений Михайлович (RU)

Марков Артем Владимирович (RU)

Дериглазов Сергей Станиславович (RU)

Фетисова Ольга Геннадьевна (RU)

Ламтюгин Дмитрий Викторович (RU)

Макуха Владимир Карпович (RU)

G10L11 - Определение или обнаружение характеристик речи, не отнесенные к группам G10L 15/00-G10L 21/00

Владельцы патента RU 2433488:

Государственное образовательное учреждение высшего профессионального образования "Новосибирский государственный технический университет" (RU)

Изобретение относится к области психофизиологии, а именно к психофизиологии речи, и может быть использовано при анализе характеристик голосового аппарата человека для диагностики различных видов патологии голосоведения и объективной оценки эффективности проведения лечения. Сущность способа состоит в том, что в спектре выделяют пары наборов низкочастотных гармоник и/или обертонов и наборов высокочастотных обертонов, соответствующих определенному виду патологии голосоведения, после чего для каждой пары наборов вычисляют коэффициенты голосовой гармонизации как отношение суммарной энергии определенного набора относительно высокочастотных обертонов к суммарной энергии определенного набора относительно низкочастотных гармоник и/или обертонов и сравнивают со значениями соответствующих одного или нескольких коэффициентов голосовой гармонизации при норме и при патологии и делают вывод о наличие того или иного вида патологии голосоведения в речи. Технический результат - увеличение селективности и повышение чувствительности способа выявления патологии голосоведения. 2 ил.

Предлагаемое изобретение относится к области психофизиологии, а именно к психофизиологии речи, и может быть использовано при анализе характеристик голосового аппарата человека для диагностики различных видов патологии голосоведения и объективной оценки эффективности проведенного лечения.

Известен способ оценки выявления патологии голосоведения, применяемый для оценки вокальной одаренности (патент РФ №2204170 «Способ комплексной оценки вокальной одаренности»), при котором голос обследуемого человека анализируется в соответствии с частотой высокой певческой форманты, которая, в зависимости от индивидуальных характеристик голосового тракта человека, может находиться в широком частотном диапазоне (от 2350 до 3700 Гц). Анализ голоса основывается на вычислении отношения электрического напряжения в 1/3-октавной полосе частотного спектра звука, соответствующей высокой певческой форманте, к электрическому напряжению звука, содержащего полный спектр голоса, и определении коэффициента звонкости голоса, который соответствует относительному уровню певческой форманты в спектре голоса.

Однако указанный способ предназначен для анализа качества голосоведения при пении с привязкой к конкретным спектральным частотам в диапазоне от 2350 до 3700 Гц. В то же самое время известно, что у большинства людей в этой области низкая спектральная плотность звука в голосе при речи без патологии. Следовательно, анализ голоса у таких людей невозможен указанным способом, что в свою очередь сужает возможности применения рассматриваемого способа.

Кроме того, известен способ выявления патологии голосоведения в речи (А computer system for acoustic analysis of pathological voices and laryngeal diseases screening. Mitev P., Hadjitodorov S., Medical engineering & physics, 2002, p.419-429), являющийся прототипом предлагаемого изобретения и заключающийся в том, что для анализа голосового сигнала вводится параметр NFHE (Normalized First Harmonic Energy). Запись голосоречевого сигнала должна быть разделена на временные сегменты. Длина сегмента должна быть равна 8 периодам минимальной анализируемой частоты, для того чтобы обеспечить достаточно малые ошибки при анализе голосового сигнала. Для каждого сегмента рассчитывается быстрое преобразование Фурье (БПФ) с использованием окна Хэмминга. Параметр NFHE для каждого сегмента вычисляется по следующей формуле:

где P(f) - мощность спектра сигнала,

int - оператор преобразования, который округляет значение до ближайшего целого,

f₀ - частота основного тона,

b=1.5 N/W половина полосы гармоники (N и W - количество точек, используемых для расчета БПФ и определяющих длину временного окна соответственно),

k - порядковый номер гармоники,

k_max - число гармоник на участке до 4 кГц.

Значение NFHE для всего голосового сигнала вычисляется по следующей формуле:

где i - порядковый номер сегмента,

n - число сегментов.

При этом указанный способ не позволяет отличать друг от друга различные проявления дисфонии, так как особенностью некоторых проявлений дисфонии является определенное перераспределение энергии в структуре спектра голоса между наборами высокочастотных и низкочастотных обертонов при одинаковом отношении энергии гармоники на частоте основного тона к сумме энергий остальных обертонов. Более того, в случае дисфонии с отличным от нормы распределением энергии в структуре спектра голоса выше частоты основного тона указанный способ не позволит в принципе детектировать патологию. Также коэффициент NFHE обладает малой чувствительностью, т.е. его значение для голосового сигнала с явно выраженной патологией отличается от значения для голоса без патологии всего на несколько десятков процентов. Вследствие этого коэффициент NFHE не будет информативным, например, при выявлении патологии на ранней стадии.

Задачей предлагаемого изобретения является создание способа выявления патологии голосоведеия в речи, который обладает более высокой селективностью, т.е. позволяет отличать различные проявления дисфонии друг от друга, детектировать виды патологии, в которых отличие от нормы наблюдается в структуре спектра выше частоты основного тона, а также обладает большей чувствительностью.

Поставленная задача достигается тем, что в способе в спектре голосоречевого сигнала анализируется отношение суммарной энергии определенного набора относительно высокочастотных обертонов к суммарной энергии определенного набора относительно низкочастотных гармоник и/или обертонов, в отличие от известного способа, в котором производится анализ голосового сигнала по отношению энергии гармоники на частоте основного тона к суммарной энергии других гармоник посредством параметра NFHE (при этом не учитывается распределение энергии в структуре спектра голоса выше частоты основного тона). Более высокая чувствительность и селективность достигается за счет выбора информативных для конкретного вида патологии гармоник и/или обертонов, например, на основе формантной структуры спектра голосоречевого сигнала.

На фиг.1 приведена блок-схема аппаратного обеспечения, необходимого для реализации предложенного способа, на фиг.2 приведен спектр голосоречевого сигнала с пронумерованными гармониками (обертонами).

На схеме (фиг.1) 1 - микрофон, 2 - аналого-цифровой преобразователь, 3 - микропроцессорная система. Все компоненты соединены таким образом, что сигнал с микрофона (1) поступает на аналого-цифровой преобразователь (2), а уже с аналого-цифрового преобразователя на микропроцессорую систему (3). В качестве аналогово-цифрового преобразователя (2) может быть использована звуковая карта персонального компьютера (ПК), цифровой диктофон, устройство на базе микроконтроллера или цифрового сигнального процессора. Микропроцессорная система (3) может быть выполнена на основе микроконтроллера или сигнального цифрового процессора, либо это может быть персональный компьютер.

Способ осуществляется следующим образом: сначала производится цифровая запись голосоречевого сигнала с использованием микрофона. Например, голосоречевой сигнал записывается при помощи цифрового диктофона.

Затем при помощи конкретной реализации микропроцессорной системы, например, ПК вычисляется спектр сигнала. Спектр сигнала может быть вычислен, например, методом быстрого преобразования Фурье. Затем в спектре выделяются гармоники и обертоны - это сильно выделяющиеся пики в спектре голосоречевого сигнала, гармоника и обертон характеризуются центральной частотой и диапазоном частот на уровне полувысоты пика. На фиг.2 приведен спектр голосоречевого сигнала с пронумерованными гармониками (обертонами). Далее выделяются пары наборов. Каждая пара состоит из набора низкочастотных гармоник и/или обертонов (низкочастотный набор) и набора высокочастотных обертонов (высокочастотный набор). Одна или несколько пар соответствуют определенному виду патологии голосоведения. Для выявления нескольких проявлений патологии следует использовать различные совокупности пар.

При выявлении патологии для количественной оценки голосоречевого сигнала вводится коэффициент голосовой гармонизации, представляющий собой отношение суммарной энергии высокочастотного набора к суммарной энергии низкочастотного набора в паре для голосоречевого сигнала:

где h1, h2…hn - номера относительно высокочастотных обертонов,

l1,l2…lm - номера относительно низкочастотных обертонов,

P_hi - энергия i-го относительно высокочастотного обертона,

Р_lj - энергия j-го относительно низкочастотного гармоники или обертона,

P_h1, P_h2…P_hm - высокочастотный набор,

P_l1, P_l2…P_ln - низкочастотный набор.

Для каждого из наборов низкочастотных и высокочастотных гармоник и обертонов вычисляется коэффициент голосовой гармонизации. Рассчитанные значения коэффициентов голосовой гармонизации сравниваются со значениями соответствующих коэффициентов голосовой гармонизации при норме и различных видах патологии. На основании сравнения делается вывод о наличии той или иной патологии голосоведения.

Для различных видов патологии голосоведения изменяются пары наборов гармоник/обертонов, участвующих в расчете коэффициента голосовой гармонизации.

Эксперименты показали, что у образцов голосоречевого сигнала с патологией такой коэффициент значительно отличается от образцов с правильным голосоведением. Для различных видов проявления патологии нормой являются определенные диапазоны значений коэффициентов голосовой гармонизации, определяемые эмпирически.

Чувствительность предложенного способа для выбранного образца с патологией может быть проиллюстрирована следующими расчетными данными коэффициентов для выбранного образца с выраженной патологией и для образца с голосоведением в норме. В обоих случаях запись голосоречевого образца длительностью 2 секунды содержала гласный звук /А/ и была сохранена в 16-битном формате WAV с частотой дискретизации 44100 Гц. Расчет спектра голосоречевого образца производился на персональном компьютере с использованием программного обеспечения WavLAB 6 с использованием дискретного преобразования Фурье, реализованного быстрыми методами (2048 отсчетов, окно Хэмминга с шириной 1024 отсчета).

Для расчета коэффициента NFHE минимальная анализируемая частота была задана в 40 Гц. Это вполне оправдано тем, что в речи в этом диапазоне частот отсутствует информативная составляющая. При этом для продолжения расчета вся запись была разделена на отдельные сегменты длительностью, равной восьми периодам минимальной анализируемой частоты. Т.е. длительность одного сегмента составила 8*1/(40 Гц)с=0,20 с.Количество сегментов 2/(0,20 с)=10. Указанным выше способом с использованием персонального компьютера был рассчитан спектр для каждого отдельного сегмента, а также коэффициент NFHE_i по следующей формуле:

где P(f) - мощность спектра сигнала,

int - оператор преобразования, который округляет значение до ближайшего целого,

f₀ - частота основного тона,

k - порядковый номер гармоники,

k_max - число гармоник на участке до 4 кГц.

При этом для отдельных сегментов голосоречевого образца с патологическим голосоведением были получены следующие значения:

NFHE₁=0,0067;

NFHE₂=0,0071;

NFHE₃=0,0072;

NFHE₄=0,0067;

NFHE₅=0,0069;

NFHE₆=0,0065;

NFHE₇=0,0065;

NFHE₈=0,0077;

NFHE₉=0,0074;

NFHE₁₀=0,0063.

При этом для отдельных сегментов голосоречевого образца голосоведением в норме были получены следующие значения:

NFHE₁=0,014;

NFHE₂=0,011;

NFHE₃=0,013;

NFHE₄=0,013;

NFHE₅=0,013;

NFHE₆=0,012;

NFHE₇=0,013;

NFHE₈=0,015;

NFHE₉=0,015;

NFHE₁₀=0,012.

Значение NFHE для всего голосового сигнала рассчитывалось по следующей формуле:

где i - порядковый номер сегмента,

n - число сегментов, в данном случае равное 10.

При этом коэффициенты NFHE, рассчитанные для образца голосоречевого сигнала в норме и при патологии, соответственно равны: NFHE_нopмa=0,0069, NFHE_{патология}=0,013, отличаются примерно в два раза.

Для расчета коэффициентов голосовой гармонизации тем же способом и с теми же параметрами, что и для расчета коэффициентов NFHE, для образца с патологическим и нормальным голосоведением рассчитан спектр сигнала, при этом для всей записи целиком. Далее в спектре выделены и пронумерованы гармоники и обертоны с использованием специализированного программного обеспечения, реализованного для этих целей в среде MATLAB.

Коэффициенты голосовой гармонизации для различных наборов гармоник и/или обертонов вычислялись по формуле:

где h1, h2…hn - номера относительно высокочастотных обертонов,

l1, l2…lm - номера относительно низкочастотных обертонов,

P_hi - энергия i-го относительно высокочастотного обертона,

Р_lj - энергия j-го относительно низкочастотного гармоники или обертона,

P_h1, P_h2…P_hm - высокочастотный набор,

P_l1, P_l2…P_ln - низкочастотный набор.

Наиболее показательные значения коэффициентов голосовой гармонизации, рассчитанные для тех же образцов голосоречевого сигнала в норме и при патологии, соответственно равны: К_{6,7,8-1,2(норма)}=13,77, К_{6,7,8-1,2(патология)}=1,29 и отличаются почти в десять раз. При этом для тех же образцов коэффициенты NFHE равны: NFHE_норма=0,0069, NFHE_{патология}=0,013, отличаются только примерно в два раза.

Таким образом, вычисляя коэффициенты голосовой гармонизации с различными индексами, можно обеспечить селективность по различным видам дисфонии, а также детектировать патологию, когда отклонения наблюдаются в структуре спектра, выше первой гармоники. За счет выбора наиболее показательных гармоник/обертонов можно получить более высокую чувствительность при выявлении патологии.

Способ выявления патологии голосоведения в речи, включающий анализ распределения энергии в спектре голосоречевого сигнала, отличающийся тем, что в спектре выделяют пары наборов низкочастотных гармоник и/или обертонов и наборов высокочастотных обертонов, соответствующих определенному виду патологии голосоведения, после чего для каждой пары наборов вычисляют коэффициенты голосовой гармонизации как отношение суммарной энергии определенного набора относительно высокочастотных обертонов к суммарной энергии определенного набора относительно низкочастотных гармоник и/или обертонов и сравнивают со значениями соответствующих одного или нескольких коэффициентов голосовой гармонизации при норме и при патологии и делают вывод о наличии того или иного вида патологии голосоведения в речи.

Изобретение относится к оценке периода основного тона в аудиосигналах. .

Способ разделения джиттера периода основного тона речевого сигнала // 2419166

Изобретение относится к области анализа речевых сигналов, а именно к анализу и разложению на составляющие джиттера периода основного тона речевого сигнала. .

Системы, способы и устройства для обнаружения изменения сигналов // 2417456

Изобретение относится к обработке речевых сигналов. .

Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи // 2403626

Изобретение относится к методу анализа речи, обнаруживающему частоту основного тона голоса, а также к методу обнаружения эмоций, оценивающему эмоцию на основании частоты основного тона голоса.

Снижение разреженности в кодированных речевых сигналах // 2388069

Изобретение относится к кодированию речи и более конкретно к проблеме разреженности в кодированных речевых сигналах. .

Способ передачи речевых сигналов и устройство для его осуществления // 2371783

Изобретение относится к области передачи сигналов. .

Система детектирования речи // 2363994

Квантование основного тона для распределенного распознавания речи // 2331932

Способ и устройство, предназначенные для эффективной передачи сигналов размерности и пачки в полосе частот и работы с максимальной половинной скоростью при широкополосном кодировании речи с переменной скоростью передачи битов для беспроводных систем мдкр // 2326449

Изобретение относится к радиосвязи и предназначено для взаимодействия первой станции со второй станцией. .

Способ модификации сигнала для эффективного кодирования речевых сигналов // 2302665

Изобретение относится к области кодирования. .

Измерение громкости со спектральными модификациями // 2434310

Изобретение относится к обработке аудиосигналов, в частности к измерению воспринимаемой громкости аудиосигнала

Способ обнаружения пауз в речевых сигналах и устройство его реализующее // 2436173

Изобретение относится к технике цифровой обработки речевых сигналов

Повышение разборчивости речи в звукозаписи развлекательных программ // 2440627

Изобретение относится к обработке сигналов звукозаписи, в частности к повышению разборчивости звукозаписи развлекательных программ, таких как телевизионная звукозапись

Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов // 2441286

Средство обнаружения голосовой активности с использованием нескольких микрофонов // 2450368

Изобретение относится к области обработки звука, в частности к обнаружению голосовой активности с использованием нескольких микрофонов

Изобретение относится к радиосвязи и предназначено для взаимодействия первой станции, использующей первую схему связи, со второй станцией, использующей вторую схему связи

Повышение разборчивости речи с помощью четкости голоса // 2469423

Изобретение относится к обработке аудиосигнала, в частности к процессору или способу обработки для повышения разборчивости речи и очистки зашумленного речевого аудиосигнала