Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале

Авторы патента:

Афанасьев Андрей Алексеевич (RU)

Трубицын Владимир Геннадьевич (RU)

Новиков Евгений Иванович (RU)

Титов Олег Николаевич (RU)

G10L19 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2445718:

Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) (RU)

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при низкоскоростном кодировании речевого сигнала. Техническим результатом является уменьшение объема данных при низкоскоростном кодировании речевого сигнала, снижение средней скорости передачи речи по каналам цифровой связи. Указанный результат достигается тем, что в способе выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале на выходе аналого-цифрового преобразователя с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции. 4 ил.

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при кодировании и обработке речевого сигнала.

В настоящее время достаточно большую часть телетрафика в различных приложениях составляет передача речевых сигналов. Большинство систем обработки и кодирования речи используют фиксированный сегмент анализа речевых данных, что является существенным недостатком данных устройств, в условиях перехода к системам с пакетной передачей и переменной скоростью кодирования.

При цифровом представлении речевого сигнала необходимо решить задачу качественной обработки и компактного представления речевых данных для их передачи по цифровым каналам связи. Решение этой задачи позволит в условиях заданного критерия качества связи увеличить пропускную способность линейных трактов и каналов передачи. При этом предполагается снизить скорость передачи речи при сохранении качественных показателей ее восприятия. Широкое распространение в инфокоммуникациях в настоящее время получили методы кодирования речевых данных с переменной скоростью передачи и асинхронным вводом в канал связи.

Кодирование с переменной скоростью передачи находит применение в конференцсвязи на основе протоколов IP-телефонии и видеоконференцсвязи, но постепенно оно начинает использоваться в большинстве наиболее важных приложений систем телекоммуникаций связанных с кодированием и передачей речевых сигналов (Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония: учеб. пособие для вузов - М.: Радио и связь, 2003. - 144 с.: ил.).

В кодеках речевых сигналов с переменной скоростью передачи, ориентированных на использование в системах связи основанных на принципе коммутации пакетов уместно говорить о снижении средней скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.

Известны и описаны различные способы кодирования и обработки речевых сигналов, отличающихся различным аналитическим представлением речевых данных при их синтезе (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - С.102-112, С.123-146, патенты RU №2233010 от 27.01.1999, US №6385577 от 07.05.2002).

В устройствах, реализующих данные способы, осуществляется обработка речевого сигнала и его эффективное кодирование, при этом сегмент анализа остается постоянным, что приводит к повышению скорости передачи речи. Анализ речевых фрагментов позволяет сделать вывод о том, что возможно использование более длинных сегментов анализа, особенно на сегментах, имеющих квазипериодическую вокализованную природу образования (Шалимов Игорь Анатольевич. Теоретико-информационные принципы компрессии речевого сигнала на основе его квазипериодических свойств: диссертация доктора технических наук: 05.13.17. Москва, 2005, 241 с. РГБ ОД, 71:06-5/528).

При анализе случайных дискретных сигналов используется автокорреляционная функция (1):

где S(i) - значение отсчета речевого сигнала.

При этом, необходимо учитывать требования стационарности для случайного речевого сигнала (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60).

Анализ корреляционной функции позволяет выделить важный показатель, характеризующий случайный речевой сигнал. Это интервал корреляции τ_кор, характеризующий промежуток времени для случайного речевого сигнала, мгновенные значения которого взаимосвязаны, следовательно, имеют одну структуру образования при формировании и эффективную полосу частот F_эф, определяющую полосу, в которой сосредоточено 90-95% мощности.

При нахождении интервала корреляции используется значение τ_x, при котором В(τ_x)=0, где τ_x - значение непрерывного аргумента автокорреляционной функции, полученное аппроксимацией полиномом 2-й степени значений B(j), рассчитанных по (1) до первого отрицательного значения B(j), определяющего область определения функции аппроксимации. Описание квадратичной аппроксимации данных достаточно подробно представлено в (Сербер Дж. Линейный регрессионный анализ. Перевод с англ. В.П.Носко, - М.: Мир, 1980. с.48-94). При этом, чем меньше интервал корреляции, тем шире спектр анализируемого сигнала. Математические модели и установленные соотношения между интервалом корреляции и эффективной полосой частот, в которой сосредоточена основная энергия сигнала, позволяют использовать их для анализа реальных речевых сигналов (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.56-60). Данный факт полностью соотносится с природой образования вокализованных и шумоподобных сигналов.

На фиг.1 и фиг.2 представлены временное представление, автокорреляционные функции и значение полученных интервалов корреляции при сдвиге сегмента анализа на 2,5 мс, относительно приходящего речевого сигнала при переходе между звуками "Ш","А" и "А", "Ш", и длительности сегмента анализа 20 мс. Данные рисунки получены при произношении звуков слитной речи с использованием микропроцессорной техники и программного обеспечения, сформированного с использованием пакета прикладных программ LabView. Аналого-цифровое преобразование речевого сигнала реализовано на временных интервалах в 160 мс с частотой дискретизации 8 кГц с использованием 8-битного квантователя.

Анализ фиг.1 и фиг.2 позволяет сделать вывод о том, что при сохранении формы образования речевых сигналов интервал корреляции не претерпевает существенных изменений. При этом сегмент анализа берется длиной 20 мс, сдвиг данного сегмента осуществляется на 2.5 мс от значения начальной границы сегмента, на 40 мс. Анализу подвергается последовательность данных, содержащих значения полученных интервалов корреляции сегмента. При этом граница сегмента анализа речевого сигнала формируется в момент кардинального изменения величины интервала корреляции, критерием принятия решения о смене структуры природы формирования речи является F-критерий (Фишера), в основе которого лежит формальный статистический тест для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95. Описание применения критерия Фишера, основанного на тесте Чоу для анализа последовательностей данных, рассмотрено в (Chow Gregory С.Tests of equality between sets of coefficients in two linear regressions [Текст] // Econometrica, - Vol.28 - №3 - 1960. - p.591-605), а также в (Эконометрика: Учебник / Под ред. И.И.Елисеевой. - М: Финансы и статистика, 2003. - 255-262 с.)

Таким образом, максимально возможный сегмент одновременно анализируемых данных составляет 60 мс, что связано с требованиями по задержке речевого сигнала при передаче, определяемыми рекомендаций G.114 Международного союза электросвязи. Если на протяжении 60 мс не произошло смены природы формирования речевого сигнала, то новый анализ начинают используя данные об интервалах корреляции предыдущего сегмента.

Использование такого подхода к формированию сегментов обработки речи позволяет выделять сегменты анализа, имеющие одинаковую природу формирования в речевом аппарате человека.

Наиболее близким по технической сущности является патент US №6073092 от 06.06.2000 г., заключающийся в том, что используют фиксированные сегменты речевого сигнала, на основании которых рассчитывают параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности, при этом входные отсчеты речевого сигнала разделяются на сегменты фиксированной длины (80, 160 или 320 отсчетов), для каждого из сегментов рассчитывают коэффициенты формирующей модели, а затем кодируют с использованием алгоритма линейного предсказания с возбуждением от кода. Недостатком прототипа является использование фиксированной длительности сегмента квазистационарности при использовании кодирования на основе линейного предсказания с возбуждением от кода, что не всегда соотносится с природой формирования речевого сигнала.

Согласно известному способу речевой сигнал подвергают аналого-цифровому преобразованию, после чего разделяют его на участки квазистационарности и подвергают кодированию на основе разновидности метода линейного предсказания.

Недостатком данного способа является достаточно большой объем анализируемых данных, что связано с фиксированной длиной сегмента анализа речи в процессе обработки и кодирования речевого сигнала.

В предлагаемом способе увеличение длительности сегмента анализа приведет к тому, что параметры формирующей (передаточной) функции системы обработки и сигнала возбуждения будут сохраняться на всем протяжении сегмента анализа, что приведет к сокращению средней скорости передачи речевого сигнала.

Анализ фиг.1 и фиг.2 показывает, что существенное изменение интервала корреляции происходит в моменты изменения структуры образования звуков речи, что также подтверждается исследованиями, представленными в (Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. - М.: Радио и связь, 1987. - 168 с.).

Задачей изобретения является уменьшение объема данных, выделяемых для кодирования речевого сигнала при переменной скорости передачи.

Эта задача решается тем, что в способе выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, на выходе аналого-цифрового преобразователя с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), основанный на формальном статистическом тесте для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95, при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции, критерием принятия решения о смене структуры природы формирования речи является F-критерий, если на протяжении 60 мс не произошло смены природы формирования речевого сигнала, то новый анализ начинают, используя данные об интервалах корреляции предыдущего сегмента.

Алгоритм функционирования предложенной системы, реализующей способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, представлен на фиг.3.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности "новизна".

Благодаря новой совокупности существенных признаков системы, обеспечивающих возможность вычисления автокорреляционной функции речевого сигнала до первого отрицательного отсчета, определения значения интервала корреляции, сдвига сегмента анализа на 2.5 мс, нового расчета автокорреляционной функции и интервала корреляции, формирования последовательности значений интервалов корреляции, анализа данной последовательности для определения границы сегмента, на основе F-критерия (Фишера), представляется возможным уменьшить объем данных при кодировании речевого сигнала, что приводит к получению необходимого и достаточного количества отсчетов для качественного представления речевого сигнала при эффективном кодировании речи.

Анализ существующих технических решений в данной и смежных областях техники показал, что введенные отличительные признаки в них отсутствуют и не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное техническое решение удовлетворяет критерию "изобретательский уровень".

Заявленное техническое решение поясняется чертежом (фиг.4) на котором показана функциональная схема устройства, реализующего способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале.

Устройство, реализующее данный способ, состоит из блока аналого-цифрового преобразования речевого сигнала 1 с частотой дискретизации 8 кГц и 256 уровнями квантования, выход которого соединен со входом блока сегментации речевого сигнала на участки длительностью 20 мс со сдвигом в 2,5 мс 2, выход которого соединен со входом блока вычисления автокорреляционной функции 3, выход которого соединен со входом блока вычисления интервала корреляции 4, выход которого соединен со входом блока накопления значений интервалов корреляций 5, выход которого соединен со входом блока вычисления F-критерия (Фишера) 6, выход которого соединен со входом блока накопления данных для реализации процедуры кодирования 7, на другой вход которого поступает сигнал со второго выхода блока сегментации речевого сигнала на участки длительностью 20 мс со сдвигом в 2,5 мс.

Процедура аналого-цифрового преобразования, выполняемая в блоке 1, достаточно подробно освещена в (Радзишевский А.Ю. Основы аналогового и цифрового звука. - М.: Изд. дом «Вильямс», 2006. - с.157-210). Описание сегментирования и накопления речевого сигнала, выполняемые блоками 2, 5 и 7 представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - с.66-72). Функционирование блоков 3 и 4 подробно изложено в (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60). Операция, выполняемая блоком 6, подробно изложена в (Chow Gregory С. Tests of equality between sets of coefficients in two linear regressions [Текст] // Econometrica, - Vol.28 - №3 - 1960. - p.591-605), а также в (Эконометрика: Учебник / Под ред. И.И.Елисеевой. - М.: Финансы и статистика, 2003. - 255-262 с.).

Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.

Устройство, реализующее заявленный способ, работает следующим образом. Речевой сигнал подается на блок 1, где осуществляется его аналого-цифровое преобразование, далее речевой сигнал в блоке 2 сегментируется на участки длительностью 20 мс и подается на блок 3, в котором производится вычисление автокорреляционной функции, анализ автокорреляционной функции в блоке 4 позволяет выявить интервал корреляции, информация с блока 4 о значении интервала корреляции поступает на блок 5, где реализуется накопление данных, далее в блоке 2 происходит сдвиг сегмента анализа на 2,5 мс от значения начальной границы сегмента, и производится итерационный расчет в блоках 3 и 4 и накопление в блоке 5, общий сдвиг сегмента составляет 40 мс, после этого информация с блока 5 о значениях интервалов корреляции поступает на блок 6, вычисляющий значения F-критерия Фишера и принимающего решение о моменте кардинального изменения величины интервала корреляции. Информация о принятом решении с блока 6 подается на блок 7, в котором производится формирование данных с целью их последующей обработки при низкоскоростном кодировании речи с переменной скоростью передачи.

К достоинствам способа следует отнести тот факт, что уменьшение объема данных при низкоскоростном кодировании речи приведет к снижению средней скорости передачи речевого сигнала по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.

Были проведены экспериментальные исследования для выявления возможности применения предлагаемого способа, которые показали уменьшение объема анализируемых данных речевого сигнала при низкоскоростном кодировании в среднем на 45-50%, что связано с выбором фиксированных значений параметров, описывающих передаточную функцию голосового тракта на вновь сформированном сегменте анализа, а также сигнала возбуждения формирующего фильтра при кодировании вокализованных сегментов речевого сигнала.

Приведенные технические решения показывают, что устройство, воплощающее изобретение, при его осуществлении, способно уменьшить объем данных при низкоскоростном кодировании речевого сигнала с переменной скоростью передачи, что приведет к снижению средней скорости передачи речи по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.

Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, основанный на том, что на выходе аналого-цифрового преобразователя с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), основанный на формальном статистическом тесте для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95, при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции, критерием принятия решения о смене структуры природы формирования речи является F-критерий, если на протяжении 60 мс не произошло смены природы формирования речевого сигнала, то новый анализ начинают, используя данные об интервалах корреляции предыдущего сегмента.

Изобретение относится к кодированию данных для случаев, когда различные характеристики данных, подлежащих кодированию, используются для кодирования скоростей, как, например, в видео- и звуковом кодировании.

Способ и устройство для генерации бинаурального аудиосигнала // 2443075

Изобретение относится к способу и устройству для генерирования бинаурального звукового сигнала и, в частности, к генерированию бинаурального звукового сигнала из моносигнала понижающего микширования.

Эффективная реализация наборов фильтров анализа и синтеза для кодеров/декодеров mpeg aac и mpeg aac eld // 2442232

Изобретение относится к кодерам и декодерам, в частности, к реализации набора фильтров для перспективного аудиокодирования (ААС) и усовершенствованного с низкой задержкой (ELD) ААС.

Эффективная реализация наборов фильтров анализа и синтеза для кодеров/декодеров mpeg aac и mpeg aac eld // 2442232

Системы, способы и устройство для широкополосного кодирования и декодирования активных кадров // 2441288

Изобретение относится к обработке речевых сигналов. .

Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов // 2441286

Системы и способы затенения первого пакета, соответствующего первой битовой скорости, во втором пакете, соответствующем второй битовой скорости // 2440628

Изобретение относится к технологии обработки речи, в частности к затенению первого пакета. .

Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал // 2439721

Изобретение относится к кодированию источников, в частности к кодированию источников звука, при котором аудиосигнал обрабатывается, по меньшей мере, двумя различными аудиокодерами, использующими два различных алгоритма кодирования.

Способ и устройство для обработки звукового сигнала // 2439720

Изобретение относится к кодированию и декодированию звуковых сигналов с использованием спектральных данных сигнала. .

Устройство и способ для синтезирования выходного сигнала // 2439719

Изобретение относится к синтезированию с применением аудиорендеринга выходного стереосигнала или выходного многоканального аудиосигнала, сформированных в результате понижающего микширования с использованием дополнительных управляющих данных.

Способ улучшения восприятия синтезированной речи при реализации процедуры анализа через синтез в вокодерах с линейным предсказанием // 2445719

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов

Способ передачи данных в системе связи // 2445737

Способ и устройство для осуществления преобразования между многоканальными звуковыми форматами // 2449385

Способ и устройство для аудиодекодирования // 2449386

Изобретение относится к области голосовой связи, в частности к способам и устройствам для аудиодекодирования

Способ и устройство для обработки сигнала // 2449387

Изобретение относится к кодированию и декодированию сигнала посредством схемы согласно характеристике сигнала как аудиосигнала или речевого сигнала

Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов // 2449388

Изобретение относится к способу и устройству кодирования аудио и способу и устройству декодирования аудиосигналов

Устройство и способ для кодирования многоканального звукового сигнала // 2450369

Изобретение относится к кодированию многоканального звукового сигнала, в частности к сведению фонограмм стереофонического речевого сигнала к монофоническому сигналу для кодирования с помощью монофонического кодера, такого как кодер линейного предсказания

Способ и устройство для обработки аудиосигнала // 2450440

Изобретение относится к способу и устройству для обработки аудиосигнала, в частности аудиосигнала, принятого в виде цифрового носителя, широковещательного сигнала или т.п

Эффективный способ проектирования набора фильтров для mdct/imdct в приложениях для кодирования речи и аудиосигналов // 2451998

Изобретение относится к кодирующим устройствам и декодерам

Способ и устройство для обработки аудиосигнала // 2452042

Изобретение относится к устройству обработки аудиосигналов для эффективного кодирования и декодирования аудиосигналов разных видов и способу для этого