Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при низкоскоростном кодировании речевого сигнала. Техническим результатом является уменьшение объема данных при низкоскоростном кодировании речевого сигнала, снижение средней скорости передачи речи по каналам цифровой связи. Указанный результат достигается тем, что в способе выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале на выходе аналого-цифрового преобразователя с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции. 4 ил.

 

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при кодировании и обработке речевого сигнала.

В настоящее время достаточно большую часть телетрафика в различных приложениях составляет передача речевых сигналов. Большинство систем обработки и кодирования речи используют фиксированный сегмент анализа речевых данных, что является существенным недостатком данных устройств, в условиях перехода к системам с пакетной передачей и переменной скоростью кодирования.

При цифровом представлении речевого сигнала необходимо решить задачу качественной обработки и компактного представления речевых данных для их передачи по цифровым каналам связи. Решение этой задачи позволит в условиях заданного критерия качества связи увеличить пропускную способность линейных трактов и каналов передачи. При этом предполагается снизить скорость передачи речи при сохранении качественных показателей ее восприятия. Широкое распространение в инфокоммуникациях в настоящее время получили методы кодирования речевых данных с переменной скоростью передачи и асинхронным вводом в канал связи.

Кодирование с переменной скоростью передачи находит применение в конференцсвязи на основе протоколов IP-телефонии и видеоконференцсвязи, но постепенно оно начинает использоваться в большинстве наиболее важных приложений систем телекоммуникаций связанных с кодированием и передачей речевых сигналов (Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония: учеб. пособие для вузов - М.: Радио и связь, 2003. - 144 с.: ил.).

В кодеках речевых сигналов с переменной скоростью передачи, ориентированных на использование в системах связи основанных на принципе коммутации пакетов уместно говорить о снижении средней скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.

Известны и описаны различные способы кодирования и обработки речевых сигналов, отличающихся различным аналитическим представлением речевых данных при их синтезе (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - С.102-112, С.123-146, патенты RU №2233010 от 27.01.1999, US №6385577 от 07.05.2002).

В устройствах, реализующих данные способы, осуществляется обработка речевого сигнала и его эффективное кодирование, при этом сегмент анализа остается постоянным, что приводит к повышению скорости передачи речи. Анализ речевых фрагментов позволяет сделать вывод о том, что возможно использование более длинных сегментов анализа, особенно на сегментах, имеющих квазипериодическую вокализованную природу образования (Шалимов Игорь Анатольевич. Теоретико-информационные принципы компрессии речевого сигнала на основе его квазипериодических свойств: диссертация доктора технических наук: 05.13.17. Москва, 2005, 241 с. РГБ ОД, 71:06-5/528).

При анализе случайных дискретных сигналов используется автокорреляционная функция (1):

где S(i) - значение отсчета речевого сигнала.

При этом, необходимо учитывать требования стационарности для случайного речевого сигнала (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60).

Анализ корреляционной функции позволяет выделить важный показатель, характеризующий случайный речевой сигнал. Это интервал корреляции τкор, характеризующий промежуток времени для случайного речевого сигнала, мгновенные значения которого взаимосвязаны, следовательно, имеют одну структуру образования при формировании и эффективную полосу частот Fэф, определяющую полосу, в которой сосредоточено 90-95% мощности.

При нахождении интервала корреляции используется значение τx, при котором В(τx)=0, где τx - значение непрерывного аргумента автокорреляционной функции, полученное аппроксимацией полиномом 2-й степени значений B(j), рассчитанных по (1) до первого отрицательного значения B(j), определяющего область определения функции аппроксимации. Описание квадратичной аппроксимации данных достаточно подробно представлено в (Сербер Дж. Линейный регрессионный анализ. Перевод с англ. В.П.Носко, - М.: Мир, 1980. с.48-94). При этом, чем меньше интервал корреляции, тем шире спектр анализируемого сигнала. Математические модели и установленные соотношения между интервалом корреляции и эффективной полосой частот, в которой сосредоточена основная энергия сигнала, позволяют использовать их для анализа реальных речевых сигналов (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.56-60). Данный факт полностью соотносится с природой образования вокализованных и шумоподобных сигналов.

На фиг.1 и фиг.2 представлены временное представление, автокорреляционные функции и значение полученных интервалов корреляции при сдвиге сегмента анализа на 2,5 мс, относительно приходящего речевого сигнала при переходе между звуками "Ш","А" и "А", "Ш", и длительности сегмента анализа 20 мс. Данные рисунки получены при произношении звуков слитной речи с использованием микропроцессорной техники и программного обеспечения, сформированного с использованием пакета прикладных программ LabView. Аналого-цифровое преобразование речевого сигнала реализовано на временных интервалах в 160 мс с частотой дискретизации 8 кГц с использованием 8-битного квантователя.

Анализ фиг.1 и фиг.2 позволяет сделать вывод о том, что при сохранении формы образования речевых сигналов интервал корреляции не претерпевает существенных изменений. При этом сегмент анализа берется длиной 20 мс, сдвиг данного сегмента осуществляется на 2.5 мс от значения начальной границы сегмента, на 40 мс. Анализу подвергается последовательность данных, содержащих значения полученных интервалов корреляции сегмента. При этом граница сегмента анализа речевого сигнала формируется в момент кардинального изменения величины интервала корреляции, критерием принятия решения о смене структуры природы формирования речи является F-критерий (Фишера), в основе которого лежит формальный статистический тест для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95. Описание применения критерия Фишера, основанного на тесте Чоу для анализа последовательностей данных, рассмотрено в (Chow Gregory С.Tests of equality between sets of coefficients in two linear regressions [Текст] // Econometrica, - Vol.28 - №3 - 1960. - p.591-605), а также в (Эконометрика: Учебник / Под ред. И.И.Елисеевой. - М: Финансы и статистика, 2003. - 255-262 с.)

Таким образом, максимально возможный сегмент одновременно анализируемых данных составляет 60 мс, что связано с требованиями по задержке речевого сигнала при передаче, определяемыми рекомендаций G.114 Международного союза электросвязи. Если на протяжении 60 мс не произошло смены природы формирования речевого сигнала, то новый анализ начинают используя данные об интервалах корреляции предыдущего сегмента.

Использование такого подхода к формированию сегментов обработки речи позволяет выделять сегменты анализа, имеющие одинаковую природу формирования в речевом аппарате человека.

Наиболее близким по технической сущности является патент US №6073092 от 06.06.2000 г., заключающийся в том, что используют фиксированные сегменты речевого сигнала, на основании которых рассчитывают параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности, при этом входные отсчеты речевого сигнала разделяются на сегменты фиксированной длины (80, 160 или 320 отсчетов), для каждого из сегментов рассчитывают коэффициенты формирующей модели, а затем кодируют с использованием алгоритма линейного предсказания с возбуждением от кода. Недостатком прототипа является использование фиксированной длительности сегмента квазистационарности при использовании кодирования на основе линейного предсказания с возбуждением от кода, что не всегда соотносится с природой формирования речевого сигнала.

Согласно известному способу речевой сигнал подвергают аналого-цифровому преобразованию, после чего разделяют его на участки квазистационарности и подвергают кодированию на основе разновидности метода линейного предсказания.

Недостатком данного способа является достаточно большой объем анализируемых данных, что связано с фиксированной длиной сегмента анализа речи в процессе обработки и кодирования речевого сигнала.

В предлагаемом способе увеличение длительности сегмента анализа приведет к тому, что параметры формирующей (передаточной) функции системы обработки и сигнала возбуждения будут сохраняться на всем протяжении сегмента анализа, что приведет к сокращению средней скорости передачи речевого сигнала.

Анализ фиг.1 и фиг.2 показывает, что существенное изменение интервала корреляции происходит в моменты изменения структуры образования звуков речи, что также подтверждается исследованиями, представленными в (Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. - М.: Радио и связь, 1987. - 168 с.).

Задачей изобретения является уменьшение объема данных, выделяемых для кодирования речевого сигнала при переменной скорости передачи.

Эта задача решается тем, что в способе выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, на выходе аналого-цифрового преобразователя с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), основанный на формальном статистическом тесте для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95, при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции, критерием принятия решения о смене структуры природы формирования речи является F-критерий, если на протяжении 60 мс не произошло смены природы формирования речевого сигнала, то новый анализ начинают, используя данные об интервалах корреляции предыдущего сегмента.

Алгоритм функционирования предложенной системы, реализующей способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, представлен на фиг.3.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности "новизна".

Благодаря новой совокупности существенных признаков системы, обеспечивающих возможность вычисления автокорреляционной функции речевого сигнала до первого отрицательного отсчета, определения значения интервала корреляции, сдвига сегмента анализа на 2.5 мс, нового расчета автокорреляционной функции и интервала корреляции, формирования последовательности значений интервалов корреляции, анализа данной последовательности для определения границы сегмента, на основе F-критерия (Фишера), представляется возможным уменьшить объем данных при кодировании речевого сигнала, что приводит к получению необходимого и достаточного количества отсчетов для качественного представления речевого сигнала при эффективном кодировании речи.

Анализ существующих технических решений в данной и смежных областях техники показал, что введенные отличительные признаки в них отсутствуют и не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное техническое решение удовлетворяет критерию "изобретательский уровень".

Заявленное техническое решение поясняется чертежом (фиг.4) на котором показана функциональная схема устройства, реализующего способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале.

Устройство, реализующее данный способ, состоит из блока аналого-цифрового преобразования речевого сигнала 1 с частотой дискретизации 8 кГц и 256 уровнями квантования, выход которого соединен со входом блока сегментации речевого сигнала на участки длительностью 20 мс со сдвигом в 2,5 мс 2, выход которого соединен со входом блока вычисления автокорреляционной функции 3, выход которого соединен со входом блока вычисления интервала корреляции 4, выход которого соединен со входом блока накопления значений интервалов корреляций 5, выход которого соединен со входом блока вычисления F-критерия (Фишера) 6, выход которого соединен со входом блока накопления данных для реализации процедуры кодирования 7, на другой вход которого поступает сигнал со второго выхода блока сегментации речевого сигнала на участки длительностью 20 мс со сдвигом в 2,5 мс.

Процедура аналого-цифрового преобразования, выполняемая в блоке 1, достаточно подробно освещена в (Радзишевский А.Ю. Основы аналогового и цифрового звука. - М.: Изд. дом «Вильямс», 2006. - с.157-210). Описание сегментирования и накопления речевого сигнала, выполняемые блоками 2, 5 и 7 представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - с.66-72). Функционирование блоков 3 и 4 подробно изложено в (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60). Операция, выполняемая блоком 6, подробно изложена в (Chow Gregory С. Tests of equality between sets of coefficients in two linear regressions [Текст] // Econometrica, - Vol.28 - №3 - 1960. - p.591-605), а также в (Эконометрика: Учебник / Под ред. И.И.Елисеевой. - М.: Финансы и статистика, 2003. - 255-262 с.).

Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.

Устройство, реализующее заявленный способ, работает следующим образом. Речевой сигнал подается на блок 1, где осуществляется его аналого-цифровое преобразование, далее речевой сигнал в блоке 2 сегментируется на участки длительностью 20 мс и подается на блок 3, в котором производится вычисление автокорреляционной функции, анализ автокорреляционной функции в блоке 4 позволяет выявить интервал корреляции, информация с блока 4 о значении интервала корреляции поступает на блок 5, где реализуется накопление данных, далее в блоке 2 происходит сдвиг сегмента анализа на 2,5 мс от значения начальной границы сегмента, и производится итерационный расчет в блоках 3 и 4 и накопление в блоке 5, общий сдвиг сегмента составляет 40 мс, после этого информация с блока 5 о значениях интервалов корреляции поступает на блок 6, вычисляющий значения F-критерия Фишера и принимающего решение о моменте кардинального изменения величины интервала корреляции. Информация о принятом решении с блока 6 подается на блок 7, в котором производится формирование данных с целью их последующей обработки при низкоскоростном кодировании речи с переменной скоростью передачи.

К достоинствам способа следует отнести тот факт, что уменьшение объема данных при низкоскоростном кодировании речи приведет к снижению средней скорости передачи речевого сигнала по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.

Были проведены экспериментальные исследования для выявления возможности применения предлагаемого способа, которые показали уменьшение объема анализируемых данных речевого сигнала при низкоскоростном кодировании в среднем на 45-50%, что связано с выбором фиксированных значений параметров, описывающих передаточную функцию голосового тракта на вновь сформированном сегменте анализа, а также сигнала возбуждения формирующего фильтра при кодировании вокализованных сегментов речевого сигнала.

Приведенные технические решения показывают, что устройство, воплощающее изобретение, при его осуществлении, способно уменьшить объем данных при низкоскоростном кодировании речевого сигнала с переменной скоростью передачи, что приведет к снижению средней скорости передачи речи по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.

Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, основанный на том, что на выходе аналого-цифрового преобразователя с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), основанный на формальном статистическом тесте для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95, при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции, критерием принятия решения о смене структуры природы формирования речи является F-критерий, если на протяжении 60 мс не произошло смены природы формирования речевого сигнала, то новый анализ начинают, используя данные об интервалах корреляции предыдущего сегмента.



 

Похожие патенты:

Изобретение относится к кодированию данных для случаев, когда различные характеристики данных, подлежащих кодированию, используются для кодирования скоростей, как, например, в видео- и звуковом кодировании.

Изобретение относится к способу и устройству для генерирования бинаурального звукового сигнала и, в частности, к генерированию бинаурального звукового сигнала из моносигнала понижающего микширования.

Изобретение относится к кодерам и декодерам, в частности, к реализации набора фильтров для перспективного аудиокодирования (ААС) и усовершенствованного с низкой задержкой (ELD) ААС.

Изобретение относится к кодерам и декодерам, в частности, к реализации набора фильтров для перспективного аудиокодирования (ААС) и усовершенствованного с низкой задержкой (ELD) ААС.

Изобретение относится к технологии обработки речи, в частности к затенению первого пакета. .

Изобретение относится к кодированию источников, в частности к кодированию источников звука, при котором аудиосигнал обрабатывается, по меньшей мере, двумя различными аудиокодерами, использующими два различных алгоритма кодирования.

Изобретение относится к кодированию и декодированию звуковых сигналов с использованием спектральных данных сигнала. .

Изобретение относится к синтезированию с применением аудиорендеринга выходного стереосигнала или выходного многоканального аудиосигнала, сформированных в результате понижающего микширования с использованием дополнительных управляющих данных.

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов

Изобретение относится к области голосовой связи, в частности к способам и устройствам для аудиодекодирования

Изобретение относится к кодированию и декодированию сигнала посредством схемы согласно характеристике сигнала как аудиосигнала или речевого сигнала

Изобретение относится к способу и устройству кодирования аудио и способу и устройству декодирования аудиосигналов

Изобретение относится к кодированию многоканального звукового сигнала, в частности к сведению фонограмм стереофонического речевого сигнала к монофоническому сигналу для кодирования с помощью монофонического кодера, такого как кодер линейного предсказания

Изобретение относится к способу и устройству для обработки аудиосигнала, в частности аудиосигнала, принятого в виде цифрового носителя, широковещательного сигнала или т.п

Изобретение относится к устройству обработки аудиосигналов для эффективного кодирования и декодирования аудиосигналов разных видов и способу для этого
Наверх