Способ уменьшения объема данных при широкополосном кодировании речевого сигнала

Авторы патента:

Афанасьев Андрей Алексеевич (RU)

Трубицын Владимир Геннадьевич (RU)

Титов Олег Николаевич (RU)

G10L19 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2432624:

Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) (RU)

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при широкополосном кодировании речевого сигнала. Техническим результатом является уменьшение объема данных при широкополосном кодировании речевого сигнала. Указанный технический результат достигается тем, что при кодировании широкополосного речевого сигнала на выходе аналого-цифрового преобразователя речевой сигнал разделяют на участки квазистационарности, на каждом из которых вычисляют автокорреляционную функцию сигнала, после этого определяют значение интервала корреляции и вычисляют эффективную полосу частот. Далее рассчитывают коэффициент децимации и подвергают анализируемый речевой сигнал децимации, получая на выходе системы децимации необходимое и достаточное количество отсчетов для представления речевого сигнала при широкополосном кодировании. 4 ил.

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при широкополосном кодировании речевого сигнала.

В настоящее время наиболее важной тенденцией является широкое использование информационных технологий в телекоммуникационных сетях связи. Переход к цифровой обработке сигналов и пакетной передаче данных позволил предоставить пользователям более широкий спектр инфокоммуникационных услуг. При этом достаточно большую часть телетрафика в различных приложениях составляет передача речевых сигналов.

Для повышения естественности и узнаваемости звучания синтезированного речевого сигнала в последние годы наблюдается тенденция к расширению спектральной области кодируемого сигнала до 7 кГц.

Переход к кодированию широкополосного речевого сигнала определен тем, что ранее в телефонных сетях ограничивали полосу частот речевого сигнала в диапазоне 300-3400 Гц. Это ограничение ухудшало качество речи в части естественности, разборчивости и узнаваемости диктора. Однако переход к цифровым сетям связи позволяет увеличить анализируемую полосу частот речевых сигналов. В настоящее время к кодированию и передаче широкополосной речи с диапазоном частот 50-7000 Гц возникает достаточно большой интерес, так как расширение низкочастотного диапазона вниз до 50 Гц способствует большей естественности, а высокочастотный диапазон 3400-7000 Гц улучшает разборчивость. Кодирование широкополосной речи находит применение в конференцсвязи на основе протоколов IP-телефонии и видеоконференцсвязи, но постепенно оно начинает использоваться в большинстве наиболее важных приложений систем телекоммуникаций, связанных с кодированием и передачей речевых сигналов (М.З.Лившиц, М.Парфенюк, А.А.Петровский. Широкополосный CELP-кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой // Цифровая обработка сигналов - 2005 - №2, с.20-35). При кодировании широкополосной речи частота дискретизации выбирается обычно 16000 Гц, в зависимости от реализации алгоритма кодирования (Peter Noll Speech and audio coding for multimedia communications/ Proceedings International Cost 254 workshop on intelligent communication technologies and applications, Neuchatel, Schweiz, In print, 1999).

Основной проблемой цифрового представления широкополосного речевого сигнала является задача качественного и компактного кодирования данных для их передачи по цифровым каналам связи. Решение этой проблемы позволит в условиях заданного критерия качества связи увеличить пропускную способность линейных трактов и каналов передачи. Часто в некоторых задачах кодирования речевого сигнала предполагается снизить скорость передачи при сохранении качественных показателей ее восприятия. В кодеках речевых сигналов с переменной скоростью передачи, ориентированных на использование в системах связи, основанных на принципе коммутации пакетов, уместно говорить о снижении средней скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.

Известны способы кодирования широкополосного речевого сигнала (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. - М.: Радио и связь, 2000 - С.167-175; патенты US №5235669 от 10.08.1993, RU 2326449 от 10.06.2008, US №2009/0292537 A1 от 26.11.2009).

В устройствах, реализующих данные способы, осуществляется анализ широкополосного речевого сигнала и его эффективное кодирование, при этом частота дискретизации всегда остается постоянной, что приводит к фиксированной, зачастую избыточной полосе частот.

Одной из ключевых характеристик при кодировании широкополосного речевого сигнала является понятие участка квазистационарности. Речевой сигнал не является стационарным на длительных участках времени, но возможно допущение о его стационарности на коротких промежутках времени. В существующих стандартах речевого кодирования с использованием линейного предсказания эти промежутки варьируются от 2,5 до 30 мс.

При анализе случайных дискретных сигналов используется автокорреляционная функция (1):

где S(i) - значение отсчета речевого сигнала.

Рассмотрим взаимосвязь между функцией автокорреляции речевого сигнала на участке квазистационарности и его спектральной плотностью мощности. Эти функции однозначно связанны со спектральными характеристиками речевого сигнала, а именно со спектральной плотностью мощности σ(ω). Между B(τ) и σ(ω) существует пара преобразований Фурье (2) и (3).

Представленная пара преобразований позволяет определить спектральную плотность мощности по автокорреляционной функции случайного речевого сигнала на основании теоремы А.Я.Хинчина и Н.Винера. При этом необходимо учитывать требования стационарности для случайного речевого сигнала (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60).

В соответствии с существующей связью между B(τ) и σ(ω) можно определить другие важные показатели, характеризующие случайный речевой сигнал. К ним можно отнести интервал корреляции τ_кор, характеризующий промежуток времени для случайного речевого сигнала, мгновенные значения которого взаимосвязаны, следовательно, имеют одну структуру формирования и эффективную полосу частот F_эф, определяющую полосу, в которой сосредоточено 90-95% мощности.

B(τ) и σ(ω) одного случайного сигнала однозначно определяют друг друга, то есть существует взаимосвязь между τ_кор и F_эф. Эта взаимосвязь устанавливается через произведение этих параметров (4).

Значение κ для различных моделей случайных сигналов имеет различные величины. При анализе речевых сигналов τ_кор принято κ=0,5, следовательно F_эф=0.5/τ_кор. Значение τ_кор определяется точкой первого перехода автокорреляционной функции через ноль.

Соотношение (4) указывает на явную связь между шириной спектра и шириной корреляции. Чем меньше интервал корреляции, тем шире спектр (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.56-60).

Математические модели и установленные соотношения между τ_кор и F_эф позволяют использовать их для анализа реальных речевых сигналов, при этом правомерность применения подтверждают результаты эксперимента.

Для речевого сигнала слитной русской речи, помимо возможности классификации активного участка на тоновой или шумовой, важной характеристикой является эффективная полоса частот F_эф, занимаемая речью. На фиг.1 и фиг.2 представлены временное представление, автокорреляционная функция и спектральное представление звуков “А” и “Ш” соответственно. Данные чертежи получены при произношении звуков слитной речи с использованием микропроцессорной техники и программного обеспечения, сформированного с использованием пакета прикладных программ LabView. Аналого-цифровое преобразование речевого сигнала реализовано на временных интервалах в 24 мс с частотой дискретизации 22050 Гц с использованием 16-битного квантователя.

Анализ графиков кратковременной спектральной плотности мощности речевого сигнала показывает, что в полосе частот от 3 до 7 кГц появляются всплески спектральной энергии только при произнесении некоторой части согласных звуков (например, “ш”, “с”, “ф”, “х”). Данный факт указывает на возможность адаптивного изменения границ спектральной области кодируемого речевого сигнала для минимизации объема обрабатываемых данных при реализации процедуры сжатия и сохранении качественных показателей речи не ниже требуемых. Изменение границ спектральной области кодируемого речевого сигнала можно реализовать с использованием процедуры децимации с дробными коэффициентами.

Соответствующие преобразования исходного дискретного сигнала с частотой дискретизации f_д=1/T, T - интервал дискретизации исходного сигнала, в дискретный сигнал с частотой дискретизации f_ду=1/T_у, T_у - интервал дискретизации преобразованного дискретного сигнала, осуществляются системами интерполяции и децимации, характеризующимися коэффициентами интерполяции L=f_ду/f_д=Т/T_у и децимации М=f_д/f_ду=T_у/T (в простейшем случае - целочисленными) соответственно. Помимо систем интерполяции и децимации с целочисленными коэффициентами L и М существуют системы преобразования частоты дискретизации с рациональным коэффициентом L/M. Они формируются по принципу последовательного выполнения интерполяции и децимации, а следовательно являются многократными многоскоростными системами. Например, понижение частоты дискретизации в 1,25 раза может быть реализовано последовательным соединением системы интерполяции с коэффициентом L=4 и системы децимации с коэффициентом M=5, таким образом, реализуется система децимации с коэффициентом M=1,25. Процедуры многоскоростной обработки, интерполяция и децимация достаточно подробно описаны в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. Изд. 2-е испр. и перераб.- СПб.: БХВ - Петербург, 2005. - с.587-620). Таким образом, f_ду=f_д/(2·F_эф).

Наиболее близким по технической сущности к заявленному изобретению является патент RU №2331933 от 20.08.2008, в котором производится кодирование широкополосного речевого сигнала на основе разновидности алгоритма линейного предсказания.

Различные варианты реализации алгоритмов кодирования речи на основе линейного предсказания представлены в (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. - М.: Радио и связь, 2000. - С.102-166; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С.365-428).

Согласно известному способу широкополосный речевой сигнал подвергают аналого-цифровому преобразованию, после чего разделяют его на участки квазистационарности и подвергают кодированию на основе разновидности метода линейного предсказания.

Недостатком данного способа является достаточно большой объем анализируемых данных, что связано с высокой фиксированной частотой дискретизации речевого сигнала при широкополосном кодировании.

Использование такой частоты дискретизации не всегда является необходимым условием получения высокого качества синтезированной речи при кодировании, а ее фиксация на достаточно высоком уровне приводит к избыточному объему данных и соответственно достаточно высокой скорости передачи и высокой вычислительной сложности алгоритмов кодирования речевого сигнала. Анализ фиг.1 и фиг.2 показывает, что расширение эффективной полосы частот кодируемого широкополосного речевого сигнала необходимо для некоторых согласных звуков, что также подтверждается исследованиями, представленными в (Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. - М.: Радио и связь, 1987. - 168 с.).

Задачей изобретения является уменьшение объема данных при широкополосном кодировании речевого сигнала.

Эта задача решается тем, что в способе уменьшения объема данных при широкополосном кодировании речевого сигнала на выходе аналого-цифрового преобразователя речевой сигнал разделяют на участки квазистационарности, на каждом из которых вычисляют автокорреляционную функцию сигнала, после этого определяют значение интервала корреляции и вычисляют эффективную полосу частот, далее рассчитываю коэффициент децимации и подвергают анализируемый сигнал децимации, получая на выходе системы децимации необходимое и достаточное количество отсчетов для представления речевого сигнала.

Алгоритм функционирования предложенной системы, реализующей способ уменьшения объема данных при широкополосном кодировании речевого сигнала, представлен на фиг.3.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности “новизна”.

Благодаря новой совокупности существенных признаков системы, обеспечивающих возможность вычисления автокорреляционной функции речевого сигнала, определение значения интервала корреляции, вычисление эффективной полосы частот, расчет коэффициента децимации, обработку речевого сигнала системой децимации, представляется возможным уменьшить объем данных при широкополосном кодировании речевого сигнала, что приводит к получению необходимого и достаточного количества отсчетов для качественного представления речевого сигнала при широкополосном кодировании.

Анализ существующих технических решений в данной и смежных областях техники показал, что введенные отличительные признаки в них отсутствуют и не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное техническое решение удовлетворяет критерию “изобретательский уровень”.

Заявленное техническое решение поясняется чертежом (фиг.4), на котором показана функциональная схема устройства, реализующего способ уменьшения объема данных при широкополосном кодировании речевого сигнала.

Устройство, реализующее данный способ, состоит из блока 1, выполняющего процедуру аналого-цифрового преобразования речевого сигнала, выход которого соединен со входом блока сегментации речевого сигнала на участки квазистационарности 2, выход которого соединен со входом блока вычисления автокорреляционной функции 3, выход которого соединен со входом блока вычисления интервала корреляции 4, выход которого соединен со входом блока вычисления коэффициента децимации 5, выход которого соединен со входом системы децимации 6, на другой вход которой поступает сигнал со второго выхода блока 2, выход которой соединен со входом блока накопления данных для реализации процедуры кодирования 7.

Процедура аналого-цифрового преобразования, выполняемая в блоке 1, достаточно подробно освещена в (Радзишевский А.Ю. Основы аналогового и цифрового звука. - М.: Изд. дом «Вильямс», 2006. - с.157-210). Описание сегментирования и накопления речевого сигнала, выполняемых блоками 2 и 7, представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - с.66-72). Функционирование блоков 3 и 4 подробно изложено в (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60). Операции, выполняемые блоками 5 и 6, изложены в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. Изд. 2-е испр. и перераб. - СПб.: БХВ - Петербург, 2005. - С.587-620).

Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.

Устройство, реализующее заявленный способ, работает следующим образом. Речевой сигнал подается на блок 1, где осуществляется его аналого-цифровое преобразование, далее речевой сигнал в блоке 2 сегментируется на участки квазистационарности и подается на блок 3, в котором производится вычисление автокорреляционной функции, анализ автокорреляционной функции в блоке 4 позволяет выявить интервал корреляции, информация с блока 4 о значении интервала корреляции поступает на блок 5, где реализуется вычисление коэффициента децимации, информация о данном значении подается на блок 6, в котором производится децимация речевого сигнала, поступающего с блока 2, с выхода блока 6 речевой сигнал, подвергнутый децимации, поступает в блок 7, где реализуется его накопление на участке квазистационарности с целью дальнейшей обработки при широкополосном речевом кодировании.

К достоинствам способа следует отнести тот факт, что уменьшение объема данных при широкополосном кодировании речи приведет к снижению средней скорости передачи речевого сигнала по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.

Были проведены экспериментальные исследования для выявления возможности применения предлагаемого способа, которые показали уменьшение объема анализируемых данных речевого сигнала при широкополосном кодировании в среднем на 40%.

Приведенные технические решения показывают, что устройство, воплощающее изобретение, при его осуществлении способно уменьшить объем данных при широкополосном кодировании речевого сигнала, что приведет к снижению средней скорости передачи речи по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.

Способ уменьшения объема данных при широкополосном кодировании речевого сигнала, основанный на том, что в системах кодирования широкополосного речевого сигнала на выходе аналого-цифрового преобразователя речевой сигнал разделяют на участки квазистационарности, отличающийся тем, что на каждом из них вычисляют автокорреляционную функцию сигнала, после этого определяют значение интервала корреляции и вычисляют эффективную полосу частот, далее рассчитывают коэффициент децимации и подвергают анализируемый речевой сигнал децимации, получая на выходе системы децимации необходимое и достаточное количество отсчетов для представления речевого сигнала при широкополосном кодировании.

Изобретение относится к многоканальному преобразованию параметров, в частности к генерированию параметров когерентности и параметров выходного уровня, которые указывают на пространственные свойства между двумя звуковыми сигналами, основанными на объектно-параметровом базовом представлении звукового воспроизведения в пространстве.

Устройство декодирования параметров, устройство кодирования параметров и способ декодирования параметров // 2431892

Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования // 2430430

Изобретение относится к декодированию множественных объектов путем преобразования закодированного многообъектного сигнала с помощью многоканального понижающего микширования и вспомогательных управляющих данных.

Кодирование аудиосигнала // 2428748

Изобретение относится к кодированию аудиосигнала, более конкретно к способу, устройствам, системе и машиночитаемому носителю, поддерживающим такое кодирование. .

Системы, способы и устройство для широкополосного кодирования и декодирования неактивных кадров // 2428747

Изобретение относится к обработке речевых сигналов. .

Способ формирования отпечатка для звукового сигнала // 2427909

Изобретение относится к области формирования «отпечатка» для полезного сигнала, представляющего собой данные, предназначенные для восприятия пользователем. .

Система и способ обеспечения синхронизации для адаптивной многоскоростной широкополосной прерываемой передачи // 2427043

Способ и устройство для кодирования и декодирования аудиосигналов // 2426179

Изобретение относится к связи, а более конкретно, к методикам для кодирования и декодирования. .

Банк фильтров анализа, банк фильтров синтеза, кодер, декодер, смеситель и система конференц-связи // 2426178

Изобретение относится к банку фильтров анализа, банку фильтров синтеза и системам, включающим в себя любой из вышеупомянутых банков фильтров, которые могут быть применены, например, в современном аудиокодировании, аудиодекодировании или иных областях, связанных с трансляцией звуковых сигналов.

Устройство поиска в фиксированных таблицах кодирования и способ поиска в фиксированных таблицах кодирования // 2425428

Изобретение относится к устройству и способу формирования перцепционно взвешенного синтетического сигнала при поиске фиксированной таблицы кодирования. .

Синтез потерянных блоков цифрового аудиосигнала с коррекцией питч-периода // 2432625

Параметрическое многоканальное декодирование // 2433489

Изобретение относится к параметрическим многоканальным декодерам типа стереодекодера, в частности к устройствам и способам для синтезирования звука, который может быть представлен наборами параметров, каждый из которых содержит характеристики синусоид, представляющие синусоидальные составляющие звука, и характеристики, представляющие другие компоненты

Способ и устройство для обработки речевого сигнала // 2435233

Изобретение относится к области связи и, более конкретно, к способу и устройству для обработки речевого сигнала

Аудиопроцессор и способ обработки звука с высококачественной коррекцией частоты основного тона (варианты) // 2436174

Изобретение относится к аудиопроцессору и способу для цифровой обработки звукового сигнала в последовательность фреймов посредством дискретизации и повторной дискретизации сигнала в зависимости от частоты основного тона

Ослабление чрезмерной тональности, в частности, для генерирования возбуждения в декодере при отсутствии информации // 2437170

Изобретение относится к обработке цифровых аудиосигналов, таких как речевые сигналы в области телекоммуникации, в частности к декодированию таких сигналов

Системы, способы и устройство для широкополосного кодирования и декодирования активных кадров // 2437171

Изобретение относится к обработке речевых сигналов

Способ кодирования/декодирования индексов кодовой книги для квантованного спектра мдкп в масштабируемых речевых и аудиокодеках // 2437172

Изобретение относится к средствам кодирования/декодирования спектра модифицированного дискретного косинусного преобразования

Способ и устройство для обработки звукового сигнала // 2439717

Изобретение относится к способу и устройству обработки звукового сигнала

Способ и устройство для обработки звукового сигнала // 2439718

Изобретение относится к способу и устройству обработки звукового сигнала

Устройство и способ для синтезирования выходного сигнала // 2439719

Изобретение относится к синтезированию с применением аудиорендеринга выходного стереосигнала или выходного многоканального аудиосигнала, сформированных в результате понижающего микширования с использованием дополнительных управляющих данных