Способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов. Техническим результатом предлагаемого способа является уменьшение скорости передачи данных по каналам связи при эффективном кодировании речевых сигналов с сохранением качественных показателей синтезированного сигнала. Поставленная цель в вокодере с линейным предсказанием достигается посредством отказа от передачи по каналу связи информации о сигнале возбуждения. Сигнал возбуждения идентифицируют непосредственно на приеме по данным о параметрах синтезирующей модели при помощи нейронной сети. По каналу связи передают информацию о коэффициентах формирующей модели, коэффициенте усиления, параметрах, характеризующих кодируемый речевой сигнал, которые рассчитывают на каждом квазистационарном сегменте анализа речевого сигнала. 3 ил.

 

Изобретение относится к области цифровой связи, а именно к технике анализа-синтеза речи для уменьшения избыточности и может быть использовано в системах телекоммуникаций для эффективного кодирования речевых сигналов.

При цифровой обработке речевых сигналов эффективное кодирование речевых данных для их передачи по цифровым каналам связи является одной из основополагающих задач. Ее решение позволяет увеличить пропускную способность линейных трактов и каналов передачи при заданных критериях качества связи. Одним из принципов построения систем обработки и передачи речи выступает снижение скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.

Большинство известных способов кодирования речевых сигналов основываются на методе линейного предсказания. В его основе лежит модель речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). При этом анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности.

Известны способы обработки речевых сигналов в вокодерах с линейным предсказанием, основанные на анализе сигнала ошибки линейного предсказания (Маркел Дж.Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С.258-276; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С.365-428; О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - С.102-166).

В устройствах, реализующих данные способы, осуществляется анализ сигнала ошибки линейного предсказания с целью генерации сигналов возбуждения фильтра-синтезатора. Известно, что сигнал остатка предсказания является наилучшим сигналом возбуждения синтезирующего фильтра линейного предсказания (Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. - М.: Радио и связь, 1984. - с.172-182). При этом по каналу связи передается информация о коэффициентах формирующей модели, параметрах, характеризующих сигнал возбуждения и кодируемый речевой сигнал.

Для эффективного представления сигнала возбуждения в таких устройствах используются различные способы снижения информативной избыточности данных последовательностей (патенты US №7289952 от 30.10.2007, US №7233896 от 10.07.2007, US №7133823 от 07.11.2006, US №5963897 от 05.10.1999, US №6757650 от 29.06.2004, RU №2163399 от 22.10.1997, RU №97117357 от 20.02.2001).

Недостатком данных способов является значительное расходование информационного ресурса на представление сигнала возбуждения при его передаче по каналу связи, и, следовательно, относительно высокая скорость передачи данных по каналам связи при эффективном кодировании речи.

Наиболее близким по технической сущности к заявленному изобретению является патент RU №2400832, в котором формирование сигнала возбуждения реализуется путем использования параметров синтезирующего фильтра, таким образом, что происходит отказ от передачи по каналу связи информации о сигнале возбуждения, при этом для формирования сигнала возбуждения в вокодере на основе линейного предсказания на приеме из кадра передачи выделяют параметры синтезирующего фильтра, содержащие информацию о коэффициентах предсказания или линейных спектральных частотах, а также значение коэффициента усиления сигнала возбуждения, по данным параметрам рассчитывают амплитудно-частотную характеристику синтезирующего фильтра на фазовых углах его полюсов и формируют спектр амплитуд и фаз сигнала возбуждения, затем формируют сигнал возбуждения на основе данных о коэффициенте усиления и спектрах его амплитуд и фаз, который используют в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.

Недостатком данного способа является относительно невысокое качество синтезированного речевого сигнала, что связано с отсутствием при восстановлении оригинального сигнала возбуждения и случайностью распределения начальных фаз в спектре сигнала возбуждения.

Задачей изобретения является снижение скорости передачи низкоскоростных вокодеров с линейным предсказанием при эффективном кодировании речевых сигналов с сохранением качественных показателей синтезированного сигнала.

Эта задача решается тем, что в способе снижения скорости передачи в низкоскоростных вокодерах с линейным предсказанием предлагается заменить процедуру синтеза сигнала возбуждения на приемной стороне процедурой его идентификации. Для формирования сигнала возбуждения в вокодере на основе линейного предсказания на приеме из кадра передачи выделяют параметры, описывающие передаточную функцию голосового тракта, а также значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, по данным параметрам при помощи обученной нейронной сети идентифицируют сигнал ошибки линейного предсказания, который является сигналом возбуждения и используют его в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.

Известно, что нейроные сети хорошо решают задачи классификации и идентификации сигналов, в том числе и речевых. Для корректного функционирования нейронной сети - классификатора необходимо предварительное обучение нейронной сети на тестовых примерах (отрезках речевых сигналов) дикторов. В качестве нейронных сетей - классификаторов предлагается использовать нейронные сети на основе радиальных базисных функций (radial-basis function network - RBF), которые позволяют преобразовать пространство входных векторов (множество входных сигналов) большой размерности в пространство выходных векторов (множество выходных сигналов) иной, зачастую меньшей размерности. Архитектура таких сетей предполагает наличие трех слоев, выполняющих различные функции. Входной слой состоит из сенсорных элементов, на которые подаются сигналы, описывающие модель речеобразования. Второй слой является скрытым слоем, осуществляющим нелинейное преобразование входного пространства в скрытое. Использование скрытых нейронов, соединяемых связями с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций.

Основу функционирования радиальных сетей составляет теорема Т. Ковера о распознаваемости образов, в соответствии с которой нелинейные проекции векторов в некоторое многомерное пространство большей размерности могут быть линейно разделены с большей вероятностью, чем при их проекции в пространство с меньшей размерностью (Cover Т. Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition // IEEE Trans. Electronic Computers, 1965. - Vol.14. - Pp.326-334). Доказано, что множество векторов, случайным образом размещенных в многомерном пространстве, является φ-разделяемым с вероятностью 1 при условии соответственно большей размерности К этого пространства. Это означает, что применение достаточно большого количества скрытых нейронов, реализующих радиальные функции φi(х), гарантирует решение задачи классификации при построении трехслойной сети. Скрытый слой должен реализовать вектор φ(х), а выходной слой может состоять из единственного линейного нейрона, выполняющего суммирование выходных сигналов от скрытых нейронов. Сеть функционирует по принципу многомерной интерполяции, состоящей в отображении р различных входных векторов xi(i=1, 2, …, p) из входного N-мерного пространства во множество из р рациональных чисел di(i=1, 2, …, p). Для реализации этого процесса необходимо использовать р скрытых нейронов радиального типа и задать такую функцию отображения F(x), для которой выполняется условие интерполяции F(x)=di. Использование р скрытых нейронов, соединяемых связями с весами wi с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций. Взаимосвязь между входными и выходными сигналами сети может быть определена системой уравнений, линейных относительно весов wi, которая имеет вид

где φji=(||xj-xi||) определяет радиальную функцию с центром в точке xi с вынужденным вектором xj.

Подбор параметров радиальных функций и значений весов wi сети можно свести к минимизации целевой функции, которая записывается в форме

E = i = 1 P [ j = 1 K w j ϕ ( x i c i ) d i ] 2

где К представляет собой количество радиальных нейронов,

р - количество обучающих пар (xi, di),

xi - это входной вектор,

di - соответствующая ему ожидаемая величина.

Решение, представляющее аппроксимирующую функцию в многомерном пространстве в виде взвешенной суммы локальных базисных радиальных функций, может быть интерпретировано радиальной нейронной сетью, представленной на фиг.1.

Предложенная структура нейронной сети будет выполнять функцию классификатора как параметров, описывающих передаточную функцию голосового тракта, так и идентификатора векторов коэффициентов линейного предсказания.

Теоретические и экспериментальные исследования линейного предсказания речи показали, что ясно прослеживаются нелинейные корреляционные зависимости между остатком линейного предсказания и параметрами, описывающими передаточную функцию голосового тракта, которые являются параметрами модели синтеза речи в вокодере с линейным предсказанием. Корреляционные связи между вектором, содержащим параметры голосового тракта, и соответствующим вектором сигнала ошибки линейного предсказания, рассчитанным на интервале квазистационарности, позволяют избавиться от необходимости передачи по каналу связи сигналов возбуждения, являющихся входным сигналом фильтра-синтезатора речевого сигнала на приемной стороне. Данные зависимости можно использовать для понижения скорости передачи информационного потока по каналу связи, применяя на стороне анализа и синтеза специальным образом обученные нейронные сети, предназначенные для решения задачи идентификации соответствующего сигнала возбуждения.

Сущность предлагаемого способа заключается в следующем. При анализе сегмента речевого сигнала на передающей стороне создается вектор параметров описывающих передаточную функцию голосового тракта и вектор сигнала ошибки линейного предсказания. Данные вектора подаются на предварительно обученные нейронные сети RBF, которые выполняют функцию классификации входных сигналов, причем как для векторов остатка линейного предсказания, так и для векторов параметров, описывающих передаточную функцию голосового тракта, создаются отдельные нейронные сети одинаковой размерности слоев. Предварительная настройка весовых коэффициентов нейронных сетей производится методом «обучения с учителем» (используется гибридный алгоритм обучения радиальных сетей, описанный: Хайкин С. Нейронные сети: полный курс, 2-е издание. - М.: Издательский дом «Вильямс», 2006 - С.399-400). В ходе процесса классификации устанавливается однозначная взаимосвязь между кластерами векторов остатка линейного предсказания и кластерами векторов параметров голосового тракта для каждого сегмента речевого сигнала. По каналу связи передаются только параметры модели синтеза, коэффициент усиления и данные, характеризующие кодируемый речевой сигнал. Для формирования сигнала возбуждения в вокодере на основе линейного предсказания на приеме из кадра передачи выделяют параметры для синтезирующего фильтра, содержащие информацию о параметрах голосового тракта, данных речевого сигнала, а также значение коэффициента усиления сигнала возбуждения. По данным параметрам обученная нейронная сеть RBF выделяет соответствующий им класс сигналов возбуждения, т.е. сигнала остатка линейного предсказания. Извлеченный при помощи нейронной сети сигнал возбуждения используют в синтезирующем фильтре липредера для формирования цифрового речевого сигнала на участке квазистационарности.

Блок-схема алгоритма функционирования предложенной системы, реализующей способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием, представлена на фиг.2.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие изобретения условию патентоспособности «новизна».

Благодаря новой совокупности существенных признаков системы, обеспечивающих исключение информации о сигнале возбуждения из формата кадра передачи и его формирование на приеме по значениям параметров синтезирующей модели голосового тракта с использованием нейронной сети, достигается значительное снижение скорости передачи данных в канале связи.

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.

Заявленное техническое решение поясняется чертежом (фиг.3), на котором показана функциональная схема устройства, реализующего способ снижения скорости передачи в низкоскоростных вокодерах с линейным предсказанием посредством использования нейросетевой классификации коэффициентов линейного предсказания и сигнала ошибки линейного предсказания.

Устройство, реализующее данный способ, состоит из блока анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания 1, который соединен с блоком нейросетевой классификации 2 и со вторым входом блока формирования кадра передачи 3. Выход блока 2 соединен с первым входом блока 3. На вход блока приема кадра передачи 4 поступает сигнал с выхода блока 3. Сигнал с выхода блока 4 подается на блок формирования сигнала возбуждения 5. Данный блок соединен с блоком синтеза речевого сигнала 6. На другие входы блока 6 поступают сигналы от блока 4.

Процедура анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, выполняемая в блоке 1, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с.425-446). Векторная классификация при помощи нейронных сетей RBF, применяемая в блоке 2, представлена в (Хайкин С. Нейронные сети: полный курс, 2-е издание.: Пер. с англ. - М.: Издательский дом «Вильямс», 2006. - С.371-408). Описание формирования и приема кадра передачи, выполняемых блоками 3 и 4, представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С.79-87). Механизм нейросетевой идентификации для функционирования блока формирования сигнала возбуждения 5 представлен в (Осовский С. Нейронные сети для обработки информации / Пер. с. польского И.Д.Рудинского. - М.: Финансы и статистика, 2002. - С.129-158). Синтез речевого сигнала, осуществляемый в блоке 6, подробно рассмотрен в (Маркел Дж.Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С.95-126).

Устройство, реализующее заявленный способ, работает следующим образом. Сегмент речевого сигнала поступает на блок 1, в котором происходит его анализ и формирование векторов сигналов ошибки линейного предсказания и коэффициентов линейного предсказания. Выделенные параметры с блока 1 поступают на блок нейросетевой классификации 2, в котором осуществляется классификация и кластеризация векторов на основе предварительно обученных на тестовых сигналах нейронных сетей класса RBF, а также на блок формирования кадра передачи 3. Параметры, характеризующие соответствующий кластер векторов коэффициентов линейного предсказания, объединяются с коэффициентом усиления и другими вспомогательными параметрами в блоке формирования кадра передачи 3. Данный сигнал поступает на блок приема кадра передачи 4, в котором происходит выделение информационной составляющей, описывающей вектор коэффициентов линейного предсказания. Информация о номере необходимого кластера поступает на блок 5, который использует обученную нейронную сеть RBF для формирования вектора сигнала ошибки линейного предсказания, являющегося сигналом возбуждения для синтезирующего фильтра приемной части вокодера с линейным предсказанием. В блоке синтеза речевого сигнала 6 происходит формирование речевого сигнала по данным о сигнале возбуждения, поступающим от блока 5, коэффициентам линейного предсказания и дополнительным параметрам, поступающим от блока 4, для формирования речевого сигнала, например значение коэффициента усиления.

К достоинствам способа следует отнести тот факт, что устранение из кадра передачи информации о сигнале возбуждения позволяет значительно снизить скорость передачи данных в канале связи, а также уменьшить вычислительную сложность алгоритма кодирования речевого сигнала на передающей стороне. Анализ кадра передачи существующих вокодеров (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С.134-136) свидетельствует о том, что приблизительно 50% в кадре передачи занимает информация о сигнале возбуждения.

Использование предлагаемого технического решения для снижения скорости передачи в вокодерах с линейным предсказанием позволяет понизить скорость передачи данных в канале связи на 40-50% от известных решений, либо перераспределить информационный ресурс, предоставляемый каналом связи, на формирование дополнительных сервисов абонентского обслуживания, при этом качественные показатели синтезированной речи повышаются на 0,3-0,5 балла по шкале MOS (MOS - Mean Opinion Scores - средняя экспертная оценка). Критерии оценки согласно шкале MOS подробно рассмотрены в (Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - С.255-256).

Синтезированный речевом сигнал характеризуется высокими показателями разборчивости, естественностью и узнаваемостью говорящего.

Приведенные технические решения показывают, что устройство, воплощающее изобретение при его осуществлении, способно обеспечить более низкую скорость передачи данных за счет устранения из кадра передачи информации о сигнале возбуждения и формировании его на приеме по параметрам формирующей функции голосового тракта, используя нейронную сеть - классификатор.

Способ формирования сигнала возбуждения низкоскоростных вокодеров с линейным предсказанием, использующий параметры синтезирующего фильтра таким образом, что по каналу связи передают только параметры синтезирующего фильтра, отличающийся тем, что на приемной стороне по параметрам синтезирующего фильтра производится процедура идентификации сигнала возбуждения, при этом из кадра передачи выделяют параметры, описывающие передаточную функцию голосового тракта, а также значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, по параметрам передаточной функции голосового тракта при помощи обученной нейронной сети идентифицируют сигнал ошибки линейного предсказания, который является сигналом возбуждения, и используют его в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.



 

Похожие патенты:

Изобретение относится к способу, устройству и системе для кодирования и декодирования сигналов. .

Изобретение относится к устройствам для микширования множества входных потоков данных для получения потока данных, которые могут применяться, например, в области систем конференц-связи, включая системы видео- и телеконференций.

Изобретение относится к способу цифрового кодирования звукового сигнала, например речевого или аудиосигнала, в частности к способу и устройству кодирования кадров перехода и кадров, следующих за переходом в звуковом сигнале.

Изобретение относится к устройству и способу кодирования речи, в частности к устройству и способу кодирования речи для выполнения поиска фиксированной кодовой книги.

Изобретение относится к устройству поиска в фиксированной таблице кодирования, которое немного сдерживает увеличение объема операций, даже если фильтр, применяемый к импульсу возбуждения, имеет характеристику, которая не может быть представлена посредством нижней треугольной матрицы, и реализует квазиоптимальный поиск в фиксированной таблице кодирования.

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов.

Изобретение относится к устройству и способу формирования перцепционно взвешенного синтетического сигнала при поиске фиксированной таблицы кодирования. .

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов.

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов.

Изобретение относится к способу кодирования и более конкретно к способу кодирования периода основного тона. Технический результат заключается в повышении эффективности компрессии периодов основного тона. В ходе кодирования вычисляются периоды основного тона для сигналов временной последовательности в заранее заданном временном интервале и выводится код, соответствующий таковым. В этом кодировании разрешающие способности для выражения периодов основного тона и/или режима кодирования периода основного тона переключаются в соответствии с тем, удовлетворяет ли индекс, указывающий уровень периодичности и/или стационарности сигналов временной последовательности, условию, указывающему высокую или низкую периодичность и/или стационарность. В этом декодировании в соответствии с тем, удовлетворяет ли индекс, указывающий уровень периодичности и/или стационарности, индекс, включаемый во входной код или получаемый исходя из входного кода, соответствующего заранее заданному временному интервалу, условию, указывающему высокую периодичность и/или стационарность, режим декодирования для кода, включенного во входной код, соответствующего периодам основного тона, переключается для декодирования кода, соответствующего периодам основного тона, чтобы получать периоды основного тона, соответствующие заранее заданному временному интервалу. 14 н. и 18 з.п. ф-лы, 28 ил., 9 табл.

Изобретение относится к средствам кодирования и декодирования. Технический результат заключается в повышении качества кодированного и декодированного сигналов при пониженной скорости передачи данных. Система аудикодирования содержит блок линейного предсказания для фильтрации входного сигнала на основе адаптивного фильтра; блок преобразования для преобразования кадра отфильтрованного входного сигнала в область преобразования; блок квантования для квантования сигнала в области преобразования. На основе характеристик входного сигнала блок квантования принимает решение кодировать сигнал в области преобразования с помощью устройства квантования, основанного на статистической модели, или устройства квантования, не основанного на статистической модели. Предпочтительно решение основывается на размере кадра, примененном блоком преобразования. 5 н. и 13 з.п. ф-лы, 34 ил.

Изобретение относится к средствам оптимизации одного и более параметров для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации. Технический результат заключается в уменьшении акустических искажений при повышающем микшировании аудиосигнала. Средство включает в себя регулятор параметров. Регулятор параметров принимает один или более входных параметров, на основе которых генерирует один или более скорректированных параметров. Регулятор параметров генерирует один или более скорректированных параметров с использованием одного или более входных параметров и объектно-ориентированной параметрической информации таким образом, что искажение представления сигнала повышающего микширования, вызванного использованием неоптимальных параметров, уменьшается по крайней мере для входных параметров, отклоняющихся от оптимальных параметров на величину, превышающую заданный предел отклонений.13 н. и 23 з.п. ф-лы, 12 ил.

Изобретение относится к области коррекции коэффициента усиления при кодировании аудиосигналов, основанном на схемах квантования, и может использоваться для обработки различных типов аудиосигналов. Технический результат - осуществление регулировки коэффициента усиления при декодировании аудиосигналов, которые были закодированы с раздельными представлениями коэффициента усиления и вектора формы. Способ регулировки коэффициента усиления при декодировании аудиосигналов, которые были закодированы с раздельными представлениями коэффициента усиления и вектора формы, характеризуется тем, что оценивают показатель точности представления вектора формы, определяют коррекцию коэффициента усиления на основе оценочного показателя точности, регулируют представление коэффициента усиления на основе определенной коррекции коэффициента усиления. 4 н. и 24 з.п. ф-лы, 21 ил., 2 табл.

Изобретение относится к области шумоподавления в принимаемом многоканальном FM-радиосигнале и может использоваться, в частности в стереофоническом FM-радиоприемнике. Достигаемый технический результат - повышение качества звука путем повышения подавления шума в принимаемом многоканальном FM-радиосигнале. Устройство для подавления шума в принимаемом многоканальном FM-радиосигнале представлено как принимаемый средний сигнал и принимаемый побочный сигнал, содержит модуль определения параметров, сконфигурированный для определения одного или нескольких параметров, служащих признаками корреляции и/или декорреляции между принимаемым средним сигналом и принимаемым побочным сигналом, и модуль шумоподавления, сконфигурированный для генерирования побочного сигнала с подавленным шумом из принимаемого среднего сигнала с использованием одного или нескольких параметров. 3 н. и 29 з.п. ф-лы, 6 ил.

Изобретение относится к средствам обработки речевого/аудио сигнала. Технический результат заключается в обеспечении комфортного воспроизведения звука во время переключения полосы пропускания речевых/аудио сигналов. Способ обработки речевого/аудио сигнала включает в себя этапы, на которых при переключении полосы пропускания речевого/аудио сигнала получают исходный высокочастотный сигнал, соответствующий текущему кадру речевого/аудио сигнала; получают глобальный параметр усиления исходного высокочастотного сигнала во временной области; выполняют обработку взвешивания для отношения энергий и глобального параметра усиления во временной области и используют полученное взвешенное значение в качестве предсказанного глобального параметра усиления, причем отношение энергий представляет собой отношение между энергией архивного кадра высокочастотного сигнала во временной области и энергией текущего кадра исходного высокочастотного сигнала; корректируют исходный высокочастотный сигнал с помощью предсказанного глобального параметра усиления для получения скорректированного высокочастотного сигнала во временной области; синтезируют текущий кадр узкополосного сигнала во временной области и скорректированный высокочастотный сигнал во временной области и выводят синтезированный сигнал. 4 н. и 19 з.п. ф-лы, 10 ил.

Изобретение относится к области цифровой связи, а именно к технике обработки речи на основе линейного предсказания, и может быть использовано в системах инфокоммуникаций для низкоскоростного кодирования речевых сигналов. Техническим результатом предлагаемого способа является повышение качества синтезированного речевого сигнала в низкоскоростных вокодеров с линейным предсказанием при ограничениях на скорость передачи данных. Технический результат достигается тем, что в вокодере на основе линейного предсказания осуществляется поиск вектора сигнала возбуждения на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности, статистически связанных с исходным вектором параметров, описывающих состояние голосового тракта. По каналу связи передают индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал на каждом квазистационарном сегменте анализа речевого сигнала. 4 ил.

Изобретение относится к средствам для выбора алгоритма кодирования. Технический результат заключается в уменьшении сложности выбора между первым алгоритмом кодирования и вторым алгоритмом кодирования. Устройство для выбора одного из первого алгоритма кодирования и второго алгоритма кодирования, для кодирования части аудиосигнала, чтобы получать кодированную версию части аудиосигнала, содержит фильтр, выполненный с возможностью принимать аудиосигнал, уменьшать амплитуду гармоник в аудиосигнале и выводить фильтрованную версию аудиосигнала. Первый модуль оценки предоставляется для использования фильтрованной версии аудиосигнала при оценке SNR или сегментального SNR части аудиосигнала в качестве первого показателя качества для части аудиосигнала, которая ассоциирована с первым алгоритмом кодирования, без фактического кодирования и декодирования части аудиосигнала с использованием первого алгоритма кодирования. Второй модуль оценки предоставляется для оценки SNR или сегментального SNR в качестве второго показателя качества для части аудиосигнала, которая ассоциирована со вторым алгоритмом кодирования. 5 н. и 10 з.п. ф-лы, 5 ил.

Изобретение относится к средствам для формирования множества параметрических звуковых потоков. Технический результат заключается в улучшении качества пространственного звука. Устройство для формирования множества параметрических звуковых потоков из входного пространственного звукового сигнала, полученного из записи пространства звукозаписи, содержит устройство сегментации и формирователь. Устройство сегментации выполнено с возможностью предоставления по меньшей мере двух входных сегментированных звуковых сигналов из входного пространственного звукового сигнала, причем по меньшей мере два входных сегментированных звуковых сигнала связаны с соответствующими сегментами пространства звукозаписи. Формирователь выполнен с возможностью формирования параметрического звукового потока для каждого из по меньшей мере двух входных сегментированных звуковых сигналов для получения множества параметрических звуковых потоков. 6 н. и 8 з.п. ф-лы, 12 ил.

Изобретение относится к средствам для предсказания сигнала возбуждения верхней полосы частот. Технический результат заключается в повышении качества сигнала возбуждения верхней полосы. Получают в соответствии с принятым потоком битов нижней полосы частот набор параметров спектральной частоты, которые расположены в порядке частот. Параметры спектральной частоты содержат параметры линейной спектральной частоты, LSF, нижней полосы частот или параметры спектральной частоты иммитанса, ISF, нижней полосы частот. Вычисляют разности параметров спектральной частоты между каждыми двумя параметрами спектральной частоты, которые имеют одинаковый интервал положения в некоторых или всех из упомянутых параметров спектральной частоты. Определяют диапазон поиска для поиска минимальной разности параметров спектральной частоты. Диапазон поиска указывает часть вычисленных разностей параметров спектральной частоты. Корректируют части вычисленных разностей параметров спектральной частоты с использованием коэффициента коррекции для получения множества скорректированных разностей параметров спектральной частоты. 2 н. и 18 з.п. ф-лы, 11 ил.
Наверх