Способ компрессии речевого сигнала

Авторы патента:

G10L19 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2380765:

Федеральное государственное унитарное предприятие "Калужский научно-исследовательский институт телемеханических устройств" (RU)

Изобретение относится к области техники связи и может быть использовано для компрессии речевого сигнала в системах хранения и передачи цифровой информации. Сущность способа компрессии состоит в том, что при компрессии речевого сигнала применяют процедуру поиска и коррекции ошибок определения основного тона речевого сигнала, использующую данные об основном тоне трех последовательных сегментов речевого сигнала. Поиск и коррекция ошибок определения основного тона речевого сигнала применяют как для невокализованных сегментов речевого сигнала, так и для вокализованных сегментов речевого сигнала. Техническим результатом, достигаемым при осуществлении способа, является повышение разборчивости речевого сигнала, восстановленного после его компрессии.

Изобретение относится к области техники связи и может быть использовано для компрессии речевого сигнала в системах хранения и передачи цифровой информации.

Известно, что компрессия (сжатие) речевого сигнала может производиться путем выделения медленно меняющихся составляющих речевого сигнала, которые передаются по каналу связи в виде кодовых посылок или используются для хранения информации. Восстановление или синтез сигнала, подобного исходному, производят при помощи полученных параметров. Преобразованный из аналогового в цифровой вид речевой сигнал представляет собой при этом последовательность амплитуд речевого сигнала, взятых с определенной частотой называемых отсчетами речевого сигнала.

Из речевого сигнала обычно выделяют два типа параметров: параметры, характеризующие огибающую спектра речевого сигнала (фильтровую функцию), и параметры, характеризующие источник речевых колебаний (генераторную функцию). В соответствии с концепцией кратковременного анализа речевой сигнал можно считать стационарным на сегментах (интервалах) протяженностью до 30 мс. Параметры речевого сигнала или кодера при этом считаются постоянными на выбранном сегменте.

Наиболее эффективно компрессию речевого сигнала осуществляют на основе модели линейного предсказания речи. В этом случае фильтровая функция модели речеобразования задается коэффициентами линейного предсказания (или эквивалентными им параметрами), а генераторная функция определяется типом вокализованности сегмента. Можно выделить два типа вокализованности сегмента речи в зависимости от свойств исследуемого речевого сигнала: вокализованный (тональный) и невокализованный (шумовой). Для вокализованных сегментов генераторная функция представляет собой последовательность импульсов на частоте основного тона речи, а для невокализованных - шумовую последовательность, смоделированную генератором случайных чисел.

При разработке способа компрессии речевого сигнала на основе линейного предсказания речи актуальной задачей является поиск и исправление ошибок при нахождении параметров генераторной и фильтровой функций речевого сигнала.

Известен способ компрессии речи, при котором преобразованный из аналогового в цифровой вид речевой сигнал подвергается низкочастотной фильтрации и предварительному искажению (предискажению), после чего параметры фильтровой функции речевого сигнала (10 коэффициентов отражения) определяются путем решения уравнений линейного предсказания ковариационным методом. Среднеквадратичное значение амплитуды сигнала, характеризующее энергию сигнала на интервале сегмента анализа, определяется как корень квадратный из суммы квадратов отсчетов речевого сигнала исследуемого сегмента. Для оценки периода основного тона применяется метод, основанный на использовании кратковременной функции средней разности. Тип вокализованности сегмента определяется методом, основанным на анализе энергии нижней полосы частот речевого сигнала. При этом анализируют значение корреляции при задержке, равной периоду основного тона, значение кратковременной функции частоты перехода через ноль и значение функции крутизны сигнала. Параметры фильтровой и генераторной функции подвергают операции скалярного квантования, то есть такого квантования, при котором каждый параметр кодируют независимо от других. Перед синтезом параметры кодера подвергают сглаживанию и интерполяции. Синтезирующий фильтр в данном случае является прямой формой рекурсивного фильтра, заданного коэффициентами отражения. Вокализованную речь синтезируют фильтром десятого порядка, на вход которого подается последовательность импульсов, повторяющихся с периодом основного тона. Невокализованные сегменты речевого сигнала синтезируют фильтром четвертого порядка с возбуждением последовательностью псевдослучайных чисел. Синтезированный сигнал масштабируют усилителем, чтобы он соответствовал энергии исходного речевого сигнала [Federal Standard FED-STD-1015. Telecommunications: Analog-to-Digital Conversion of Voice by 2400 Bits / Second Linear Predictive Coding. Nov.1984].

Недостатком данного способа компрессии речевого сигнала является низкое качество воспроизведения синтезированного речевого сигнала.

Наиболее близким к предлагаемому способу является способ (прототип) компрессии речевого сигнала на основе линейного предсказания речи. После предискажения и взвешивания окном Хемминга оцифрованного речевого сигнала на основе автокорреляционного метода вычисляют десять коэффициентов отражения и коэффициент усиления. Коэффициенты отражения преобразуют в коэффициенты логарифмов отношения площадей. Задержку периода основного тона и вокализованность определяют модифицированным автокорреляционным методом. При определении периода основного тона используется также информация о соседних сегментах, если невокализованный сегмент заключен между двумя вокализованными, которые имеют достаточно близкие значения периода основного тона, то этот сегмент считается вокализованным с периодом, равным среднему значению периодов основного тона в двух соседних с ним сегментах. Описанная процедура применяется для коррекции ошибок определения основного тона и типа вокализованности на невокализованных сегментах. Полученные параметры (десять коэффициентов логарифмов отношения площадей, коэффициент усиления, период основного тона сигнала) подвергают операции квантования. Синтез осуществляют синхронно с периодом основного тона. Входной сигнал синтезирующего фильтра для невокализованных сегментов моделируют случайным шумом, для вокализованных сегментов - последовательностью единичных импульсов на частоте основного тона. Для двух соседних вокализованных сегментов осуществляют интерполяцию параметров предсказания. Синтезированный речевой сигнал подвергают обработке с целью компенсации предискажения [Любимов А., Евсиков М. Линейное предсказание речи - это просто // Монитор, №4, 1995. с.30-35].

Недостатком известного способа является низкая разборчивость восстановленного речевого сигнала, вызванная тем, что поиск и коррекцию ошибок определения периода основного тона и типа вокализованности не производят для вокализованных речевых сегментов.

Цель изобретения - повышение разборчивости речевого сигнала, восстановленного после его компрессии. Цель достигается за счет использования при компрессии речевого сигнала процедуры поиска и коррекции ошибок определения периода основного тона как для вокализованных, так и для невокализованных речевых сегментов. При этом кроме устранения искажений, которые появляются в спектре сигнала [Дж.Д.Маркел, А.Х.Грэй. Линейное предсказание речи / Под ред. Ю.Н.Прохорова и B.C.Звездина. - М.: Связь, 1980, стр.9-13; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. М.В.Назарова и Ю.Н.Прохорова. - М.: Радио и связь, 1981. - стр.42-45] в случае ошибочного определения вокализованного сегмента как невокализованного, которое позволяет устранять прототип, возможно устранять искажения речевого сигнала, которые выражаются в изменении скорости генерации речи. Такие искажения появляются в результате ошибочного определения значения основного тона вокализованного сегмента речи [см., например, Быков С.Ф., Журавлев В.И., Шалимов В.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - стр.14]. Известно, что от правильного определения основного тона существенно зависит разборчивость речевого сигнала, так как именно основной тон определяет высоту голоса, интонацию говорящего, логическое ударение, а иногда и смысл слов [Алдошина И. Основы психоакустики. Часть 17. Речь и слух. Часть 1. // Звукорежиссер. 2002 г., №9]. Также известно, что слоговая разборчивость речи значительно снижается при ошибочном определении ОТ [Алдошина И. Основы психоакустики. Часть 17. Речь и слух. Часть 5 // Звукорежиссер. 2002 г., №9]. Таким образом, разборчивость речевого сигнала, восстановленного после его компрессии, может быть увеличена за счет исправления искажений сигнала, которые получаются в результате неверного определения основного тона вокализованных сегментов речи.

Для достижения цели предлагается способ компрессии речевого сигнала на основе линейного предсказания речи, заключающийся в том, что на основе отсчетов взвешенного окном Хемминга и предварительно искаженного сегмента речевого сигнала автокорреляционным методом определяют десять коэффициентов отражения и коэффициент усиления. Модифицированным автокорреляционным методом определяют период основного тона и тип вокализованности сегмента речевого сигнала. Для коррекции ошибок нахождения основного тона предлагается процедура, использующая данные об основном тоне трех последовательных сегментов речевого сигнала. Полученные параметры речевого сигнала подвергают операции квантования и операции кодирования. Синтез речевого сигнала осуществляют фильтром десятого порядка (синтезатором) на основе декодированных значений параметров. Синтез осуществляют синхронно с периодом основного тона для вокализованных сегментов и по всей длине сегмента речевого сигнала - для невокализованных. Входной сигнал синтезирующего фильтра для невокализованных сегментов моделируют случайным шумом, для вокализованных сегментов - последовательностью единичных импульсов на частоте основного тона. Для двух соседних вокализованных сегментов используют интерполяцию параметров синтезатора. Синтезированный речевой сигнал подвергают обработке с целью устранения предварительного искажения. Новым является то, что поиск и коррекция ошибок определения основного тона и типа вокализованности речевого сегмента применяется как для сегментов речевого сигнала, определенных как невокализованные, так и для вокализованных сегментов речевого сигнала.

Предлагаемый способ осуществляется следующим образом.

Сегмент речевого сигнала длиной N отсчетов подвергают взвешиванию окном Хемминга и затем предискажению. Взвешивание осуществляют путем умножения отсчетов текущего сегмента на весовые коэффициенты функции окна Хемминга. Для n-го отсчета весовой коэффициент ω_n определяется по формуле

ω_n=0.54-0.46 cos(2πn/(N-1)), 0≤n≤N-1.

Использование взвешивающей функции позволяет снизить воздействие нежелательных факторов, например явления Гиббса, возникающих при ограничении последовательности отсчетов речевого сигнала окном конечной длительности [Хемминг Р.В. Цифровые фильтры: Пер. с англ. / Под ред. А.М.Трахтмана. - М.: Сов. радио, 1980 - 224 с., ил., с.100-102].

С целью снижения требований к интегральной точности при расчете параметров фильтровой функции речевого сигнала используют процедуру предварительного искажения входного сигнала [Маркел Дж.Д., Грэй А.X. Линейное предсказание речи: Пер. с англ. / Под ред. Ю.П.Прохорова и В.С.Звездина. - М.: Связь 1980, - 380 с., ил., с.224]. Для этого отсчеты речевого сигнала подвергают обработке цифровым фильтром с передаточной функцией Н_П(z), которая определяется как

Н_П(z)=1-0.93z^-1,

где z - переменная на комплексной плоскости.

Обработанные таким образом отсчеты речевого сигнала используют для расчета кратковременной автокорреляционной функции R(k) сигнала. Расчет этой функции проводят с целью дальнейшего использования ее значений при решении уравнений линейного предсказания и в алгоритме поиска периода основного тона последовательности речевых отсчетов. Рассчитывают P_max+1 значений кратковременной автокорреляционной функции. Величина P_max определяется требованиями к входным данным алгоритма поиска периода основного тона. Для k-го значения кратковременной автокорреляционной функции справедливо

где S_n - n-й отсчет речевого сигнала,

S_n+k - (n+k)-й отсчет речевого сигнала [Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. М.В.Назарова и Ю.Н.Прохорова. - М.: Радио и связь, 1981. - 496 с., ил., с.133].

Решение уравнений линейного предсказания производят автокорреляционным методом [Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. М.В.Назарова и Ю.Н.Прохорова. - М.: Радио и связь, 1981. - 496 с., ил., с.370]. Для решения применяется алгоритм Левинсона-Дарбина: на основе вычисленных ранее значений кратковременной автокорреляционной функции определяют р коэффициентов a_i линейного предсказания речи, р коэффициентов k_i отражения и коэффициент G усиления модели. Здесь р - порядок предсказания [Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. М.В.Назарова и Ю.Н.Прохорова. - М.: Радио и связь, 1981. - 496 с., ил., с.380].

Последовательность значений автокорреляционной функции речевого сигнала используют для определения периода основного тона и типа вокализованности анализируемого речевого сегмента. Определение периода основного тона производят модифицированным автокорреляционным методом [Маркел Дж.Д., Грэй А.X. Линейное предсказание речи: Пер. с англ. / Под ред. Ю.Н.Прохорова и В.С.Звездина. - М.: Связь 1980, - 380 с., ил., с.209].

Для этого вычисляют значения автокорреляционной функции R_a(j) коэффициентов a_i линейного предсказания по формуле

На основе значений кратковременной автокорреляционной функции R(k) речевого сигнала и значений автокорреляционной функции R_a(j) коэффициентов линейного предсказания a_i вычисляют P_max+1 значений автокорреляционной функции R_e(k) ошибки предсказания. Для k-го значения автокорреляционной функции R_e(k) ошибки предсказания справедлива формула

где i - индекс суммирования, R(k-j) - (k-j)-e значение кратковременной автокорреляционной функции речевого сигнала, R_a(j) - j-e значение автокорреляционной функции коэффициентов линейного предсказания, j - остаток от деления i на 10.

Нормированную последовательность {R_e(n)/R_e(0}} значений автокорреляционной функции ошибки предсказания исследуют для определения положения пикового значения. Если пиковое значение R_e(n_p)/R_e(0)≤r_b, то сегмент классифицируется как невокализованный - период основного тона равен 0. Здесь r_b - граничное значение, разделяющее вокализованные и невокализованные сегменты и определяющееся экспериментально. В противном случае сегмент считается вокализованным с периодом n_p отсчетов [Маркел Дж.Д., Грэй А.X. Линейное предсказание речи: Пер. с англ. / Под ред. Ю.Н.Прохорова и В.С.Звездина. - М.: Связь, 1980, - 380 с., ил.].

Качество воспроизведения синтезированной речи, полученной после компрессии на основе линейного предсказания, находится в зависимости от точности определения основного тона речевого сигнала. Поэтому предлагается использовать процедуру коррекции ошибок определения периода основного тона. Она основана на предположении, что параметры речевого сигнала в соответствии с концепцией кратковременного анализа между соседними сегментами анализа изменяются плавно, без резких скачков.

Текущее значение периода основного тона речевого сигнала сравнивают со значением периода основного тона сегмента, предшествующего данному с задержкой в два сегмента. Если значения периодов основного тона на двух этих сегментах отличны от нуля и различаются не более чем на 15%, то проводят проверку на правильность определения основного тона.

При этом возможны два случая. В первом случае сегмент, предшествующий текущему, определен как невокализованный со значением периода основного тона, равным нулю. В этом случае считают, что имеет место ошибка определения типа вокализованности сегмента. Интервал, предшествующий текущему, переопределяют как вокализованный с периодом основного тона, равным среднему арифметическому двух периодов соседних сегментов.

Во втором случае тип сегмента, предшествующего текущему, определен как вокализованный. Если значение задержки периода основного тона сегмента, предшествующего текущему, отличается от среднего арифметического двух значений соседних сегментов более чем на 15%, то считается, что имеет место ошибка определения периода основного тона. Период основного тона сегмента, предшествующего текущему, устанавливают равным среднему арифметическому двух значений соседних сегментов. Значения периодов основного тона текущего сегмента и сегмента, предшествующего текущему, используют в процедуре коррекции ошибок основного тона на следующем сегменте анализа.

Коэффициент усиления и значение периода основного тона подвергают операции квантования. Коэффициент усиления подвергают кодированию по логарифмической шкале с длиной кодовой комбинации 6 бит. Период основного тона кодируют линейно с кодовой комбинацией длиной 7 бит. Невокализованному сегменту соответствует значение периода основного тона, равное 0.

Коэффициенты k_i отражения преобразуют к коэффициентам b_i логарифмов отношения площадей по следующей формуле

Коэффициенты логарифмов отношения площадей обладают следующим свойством

Коэффициенты b_i логарифмов отношения площадей кодируют при помощи р независимых скалярных квантователей [Любимов А., Евсиков М. Линейное предсказание речи - это просто // Монитор, №4, 1995. с.32].

Синтез речевого сигнала при данном способе компрессии речевого сигнала осуществляют следующим образом.

Для синтеза речи используют полученные параметры для каждого сегмента анализа, представленные в виде индексов квантования. По этим индексам определяют коэффициент усиления, период основного тона и коэффициенты отношения площадей. Коэффициенты логарифмов отношения площадей преобразуют в коэффициенты отражения.

При синтезе используют интерполяцию параметров. Для этого необходима информация о двух последовательных сегментах, при восстановлении речевого сигнала осуществляют задержку на один сегмент, и для синтеза применяется информация о сегменте, следующем за текущим.

Синтез невокализованных речевых сегментов осуществляют на всей длине интервала фильтром лестничной структуры с двумя умножителями, заданным коэффициентами отражения. Возбуждение синтезирующего фильтра производят генератором случайных чисел.

Синтез вокализованных речевых сегментов производят синхронно с периодом основного тона. В качестве генераторной функции используют последовательность единичных импульсов на частоте основного тона. В случае, если следующий за текущим сегментом сегмент тоже является вокализованным, производят интерполяцию параметров синтезатора. Коэффициент усиления и период основного тона интерполируют логарифмически. Коэффициенты отражения интерполируют линейно, что позволяет сохранить устойчивость синтезирующего фильтра [Маркел Дж.Д., Грэй А.X. Линейное предсказание речи: Пер. с англ. / Под ред. Ю.Н.Прохорова и В.С.Звездина. - М.: Связь, 1980, - 380 с., ил., с.254].

Последовательность отсчетов синтезированного речевого сигнала после синтеза подвергают обработке. Обработка заключается в компенсации nпредварительного искажения речевого сигнала цифровым фильтром с передаточной функцией, обратной передаточной функции предискажающего цифрового фильтра.

Поиск и коррекция ошибок в определении периода основного тона и типа вокализованности в предлагаемом способе компрессии речевого сигнала выполняется как для сегментов, определенных как невокализованные, так и для сегментов, определенных как вокализованные. Это позволяет находить и исправлять большее число ошибок.

Достигаемым техническим результатом изобретения является повышение разборчивости речевого сигнала, восстановленного после его компрессии.

Способ компрессии речевого сигнала, заключающийся в том, что для предварительно искаженного сегмента речевого сигнала определенной длины, выделенного при помощи весовой функции, автокорреляционным методом находят коэффициенты отражения и коэффициент усиления, определяют модифицированным автокорреляционным методом период основного тона речевого сигнала, причем коэффициенты отражения преобразуют к коэффициентам отношения площадей, затем полученные коэффициенты отношения площадей, коэффициент усиления, период основного речевого сигнала подвергают операции квантования и операции кодирования, после этого синтез речевого сигнала осуществляют синхронно с периодом основного тона для вокализованных сегментов и по всей длине сегмента для невокализованных сегментов, при этом для двух соседних вокализованных сегментов используют интерполяцию значений периода основного тона коэффициента усиления и коэффициента отражения, затем синтезированный речевой сигнал подвергают операции компенсации предыскажения, отличающийся тем, что текущее значение периода основного тона речевого сигнала сравнивают со значением периода основного тона сегмента, предшествующего данному с задержкой в два сегмента, и если значения периодов основного тона на двух этих сегментах отличны от нуля и различаются не более чем на 15%, то проводят проверку на правильность определения основного тона, если сегмент, предшествующий текущему, определен как невокализованный со значением периода основного тона, равным нулю, то сегмент, предшествующий текущему, переопределяют как вокализованный с периодом основного тона, равным среднему арифметическому двух периодов соседних сегментов, если тип сегмента, предшествующего текущему, определен как вокализованный и значение задержки периода основного тона сегмента, предшествующего текущему, отличается от среднего арифметического двух значений соседних сегментов более чем на 15%, то считается, что имеет место ошибка определения периода основного тона, период основного тона сегмента, предшествующего текущему, устанавливают равным среднему арифметическому двух значений соседних сегментов, значения периодов основного тона текущего сегмента и сегмента, предшествующего текущему, используют в процедуре коррекции ошибок основного тона на следующем сегменте анализа.

Изобретение относится к методам параметрической многоканальной обработки аудио, в частности к эффективному размещению параметрической информации управления декодером, когда имеется несколько различных наборов параметров, доступных для восстановления.

Устройство и способ для формирования закодированного стереосигнала аудиочасти или потока данных аудио // 2376726

Изобретение относится к технологии многоканального аудио и, в частности, к приложениям многоканального аудио в соединении с технологиями головных телефонов. .

Построение кодовых книг на основе унитарных матриц усовершенствованным способом хохвальда с преобразованиями собственных координат // 2376710

Изобретение относится к беспроводным системам связи, более конкретно, варианты осуществления изобретения имеют отношение к созданию и использованию кодовых книг на основе унитарных матриц.

Способ кодирования и декодирования аудиосигнала и устройство для его осуществления // 2376656

Изобретение относится к обработке аудиосигнала. .

Зависящее от энергии квантование для эффективного кодирования пространственных параметров звука // 2376655

Изобретение относится к квантованию пространственных параметров звука. .

Параметрическое совместное кодирование аудиоисточников // 2376654

Кодирование сигнала // 2375764

Изобретение относится к системам кодирования сигнала (100). .

Способ создания представления результата вычисления, линейно зависимого от квадрата значения // 2375743

Изобретение относится к вычислительной технике и может быть использовано в устройствах кодирования звука. .

Способ передачи речевых сигналов // 2374763

Изобретение относится к передаче сигналов, несущих информацию при уменьшении ширины пропускания сигналов, с использованием импульсно-кодовой модуляции. .

Кодирование или декодирование аудиосигнала // 2374703

Изобретение относится к кодированию аудиосигнала или декодированию кодированного аудиосигнала. .

Адаптивное остаточное аудиокодирование // 2380766

Изобретение относится к кодированию и декодированию аудиосигналов и, в частности, к эффективному высококачественному кодированию пары аудиоканалов

Способ и устройство для декодирования аудиосигнала // 2380767

Изобретение относится к обработке аудиосигналов, более конкретно к способу и устройству для декодирования аудиосигнала

Функционирование вокодеров без последовательного соединения между несовместимыми системами связи // 2380860

Способ и устройство масштабирования сигнала по времени // 2381569

Изобретение относится к способу и устройству масштабирования сигнала по времени

Стереофонически совместимое кодирование многоканального звука // 2381570

Изобретение относится к кодированию многоканального звука, и в частности к генерированию и использованию параметрического представления многоканального звукового сигнала, которое обратно совместимо со средствами воспроизведения сигнала параметрического стерео

Способ осуществления эквалайзера в декодере аудиосигнала и устройство для его осуществления // 2381617

Изобретение относится к обработке аудиосигнала и, более конкретно, к способу осуществления эквалайзера в устройстве, предназначенном для обработки аудиосигнала

Способ совмещения параметрического многоканального аудиокодирования с матричным многоканальным кодированием объемного звучания // 2382418

Изобретение относится к многоканальному аудиокодированию и передаче и, в частности, к способам кодирования многоканального аудиосигнала, полностью обратно совместимого со стереоустройствами и форматами

Многоканальный кодер // 2382419

Изобретение относится к многоканальным кодерам, например к многоканальным звуковым кодерам, использующим параметрическое описание пространственного звука

Способ и устройство для декодирования параметрического закодированного звукового сигнала // 2382485

Изобретение относится к декодированию звукового сигнала и, более конкретно, к декодированию параметрических закодированных звуковых сигналов

Компактная дополнительная информация для параметрического кодирования пространственного звука // 2383939

Изобретение относится к кодированию звуковых сигналов и последующему синтезу слуховых пространств из закодированных звуковых данных