Способ и устройство кодирования кадров перехода в речевых сигналах

Изобретение относится к способу цифрового кодирования звукового сигнала, например речевого или аудиосигнала, в частности к способу и устройству кодирования кадров перехода и кадров, следующих за переходом в звуковом сигнале. Техническим результатом является повышение эффективности кодирования. Указанный результат достигается тем, что устройство режима перехода для использования в кодеке звукового сигнала с предсказанием для создания возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или по меньшей мере одном кадре, следующем за переходом в звуковом сигнале, содержит вход для приема индекса кодовой книги и кодовую книгу режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения, причем кодовая книга режима перехода является реагирующей на индекс кодовой книги для генерирования, в кадре перехода и/или в по меньшей мере одном кадре, следующем за переходом, одного из кодовых векторов набора, соответствующего упомянутому возбуждению режима перехода; причем кодовая книга режима перехода содержит кодовую книгу форм глоттальных импульсов. 6 н. и 54 з.п. ф-лы, 27 ил., 10 табл.

 

Область техники, к которой относится изобретение

Настоящее изобретение относится к способу цифрового кодирования звукового сигнала, например речевого или аудиосигнала, принимая во внимание передачу и синтезирование данного звукового сигнала.

Более конкретно, но не исключительно, настоящее изобретение относится к способу и устройству кодирования кадров перехода и кадров, следующих за переходом в звуковом сигнале, например речевом или аудиосигнале, чтобы уменьшить распространение ошибок в декодере в случае стирания кадра и/или чтобы повысить эффективность кодирования главным образом в начале вокализованных сегментов (кадров вступления). В частности, способ и устройство заменяют адаптивную кодовую книгу, обычно используемую в кодерах с предсказанием, кодовой книгой, например, форм глоттальных импульсов в кадрах перехода и в кадрах, следующих за переходом. Кодовая книга глоттальных форм может представлять собой фиксированную кодовую книгу, не зависимую от прошлого возбуждения, посредством чего, если завершилось стирание кадра, кодер и декодер используют одно и то же возбуждение, так что имеется довольно быстрая сходимость к синтезу чистого канала. При кодировании кадра вступления при традиционном кодировании с линейным предсказанием с кодовым возбуждением (CELP) буфер прошлого возбуждения обновляется с использованием шумоподобного возбуждения предыдущего невокализованного или неактивного кадра, который сильно отличается от текущего возбуждения. С другой стороны, предложенный способ может очень точно создавать периодическую часть возбуждения.

Уровень техники

Речевой кодер преобразует речевой сигнал в цифровой битовый поток, который передается по каналу связи или сохраняется в запоминающей среде. Речевой сигнал оцифровывается, т.е. дискретизируется и квантуется обычно посредством 16 битов на отсчет. Назначением речевого кодера является представление этих цифровых отсчетов посредством меньшего количества битов, в то же время сохраняя хорошее субъективное качество речи. Речевой декодер или синтезатор работает с переданным или сохраненным битовым потоком и преобразует его обратно в речевой сигнал.

Кодирование с линейным предсказанием с кодовым возбуждением (CELP) представляет собой один из лучших способов известного уровня техники для достижения хорошего компромисса между субъективным качеством и скоростью передачи в битах. Этот способ кодирования образует основу нескольких стандартов кодирования речи как в беспроводных, так и в проводных применениях. При CELP-кодировании дискретизированный речевой сигнал обрабатывается последовательными блоками из M отсчетов, обычно называемых кадры, где M представляет собой предварительно определенное число, соответствующее обычно 10-30 мс. Фильтр с линейным предсказанием (LP) вычисляется и передается в каждом кадре. Для вычисления фильтра LP обычно требуется предварительный просмотр, 5-15-мс сегмент речи из последующего кадра. Кадр с M-отсчетами разделяется на меньшие блоки, называемые подкадрами. Обычно количество подкадров равно трем или четырем, приводя к 4-10-мс подкадрам. В каждом подкадре сигнал возбуждения обычно получается из двух составляющих, прошлого возбуждения и порождающего возбуждения фиксированной кодовой книги. Составляющая, образованная из прошлого возбуждения, часто упоминается как адаптивная кодовая книга или возбуждение основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются на декодер, где восстановленный сигнал возбуждения используется в качестве входного сигнала фильтра LP.

Речевые кодеки типа CELP в значительной степени основываются на предсказании для достижения их высоких рабочих характеристик. Используемое предсказание может быть разных видов, но обычно содержит использование адаптивной кодовой книги, содержащей сигнал возбуждения, выбранный в прошлых кадрах. CELP-кодер применяет квазипериодичность вокализованного речевого сигнала посредством поиска в прошлом возбуждении сегмента, наиболее подобного сегменту, кодируемому в настоящий момент. Этот же сигнал прошлого возбуждения сохраняется также в декодере. Тогда достаточно, чтобы кодер послал параметр задержки и коэффициент усиления для декодера для восстановления такого же сигнала возбуждения, который используется в кодере. Процесс изменения (разность) между предыдущим речевым сегментом и кодируемым в настоящий момент речевым сегментом дополнительно моделируется с использованием порождения, выбранного из фиксированной кодовой книги. Ниже в данном документе более подробно описывается технология CELP.

Проблема строгого предсказания, присущая речевым кодерам, основанным на CELP, появляется в присутствии ошибок передачи (стертых кадрах или пакетах), когда состояние кодера или декодера становится несинхронизированным. Вследствие предсказания эффект стертого кадра, таким образом, не ограничивается стертым кадром, но продолжает распространяться после стирания, часто в течение нескольких последующих кадров. Конечно, воздействие на восприятие может быть очень раздражающим.

Переходы от невокализованного речевого сегмента к вокализованному речевому сегменту (например, переход между согласным звуком или периодом неактивной речи и гласным звуком) или переходы между двумя различными вокализованными сегментами (например, переходы между двумя гласными звуками) представляют собой наиболее проблематичные случаи для маскирования стирания кадра. Когда потерян переход от невокализованного речевого сегмента к вокализованному речевому сегменту (вокализованное вступление), кадр сразу перед кадром вокализованного вступления является невокализованным или неактивным и таким образом не обнаруживается значимое периодическое возбуждение в буфере прошлого возбуждения (адаптивная кодовая книга). В кодере прошлое периодическое возбуждение накапливается в адаптивной кодовой книге в течение кадра вступления, и последующий вокализованный кадр кодируется с использованием этого прошлого периодического возбуждения. Большинство способов маскирования ошибок кадра использует информацию из корректно принятого в последний раз кадра для маскирования отсутствующего кадра. Когда потерян кадр вступления, буфер прошлого возбуждения декодера, таким образом, будет обновляться с использованием шумоподобного возбуждения предыдущего кадра (невокализованного или неактивного кадра). Периодическая часть возбуждения, таким образом, полностью отсутствует в адаптивной кодовой книге в декодере после потерянного вокализованного вступления и может потребоваться до нескольких кадров, чтобы декодер восстановился от этой потери.

Подобная ситуация имеет место в случае потерянного перехода от вокализованного к вокализованному. В данном случае, возбуждение, хранимое в адаптивной кодовой книге перед кадром перехода, имеет обычно очень отличающиеся характеристики от возбуждения, хранимого в адаптивной кодовой книге после перехода. Снова, так как декодер обычно маскирует потерянный кадр с использованием информации о прошлом кадре, будут сильно различаться состояния кодера и декодера, и синтезированный сигнал может испытывать важные искажения.

Задачи изобретения

Задачей настоящего изобретения поэтому является обеспечение способа и устройства кодирования кадров перехода в речевом и/или аудиокодере с предсказанием, чтобы улучшить устойчивость кодера к потерянным кадрам и/или повысить эффективность кодирования.

Другой задачей настоящего изобретения является устранение распространения ошибки и повышение эффективности кодирования в основанных на CELP кодеках посредством замены межкадрового зависимого поиска по адаптивной кодовой книге на поиск без предсказания по кодовой книге, например, глоттальных форм. Этот способ не требует дополнительной задержки, ему необходима незначительная дополнительная сложность и ему не требуется повышение скорости передачи в битах по сравнению с традиционным CELP-кодированием.

Сущность изобретения

Более конкретно, согласно одному аспекту настоящего изобретения обеспечивается способ режима перехода для использования в кодеке звукового сигнала с предсказанием для создания возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащий: обеспечение кодовой книги режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения; подачу индекса кодовой книги на кодовую книгу режима перехода и генерирование посредством кодовой книги режима перехода и в ответ на индекс кодовой книги одного из кодовых векторов набора, соответствующего возбуждению режима перехода.

Согласно второму аспекту настоящего изобретения обеспечивается устройство режима перехода для использования в кодеке звукового сигнала с предсказанием для создания возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащее вход для приема индекса кодовой книги и кодовую книгу режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения. Кодовая книга режима перехода является реагирующей на индекс для генерирования в кадре перехода и/или кадре, следующем за переходом, одного из кодовых векторов набора, соответствующего упомянутому возбуждению режима перехода.

Согласно третьему аспекту настоящего изобретения обеспечивается способ кодирования для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащий: генерирование целевого сигнала поиска по кодовой книге; обеспечение кодовой книги режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения, причем каждый кодовый вектор набора соответствует соответствующему возбуждению режима перехода; поиск по кодовой книге режима перехода для нахождения кодового вектора набора, соответствующего возбуждению режима перехода, оптимально соответствующему целевому сигналу поиска по кодовой книге.

Согласно четвертому аспекту настоящего изобретения обеспечивается устройство кодера для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащее: генератор целевого сигнала поиска по кодовой книге; кодовую книгу режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения, причем каждый кодовый вектор набора соответствует соответствующему возбуждению режима перехода; и устройство поиска по кодовой книге режима перехода для нахождения кодового вектора набора, соответствующего возбуждению режима перехода, оптимально соответствующему целевому сигналу поиска по кодовой книге.

Согласно пятому аспекту настоящего изобретения обеспечивается способ декодирования для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащий: прием индекса кодовой книги; подачу индекса кодовой книги на кодовую книгу режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения; и генерирование посредством кодовой книги режима перехода и в ответ на индекс кодовой книги одного из кодовых векторов набора, соответствующего возбуждению режима перехода.

Согласно шестому аспекту настоящего изобретения обеспечивается устройство декодера для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или кадре, следующем за переходом в звуковом сигнале, содержащее вход для приема индекса кодовой книги и кодовую книгу режима перехода для генерирования набора кодовых векторов, не зависимых от прошлого возбуждения. Кодовая книга режима перехода является реагирующей на индекс для генерирования в кадре перехода и/или кадре, следующем за переходом, одного из кодовых векторов набора, соответствующего возбуждению режима перехода.

Вышеупомянутые и другие задачи, преимущества и признаки настоящего изобретения станут более очевидными при прочтении последующего неограничительного описания его иллюстративного варианта осуществления, приведенного только в качестве примера со ссылкой на прилагаемые чертежи.

Краткое описание чертежей

На прилагаемых чертежах:

Фиг.1а представляет собой схематическую блок-схему основанного на CELP кодера;

Фиг.1b представляет собой схематическую блок-схему основанного на CELP декодера;

Фиг.2 представляет собой схематическую блок-схему конечного автомата классификации кадров для маскирования стирания;

Фиг.3 представляет собой пример сегмента речевого сигнала с одним кадром вокализованного перехода и одним кадром вступления;

Фиг.4 представляет собой функциональную блок-схему, иллюстрирующую правило классификации для выбора кадров TM (режима перехода) в речевых вступлениях, где N_TM_FRAMES обозначает число последовательных кадров для предотвращения использования способа кодирования TM, «clas» обозначает класс кадра, и VOICED_TYPE означает классы ONSET, VOICED и VOICED TRANSITION;

Фиг.5а представляет собой схематическую иллюстрацию примера кадра речевого сигнала, разделенного на четыре (4) подкадра, изображающую речевой сигнал во временной области;

Фиг.5b представляет собой схематическую иллюстрацию примера кадра речевого сигнала, разделенного на четыре (4) подкадра, изображающую остаточный сигнал LP;

Фиг.5с представляет собой схематическую иллюстрацию примера кадра речевого сигнала, разделенного на четыре (4) подкадра, изображающую сигнал возбуждения первого этапа, построенного с использованием способа кодирования TM в кодере;

Фиг.6 изображает графики, иллюстрирующие восемь глоттальных импульсов с длиной в 17 отсчетов, используемых для построения кодовой книги глоттальных формы, причем ось х обозначает дискретный временной импульс, а ось y - амплитуду импульса;

Фиг.7 представляет собой схематическую блок-схему примера части TM CELP-кодера, где k' представляет индекс кодовой книги глоттальных форм, а G(z) представляет собой формирующий фильтр;

Фиг.8 представляет собой графическое представление вычисления Ck', квадратного корня числителя в критерии уравнения (16), причем заштрихованные части вектора/матрицы являются ненулевыми;

Фиг.9 представляет собой графическое представление вычисления Ek', знаменателя критерия уравнения (16), причем заштрихованные части вектора/матрицы являются ненулевыми;

Фиг.10 представляет собой графическое представление вычисления матрицы Z T свертки; в данном примере формирующий фильтр G(z) имеет только три (3) ненулевых коэффициента (L 1/2=1);

Фиг.11 представляет собой схематическую блок-схему примера части TM CELP-декодера;

Фиг.12а представляет собой схематическую блок-схему примера структуры фильтра Q(z);

Фиг.12b представляет собой график примера модификации кодового вектора глоттальной формы, причем повторяемый импульс обозначен пунктиром;

Фиг.13 представляет собой схематическую блок-схему части TM CELP-кодера, включающего в себя фильтр Q(z);

Фиг.14 представляет собой график, иллюстрирующий кодовый вектор глоттальной формы с двухимпульсной структурой, когда поиск по адаптивной кодовой книге используется в части подкадра с поиском по кодовой книге глоттальных форм;

Фиг.15 представляет собой график, иллюстрирующий структуру кодового вектора глоттальных форм в случае, когда второй глоттальный импульс появляется в первых L 1/2 положениях следующего подкадра;

Фиг.16 представляет собой схематическую блок-схему части TM кодера, используемого в реализации кодека EV-VBR (вложенной переменной скорости передачи в битах);

Фиг.17а представляет собой график, изображающий пример речевого сигнала во временной области;

Фиг.17b представляет собой график, изображающий остаточный сигнал LP, соответствующий речевому сигналу на фиг.17а;

Фиг.17с представляет собой график, изображающий сигнал возбуждения первого этапа в безошибочных условиях;

Фиг.18а-18с представляют собой графики, иллюстрирующие пример сравнения структуры вступления, на которых график на фиг.18а представляет входной речевой сигнал, график на фиг.18b представляет выходную синтезированную речь кодека EV-VBR без способа кодирования TM, и график на фиг.18с представляет выходную синтезированную речь кодека EV-VBR со способом кодирования TM;

Фиг.19а-19с представляют собой графики, иллюстрирующие пример эффекта способа кодирования TM в случае стирания кадра, причем график на фиг.19а представляет входной речевой сигнал, график на фиг.19b представляет выходную синтезированную речь кодека EV-VBR без способа кодирования TM, и график на фиг.19с представляет выходную синтезированную речь кодека EV-VBR со способом кодирования TM;

Фиг.20 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_1_1;

Фиг.21 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_1_2;

Фиг.22 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_1_3;

Фиг.23 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_1_4;

Фиг.24 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_2;

Фиг.25 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_3;

Фиг.26 представляет собой график, иллюстрирующий пример сигнала возбуждения первого этапа в одном кадре конфигурации TRANSITION_4; и

Фиг.27 представляет собой схематическую блок-схему системы речевой связи, иллюстрирующую использование устройств кодирования и декодирования речи.

Подробное описание изобретения

Неограничительный иллюстративный вариант осуществления настоящего изобретения относится к способу и устройству, целью которых является устранение распространения ошибки в вышеописанных ситуациях и повышение эффективности кодирования.

Более конкретно, способ и устройство согласно неограничительному иллюстративному варианту осуществления настоящего изобретения реализует специальное кодирование, называемое способом кодирования в режиме перехода (TM), кадров перехода и кадров, следующих за переходом в звуковом сигнале, например речевом или аудиосигнале. Способ кодирования TM заменяет адаптивную кодовую книгу кодека CELP новой кодовой книгой форм глоттальных импульсов, ниже в данном документе обозначенной как кодовая книга глоттальных форм, в кадрах перехода и в кадрах, следующих за переходом. Кодовая книга глоттальных форм представляет собой фиксированную кодовую книгу, не зависимую от прошлого возбуждения. Следовательно, если стирание кадра завершилось, кодер и декодер используют одно и то же возбуждение, посредством чего сходимость к синтезу чистого канала является достаточно быстрой.

Хотя использование способа кодирования TM в кадрах, следующих за переходом, способствует предотвращению распространения ошибок в случае, когда потерян кадр перехода, другим назначением использования способа кодирования TM также в кадре перехода является повышение эффективности кодирования. Например, как раз перед вокализованным вступлением адаптивная кодовая книга обычно содержит шумоподобный сигнал, не очень эффективный для кодирования начала вокализованного сегмента. Идеей в основе способа кодирования TM является таким образом дополнение адаптивной кодовой книги лучшей кодовой книгой, заполненной упрощенными квантованными версиями глоттальных импульсов для кодирования вокализованных вступлений.

Предлагаемый способ кодирования TM может использоваться в любом кодеке типа CELP или кодеке с предсказанием. В качестве примера, способ кодирования TM реализован в испытываемом кодеке в процессе стандартизации международного союза электросвязи - сектора телекоммуникаций (ITU-T) в отношении кодека с вложенной переменной скоростью передачи в битах, который упоминается в оставшейся части текста как кодек EV-VBR. Хотя неограничительный иллюстративный вариант осуществления настоящего изобретения описывается в связи с инфраструктурой кодека EV-VBR, необходимо помнить, что принципы и идеи настоящего изобретения не ограничиваются применением кодека EV-VBR, но любого другого кодека, использующего кодирование с предсказанием. Также, хотя неограничительный иллюстративный вариант осуществления настоящего изобретения описывается в связи с речевым сигналом, необходимо помнить, что настоящее изобретение не ограничивается применением с речевыми сигналами, но его принципы и идеи могут применяться с любыми другими типами звуковых сигналов, включая аудиосигналы.

Речевой кадр можно грубо классифицировать на один из четырех (4) следующих классов речи (это более подробно объясняется в нижеследующем описании):

- неактивные кадры, характеризуемые отсутствием речевой активности;

- невокализованные речевые кадры, характеризуемые апериодической структурой и концентрацией энергии к более высоким частотам;

- вокализованные речевые кадры, имеющие явную квазипериодическую сущность, при этом энергия концентрируется, главным образом, на низких частотах; и

- любой другой кадр, классифицируемый как переход, имеющий быстро изменяющиеся характеристики.

В кодеке EV-VBR специализированный режим кодирования был разработан для каждого из классов. Может быть указано, как правило, что неактивные кадры обрабатываются посредством генерирования комфортного шума, невокализованные речевые кадры - посредством режима оптимизированного невокализованного кодирования, вокализованные речевые кадры - посредством режима оптимизированного вокализованного кодирования, и все другие кадры обрабатываются при помощи обобщенной технологии линейного предсказания с алгебраическим кодовым возбуждением (ACELP). В инфраструктуре кодека EV-VBR способ кодирования TM, таким образом, представляется как еще другой режим кодирования в схеме кодирования EV-VBR для кодирования кадров перехода и кадров, следующих за переходом.

Фиг.27 представляет собой схематическую блок-схему системы речевой связи, описывающую использование кодирования и декодирования речи. Система речевой связи поддерживает передачу и воспроизведение речевого сигнала по каналу 905 связи. Хотя он может содержать, например, проводную, оптическую или волоконно-оптическую линию связи, канал 905 связи обычно содержит, по меньшей мере частично, радиочастотную линию связи. Радиочастотная линия связи часто поддерживает многочисленные одновременные речевые связи, требующие совместно используемых ресурсов полосы пропускания, например те, которые можно найти в сотовой телефонии. Хотя не показано, канал 905 связи может быть заменен запоминающим устройством в варианте осуществления с одним устройством системы связи, которое записывает и сохраняет кодированный речевой сигнал для последующего воспроизведения.

Ссылаясь снова на фиг.27, микрофон 901 создает аналоговый речевой сигнал, который подается на аналого-цифровой (A/D) преобразователь 902 для преобразования его в цифровой вид. Речевой кодер 903 кодирует цифровой речевой сигнал, таким образом создавая набор параметров кодирования, которые кодируются в двоичную форму и подаются на канальный кодер 904. Необязательный канальный кодер добавляет избыточность в двоичное представление параметров кодирования перед передачей их по каналу 905 связи. На стороне приемника канальный декодер 906 использует вышеупомянутую избыточную информацию в принимаемом битовом потоке для обнаружения и коррекции ошибок канала, которые имели место при передаче. Речевой декодер 907 преобразует битовый поток, принимаемый от канального декодера 906 обратно в набор параметров кодирования для создания синтезированного цифрового речевого сигнала. Синтезированный цифровой речевой сигнал, восстановленный в речевом декодере 907, преобразуется в аналоговый вид в цифроаналоговом (D/A) преобразователе 908 и воспроизводится в блоке 909 громкоговорителя.

Краткая история CELP

Речевой кодек состоит из двух основных частей: кодера и декодера. Кодер оцифровывает аудиосигнал, выбирает ограниченное количество параметров кодирования, представляющих речевой сигнал, и преобразует эти параметры в цифровой битовый поток, который передается декодеру по каналу связи. Декодер восстанавливает речевой сигнал так, чтобы он был максимально возможно подобен исходному речевому сигналу. В настоящее время широко распространенный способ кодирования речи основывается на линейном предсказании (LP) и, более конкретно, на технологии CELP. При основанном на LP кодировании речевой сигнал синтезируется посредством фильтрации сигнала возбуждения при помощи полюсного синтезирующего фильтра 1/A(z). При CELP возбуждение обычно состоит из двух частей, сигнал возбуждения первого этапа выбирается из адаптивной кодовой книги, а сигнал возбуждения второго этапа выбирается из фиксированной кодовой книги. Вообще говоря, возбуждение адаптивной кодовой книги моделирует периодическую часть возбуждения, и возбуждение фиксированной кодовой книги добавляется для моделирования процесса изменения речевого сигнала.

Речь обычно обрабатывается кадрами обычно по 20 мс, и коэффициенты фильтра LP передаются один раз в течение кадра. При CELP каждый кадр дополнительно делится на несколько подкадров для кодирования сигнала возбуждения. Длительность подкадра обычно составляет 5 мс.

Как показано на фиг.1а и 1b, главный принцип в основе CELP называется анализ через синтез, где возможные выходные результаты декодера испытываются (синтез) уже во время процесса кодирования (анализ) и затем сравниваются с исходным речевым сигналом. Поиск минимизирует среднеквадратическую ошибку между входным речевым сигналом s(n) и синтезированным речевым сигналом s'(n) в области, взвешенной с учетом восприятия, где дискретный временной индекс n=0, 1, …, N-1 и N представляет собой длительность подкадра. Взвешивающий с учетом восприятия фильтр W(z) применяет эффект частотного маскирования и обычно выводится из фильтра LP. Пример взвешивающего с учетом восприятия фильтра W(z) представляется следующим уравнением (1):

где коэффициенты y 1 и y 2 управляют величиной взвешивания с учетом восприятия и сохраняют соотношение 0<y 2<y 1≤1. Этот традиционный взвешивающий с учетом восприятия фильтр хорошо работает для узкополосных (NB) (узкая полоса - полоса частот 200-3400 Гц) сигналов. Пример взвешивающего с учетом восприятия фильтра для широкополосных (WB) (широкая полоса - полоса частот 50-7000 Гц) сигналов можно найти в ссылке [1].

Битовый поток, передаваемый на декодер, содержит для вокализованных кадров следующие параметры кодирования: квантованные параметры синтезирующего фильтра LP, индексы адаптивной и фиксированной кодовых книг и коэффициенты усиления адаптивных и фиксированных частей.

Поиск по адаптивной кодовой книге

Поиск по адаптивной кодовой книге в основанных на CELP кодеках выполняется в области взвешенной речи для определения задержки (периода основного тона) t и коэффициента g p усиления основного тона и восстановления квазипериодической части сигнала возбуждения, упоминаемой как адаптивный кодовый вектор v(n). Период основного тона сильно зависит от конкретного говорящего, и его точное определение критично влияет на качество синтезированной речи.

В кодеке EV-VBR используется трехэтапная процедура для определения периода и коэффициента усиления основного тона. На первом этапе три оценки T op основного тона по открытому циклу вычисляются для каждого кадра - одна оценка для каждого 10-мс полукадра и одна для 10-мс предварительного просмотра, используя взвешенный с учетом восприятия речевой сигнал s w (n) и вычисление нормализованной корреляции. На втором этапе выполняется поиск основного тона по закрытому циклу для целочисленных периодов вокруг оцененных периодов T op основного тона по открытому циклу для каждого подкадра. Если обнаружен оптимальный целочисленный период основного тона, третий этап поиска проходит по дробным частям около этого оптимального целочисленного значения. Выполняется поиск основного тона по закрытому циклу посредством минимизирования среднеквадратической взвешенной ошибки между исходной и синтезированной речью. Это достигается посредством максимизирования члена

где x 1 (n) представляет собой целевой сигнал, и сигнал вклада первого этапа (также называемый фильтрованным адаптивным кодовым вектором) y 1(n) вычисляется посредством свертки сигнала v(n) прошлого возбуждения периода t с импульсным откликом h(n) синтезирующего фильтра H(z) со взвешиванием

Взвешенный с учетом восприятия входной речевой сигнал s w(n) получается посредством обработки входного речевого сигнала s(n) при помощи взвешивающего с учетом восприятия фильтра W(z). Фильтр H(z) формируется посредством каскадного включения синтезирующего фильтра 1/A(z) LP и взвешивающего с учетом восприятия фильтра W(z). Целевой сигнал x 1 (n) соответствует взвешенному с учетом восприятия входному речевому сигналу s w(n) после вычитания из него отклика с нулевым входным сигналом фильтра H(z).

Коэффициент усиления основного тона находится посредством минимизирования среднеквадратической ошибки между сигналом x 1 (n) и сигналом y 1(n) вклада первого этапа. Коэффициент усиления основного тона выражается следующим уравнением:

Коэффициент усиления основного тона затем ограничивается посредством 0≤g p≤1,2 и обычно совместно квантуется с коэффициентом усиления фиксированной кодовой книги, если найдено порождение.

В основанных на CELP кодеках сигнал возбуждения в начале обрабатываемого в настоящий момент кадра таким образом восстанавливается из сигнала возбуждения из предыдущего кадра. Этот механизм является очень эффективным для вокализованных сегментов речевого сигнала, где сигнал является квазипериодическим, и в отсутствие ошибок передачи. В случае стирания кадра теряется сигнал возбуждения из предыдущего кадра, и соответствующие адаптивные кодовые книги кодера и декодера больше не являются одинаковыми. В кадрах, следующих за стиранием, декодер тогда продолжает синтезировать речь, используя адаптивную кодовую книгу с неправильным содержимым. Следовательно, стирание кадра снижает качество синтезированной речи не только в течение стертого кадра, но оно также может снижать качество синтезированной речи в течение нескольких последующих кадров. Традиционные способы маскирования часто основываются на повторении формы волны предыдущего правильно переданного кадра, но эти способы эффективно работают только в частях сигнала, где характеристики речевого сигнала являются квазистационарными, например в стабильных вокализованных сегментах. В данном случае разность между соответствующими адаптивными кодовыми книгами кодера и декодера часто очень незначительная, и она не сильно сказывается на качестве синтезированного сигнала. Однако, если стирание попадает в кадр перехода, сильно ограничивается эффективность этих способов. В системах связи, использующих основанные на CELP кодеки, где вероятность стирания кадра (FER) обычно равна 3%-5%, тогда сильно падает качество синтезированной речи.

Даже при передаче по чистому каналу эффективность адаптивной кодовой книги ограничивается в кадрах перехода; CELP-кодер использует адаптивную кодовую книгу для применения периодичности в речи, которая является малой или отсутствует во время переходов, посредством чего снижается эффективность кодирования. Это в случае вокализованных вступлений, в частности там, где сигнал прошлого возбуждения и сигнал оптимального возбуждения для текущего кадра коррелируются очень слабо или совсем не коррелируются.

Поиск по фиксированной кодовой книге

Целью вклада поиска по фиксированной кодовой книге (FCB) (порождений) в основанных на CELP кодеках является минимизирование остаточной ошибки после использования адаптивной кодовой книги, т.е.

где g c представляет собой коэффициент усиления фиксированной кодовой книги, и сигнал вклада второго этапа (также называемый как фильтрованный фиксированный кодовый вектор) представляет собой вектор c k(n) фиксированной кодовой книги, над которым выполнена операция свертки с h(n). Целевой сигнал x 1 (n) обновляется посредством вычитания вклада адаптивной кодовой книги из целевого значения адаптивной кодовой книги, получая:

Фиксированная кодовая книга может быть реализована, например, посредством использования алгебраической кодовой книги, как описано в ссылке [2]. Если c k обозначает алгебраический кодовый вектор с индексом k, тогда поиск по алгебраической кодовой книге выполняется посредством максимизирования следующего критерия:

где H представляет собой нижнюю треугольную теплицеву матрицу свертки с диагональю h(0) и с нижними диагоналями h(1), …, h(N-1). Вектор d=H T x 2 представляет собой корреляцию между обновленным целевым сигналом x 2 (n) и h(n) (также известный как обратный фильтрованный целевой вектор), и матрица Ф=H T H представляет собой матрицу корреляции h(n). Верхний индекс Т обозначает транспонированную матрицу или вектор. Как d , так и Ф обычно вычисляются перед поиском по фиксированной кодовой книге. Ссылка [1] описывает, что, если алгебраическая структура фиксированной кодовой книги содержит только несколько ненулевых элементов, вычисление критерия максимизирования для всех возможных индексов k является очень быстрым. Подобная процедура используется в способе кодирования в режиме перехода (TM), как описано ниже.

Считается, что CELP в других отношениях хорошо известен для специалистов в данной области техники и по этой причине не описывается дополнительно в настоящем описании изобретения.

Классификация кадров в кодеке EV-VBR

Классификация кадров в кодеке EV-VBR основывается на классификации многорежимной широкополосной технологии с переменной скоростью передачи (VMR-WB), как описано в ссылке [3]. Классификация VMR-WB выполнена с учетом стратегии маскирования и восстановления. Другими словами, любой кадр классифицируется таким образом, что маскирование может быть оптимальным, если следующий кадр отсутствует, или что восстановление может быть оптимальным, если предыдущий кадр был потерян. Нет необходимости передавать некоторые классы, используемые для обработки маскирования стирания кадра, так как они могут быть выведены без неоднозначности в декодере. Используется пять различных классов, и они определяются следующим образом:

- класс UNVOICED (невокализованный) содержит все невокализованные речевые кадры и все кадры без активной речи. Вокализованный кадр сдвига также может классифицироваться как UNVOICED, если его конец имеет тенденцию быть невокализованным, и маскирование, предназначенное для невокализованных кадров, может использоваться для следующего кадра в случае, если он потерян;

- класс UNVOICED TRANSITION (невокализованный переход) содержит невокализованные кадры с возможным вокализованным вступлением на конце. Вокализованное вступление, однако, все же очень короткое или не создается достаточным для использования маскирования, предназначенного для вокализованных кадров. Кадр UNVOICED TRANSITION может следовать только за кадром, классифицированным как UNVOICED или UNVOICED TRANSITION;

- класс VOICED TRANSITION (вокализованный переход) содержит вокализованные кадры с относительно слабыми вокализованными характеристиками. Ими являются обычно вокализованные кадры с быстро изменяющимися характеристиками (переходы между гласными звуками) или вокализованные сдвиги, продолжающиеся весь кадр. Кадр VOICED TRANSITION может следовать только за кадром, классифицированным как VOICED TRANSITION, VOICED или ONSET;

- класс VOICED (вокализованный) содержит вокализованные кадры со стабильными характеристиками. Кадр VOICED может следовать только за кадром, классифицированным как VOICED TRANSITION, VOICED или ONSET;

- класс ONSET (вступление) содержит все вокализованные кадры со стабильными характеристиками, следующие за кадром, классифицированным как UNVOICED или UNVOICED TRANSITION. Кадры, классифицированные как ONSET, соответствуют вокализованным кадрам вступления, где вступление уже достаточно правильно создано для использования маскирования, предназначенного для потерянных вокализованных кадров. Способы маскирования, используемые для стирания кадров, следующих за кадром, классифицированным как ONSET, представляют собой в традиционных основанных на CELP кодеках то же, что и кадр, классифицированный как VOICED, причем различие состоит в стратегии восстановления, когда специальный способ может использоваться для искусственного восстановления потерянного вступления. Согласно неограничительному иллюстративному варианту осуществления настоящего изобретения, способ кодирования TM успешно используется в данном случае.

Диаграмма состояний классификации представлена в общих чертах на фиг.2. Информация о классификации передается с использованием 2 битов. Как можно видеть на фиг.2, класс UNVOICED TRANSITION и класс VOICED TRANSITION могут быть сгруппированы вместе, так как они могут однозначно различаться в декодере (кадр UNVOICED TRANSITION может следовать только за кадрами UNVOICED или UNVOICED TRANSITION, кадр VOICED TRANSITION может следовать только за кадрами ONSET, VOICED или VOICED TRANSITION).

Следующие параметры используются для классификации: нормализованная корреляция , мера e't изменения относительного уровня спектральных составляющих, счетчик pc стабильности основного тона, относительная энергия кадра речевого сигнала в конце текущего кадра E rel и счетчик zc пересечения нуля. Как можно видеть в следующем подробном анализе, вычисление этих параметров использует предварительный просмотр. Предварительный просмотр позволяет выполнять оценку процесса изменения речевого сигнала в следующем кадре, и следовательно, классификация может выполняться посредством принятия во внимание будущего характера изменения речевого сигнала.

Средняя нормализованная корреляция вычисляется в виде среднего значения максимальной нормализованной корреляции второго полукадра и предварительного просмотра, используя следующее уравнение:

Максимальные нормализованные корреляции C norm вычисляются как часть поиска основного тона по открытому циклу и соответствуют максимизированным нормализированным корреляциям двух соседних периодов основного тона взвешенного речевого сигнала.

Параметр e't изменения относительного уровня спектральных составляющих содержит информацию о частотном распределении энергии. Изменение относительного уровня спектральных составляющих для одного спектрального анализа оценивается как отношение между энергией, сконцентрированной на нижних частотах, и энергией, сконцентрированной на высоких частотах. В данном случае используемая мера изменения относительно уровня представляет собой среднее в логарифмической области мер e tilt(0) и e tilt(1) изменения относительного уровня спектральных составляющих, определенных как отношение энергий на низких и высоких частотах. Т.е.:

Счетчик pc стабильности основного тона оценивает изменение периода основного тона. Он вычисляется следующим образом:

Значения T op0, T op1 и T op2 соответствуют оценкам основного тона по открытому циклу из первой половины текущего кадра, второй половины текущего кадра и предварительного просмотра соответственно.

Относительная энергия E rel кадра вычисляется как разность в дБ между энергией текущего кадра и долговременным средним значением энергии активной речи.

Последним параметром является параметр zc пересечения нуля, вычисляемый по 20-мс сегменту речевого сигнала. Сегмент начинается в середине текущего кадра и использует два подкадра предварительного просмотра. В данном случае счетчик zc пересечения нуля подсчитывает количество раз, когда знак речевого сигнала изменяется с положительного на отрицательный в течение данного интервала.

Чтобы сделать классификацию более устойчивой к ошибкам, параметры классификации рассматриваются вместе, формируя оценочную функцию f m. С этой целью параметры классификации сначала масштабируются от 0 до 1, так что значение параметра, обычное для невокализованного речевого сигнала, преобразуется в 0, а значение каждого параметра, обычное для вокализованного речевого сигнала, преобразуется в 1. Между ними используется линейная функция. Масштабированная версия p s некоторого параметра p x получается с использованием уравнения:

Коэффициенты k p и c p функции были определены экспериментально для каждого параметра, так что является минимальным искажение сигнала из-за способов маскирования и восстановления, используемых при наличии ошибок кадра. Используемые значения просуммированы в таблице 1.

Таблица 1
Параметры классификации сигнала и коэффициенты их соответствующих функций масштабирования
Параметр Значение kp cP
Нормализованная корреляция 2,857 -1,286
Изменение относительного уровня спектральных составляющих 0,04167 0
pc Счетчик стабильности основного тона -0,07143 1,857
Erel Относительная энергия кадра 0,05 0,45
zc Счетчик пересечения нуля -0,04 2,4

Тогда оценочная функция f m будет определяться как:

где верхний индекс s обозначает масштабированную версию параметров.

Первое принятие решения по классификации выполняется для класса UNVOICED следующим образом:

где local_VAD обозначает локальное обнаружение периодов активности речи.

Если вышеупомянутое условие (13) не выполняется, тогда классификация продолжается с использованием оценочной функции f m и следуя правилам, просуммированным в таблице 2.

Таблица 2
Правила классификации сигнала в кодере
Класс предыдущего кадра Правило Класс текущего кадра
ONSET fm>0,66 VOICED
VOICED 0,66>fm>0,49 VOICED TRANSITION
VOICED TRANSITION fm<0,49 UNVOICED
UNVOICED TRANSITION fm>0,63 ONSET
UNVOICED 0,63>fm>0,585 UNVOICED TRANSITION
fm<0,585 UNVOICED

Информация о классе кодируется двумя битами, как объяснено в данном документе выше. Несмотря на тот факт, что дополнительная информация, которая улучшает маскирование стирания кадра, передается только в обобщенных кадрах, классификация выполняется для каждого кадра. Это необходимо для поддержания обновленным конечного автомата классификации, так как он использует информацию о классе предыдущего кадра. Классификация, однако, является непосредственной для типов кодирования, предназначенных для кадров UNVOICED или VOICED. Следовательно, вокализованные кадры всегда классифицируются как VOICED, а невокализованные кадры всегда классифицируются как UNVOICED.

Выбор кадра для кодирования TM

Как описано ранее, описываемый способ заменяет адаптивную кодовую книгу в основанных на CELP кодерах кодовой книгой глоттальных форм, чтобы повысить устойчивость к стираниям кадров и повысить эффективность кодирования, когда обрабатываются нестационарные речевые кадры. Это означает, что данный способ не создает сигнал возбуждения первого этапа с использованием прошлого возбуждения, но выбирает сигнал возбуждения первого этапа из кодовой книги глоттальных форм. Сигнал возбуждения второго этапа (часть порождения полного возбуждения) все же выбирается из традиционной фиксированной кодовой книги CELP. Любая из этих кодовых книг не использует информацию из прошлых (ранее переданных) речевых кадров, таким образом устраняя основную причину распространения ошибок кадров, присущую основанным на CELP кодерам.

Систематическое использование способа кодирования TM (для кодирования всех кадров) в значительной степени ограничит распространение ошибки, но эффективность кодирования и качество синтезированной речи понизится при безошибочных условиях. В качестве компромисса между рабочими характеристиками чистого канала кодека и его устойчивостью к ошибкам канала способ кодирования TM может применяться только к кадрам перехода и к нескольким кадрам, следующим за каждым кадром перехода. Что касается устойчивости к стиранию кадра, способ кодирования TM может использоваться для вокализованных речевых кадров, следующих за переходами. Как описано ранее, эти переходы содержат в основном вокализованные вступления и переходы между двумя различными вокализованными звуками. Чтобы выбрать относящиеся кадры для кодирования, используя способ кодирования TM, обнаруживаются переходы. Хотя может использоваться любой обнаружитель переходов, неограничительный иллюстративный вариант осуществления использует классификацию инфраструктуры EV-VBR, как описано в данном документе выше.

Способ кодирования TM может применяться для кодирования кадров перехода (вокализованного вступления или перехода между двумя различными вокализованными звуками), как описано выше, и нескольких последующих кадров. Количество кадров TM (кадров, кодируемых с использованием способа кодирования TM) является вопросом компромисса между рабочими характеристиками кодека в условиях чистого канала и в условиях с ошибками канала. Если только кадры перехода (вокализованного вступления или перехода между двумя различными вокализованными звуками) кодируются с использованием способа кодирования TM, повышается эффективность кодирования. Это повышение может измеряться, например, увеличением сегментного отношения сигнал-шум (SNR). SNR вычисляется с использованием следующего уравнения:

где E sd представляет собой энергию входного речевого сигнала текущего кадра, и E e представляет собой энергию ошибки между данным входным речевым сигналом и речевым сигналом синтеза текущего кадра.

Однако использование способа кодирования TM для кодирования только кадров перехода не сильно способствует устойчивости к ошибкам; если кадр перехода (вокализованного вступления или перехода между двумя различными вокализованными звуками) потерян, ошибка будет распространяться, так как последующие кадры будут кодироваться с использованием стандартной процедуры CELP. С другой стороны, если кадр, предшествующий кадру перехода (вокализованного вступления или перехода между двумя различными вокализованными звуками) потерян, влияние этого потерянного предыдущего кадра на рабочие характеристики не является критичным даже без использования способа кодирования TM. В случае переходов вокализованного вступления, вероятно, что кадр, предшествующий вступлению, является невокализованным и не является важным вклад адаптивной кодовой книги. В случае перехода между двумя вокализованными звуками кадр перед переходом, как правило, является в некоторой степени стационарным, и состояние адаптивной кодовой книги в кодере и декодере часто является подобным после стирания кадра.

Чтобы повысить устойчивость к ошибкам, кадры, следующие за переходом (вокализованным вступлением или переходом между двумя различными вокализованными звуками), могут кодироваться с использованием способа кодирования TM. Если не является важным улучшение рабочих характеристик чистого канала, способ кодирования TM может использоваться только в кадрах, следующих за кадрами перехода. В основном количество последовательных кадров TM зависит от количества последовательных стираний кадра, которые хотят учесть для защиты. Если учитываются только отдельные стирания (т.е. одно отдельное стирание кадра единовременно), достаточно кодировать только кадр, следующий за кадром перехода (вокализованного вступления или перехода между двумя различными вокализованными звуками). Если потерян кадр перехода (вокализованного вступления или перехода между двумя различными вокализованными звуками), следующий кадр кодируется без использования сигнала прошлого возбуждения и нарушается распространение ошибки. Необходимо указать, однако, что, если кадр перехода (вокализованного вступления или перехода между двумя различными вокализованными звуками) передается правильно, но последующий кадр теряется, распространение ошибки не будет предотвращаться, так как следующий кадр уже использует классическое CELP-кодирование. Однако искажение, вероятно, будет ограничиваться, если по меньшей мере один период основного тона уже является правильно построенным в конце перехода (вокализованного вступления или перехода между двумя различными вокализованными звуками), как показано на фиг.3.

Когда реализация способа кодирования TM выполняется в некотором существующем кодеке и известен класс текущего кадра и режим кодирования, может использоваться следующая схема для установки вступления и последующих кадров для кодирования TM. Параметр state (состояние), который представляет собой счетчик ранее использованных последовательных кадров TM, сохраняется в памяти состояний кодера. Если значение данного параметра state является отрицательным, не может использоваться кодирование TM. Если параметр state не является отрицательным, но меньше или равен количеству последовательных стираний кадра для защиты, и классом кадра является ONSET, VOICED или VOICED TRANSITION, кадр обозначается как кадр TM (см. фиг.4 в отношении дополнительных подробностей). Другими словами, кадр обозначается как кадр TM, если N_TM_FRAMES≥state>0, где N_TM_FRAMES представляет собой количество последовательных кадров для предотвращения, используя способ кодирования TM.

Если ожидается, что характеристики канала связи такие, что более одного отдельного кадра часто стирается единовременно, т.е. что стирания кадра имеют тенденцию появления пачками, наилучшим решением может быть использование способа кодирования TM для защиты двух или даже более последовательных стираний кадра. Однако эффективность кодирования в условиях чистого канала будет снижаться. Если обратная связь о канале доступна в кодере, количество последовательных кадров TM может быть сделано адаптивным к условиям передачи. В неограничительном иллюстративном варианте осуществления настоящего изобретения рассматривается до двух кадров TM, следующих за кадром перехода (вокализованного вступления или перехода между двумя различными вокализованными звуками), что соответствует конструкции, способной справляться с вплоть до двух последовательных стираний кадра.

Вышеописанное решение использует в основном фиксированное количество (или это количество фиксируется перед передачей, или оно зависит от условий канала передачи) кадров TM, следующих за кадром перехода (вокализованного вступления или перехода между двумя различными вокализованными звуками). Компромисс между рабочими характеристиками чистого канала и устойчивостью к ошибкам кадров также может основываться на классификации по закрытому циклу. Более конкретно, в кадре, который хотят защитить от стирания предыдущего кадра или хотят принять решение, является ли он кадром вступления, вычисление двух возможных режимов кодирования выполняется параллельно; кадр обрабатывается как с использованием обобщенного режима кодирования (CELP), так и способа кодирования TM. Рабочие характеристики обоих подходов затем сравниваются с использованием меры SNR, например, в отношении дополнительных подробностей см. следующий раздел, озаглавленный «Рабочие характеристики способа кодирования TM в кодеке EV-VBR». Когда различие между SNR для обобщенного режима кодирования (CELP) и SNR для способа кодирования TM больше, чем данный порог, применяется обобщенный режим кодирования (CELP). Если различие между SNR для обобщенного режима кодирования (CELP) и SNR для способа кодирования TM меньше, чем данный порог, применяется способ кодирования TM. Значение порога выбирается в зависимости от того, насколько сильной требуется защита от стирания кадра и определение кодирования вступления.

Выбор подкадра для поиска по кодовой книге глоттальных форм

В предыдущем разделе были описаны причины и механизмы для выбора кадров для кодирования, используя способ кодирования TM. Теперь будет показано, что, как правило, является более эффективным не использовать кодовую книгу глоттальных форм во всех подкадрах для достижения наилучшего компромисса между рабочими характеристиками чистого канала при данной скорости передачи в битах и рабочими характеристиками в присутствии стирания в кадрах, предшествующих кадрам TM. Во-первых, поиск по кодовой книге глоттальных форм является важным только в первом периоде основного тона в кадре. Последующие периоды основного тона могут кодироваться с использованием более эффективного стандартного поиска по адаптивной кодовой книге, так как они больше не используют возбуждение прошлого кадра (когда выполняется поиск по адаптивной кодовой книге, выполняется поиск возбуждения вплоть до примерно одного периода основного тона в прошлом). Поэтому нет причин применять поиск по кодовой книге глоттальных форм в подкадрах, не содержащих часть первого периода основного тона кадра.

Аналогично, когда используется поиск по кодовой книге глоттальных форм для повышения эффективности кодирования в кадрах вокализованного вступления, данный поиск по кодовой книге глоттальных форм используется на первом периоде основного тона начинающегося вокализованного сегмента. Причина заключается в том, что для первого периода основного тона адаптивная кодовая книга содержит шумоподобный сигнал (предыдущий сегмент не был вокализованным) и замена его квантованным глоттальным импульсом часто повышает эффективность кодирования. В течение последующих периодов основного тона, однако, периодическое возбуждение уже было создано в адаптивной кодовой книге, и использование данной кодовой книги даст лучшие результаты. По этой причине информация о положении вокализованного вступления доступна по меньшей мере с подкадровым разрешением.

Дальнейшая оптимизация распределения битов касается кадров с периодами основного тона, которые являются более продолжительными, чем длительность подкадра. При условии, что кодовая книга глоттальных форм содержит квантованные формы глоттального импульса, кодовая книга лучше всего подходит для использования в подкадрах, содержащих глоттальный импульс. В других подкадрах ее эффективность мала. При условии, что скорость передачи в битах часто довольно ограничивается в приложениях кодирования речи и что кодирование кодовой книги глоттальных форм требует относительно большего количества битов для кодирования речи с низкой скоростью передачи в битах, в неограничительном иллюстративном варианте осуществления было выбрано распределение битов, где используется кодовая книга глоттальных форм и выполняется поиск по ней только в одном подкадре на кадр.

Чтобы выбрать подкадр, подлежащий кодированию при помощи кодовой книги глоттальных форм, выполняется поиск первого глоттального импульса в остаточном сигнале LP. Может использоваться следующая простая процедура. Выполняется поиск максимального отсчета в остаточном сигнале LP в диапазоне [0, 0+T op+2], где T op представляет собой период основного тона по открытому циклу для первого полукадра и 0 соответствует началу кадра. В случае кадров вокализованного вступления и если начало вступления может быть надежно определено 0 обозначает начало подкадра, где располагается начало вступления. Кодовая книга глоттальных форм тогда будет использоваться в подкадре с максимальной энергией остаточного сигнала. Кроме того, положение максимума предоставляет информацию, где положение глоттального импульса может примерно располагаться, и эта ситуация может применяться для уменьшения сложности, как описывается ниже. Отметьте, что, так как поиск по кодовой книге глоттальных форм заменяет только поиск по адаптивной кодовой книге, поиск по фиксированной кодовой книге выполняется в каждом подкадре кадра TM.

Другие подкадры (не кодированные с использованием кодовой книги глоттальных форм) обрабатываются следующим образом. Если подкадр, использующий поиск по кодовой книге глоттальных форм, не является первым подкадром в кадре, сигнал возбуждения в предыдущем подкадре (подкадрах) кадра кодируется с использованием только фиксированной кодовой книги CELP; это означает, что сигнал возбуждения первого этапа равен нулю. Если подкадр кодовой книги глоттальных форм не является последним подкадром в кадре, последующий подкадр (подкадры) кадра обрабатывается (обрабатываются) с использованием стандартного CELP-кодирования (т.е. используя поиск по адаптивной и фиксированной кодовой книге). На фиг.5а-5с показана ситуация для случая, когда первый глоттальный импульс появляется во 2-ом подкадре. На фиг.5b u(n) представляет собой остаточный сигнал LP. Сигнал возбуждения первого этапа обозначается q k' (n), когда он создается с использованием кодовой книги глоттальных форм, или v(n), когда он создается с использованием адаптивной кодовой книги. В данном примере (фиг.5с) сигнал возбуждения первого этапа равен нулю в 1-ом подкадре, он представляет собой кодовый вектор глоттальной формы во 2-ом подкадре и вектор адаптивной кодовой книги в последних двух подкадрах.

Чтобы дополнительно повысить эффективность кодирования и оптимизировать распределение битов, используется другая обработка в конкретных подкадрах кадра TM, зависимого от периода основного тона. Когда первый подкадр выбирается в качестве подкадра TM, определяется подкадр с 2-ым глоттальным импульсом в остаточном сигнале LP. Это определение основывается на значении периода основного тона, и тогда могут иметь место следующие четыре ситуации. В первой ситуации 2-й глоттальный импульс находится в 1-ом подкадре, и 2-й, 3-й и 4-й подкадры обрабатываются с использованием стандартного CELP-кодирования (поиск по адаптивной и фиксированной кодовой книге). Во второй ситуации 2-й глоттальный импульс находится в 2-ом подкадре, и 2-й, 3-й и 4-й подкадры обрабатываются с использованием снова стандартного CELP-кодирования. В третьей ситуации 2-й глоттальный импульс находится в 3-ем подкадре. 2-й подкадр обрабатывается с использованием поиска по фиксированной кодовой книги только тогда, когда нет глоттального импульса во 2-ом подкадре остаточного сигнала LP, подлежащего поиску для использования адаптивной кодовой книги. 3-й и 4-й подкадры обрабатываются с использованием стандартного CELP-кодирования. В последней (четвертой) ситуации 2-й глоттальный импульс находится в 4-ом подкадре (или в следующем кадре), 2-й и 3-й подкадры обрабатываются с использованием только поиска по фиксированной кодовой книге, и 4-й подкадр обрабатывается с использованием стандартного CELP-кодирования. Более подробное описание приведено ниже в примерной реализации.

Таблица 3 изображает названия возможных конфигураций кодирования и статистику их появления. Другими словами, таблица 3 предоставляет распределение появлений первого и второго глоттальных импульсов в каждом подкадре для кадров, обрабатываемых при помощи способа кодирования TM. Таблица 3 соответствует сценарию, когда используется способ кодирования TM для кодирования только кадра вокализованного вступления и одного последующего кадра. Длительность кадра речевого сигнала в данном эксперименте была равна 20 мс, длительность подкадра - 5 мс, и эксперимент проводился с использованием голосов 32 мужчин и 32 женщин (если не упомянуто иначе, использовалась одна и та же база данных речевого ввода во всех других экспериментах, упомянутых в последующем описании).

Таблица 3
Конфигурации режима кодирования для TM и их появление, когда обрабатывается речевой сигнал
Конфигурация кодирования Положение (положения) первого (и второго, если подходит) глоттального импульса (импульсов) Тип используемой кодовой книги
(GS=глоттальных форм, A=адаптивная, F=фиксированная)
Величина
(%)
1-й подкадр 2-й подкадр 3-й подкадр 4-й подкадр
TRANSITION_1_1 GS+F A+F A+F A+F 25,5
TRANSITION_1_2 GS+F A+F A+F A+F 28,4
TRANSITION_1_3 GS+F F A+F A+F 16,3
TRANSITION_1_4 GS+F F F A+F 3,0
TRANSITION_2 F GS+F A+F A+F 21,2
TRANSITION_3 F F GS+F A+F 4,6
TRANSITION_4 F F F GS+F 1,0

Кодовая книга глоттальных форм

В принципе, кодовая книга глоттальных форм состоит из квантованных нормализованных форм глоттальных импульсов, размещенных в заданном положении. Следовательно, поиск по кодовой книге состоит как из выбора наилучшей формы, так и в определении ее наилучшего положения в конкретном подкадре. В ее самом простом виде форма глоттального импульса может быть представлена единичным импульсом, и она не требует квантования. В этом случае определяется только ее положение в подкадре. Однако рабочие характеристики такой простой кодовой книги являются очень ограниченными.

С другой стороны, наилучшее представление, вероятно, достигалось бы тогда, когда длительность L элементов кодовой книги глоттальных форм соответствовала длительности периода основного тона и было представлено большое количество форм глоттальных импульсов. Так как длительность и форма глоттальных импульсов изменяется от говорящего к говорящему и от кадра к кадру, сложность и требования к памяти для выполнения поиска и сохранения такой кодовой книги были бы слишком экстенсивными. В качестве компромисса должна ограничиваться длительность глоттальных импульсов, а также их количество. В неограничительном иллюстративном варианте осуществления кодовая книга глоттальных форм состоит из восьми (8) различных форм глоттальных импульсов, и длительность каждого глоттального импульса составляет L=17 отсчетов. Квантованные формы были выбраны так, что абсолютный максимум находится рядом с серединой данной длительности. Во время поиска по кодовой книге глоттальных форм данная середина выравнивается с индексом k', который представляет положение глоттального импульса в текущем подкадре и выбирается из интервала [0, N-1], причем N представляет собой длительность подкадра. Так как длительность элементов кодовой книги из 17 отсчетов является более короткой, чем длительность подкадра, остальные отсчеты устанавливаются в нуль.

Кодовая книга глоттальных форм предназначена для представления максимально возможного количества существующих глоттальных импульсов. Использовался процесс обучения, основанный на алгоритме k средних [4]; кодовая книга глоттальных форм обучалась с использованием более трех (3) часов речевого сигнала, составленного из фрагментов речи многих различных говорящих на нескольких различных языках. Из этой базы данных были извлечены глоттальные импульсы из остаточного сигнала LP и усечены до 17 отсчетов около максимального абсолютного значения. Из шестнадцати (16) форм, выбранных при помощи алгоритма k средних, количество форм было дополнительно уменьшено до восьми (8) форм, экспериментально использующих меру качеств сегментного SNR. Выбранная кодовая книга глоттальных форм показана на фиг.6. Очевидно, что другие средства могут использоваться для разработки кодовой книги глоттальных форм.

Поиск по кодовой книге глоттальных форм

Фактическая реализация кодовой книги глоттальных форм может быть выполнена несколькими путями. Например, поиск может выполняться аналогично поиску по фиксированной кодовой книге в CELP. В данном случае кодовая книга создается посредством размещения центра форм глоттальных импульсов во всех возможных положениях в подкадре. Например, для длительности подкадра с шестьюдесятью четырьмя (64) отсчетами и восемью (8) формами глоттальных импульсов получается кодовая книга глоттальных форм размера 64×8=512 кодовых векторов. Согласно другому примеру аналогично поиску по адаптивной книге элементы кодовой книги могут последовательно размещаться во всех потенциальных положениях в прошлом возбуждении, и наилучшая комбинация формы/положения может быть выбрана аналогичным образом, который используется в поиске по адаптивной кодовой книге. В последней реализации все повторения циклов основного тона автоматически выполняются при помощи CELP-фильтра с большой постоянной времени, и глоттальные импульсы представляются полноразмерными формами (в противоположность первой реализации, где усечение глоттальной формы необходимо в граничных случаях, что описано ниже).

Неограничительный иллюстративный вариант осуществления использует конфигурацию, где поиск по кодовой книге аналогичен поиску по фиксированной кодовой книге в алгебраическом CELP (ACELP). В этом подходе для каждой из возможных форм форма представляется как импульсный отклик формирующего фильтра G(z). Таким образом, кодовые векторы, соответствующие формам глоттальных импульсов, сцентрированных в различных положениях, могут представляться кодовыми векторами, содержащими только один ненулевой элемент, отфильтрованный при помощи формирующего фильтра G(z) (для размера N подкадра существует N одноимпульсных векторов для потенциальных положений k' глоттальных импульсов).

Вследствие того, что положение k' глоттального импульса находится в середине глоттальной формы с нечетной длительностью L отсчетов, а k' из диапазона [0, N-1], глоттальная форма должна усекаться для первого и для последнего L 1/2=(L-1)/2 отсчетов. Это учитывается во время поиска глоттального импульса, так как это делает формирующий фильтр G(z) непричинным фильтром.

Конфигурация части TM показана на фиг.7 для кодера и на фиг.11 - для декодера. Как уже упомянуто, часть TM заменяет часть адаптивной кодовой книги кодера/декодера. Во время поиска импульсный отклик формирующего фильтра G(z) может быть интегрирован в импульсный отклик фильтра H(z).

Ниже описывается процедура и соответствующее устройство поиска по кодовой книге для поиска оптимального положения k' центра глоттального импульса для некоторой формы глоттального импульса, воспроизводимого формирующим фильтром G(z). Так как форма фильтра G(z) выбирается из нескольких возможных форм (восемь (8) форм используются в неограничительном иллюстративном варианте осуществления, как изображено на фиг.6), процедура поиска должна повторяться для каждой глоттальной формы кодовой книги, чтобы найти оптимальную форму и положение импульса.

Чтобы определить параметры кодирования TM, поиск определяет среднеквадратическую ошибку между целевым вектором x 1 и кодовым вектором глоттальной формы, сцентрированным в положении k', которая фильтруется при помощи синтезирующего фильтра H(z) со взвешиванием. Аналогично CELP поиск может выполняться посредством нахождения максимума критерия в виде:

где y 1 представляет собой фильтрованный кодовый вектор глоттальной формы. Пусть q k' обозначает кодовый вектор глоттальной формы, сцентрированный в положении k', и p k' - кодовый вектор положения, причем один (1) ненулевой элемент указывает положение k', тогда q k' может быть записано как q k'= G·p k', где G представляет собой теплицеву матрицу, представляющую форму глоттального импульса. Поэтому подобно поиску по фиксированной кодовой книге может быть написано следующее уравнение:

где H представляет собой нижнюю треугольную теплицеву матрицу свертки синтезирующего фильтра со взвешиванием. Как описано ниже, строки матрицы Z T соответствуют фильтрованной сдвинутой версии формы глоттального импульса или его усеченного представления. Отметьте, что все векторы в данном тексте представляют собой предполагаемые векторы-столбцы (матрицы размера N×1).

Пример матрицы G в транспонированной форме (T) для длительности импульса из трех (3) отсчетов и N=4 будет иметь вид:

где g(n) представляют собой коэффициенты импульсного отклика непричинного формирующего фильтра G(z). В нижеследующем описании коэффициенты непричинного формирующего фильтра G(z) определяются значениями g(n) для n, расположенных в диапазоне [-L 1/2, L 1/2]. Из-за того факта, что кодовый вектор p k' положения имеет только один ненулевой элемент, вычисление критерия (16) является очень простым и может выражаться с использованием следующего уравнения:

Как можно видеть из уравнения (18), требует вычисления только диагональ матрицы Φ g.

Графическое представление вычисления критерия (18) для одного кодового вектора глоттальной формы показано на фиг.8 и 9. Как уже было упомянуто, уравнение (18) обычно используется при поиске по алгебраической кодовой книге ACELP посредством предварительного вычисления обратного фильтрованного целевого вектора d g и корреляционной матрицы Φ g. Однако при заданной непричинной сущности формирующего фильтра G(z) он не может непосредственно применяться для первых L 1/2 положений. В данных ситуациях используется более сложный поиск, когда некоторые вычисленные значения могут все же повторно использоваться для поддержания сложности на низком уровне. Это описывается ниже в данном документе.

Обозначим z k' (k'+1)-ю строку матрицы Z T, где матрица Z T (фиг.10) вычисляется следующим образом. При заданной непричинной сущности формирующего фильтра G(z) матрица Z T вычисляется за два этапа, чтобы минимизировать сложность вычислений. Сначала вычисляются первые L 1/2+1 строки данной матрицы. Для остальной части матрицы Z T (последние N-L 1/2-1 строки матрицы Z T) используется критерий (18) таким образом, который подобен поиску по фиксированной кодовой книге ACELP.

Ниже приводится подробное описание того, как вычислять матрицу Z T и критерий (18).

На первом этапе вычисляются первые L 1/2+1 строки матрицы Z T, которые соответствуют положениям k' в диапазоне [0, L 1/2]. Для этих положений используется другая усеченная глоттальная форма для каждого положения k' в данном диапазоне. При первой операции вычисляется свертка между откликом глоттальной формы для положения k'=0 и импульсным откликом h(n), используя уравнение:

где используется преимущество того факта, что формирующий фильтр G(z) имеет только L 1/2+1 ненулевых коэффициентов, т.е. g(0), g(1), … g(L 1/2) представляют собой ненулевые коэффициенты.

При второй операции вычисляется свертка z1(n) между откликом кодовой книги глоттальных форм для положения k'=1 и импульсным откликом H(z), повторно используя значения z0(n) следующим образом (матрица Z T= G T· H T представляет собой матрицу с некоторыми нулевыми диагоналями с отрицательным наклоном, но данная матрица Z T больше не является теплицевой и треугольной матрицей, как показано на фиг.10):

Для последующих строк повторно используется рекурсия в уравнении (21):

Рекурсия (21) повторяется для всех k'L 1/2. Для k'=L 1/2 формирующий фильтр G(z) уже имеет L ненулевых коэффициентов, и (L 1/2+1)-я строка матрицы Z T получается таким образом посредством:

В этот момент были вычислены первые L 1/2+1 строки матрицы Z T. Эти строки не содержат нулевых коэффициентов (фиг.10). Затем может быть вычислен критерий (18) для k' в диапазоне [0, L 1/2], используя уравнение:

На втором этапе вычисляется остальная часть матрицы Z T, и критерий (18) оценивается для положений k' в диапазоне [L 1/2+1, N-1]. Используется преимущество того факта, что строки L 1/2+1, …, N-1 матрицы Z T строятся с использованием коэффициентов свертки , которые уже были вычислены так, как описывается уравнением (22). Разница в том, что только часть коэффициентов требуется для вычисления этих строк. Т.е. каждая строка соответствует предыдущей строке посредством сдвига вправо на 1 и добавления нуля в начале:

Это повторяется для k' в диапазоне [L 1/2+1, N-1].

На втором этапе критерий (18) может вычисляться аналогично тому, как описано в вышеупомянутом разделе «Поиск по фиксированной кодовой книге», чтобы дополнительно уменьшить сложность вычислений. Критерий (18) сначала оценивается для последнего положения k'=N-1 (это последняя строка матрицы Z T). Для k'=N-1 числитель и знаменатель критерия (18) предусматриваются следующим уравнением:

и

Так как некоторые коэффициенты матрицы Z T представляют собой нули (фиг.10), только L 1/2+1 умножений (вместо N умножений, используемых в уравнении (23)) используется для вычисления числителя и знаменателя критерия (18).

При использовании примера на фиг.10 (L 1/2=1) критерий (18), вычисляемый с использованием уравнений (25) и (26), может быть упрощен следующим образом:

На следующих этапах некоторые из ранее вычисленных значений могут снова повторно использоваться для вычисления знаменателя. Для положения N-2 знаменатель критерия (18) вычисляется с использованием

Числитель вычисляется с использованием уравнения (25) с измененным индексом суммирования:

Аналогичным образом числитель и знаменатель критерия (18) вычисляются для всех положений k'> L 1/2.

Вышеописанная процедура позволяет находить максимум критерия (18) для кодовых векторов, которые представляют первую форму из глоттальных импульсов. Поиск будет продолжаться с использованием ранее описанной процедуры для всех других форм глоттальных импульсов. Поиск по максимуму критерия (18) продолжается в качестве поиска по кодовой книге глоттальных форм для нахождения одного максимального значения для критерия (18), которое соответствует одной глоттальной форме и одному положению k', составляющим результат поиска.

Также можно использовать разрешение суботсчетов при поиске положения k' центра глоттального импульса; это, однако, приводит к повышенной сложности. Более конкретно, это потребует повышающей передискретизации форм глоттальных импульсов для увеличения разрешения и извлечения различных сдвинутых версий при различных разрешениях. Это эквивалентно использованию большей кодовой книги глоттальных форм.

Идеально, критерий (18) вычисляется для всех возможных положений k' глоттальных импульсов. В неограничительном иллюстративном варианте осуществления поиск выполняется только в ограниченном диапазоне вокруг ожидаемого положения от положения k', чтобы дополнительно уменьшить сложность вычислений. Это ожидаемое положение находится в диапазоне [k min, k max], 0≤k min<k max<N и может быть определено для первой глоттальной формы из максимума остаточного сигнала LP, обнаруженного так, как описано в вышеупомянутом разделе «Выбор подкадра для поиска по кодовой книге глоттальных форм». Затем выполняется поиск по кодовой книге глоттальных форм и находится положение k' для первой глоттальной формы. Устанавливается новый диапазон [k min, k max] для второго поиска глоттальной формы следующим образом:

Обычно Δ=4. Аналогично, уравнение (30) используется для определения диапазона поиска для третьей формы около выбранного положения второй формы и т.д.

В нижеследующем примере предполагается, что начальным диапазоном поиска является [N-15, N-7], L=17 и N=64. Поиск начинается с вычисления значения . Затем критерий (18) для положения k'=N-7 оценивается с использованием

Для вычисления критерия для положения k'=N-8 знаменатель рекурсивно вычисляется как:

Аналогичным образом знаменатель вычисляется для всех остальных положений до k'=N-15. Числитель критерия (18) вычисляется для каждого положения в диапазоне [N-15, N-7] отдельно таким образом, который аналогичен уравнению (29), используя:

Последним параметром, подлежащим определению при поиске по кодовой книге глоттальных форм, является коэффициент усиления g p, который может вычисляться, как в уравнении (4) с той лишь разницей, что он не ограничивается, как при поиске по адаптивной кодовой книге. Причина в том, что фильтрованный кодовый вектор глоттальной формы строится с использованием нормализованных квантованных глоттальных форм с энергией, которая очень отличается от энергии фактических импульсов сигнала возбуждения.

Индексы, относящиеся к положению глоттального импульса и глоттальной форме, передаются на декодер. Восстановление фильтрованного кодового вектора глоттальной формы в декодере показано на фиг.11. Необходимо отметить, что больше не требуется передавать длительность периода основного тона в подкадре поиска по кодовой книге глоттальных форм за исключением того момента, когда подкадр содержит более одного глоттального импульса, как ниже описано в данном документе.

Большее количество глоттальных импульсов в одном подкадре

Имеются ситуации, когда период основного тона речевого сигнала короче, чем длительность подкадра, и в данном случае подкадр может содержать более одного глоттального импульса (особенно в конфигурации TRANSITION_1_1). В данном случае необходимо моделировать все глоттальные импульсы. При заданных ограничениях длительности периода основного тона и длительности подкадра подкадр не может содержать более двух глоттальных импульсов в данном неограничительном иллюстративном варианте осуществления.

Эти ситуации могут быть разрешены при помощи двух различных подходов. Первый и более простой подход разрешает эти ситуации посредством аналогичной процедуры, что и улучшение периодичности (заострение основного тона), используемое в адаптивном многоскоростном широкополосном кодеке (AMR-WB), как описано в ссылке [1], где импульс, как правило, повторяется с периодом основного тона, используя линейный фильтр. Как изображено на фиг.12а, кодовый вектор q k'(n) глоттальной формы обрабатывается таким образом при помощи адаптивного фильтра повторения вида:

Период T 0 основного тона может определяться, например, посредством стандартного подхода поиска основного тона по закрытому циклу. Параметр α оказывает влияние на энергию второго импульса и, в неограничительном иллюстративном варианте осуществления, был установлен в α=0,85. Способ добавляет отсутствующий глоттальный импульс в правильном положении в кодовый вектор глоттальной формы. Это изображается в виде пунктирного импульса на фиг.12b. Эта ситуация имеет место, когда сумма положения k' центра глоттального импульса и периода T 0 основного тона меньше длительности N подкадра, т.е. (k'+T 0)<N. Но также в ситуациях, где сумма положения k' импульса и периода основного тона превышает длительность подкадра, значение периода основного тона также используется для построения фиксированного кодового вектора, когда используется заострение основного тона в алгебраической кодовой книге.

Фильтр Q(z) повторения вставляется в часть TM кодека между фильтрами G(z) и H(z), как показано на блок-схеме фиг.13 для кодера. Аналогичное изменение выполняется в декодере. Аналогично заострению основного тона импульсный отклик фильтра Q(z) повторения может добавляться к импульсному отклику G(z) и H(z) перед поиском по кодовой книге, так что учитываются оба импульса во время поиска, в то же время сохраняя сложность поиска на низком уровне.

Другим подходом для построения кодового вектора глоттальной формы с двумя глоттальными импульсами в одном подкадре является использование поиска по адаптивной кодовой книге в части подкадра. Первые T 0 отсчетов кодового вектора q k'(n) глоттальной формы строятся с использованием поиска по кодовой книге глоттальных форм, и затем другие отсчеты в подкадре строятся с использованием адаптивного поиска, как показано на фиг.14. Этот подход более сложный, но более точный.

Чтобы дополнительно повысить эффективность кодирования, может использоваться вышеописанная процедура, даже если второй глоттальный импульс появляется в одном из первых L 1/2 положений следующего подкадра (фиг.15). В данной ситуации, т.е. когда k' и T 0 удовлетворяют N≤(k'+T 0)<(N+L 1/2), только несколько отсчетов (менее L 1/2+1) глоттальной формы используются в конце текущего подкадра. Данный подход используется в неограничительном иллюстративном варианте осуществления. Данный подход имеет ограничение, так как значение периода основного тона в данных ситуациях ограничивается T 0<N (это вопрос эффективного кодирования), хотя идеально его значение должно ограничиваться T 0N+L 1/2. Поэтому, если второй глоттальный импульс появляется в начале следующего подкадра, процедура повторения не может использоваться для некоторых из первых L 1/2 положений k' глоттальных импульсов первого глоттального импульса.

Реализация способа кодирования ТМ в кодеке EV-VBR

Способ кодирования TM согласно неограничительному иллюстративному варианту осуществления был реализован в кодеке EV-VBR. EV-VBR использует внутреннюю частоту дискретизации 12,8 кГц и длительность кадра 20 мс. Каждый кадр делится на четыре подкадра с N=64 отсчетами. Процедура классификации EV-VBR была адаптирована к выбору кадров, подлежащих кодированию с использованием способа кодирования TM. В данной реализации коэффициент усиления вклада кодовой книги глоттальных форм квантуется с двумя этапами, как изображено на фиг.16, где G(z) представляет собой формирующий фильтр, k' представляет собой положение центра глоттальной формы, и g m представляет собой коэффициент усиления TM, т.е. грубо квантуемую энергию кодового вектора глоттальной формы. Коэффициент g m усиления TM находится аналогично коэффициенту усиления основного тона, используя уравнение (4), только лишь с тем отличием, что он не ограничивается. Он затем квантуется посредством 3-битового скалярного квантователя и используется один бит для знака. Кодовый вектор глоттальной формы затем масштабируется с использованием данного коэффициента g m усиления. После того как будут найдены оба вклада в фильтрованный сигнал возбуждения (сигналы вклада первого и второго этапа, т.е. вклад кодовой книги глоттальных форм и вклад фильтрованной алгебраической кодовой книги), коэффициент усиления сигнала возбуждения первого этапа дополнительно подстраивается совместно с квантованием коэффициента усиления сигнала возбуждения второго этапа, используя стандартное векторное квантование (VQ) коэффициента усиления EV-VBR. Таким образом, кодовые книги квантования коэффициента усиления EV-VBR, предназначенные для режимов обобщенного или вокализованного кодирования, могут использоваться также при кодировании TM. Конечно, в пределах объема настоящего изобретения является выполнение квантования коэффициента усиления, используя другие различные способы.

Поиск положения k' центра глоттального импульса теоретически должен выполняться для всех положений в подкадре, т.е. в пределах диапазона [0, N-1]. Тем не менее, как уже упомянуто, данный поиск с большим объемом вычислений при заданном количестве испытываемых глоттальных форм и на практике может выполняться только в интервале нескольких отсчетов около положения максимального абсолютного значения в остаточном сигнале LP. Интервал поиска может быть установлен на ±4 отсчета около положения первого максимума глоттального импульса в остаточном сигнале LP в текущем кадре. Аналогичным образом, сложность обработки примерно та же самая, что и для обобщенного кодирования EV-VBR, используя поиск по адаптивной и фиксированной кодовой книге.

Передаваемые параметры, относящиеся к способу кодирования TM, перечислены в таблице 4 с соответствующим количеством битов. Параметр T 0, который используется для определения фильтра Q(z) или выполнения адаптивного поиска для второго глоттального импульса в случае двух импульсов в одном подкадре, передается тогда, когда T 0N. Остальные параметры, используемые для кадра TM, но являющиеся общими с обобщенной обработкой ACELP, здесь не показаны (биты идентификации кадра, параметры LP, задержка основного тона для адаптивного возбуждения, возбуждение по фиксированной кодовой книге, коэффициенты усиления кодовой книги 1-го и 2-го этапа). Когда параметры TM добавляются к битовому потоку, уменьшается количество битов, первоначально распределенных другим параметрам EV-VBR, чтобы сохранить постоянной скорость передачи в битах. Эти биты могут быть уменьшены, например, из битов возбуждения фиксированной кодовой книги, а также из квантования коэффициента усиления.

Таблица 4
Параметры в битовом потоке, передаваемые для подкадра, кодированного с использованием TM
Обозначение Значение Количество битов
ID идентификация конфигурации 1-4
shape форма глоттального импульса 3
k' положение центра глоттального импульса 6
gm коэффициент усиления TM 3
sign(gm) знак коэффициента усиления TM 1
T0 период основного тона по закрытому циклу (если применимо) 5

Таблицы распределения битов, используемые в EV-VBR, показаны в данном документе ниже. Предлагается вспомнить, что, когда поиск по кодовой книге глоттальных форм не применяется к первому подкадру, только фиксированная кодовая книга и ее коэффициент усиления передаются для кодирования сигнала возбуждения в подкадрах, предшествующих подкадру кодовой книги глоттальных форм. Такая же ситуация происходит для конфигураций TRANSITION_1_3 и TRANSITION_1_4. В этих случаях можно сохранить этот же или даже больший размер фиксированной кодовой книги для всех подкадров, как и при исходном обобщенном ACELP-кодировании.

Рабочие характеристики способа ТМ в кодеке EV-VBR

В данном разделе представлены некоторые примеры рабочих характеристик способа кодирования TM в реализации кодека EV-VBR. На фиг.17 показан пример влияния способа кодирования TM для условия чистого канала. Фиг.17а изображает входной речевой сигнал, фиг.17b изображает остаточный сигнал LP, а фиг.17с изображает сигнал возбуждения первого этапа, где способ кодирования TM используется в первых трех (3) кадрах. Как ожидается, разница между остаточным сигналом и сигналом возбуждения первого этапа более отчетливая в начале каждого кадра. К концу кадра сигнал возбуждения первого этапа более точно соответствует остаточному сигналу, так как используется стандартный поиск по адаптивной кодовой книге.

Таблицы 5 и 6 резюмируют некоторые примеры рабочих характеристик способа кодирования TM, измеренных с использованием значений SNR.

В первом примере (таблица 5) способ TM был реализован в кодеке с базовой (внутренней) частотой дискретизации F s=8 кГц (т.е. длительность подкадра N=40 отсчетов), использовалась кодовая книга глоттальных форм с шестнадцатью (16) формами длительности в семнадцать (17) отсчетов и тестировались узкополосные входные сигналы. Из таблицы 5 можно видеть, что кодирование кадров вокализованного вступления, используя способ кодирования TM, улучшает качество выходного речевого сигнала (см. значения сегментного и взвешенного сегментного SNR для 1 и 2 кадров TM). Дальнейшее повышение SNR может наблюдаться, если кадр вокализованного вступления и один следующий кадр кодируются с использованием способа кодирования TM. Однако, если более одного кадра, следующих за кадром вокализованного вступления, также кодируются с использованием способа кодирования TM, значения SNR понижаются. Взвешенное SNR представляет собой SNR, взвешенное посредством энергии кадра, нормализованной по длительности кадра, в дБ.

Таблица 5
Сравнение измерений SNR влияния способа кодирования TM на NB-сигналы
Количество кадров TM Взвешенный сегментный 1 Сегментный SNR [дБ] SNR [дБ]
0 (без кодирования TM) 10,85 10,20 12,05
1 (TM в кадре вступления) 10,88 10,48 11,03
2 (TM в кадре вступления+1 кадр) 10,90 10,49 11,04
3 (TM в кадре вступления+2 кадра)) 10,80 10,41 10,92

Таблица 6 резюмирует пример рабочих характеристик кодека EV-VBR с базовой (внутренней) частотой дискретизации F s=12,8 кГц, входным речевым WB-сигналом и кодовой книгой глоттальных форм с восемью (8) формами длительности в семнадцать (17) отсчетов. Главным образом из-за большей длительности N подкадра значения SNR проявляют некоторое ухудшение для чистого канала, когда используется способ кодирования TM, даже если он используется только в одном кадре. Это вызывается, главным образом, из-за ограниченной длительности импульсов глоттальной формы. В сравнении с NB примером большее количество нулевых значений представлено в сигнале возбуждения первого этапа в подкадре. Преимущество использования способа кодирования TM в данном примере заключается в защите от стирания кадра (FE).

Таблица 6
Сравнение измерений SNR влияния способа кодирования TM на WB-сигналы
Количество ТМ-кодированных кадров Взвешенный сегментный SNR [дБ] Сегментный SNR [дБ] SNR [дБ]
0 (без кодирования TM) 7,52 7,21 8,61
1 (TM в кадре вступления) 7,51 7,21 8,59
1 (TM в кадре после кадра вступления) 7,49 7,19 8,55
2 (TM в кадре вступления+1 кадр) 7,48 7,17 8,55
2 (TM в 2 кадрах после кадра вступления) 7,38 7,10 8,35
3 (TM в кадре вступления+2 кадра) 7,36 7,08 8,31

Также необходимо отметить, что даже тогда, когда используется способ кодирования TM в кадре после стертого кадра, существует все же некоторое небольшое различие между синтезированной речью в чистом канале и в зашумленном канале. Это из-за того, что внутренние состояния кодера и декодера не зависят только от сигнала прошлого возбуждения, но также от многих других параметров (например, памяти фильтров, памяти квантователя спектральных частот иммитанса (ISF), …). Конечно, можно тестировать вариант, когда используется оптимизированное кодирование TM квантования параметров LP без памяти, и все внутренние состояния возвращаются в исходное положение для кадров TM. Таким образом, все памяти, которые использует кодек EV-VBR в режиме стандартного обобщенного кодирования, возвращались в исходное положение для гарантирования того, что внутренние состояния декодера после стирания кадра будут такими же, что и его состояния в безошибочных условиях. Тем не менее, качество речи в безошибочных условиях существенно снижается для этого варианта. Следовательно, существует компромисс между высокими рабочими характеристиками в безошибочных условиях и устойчивостью к стертым кадрам или пакетам, когда не выполняются дополнительные возвращения в исходные состояния памяти.

Таблица 7 резюмирует проблему сложности вычислений способа кодирования TM. В наихудшем случае способ кодирования TM повышает сложность в кодере на 1,8 взвешенных миллионов операций в секунду (WMOPS). Сложность декодера остается примерно такой же.

Таблица 7
Сложность способа кодирования TM (наихудший случай и средние значения)
Конфигурация WMOPS кодера WMOPS декодера
Максимум Среднее Максимум Среднее
исходная (без кодирования TM) 36,531 34,699 7,053 5,278
использовался способ кодирования TM 38,346 34,743 7,055 5,281

Нижеследующие фигуры иллюстрируют рабочие характеристики способа кодирования TM для моделирования кадра вокализованного вступления (фиг.18а-18с) и для уменьшения распространения ошибок кадра (фиг.19а-19с). Способ кодирования TM используется только в одном кадре единовременно в данном примере. Показаны сегмент входного речевого сигнала (фиг.18а и 19а), соответствующий выходной синтезированный речевой сигнал, обработанный декодером EV-VBR без способа кодирования TM, как изображено на фиг.18b и 19b, и выходной синтезированный речевой сигнал, обработанный с использованием стандартного декодера EV-VBR со способом кодирования TM (фиг.18с и 19с). Преимущество способа кодирования TM можно наблюдать как при моделировании кадра вокализованного вступления (2-й кадр на фиг.18), так и при ограничении распространения ошибок кадра (4-й и 5-й кадры на фиг.19).

Способ маскирования стираний кадра, используемый в декодере EV-VBR, основывается на использовании дополнительной задержки декодера длительностью 20 мс (соответствующей длительности одного кадра). Это означает, что, если кадр отсутствует, он маскируется со сведениями о параметрах будущего кадра. Предположим, что имеется три (3) последовательных кадра, которые обозначаются как m-1, m и m+1, и дополнительно предположим ситуацию, когда кадр m отсутствует. Тогда интерполяция последнего правильно принятого кадра m-1 и последующего правильно принятого кадра m+1 может быть вычислена с учетом определения параметров кодека, включая, в частности, но не исключительно, коэффициенты фильтра LP (представленные ISF (спектральными частотами иммитанса)), период T 0 основного тона по закрытому циклу, основной тон и коэффициенты усиления фиксированной кодовой книги. Интерполяция помогает более точно оценить параметры потерянного кадра для стабильных вокализованных сегментов. Однако она часто недостаточна для сегментов перехода, когда параметры кодека быстро изменяются. Чтобы справиться с данной проблемой, абсолютное значение периода основного тона может передаваться в каждом кадре TM, даже в случае, когда он не используется для построения возбуждения первого этапа в текущем кадре m+1. Это особенно правомерно для конфигураций TRANSITION_1_4 и TRANSITION_4.

Другими параметрами, передаваемыми в кадре TM, являются ISF предыдущего кадра. В кодерах типа CELP параметры ISF, как правило, интерполируются между ISF предыдущих кадров и ISF текущего кадра для каждого подкадра. Это гарантирует процесс плавного изменения синтезирующего фильтра LP от одного подкадра к другому. В случае стирания кадра ISF кадра, предшествующего стиранию кадра, обычно используются для интерполяции в кадре, следующем за стиранием, вместо ISF стертого кадра. Однако в течение сегментов перехода ISF быстро изменяются, и ISF последнего хорошего кадра могут сильно отличаться от ISF отсутствующего стертого кадра. Замена ISF отсутствующего кадра посредством ISF предыдущего кадра таким образом может вызвать важные артефакты. Если ISF прошлого кадра могут передаваться, они могут использоваться для интерполяции ISF в кадре TM в случае, когда предыдущий кадр стерт. Ниже описываются различные оценки коэффициентов LP, используемые для интерполяции ISF, когда отсутствует кадр, предшествующий кадру TM.

Окончательная реализация способа кодирования TM для кодека EV-VBR предполагает, что только один кадр после кадра вступления/перехода кодируется с использованием TM. Таким образом, примерно 6,3% активных речевых кадров выбирается для кодирования и декодирования TM.

Другая категория тестов сосредотачивается на повышении эффективности кодирования. Классификация была выполнена при поиске по закрытому циклу, когда два варианта - со способом кодирования TM и без него - вычислялись вместе в кодере, и вариант с более высоким SNR выбирался в качестве входного сигнала.

Результаты для кодека EV-VBR со скоростью передачи в битах 8 кбит/с просуммированы в таблице 8. В случае WB 28% активных речевых кадров классифицировались для кодирования, используя способ кодирования TM, и было достигнуто повышение на 0,203 дБ сегментного SNR. В случае NB 25% активных речевых кадров классифицировалось для кодирования, используя способ кодирования TM, и было достигнуто повышение даже на 0,300 дБ сегментного SNR. К сожалению, данное объективное повышение теста не было подтверждено субъективными тестами прослушивания, которые не сообщали предпочтения между кодеком со способом кодирования TM и без него. Хотя нет ухудшения качества речи и общее количество кадров TM составляет в четыре (4) раза больше по сравнению с классификацией по открытому циклу, которая приводит к более высокой защите от FE, данную классификацию и аналогичные результирующие классификации лучше не использовать в реализации кодека EV-VBR из-за повышенной сложности.

Таблица 8
Сравнение меры сегментного SNR и SNR между кодеком со способом кодирования TM и без него, реализованным, когда используется классификация по закрытому циклу.
Количество TM-кодированных кадров Сегментное SNR [дБ] SNR [дБ]
Кодек без TM, WB-сигнал 7,34 8,89
Кодек с TM, WB-сигнал 7,54 9,04
Кодек без ТМ, NB-сигнал 7,58 10,62
Кодек с ТМ, NB-сигнал 7,88 10,97

Таблицы распределения битов для способа кодирования TM в кодеке EV-VBR

Способ кодирования TM был реализован в кодеке-претенденте EV-VBR на стандартизацию ITU-T. Нижеследующая таблица 9 изображает таблицы распределения битов исходного обобщенного режима и всех конфигураций режима кодирования TM, которые были введены выше в данном документе. Эти конфигурации используются в кодеке EV-VBR.

Таблица 9
Таблицы распределения битов для обобщенного режима кодирования и для всех конфигураций TM, используемых в кодеке EV-VBR (ID обозначает идентификацию (ИД) конфигурации, ISF - спектральные частоты иммитанса и FCB - фиксированная кодовая книга, subfr. - подкадр)
a) Обобщенный b) TRANSITION_1_1 c) TRANSITION_1_2
Коли-чество битов параметр Коли-чество битов параметр Коли-чество битов параметр
2 тип кодера 2 тип кодера 2 тип кодера
1 NB/WB 1 NB/WB 1 NB/WB
36 ISFs 36 ISFs 36 ISFs
3 оценка энергии 3 оценка энергии 3 оценка энергии
8 основной тон 1-го подкадра 1 ИД подкадра TM 1 ИД подкадра TM
5 коэффициенты усиления 1-го подкадра 5 основной тон 1-го подкадра 1 ИД подкадра TM
5 основной тон 2-го подкадра 3 форма TM 3 форма TM
5 коэффициенты усиления 2-го подкадра 6 положение TM 6 положение TM
8 основной тон 3-го подкадра 1 знак коэффициента усиления TM 1 знак коэффициента усиления TM
5 коэффициенты усиления 3-го подкадра 3 значение коэффициента усиления TM 3 значение коэффициента усиления TM
5 основной тон 4-го подкадра 5 коэффициенты усиления 1-го подкадра 5 коэффициенты усиления 1-го подкадра
5 коэффициенты усиления 4-го подкадра 5 основной тон 2-го подкадра 1 ИД2 подкадра TM
12 FCB 1-го подкадра 5 коэффициенты усиления 2-го подкадра 1 ИД2 подкадра TM
20 FCB 2-го подкадра основной тон 3-го подкадра 7 основной тон 2-го подкадра
20 FCB 3-го подкадра 5 коэффициенты усиления 3-го подкадра 5 коэффициенты усиления 2-го подкадра
20 FCB 4-го подкадра 5 основной тон 4-го подкадра 5 основной тон 3-го подкадра
5 коэффициенты усиления 4-го подкадра 5 коэффициенты усиления 3-го подкадра
итого 160 битов 20 FCB 1-го подкадра 5 основной тон 4-го подкадра
20 FCB 2-го подкадра 5 коэффициенты усиления 4-го подкадра
12 FCB 3-го подкадра 20 FCB 1-го подкадра
12 FCB 4-го подкадра 20 FCB 2-го подкадра
12 FCB 3-го подкадра
итого 160 битов 12 FCB 4-го подкадра
итого 160 битов
d) TRANSITION_1_3 e) TRANSITION_1_4 f) TRANSITION_2
Коли-чество битов параметр количество битов, параметр количество битов, параметр
2 тип кодера 2 тип кодера 2 тип кодера
1 NB/WB 1 NB/WB 1 NB/WB
36 ISFs 36 ISFs 36 ISFs
3 оценка энергии 3 оценка энергии 3 оценка энергии
1 ИД подкадра TM 1 ИД подкадра TM 1 ИД подкадра TM
1 ИД подкадра TM 1 ИД подкадра TM 1 ИД подкадра TM
3 форма TM 3 форма TM 1 ИД подкадра TM
6 положение TM 6 положение TM 2 коэффициент усиления 1-го подкадра
1 знак коэффициента усиления TM 1 знак коэффициента усиления TM 3 форма TM
3 значение коэффициента усиления TM 3 значение коэффициента усиления TM 6 положение TM
5 коэффициенты усиления 1-го подкадра 5 коэффициенты усиления 1-го подкадра 1 знак коэффициента усиления TM
1 ИД2 подкадра TM 1 ИД2 подкадра TM 3 значение коэффициента усиления TM
1 ИД2 подкадра TM 3 коэффициент усиления 2-го подкадра 5 коэффициенты усиления 2-го подкадра
3 коэффициент усиления 2-го подкадра 2 коэффициент усиления 3-го подкадра 8 основной тон 3-го подкадра
7 основной тон 3-го подкадра 7 основной тон 4-го подкадра 5 коэффициенты усиления 3-го подкадра
5 коэффициенты усиления 3-го подкадра 5 коэффициенты усиления 4-го подкадра 5 основной тон 4-го подкадра
4 основной тон 4-го подкадра 20 FCB 1-го подкадра 5 коэффициенты усиления 4-го подкадра
5 коэффициенты усиления 4-го подкадра 20 FCB 2-го подкадра 20 FCB 1-го подкадра
20 FCB 1-го подкадра 20 FCB 3-го подкадра 20 FCB 2-го подкадра
12 FCB 2-го подкадра 20 FCB 4-го подкадра 12 FCB 3-го подкадра
20 FCB 3-го подкадра 20 FCB 4-го подкадра
20 FCB 4-го подкадра итого 160 битов
итого 160 битов
итого 160 битов
g) TRANSITION_3 h) TRANSITION_4
Количество битов параметр Количество битов параметр
2 тип кодера 2 тип кодера
1 NB/WB 1 NB/WB
36 ISFs 36 ISFs
3 оценка энергии 3 оценка энергии
1 ИД подкадра TM 1 ИД подкадра TM
1 ИД подкадра TM 1 ИД подкадра TM
1 ИД подкадра TM 1 ИД подкадра TM
1 ИД подкадра TM 1 ИД подкадра TM
3 коэффициент усиления 1-го подкадра 3 коэффициент усиления 1-го подкадра
3 коэффициент усиления 2-го подкадра 2 коэффициент усиления 2-го подкадра
5 основной тон 3-го подкадра 3 коэффициент усиления 3-го подкадра
3 форма TM 8 основной тон 4-го подкадра
6 положение TM 3 форма TM
1 знак коэффициента усиления TM 6 положение TM
3 значение коэффициента усиления TM 1 значение коэффициента усиления TM
5 коэффициенты усиления 3-го подкадра 3 значение коэффициента усиления TM
8 основной тон 4-го подкадра 5 коэффициенты усиления 4-го подкадра
5 коэффициенты усиления 4-го подкадра 20 FCB 1-го подкадра
12 FCB 1-го подкадра 20 FCB 2-го подкадра
20 FCB 2-го подкадра 20 FCB 3-го подкадра
20 FCB 3-го подкадра 20 FCB 4-го подкадра
20 FCB 4-го подкадра
итого 160 битов
итого 160 битов

Имеется одно исключение для конфигурации TRANSITION_2 в таблице 9. Эта таблица распределения битов может использоваться только в ситуации, когда принято решение использовать способ кодирования TM в кадрах, следующих только за кадром вокализованного вступления (кадр вокализованного вступления кодируется с использованием режима обобщенного кодирования, и только один кадр, следующий за кадром вокализованного вступления, кодируется с использованием способа кодирования TM). В данной ситуации период T 0 основного тона равен T 0N во втором подкадре и нет необходимости передавать данный параметр во 2-ом подкадре. Но если способ кодирования TM также используется в кадре вокализованного вступления, может иметь место следующая ситуация. Период основного тона меньше N, но вокализованное вступление может начаться только во 2-ом подкадре (например, первый подкадр все еще содержит невокализованный сигнал). В данном случае период T 0 основного тона должен передаваться. В данной ситуации используется другая таблица распределения битов, параметр T 0 передается во 2-ом подкадре, используя пять (5) битов, и в одном подкадре используется более короткая фиксированная кодовая книга (см. таблицу 10). Такая же ситуация появляется также для конфигурации TRANSITION_3. Однако период основного тона передается здесь в любом случае в настоящей неограничительной реализации (кодируется ли или нет кадр вступления с использованием способа кодирования TM), так как нехорошо использовать сохраненные биты для кодирования другого параметра.

Другие распределения битов могут использоваться в других конфигурациях режима перехода. Например, больше битов может распределяться фиксированным кодовым книгам в подкадрах, содержащих глоттальные импульсы. Например, в режиме TRANSITION_3 может использоваться FCB с двенадцатью (12) битами во втором подкадре и двадцатью восемью (28) битами в третьем подкадре. Конечно, могут использоваться отличные от 12- и 20-битовых FCB в других реализациях кодера.

Таблица 10
Таблица распределения битов для конфигурации TRANSITION_2, если TM также используется в кадре вступления
TRANSITION_2a
Количество битов Параметр
2 тип кодера
1 NB/WB
36 ISFs
3 оценка энергии
1 ИД подкадра TM
1 ИД подкадра TM
1 ИД подкадра TM
3 коэффициент усиления 1-го подкадра
5 основной тон 2-го подкадра
3 форма TM
6 положение TM
1 знак коэффициента усиления TM
3 значение коэффициента усиления TM
5 коэффициенты усиления 2-го подкадра
8 основной тон 3-го подкадра
5 коэффициенты усиления 3-го подкадра
5 основной тон 4-го подкадра
5 коэффициенты усиления 4-го подкадра
20 FCB 1-го подкадра
20 FCB 2-го подкадра
12 FCB 3-го подкадра
12 FCB 4-го подкадра
итого 158 битов

Если имеется доступная полоса частот, может быть достигнуто дальнейшее усовершенствование посредством передачи дополнительной информации для лучшей защиты от стирания кадра (FE). Кодек VMR-WB является примером кодека, который использует некоторую часть битов защиты от FE. Например, четырнадцать (14) битов защиты на кадр используются в обобщенном типе кодирования на полной скорости в VMR-WB в установке II скорости передачи. Эти биты представляют классификацию кадра (2 бита), энергию синтезированной речи (6 битов) и положение глоттального импульса (6 битов). Глоттальный импульс вводится искусственно в декодере, когда теряется кадр вокализованного вступления. Эти биты защиты FER не являются очень важными для построения возбуждения в кадре TM, так как способ кодирования TM не использует сигнал прошлого возбуждения; способ кодирования TM строит сигнал возбуждения, используя параметры, передаваемые в текущем кадре (TM). Эти биты, однако, могут применяться для передачи других параметров. В примере реализации эти биты могут использоваться для передачи в текущем кадре TM параметров ISF предыдущего кадра; однако доступно двенадцать (12) битов вместо тридцати шести (36) битов). Эти ISF используются для более точного восстановления коэффициентов фильтра LP в случае стирания кадра.

В кодеке EV-VBR набор параметров LP вычисляется с сосредоточением на четвертом подкадре, тогда как первый, второй и третий подкадры используют линейную интерполяцию параметров фильтра LP между текущим и предыдущим кадром. Интерполяция выполняется по спектральным парам иммитанса (ISP). Пусть будет вектор ISP в 4-ом подкадре кадра, и - вектор ISP в 4-ом подкадре последнего кадра m-1. Интерполированные векторы ISP в 1-ом, 2-ом и 3-ем подкадрах определяются уравнениями:

Данная интерполяция, однако, не подходит непосредственно для способа кодирования TM в случае стирания предыдущего кадра. Когда отсутствует кадр, предшествующий кадру TM, можно предположить, что последним правильно принятым кадром является невокализованный. В данной ситуации является более эффективным восстановление вектора ISF для отсутствующего кадра с другими интерполяционными постоянными и не имеет значения, доступна или нет некоторая информация о ISF из битов защиты FER. Как правило, интерполяция в большей степени использует ISP предыдущего кадра. Векторы ISP для отсутствующего кадра m могут быть получены в декодере, например, используя следующие уравнения:

Следующий правильно принятый кадр m+1 TM тогда использует интерполяцию коэффициентов LP, описываемую уравнениями (35). Интерполяционные коэффициенты в уравнениях (36) также приведены в качестве неограничительного примера. Окончательные коэффициенты могут быть другими и, кроме того, желательно использовать один набор интерполяционных коэффициентов, когда доступна некоторая информация о ISF из предыдущего кадра, и другой набор, когда недоступна информация о ISF из предыдущего кадра (т.е. нет битов защиты от стирания кадра в битовом потоке).

Кодирование периода и коэффициента усиления основного тона в кадрах TM в кодеке EV-VBR

Значение периода T 0 основного тона передается для каждого подкадра в обобщенном режиме кодирования, используемом в кодеке EV-VBR. В 1-ом и 3-ем подкадрах используется 8-битовое кодирование, тогда как значение периода основного тона передается с дробным (½ для T 0 в диапазоне [T min, 91½]) или целочисленным (для T 0 в диапазоне [92, T max]) разрешением. Во 2-ом и 4-ом подкадрах используется дельта-поиск и значение периода основного тона всегда с дробным разрешением кодируется с пятью (5) битами. Дельта-поиск означает поиск в диапазоне [T 0p-8, T 0p+7½], где T 0p представляет собой ближайшее целое число к дробному периоду основного тона предыдущего (1-го или 3-го) подкадра. Значения периода основного тона ограничиваются в кодеке EV-VBR до значений в диапазоне [T min, T max], где T min=34 и T max=231.

Коэффициент g p усиления основного тона и коэффициент g c усиления фиксированной кодовой книги кодируются в кодеке EV-VBR, в принципе, аналогично кодеку AMR-WB+ [5]. Сначала вычисляется оценка масштабированной энергии фиксированной кодовой книги без предсказания для всех подкадров в кадре и квантуется посредством трех (3) битов единовременно на кадр (см. параметр оценки энергии в таблице 9). Затем коэффициент g p усиления основного тона и коэффициент g c усиления фиксированной кодовой книги векторно квантуются и кодируются на одном этапе, используя пять (5) битов для каждого подкадра.

Оцененная энергия фиксированной кодовой книги вычисляется и квантуется следующим образом. Сначала остаточная энергия LP вычисляется в каждом подкадре k, используя следующее уравнение:

где u(n) представляет собой остаточный сигнал LP. Затем находится средняя остаточная энергия на подкадр при помощи следующего уравнения:

Энергия фиксированной кодовой книги оценивается из остаточной энергии посредством удаления оценки вклада адаптивной кодовой книги. Это выполняется посредством удаления энергии, относящейся к средней нормализованной корреляции, полученной из двух анализов основного тона по открытому циклу, выполняемых в кадре. Используется следующее уравнение:

где представляет собой среднее значение нормализованных корреляций основного тона, полученных из анализа основного тона по открытому циклу для каждого полукадра текущего кадра. Оцененная масштабированная энергия фиксированной кодовой книги не зависит от энергии предыдущего кадра, и, таким образом, принцип кодирования коэффициента усиления является устойчивым к стираниям кадра.

Как только найдена оценка энергии фиксированной кодовой книги, вычисляются коэффициент усиления основного тона и коррекция коэффициента усиления фиксированной кодовой книги: оцененная масштабированная энергия фиксированной кодовой книги используется для вычисления оцененного коэффициента усиления фиксированной кодовой книги и поправочного коэффициента y (отношения между истинным и оцененным коэффициентами усиления фиксированной кодовой книги). Значение y представляет собой вектор, квантуемый вместе с коэффициентом усиления основного тона, используя пять (5) битов на подкадр. Для конструкции квантователя используется модифицированный способ k средних [4]. Коэффициент усиления основного тона ограничивается в интервале <0; 1,2> во время инициализации кодовой книги и <0; ∞> во время итеративного улучшения кодовой книги. Аналогично, поправочный коэффициент y ограничивается <0; 5> во время инициализации и <0; ∞> во время улучшения кодовой книги. Модифицированный алгоритм k средних выполняет поиск, минимизируя следующий критерий:

При использовании способа кодирования TM может не требоваться передача периода основного тона и обоих коэффициентов усиления основного тона и фиксированной кодовой книги для подкадров, где нет важного глоттального импульса, и может вычисляться только вклад фиксированной кодовой книги.

Ниже представлен список и описание всех конфигураций TM:

Конфигурация TRANSITION_1_1 (фиг.20) - В данной конфигурации один или два первых глоттальных импульсов появляются в первом подкадре, который обрабатывается с использованием поиска по кодовой книге глоттальных форм. Это означает, что значение периода основного тона в первом подкадре может иметь максимальное значение, которое меньше длительности подкадра, т.е. T min<T 0<N. При целочисленном разрешении он может кодироваться пятью (5) битами. Периоды основного тона в следующих подкадрах находятся с использованием 5-битового дельта-поиска с дробным разрешением.

Это наиболее требовательная к количеству битов конфигурация способа кодирования TM, т.е. когда используется кодовая книга глоттальных форм в первом подкадре, и период T 0 основного тона передается для определения фильтра Q(z) или для поиска по адаптивной кодовой книге в части первого подкадра. Данная конфигурация использует в первом подкадре процедуру, которая описана выше. Данная конфигурация используется в кодеке EV-VBR также тогда, когда только один глоттальный импульс появляется в первом подкадре. В данном случае период T 0 основного тона удовлетворяет T 0<N, и он используется для периодического улучшения [1] при поиске по фиксированной кодовой книге.

Конфигурация TRANSITION_1_2 (фиг.21) - Когда используется конфигурация TRANSITION_1_2, первый подкадр обрабатывается с использованием поиска по кодовой книге глоттальных форм. Период основного тона не требуется, и все последующие подкадры обрабатываются с использованием поиска по адаптивной кодовой книге. Так как второй подкадр, как известно, содержит второй глоттальный импульс, максимальное значение периода основного тона удовлетворяет T 0≤2·N-1. Это максимальное значение может быть дополнительно снижено благодаря наличию сведений о положении k' глоттального импульса. Значение периода основного тона во втором подкадре затем кодируется с использованием семи (7) битов с дробным разрешением во всем диапазоне. В третьем и четвертом подкадрах используется дельта-поиск, используя пять (5) битов с дробным разрешением.

Конфигурация TRANSITION_1_3 (фиг.22) - Когда используется конфигурация TRANSITION_1_3, первый подкадр снова обрабатывается с использованием поиска по кодовой книге глоттальных форм без использования периода основного тона. Так как второй подкадр остаточного сигнала LP не содержит глоттального импульса и бесполезен адаптивный поиск, сигнал возбуждения первого этапа заменяется нулями во втором подкадре. Параметры (T 0 и g p) адаптивной кодовой книги не передаются во втором подкадре, и сохраненные биты используются для увеличения размера FCB в третьем подкадре. Так как второй подкадр содержит минимум полезной информации, только 12-битовая FCB используется, и 20-битовая FCB используется в четвертом подкадре. Сигнал возбуждения первого этапа в третьем подкадре строится с использованием поиска по адаптивной кодовой книге с максимальным значением (3·N-1-k') и минимальным значением (2·N-k') периода основного тона; таким образом используется только 7-битовое кодирование периода основного тона с дробным разрешением по всему диапазону. Четвертый подкадр снова обрабатывается с использованием адаптивного поиска с кодированием 5-битового дельта-поиска значения периода основного тона.

Во втором подкадре передается только коэффициент g c усиления фиксированной кодовой книги. Следовательно, только два (2) или три (3) бита необходимы для квантования коэффициента усиления вместо 5-битового квантователя, используемого в подкадре с традиционным ACELP-кодированием (т.е. когда передаются коэффициенты g p и g c усиления). Это действительно также для всех последующих конфигураций. Решение, должен ли квантователь коэффициента усиления использовать два (2) или три (3) бита, принимается таким, чтобы соответствовать количеству битов, доступных в кадре.

Конфигурация TRANSITION_1_4 (фиг.23) - Когда используется конфигурация TRANSITION_1_4, первый подкадр обрабатывается с использованием поиска по кодовой книге глоттальных форм. Снова нет необходимости передавать период основного тона. Но так как остаточный сигнал LP не содержит глоттального импульса во втором и также в третьем подкадре, поиск по адаптивной кодовой книге бесполезен для этих двух подкадров. Снова сигнал возбуждения первого этапа в этих подкадрах заменяется нулями, и сохраненные биты используются для увеличения размера FCB, так что все подкадры могут извлекать пользу и использовать 20-битовые FCB. Значение периода основного тона передается только в четвертом подкадре, и его минимальное значение составляет (3·N-k'). Максимальное значение периода основного тона ограничивается T max. Не имеет значения, появляется ли второй глоттальный импульс в четвертом подкадре или нет (второй глоттальный импульс может присутствовать в следующем кадре, если k'+T maxN).

Абсолютное значение периода основного тона используется в декодере для маскирования кадра; поэтому это абсолютное значение периода основного тона передается в ситуации, когда второй глоттальный импульс появляется в следующем кадре. Когда отсутствует кадр m, предшествующий кадру m+1 TM, корректные сведения о значении периода основного тона из кадров m-1 и m+1 помогают успешно восстановить отсутствующую часть синтезирующего сигнала в кадре m.

Конфигурация TRANSITION_2 (фиг.24) - Когда первый глоттальный импульс появляется во втором подкадре и только кадры после кадров вокализованного вступления кодируются с использованием способа кодирования TM (т.е. кадры вокализованного вступления кодируются с существующим обобщенным кодированием), период основного тона передается только в третьем и четвертом подкадрах. В данном случае только параметры фиксированной кодовой книги передаются в первом подкадре.

Кадр, показанный на фиг.24, предполагает конфигурацию, когда TM не используется в кадрах вокализованного вступления. Если TM используется также в кадрах вокализованного вступления, используется конфигурация TRANSITION_2а, где период T 0 основного тона передается во втором подкадре для использования процедуры, которая описана выше.

Конфигурация TRANSITION_3 (фиг.25) - Когда первый глоттальный импульс появляется в третьем подкадре и только кадры после кадров вокализованного вступления кодируются с использованием способа кодирования TM (т.е. кадры вокализованного вступления кодируются с существующим обобщенным кодированием), период основного тона передается только в четвертом подкадре. В данном случае только параметры фиксированной кодовой книги передаются в первом и втором подкадрах.

Период основного тона все же передается для третьего подкадра в битовом потоке. Однако он не является полезным, если способ кодирования TM не используется для кодирования кадров вокализованного вступления. Это значение полезно только тогда, когда кадры вокализованного вступления кодируются с использованием способа кодирования TM.

Конфигурация TRANSITION_4 (фиг.26) - Когда первый глоттальный импульс появляется в четвертом подкадре и только кадры после кадров вокализованного вступления кодируются с использованием способа кодирования TM (т.е. кадры вокализованного вступления кодируются существующим обобщенным кодированием), информация о значении периода основного тона не используется в данном подкадре. Однако значение периода основного тона используется при маскировании кадра в декодере (данное значение используется для восстановления отсутствующего кадра, когда отсутствует кадр, предшествующий кадру TM). Таким образом, значение основного тона передается только в четвертом подкадре, и только параметры фиксированной кодовой книги передаются в первом, втором и третьем подкадрах (коэффициент g p усиления основного тона не требуется). Сохраненные биты позволяют использовать 20-битовую FCB в каждом подкадре.

Хотя настоящее изобретение было описано в вышеприведенном описании в связи с его неограничительным иллюстративным вариантом осуществления, данный неограничительный иллюстративный вариант осуществления может быть, по желанию, модифицирован в пределах объема прилагаемой формулы изобретения без отступления от объема и сущности настоящего изобретения.

Ссылки

[1] B. BESSETTE, R. SALAMI, R. LEFEBVRE, M. JELINEK, J. ROTOLA-PUKKILA, J. VAINIO, H. MIKKOLA, and K. JARVINEN, "The Adaptive Multi-Rate Wideband Speech Codec (AMR-WB)", Special Issue of IEEE Transactions on Speech and Audio Processing, Vol. 10, No. 8, pp. 620-636, November 2002.

[2] R. SALAMI, C. LAFLAMME, J-P. ADOUL, and D. MASSALOUX, "A toll quality 8 kb/s speech codec for the personal communications system (PCS)", IEEE Trans, on Vehicular Technology, Vol. 43, No. 3, pp. 808-816, August 1994.

[3] 3GPP2 Tech. Spec. C.S0052-A v1.0, "Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Options 62 and 63 for Spread Spectrum Systems," Apr. 2005; http://www.3gpp2.org

[4] S. P. Lloyd, "Least squares quantization in PCM," IEEE Transactions on Information Theory, Vol. 28, No.2, pp. 129-136, March 1982.

[5] 3GPP Tech. Spec. 26.290, "Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions," June 2005.

[6] "Extended high-level description of the Q9 EV-VBR baseline codec," ITU-T SG16 Tech. Cont. COM16-C199R1-E, June 2007.

1. Устройство режима перехода для использования в кодеке звукового сигнала с предсказанием для создания возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или по меньшей мере одном кадре, следующем за переходом в звуковом сигнале, содержащее:
вход для приема индекса кодовой книги; и
кодовую книгу режима перехода для генерирования набора кодовых векторов, независимых от прошлого возбуждения, причем кодовая книга режима перехода является реагирующей на индекс кодовой книги для генерирования, в кадре перехода и/или в по меньшей мере одном кадре, следующем за переходом, одного из кодовых векторов набора, соответствующего упомянутому возбуждению режима перехода;
причем кодовая книга режима перехода содержит кодовую книгу форм глоттальных импульсов.

2. Устройство режима перехода по п.1, в котором звуковой сигнал содержит речевой сигнал, и в котором кадр перехода выбирается из группы, состоящей из кадра, содержащего вокализованное вступление, и кадра, содержащего переход между двумя различными вокализованными звуками.

3. Устройство режима перехода по п.1, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат кадр перехода, за которым следуют несколько кадров.

4. Устройство режима перехода по п.1, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, и в котором кодовая книга режима перехода используется в первой части подкадров, и кодовая книга с предсказанием кодека с предсказанием используется во второй части подкадров.

5. Устройство режима перехода по п.1, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, и в котором кодовая книга режима перехода используется только в подкадре, содержащем первый глоттальный импульс текущего кадра.

6. Устройство режима перехода по п.5, содержащее средство для формирования, в по меньшей мере одном подкадре, предшествующем подкадру, использующему кодовую книгу режима перехода, сигнала глобального возбуждения, содержащего исключительно компонент кодовой книги порождений.

7. Устройство режима перехода по п.1, в котором кодовая книга форм глоттальных импульсов содержит кодовые векторы, сформированные из формы глоттального импульса, размещенной в заданном положении в кодовом векторе.

8. Устройство режима перехода по п.1, в котором кодовая книга форм глоттальных импульсов включает в себя предварительно определенное количество различных форм глоттальных импульсов, и
в котором каждая форма глоттального импульса располагается во множестве различных положений в кодовых векторах для формирования множества различных кодовых векторов кодовой книги форм глоттальных импульсов.

9. Устройство режима перехода по п.1, в котором кодовая книга форм глоттальных импульсов содержит генератор кодовых векторов, содержащих только один ненулевой элемент, и формирующий фильтр для обработки кодовых векторов, содержащих только один ненулевой элемент, для создания кодовых векторов, представляющих формы глоттальных импульсов, центрированные в различных положениях.

10. Устройство режима перехода по п.8, в котором формы глоттальных импульсов содержат первый и последний отсчеты, в котором усекается предварительно определенное количество первых и последних отсчетов.

11. Устройство кодера для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или в по меньшей мере одном кадре, следующем за переходом в звуковом сигнале, содержащее:
генератор целевого сигнала поиска по кодовой книге;
кодовую книгу режима перехода для генерирования набора кодовых векторов, независимых от прошлого возбуждения, причем каждый кодовый вектор упомянутого набора соответствует соответствующему возбуждению режима перехода, и причем кодовая книга режима перехода содержит кодовую книгу форм глоттальных импульсов;
устройство поиска кодовой книги режима перехода для нахождения кодового вектора упомянутого набора, соответствующего возбуждению режима перехода, оптимально соответствующему целевому сигналу поиска по кодовой книге.

12. Устройство кодера по п.11, в котором устройство поиска применяет заданный критерий к каждой форме глоттального импульса кодовой книги форм глоттальных импульсов и находит в качестве кодового вектора, оптимально соответствующего целевому сигналу поиска по кодовой книге, кодовый вектор набора, соответствующий максимальному значению упомянутого критерия.

13. Устройство кодера по п.11, в котором устройство поиска идентифицирует найденный кодовый вектор посредством параметров режима перехода, выбранных из группы, состоящей из идентификации конфигурации режима перехода, формы глоттального импульса, положения центра формы глоттального импульса в найденном кодовом векторе, коэффициента усиления режима перехода, знака коэффициента усиления режима перехода и периода основного тона по закрытому циклу.

14. Устройство кодера по п.11, в котором звуковой сигнал содержит речевой сигнал и в котором кадр перехода выбирается из группы, состоящей из кадра, содержащего вокализованное вступление, и кадра, содержащего переход между двумя различными вокализованными звуками.

15. Устройство кодера по п.11, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержит кадр перехода, за которым следует несколько кадров.

16. Устройство кодера по п.11, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержит по меньшей мере один кадр, следующий за переходом.

17. Устройство кодера по п.11, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, и в котором устройство поиска выполняет поиск по кодовой книге режима перехода в первой части подкадров, и по кодовой книге с предсказанием устройства кодера во второй части подкадров.

18. Устройство кодера по п.11, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, и в котором кодовая книга режима перехода используется только в подкадрах, содержащих первый глоттальный импульс текущего кадра.

19. Устройство кодера по п.18, содержащее средство для формирования, в по меньшей мере одном подкадре, предшествующем подкадрам, использующим кодовую книгу режима перехода, сигнала глобального возбуждения, содержащего исключительно компонент кодовой книги порождений.

20. Устройство кодера по п.11, в котором кодовая книга форм глоттальных импульсов содержит кодовые векторы, сформированные из формы глоттального импульса, размещенной в заданном положении в кодовом векторе.

21. Устройство кодера по п.20, в котором кодовая книга форм глоттальных импульсов включает в себя предварительно определенное количество различных форм глоттальных импульсов, и в котором каждая форма глоттального импульса располагается во множестве различных положений в кодовых векторах для формирования множества различных кодовых векторов кодовой книги форм глоттальных импульсов.

22. Устройство кодера по п.20, в котором кодовая книга форм глоттальных импульсов содержит генератор кодовых векторов, содержащих только один ненулевой элемент, и формирующий фильтр для обработки кодовых векторов, содержащих только один ненулевой элемент, для создания кодовых векторов, представляющих формы глоттальных импульсов, центрированные в различных положениях.

23. Устройство кодера по п.11, дополнительно содержащее:
генератор целевого сигнала поиска по кодовой книге порождений;
кодовую книгу порождений для генерирования набора кодовых векторов порождения, причем каждый соответствует соответствующему возбуждению порождения;
устройство поиска кодовой книги порождений для нахождения кодового вектора порождения упомянутого набора, соответствующего возбуждению порождения, оптимально соответствующему целевому сигналу поиска по кодовой книге порождений; и
сумматор возбуждения режима перехода и возбуждения порождения для создания глобального возбуждения для синтезирующего звуковой сигнал фильтра.

24. Устройство кодера по п.23, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, и в котором, в зависимости от того, где расположен глоттальный импульс или импульсы в подкадрах, устройство кодера содержит средство кодирования подкадров, используя по меньшей мере одну из кодовой книги режима перехода, адаптивной кодовой книги и кодовой книги порождений.

25. Устройство декодера для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или в по меньшей мере одном кадре, следующем за переходом в звуковом сигнале, содержащее:
вход для приема индекса кодовой книги; и
кодовую книгу режима перехода для генерирования набора кодовых векторов, независимых от прошлого возбуждения, причем кодовая книга режима перехода является реагирующей на индекс кодовой книги для генерирования в кадре перехода и/или в по меньшей мере одном кадре, следующем за переходом, одного из кодовых векторов набора, соответствующего возбуждению режима перехода;
причем кодовая книга режима перехода является кодовой книгой форм глоттальных импульсов.

26. Устройство декодера по п.25, в котором звуковой сигнал содержит речевой сигнал, и в котором кадр перехода выбирается из группы, состоящей из кадра, содержащего вокализованное вступление, и кадра, содержащего переход между двумя различными вокализованными звуками.

27. Устройство декодера по п.25, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, и в котором кодовая книга режима перехода используется в первой части подкадров, и устройство декодера содержит кодовую книгу с предсказанием, которая используется во второй части подкадров.

28. Устройство декодера по п.25, в котором кодовая книга форм глоттальных импульсов содержит кодовые векторы, сформированные из формы глоттального импульса, размещенной в заданном положении в кодовом векторе.

29. Устройство декодера по п.28, в котором кодовая книга форм глоттальных импульсов включает в себя предварительно определенное количество различных форм глоттальных импульсов, и в котором каждая форма глоттального импульса располагается во множестве различных положений в кодовых векторах для формирования множества различных кодовых векторов кодовой книги форм глоттальных импульсов.

30. Устройство декодера по п.28, в котором кодовая книга форм глоттальных импульсов содержит генератор кодовых векторов, содержащих только один ненулевой элемент, и формирующий фильтр для обработки кодовых векторов, содержащих только один ненулевой элемент, для создания кодовых векторов, представляющих формы глоттальных импульсов, центрированные в различных положениях.

31. Устройство декодера по п.25, дополнительно содержащее:
вход для приема индекса кодовой книги порождений;
кодовую книгу порождений для генерирования набора кодовых векторов порождения, причем кодовая книга порождений является реагирующей на индекс кодовой книги порождений для генерирования в кадре перехода и/или в по меньшей мере одном кадре, следующем за переходом, одного из кодовых векторов порождения набора, соответствующего возбуждению порождения;
сумматор возбуждения режима перехода и возбуждения порождения для создания глобального возбуждения для синтезирующего звуковой сигнал фильтра.

32. Способ режима перехода для использования в кодеке звукового сигнала с предсказанием для создания возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или по меньшей мере одном кадре, следующем за переходом в звуковом сигнале, содержащий:
обеспечение кодовой книги режима перехода для генерирования набора кодовых векторов, независимых от прошлого возбуждения, причем кодовая книга режима перехода содержит кодовую книгу форм глоттальных импульсов;
подачу индекса кодовой книги на кодовую книгу режима перехода; и
генерирование, посредством кодовой книги режима перехода и в ответ на индекс кодовой книги, одного из кодовых векторов набора, соответствующего упомянутому возбуждению режима перехода.

33. Способ режима перехода по п.32, в котором звуковой сигнал содержит речевой сигнал, и упомянутый способ содержит выбор кадра перехода из группы, состоящей из кадра, содержащего вокализованное вступление, и кадра, содержащего переход между двумя различными вокализованными звуками.

34. Способ режима перехода по п.32, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержит кадр перехода, за которым следует несколько кадров.

35. Способ режима перехода по п.32, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, и упомянутый способ содержит использование кодовой книги режима перехода в первой части подкадров и кодовой книги с предсказанием кодека с предсказанием во второй части подкадров.

36. Способ режима перехода по п.32, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, причем упомянутый способ содержит использование кодовой книги режима перехода в подкадре, содержащем первый глоттальный импульс текущего кадра.

37. Способ режима перехода по п.36, содержащий формирование в по меньшей мере одном подкадре, предшествующем подкадру, использующему кодовую книгу режима перехода, сигнала глобального возбуждения, содержащего исключительно компонент кодовой книги порождений.

38. Способ режима перехода по п.32, в котором кодовая книга форм глоттальных импульсов содержит кодовые векторы, сформированные из формы глоттального импульса, размещенной в заданном положении в кодовом векторе.

39. Способ режима перехода по п.38, в котором кодовая книга форм глоттальных импульсов включает в себя предварительно определенное количество различных форм глоттальных импульсов, причем способ режима перехода содержит формирование в кодовой книге форм глоттальных импульсов множества различных кодовых векторов посредством расположения каждой формы глоттального импульса во множестве различных положений в кодовом векторе.

40. Способ режима перехода по п.38, содержащий генерирование в кодовой книге форм глоттальных импульсов кодовых векторов, содержащих только один ненулевой элемент, и обработку при помощи формирующего фильтра кодовых векторов, содержащих только один ненулевой элемент, для создания кодовых векторов, представляющих формы глоттальных импульсов, центрированные в различных положениях.

41. Способ режима перехода по п.38, в котором импульсы глоттальной формы содержат первый и последний отсчеты, причем упомянутый способ содержит усечение предварительно определенного количества первых и последних отсчетов.

42. Способ кодирования для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или в по меньшей мере одном кадре, следующем за переходом в звуковом сигнале, содержащий:
генерирование целевого сигнала поиска по кодовой книге;
обеспечение кодовой книги режима перехода для генерирования набора кодовых векторов, независимых от прошлого возбуждения, причем каждый кодовый вектор упомянутого набора соответствует соответствующему возбуждению режима перехода, причем кодовая книга режима перехода содержит кодовую книгу форм глоттальных импульсов;
поиск по кодовой книге режима перехода для нахождения кодового вектора упомянутого набора, соответствующего возбуждению режима перехода, оптимально соответствующему целевому сигналу поиска по кодовой книге.

43. Способ кодирования по п.42, в котором поиск по кодовой книге режима перехода содержит применение данного критерия к каждой форме глоттального импульса кодовой книги форм глоттальных импульсов и нахождение в качестве кодового вектора, оптимально соответствующего целевому сигналу поиска по кодовой книге, кодового вектора набора, соответствующего максимальному значению упомянутого критерия.

44. Способ кодирования по п.43, в котором поиск по кодовой книге режима перехода содержит идентификацию найденного кодового вектора посредством параметров режима перехода, выбранных из группы, состоящей из идентификации конфигурации режима перехода, формы глоттального импульса, положения центра формы глоттального импульса в найденном кодовом векторе, коэффициента усиления режима перехода, знака коэффициента усиления режима перехода и периода основного тона по закрытому циклу.

45. Способ кодирования по п.42, в котором звуковой сигнал содержит речевой сигнал, и упомянутый способ дополнительно содержит выбор кадра перехода из группы, состоящей из кадра, содержащего вокализованное вступление, и кадра, содержащего переход между двумя различными вокализованными звуками.

46. Способ кодирования по п.42, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, и в котором поиск по кодовой книге режима перехода содержит поиск по кодовой книге режима перехода в первой части подкадров и поиск по кодовой книге с предсказанием устройства кодера во второй части подкадров.

47. Способ кодирования по п.42, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, и в котором упомянутый способ содержит использование кодовой книги режима перехода в подкадре, содержащем первый глоттальный импульс текущего кадра.

48. Способ кодирования по п.47, содержащий формирование в по меньшей мере одном подкадре, предшествующем подкадру, использующему кодовую книгу режима перехода, сигнала глобального возбуждения, содержащего исключительно компонент кодовой книги порождений.

49. Способ кодирования по п.42, в котором кодовая книга форм глоттальных импульсов содержит кодовые вектора, сформированные из формы глоттального импульса, расположенной в заданном положении в кодовом векторе.

50. Способ кодирования по п.49, в котором кодовая книга форм глоттальных импульсов содержит предварительно определенное количество различных форм глоттальных импульсов, и способ кодирования содержит формирование множества различных кодовых векторов кодовой книги форм глоттальных импульсов посредством расположения каждой формы глоттального импульса во множестве различных положений в кодовых векторах.

51. Способ кодирования по п.49, в котором генерирование в кодовой книге форм глоттальных импульсов набора кодовых векторов, независимых от прошлого возбуждения, содержит генерирование кодовых векторов, содержащих только один ненулевой элемент, и обработку при помощи формирующего фильтра кодовых векторов, содержащих только один ненулевой элемент, для создания кодовых векторов, представляющих формы глоттальных импульсов, центрированные в различных положениях.

52. Способ кодирования по п.42, дополнительно содержащий:
генерирование целевого сигнала поиска по кодовой книге порождений;
обеспечение кодовой книги порождений для генерирования набора кодовых векторов порождения, причем каждый соответствует соответствующему возбуждению порождения;
поиск по кодовой книге порождений для нахождения кодового вектора порождения из упомянутого набора, соответствующего возбуждению порождения, оптимально соответствующему целевому сигналу поиска по кодовой книге порождений; и
суммирование возбуждения режима перехода и возбуждения порождения для создания глобального возбуждения для синтезирующего звуковой сигнал фильтра.

53. Способ кодирования по п.52, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, и в котором, в зависимости от того, где расположен глоттальный импульс или импульсы в подкадрах, способ кодирования содержит кодирование подкадров, используя по меньшей мере одну из кодовой книги режима перехода, адаптивной кодовой книги и кодовой книги порождений.

54. Способ декодирования для генерирования возбуждения режима перехода, заменяющего возбуждение адаптивной кодовой книги в кадре перехода и/или в по меньшей мере одном кадре, следующем за переходом в звуковом сигнале, содержащий:
прием индекса кодовой книги;
подачу индекса кодовой книги на кодовую книгу режима перехода для генерирования набора кодовых векторов, независимых от прошлого возбуждения, причем кодовая книга режима перехода содержит кодовую книгу форм глоттальных импульсов; и
генерирование посредством кодовой книги режима перехода и в ответ на индекс кодовой книги одного из кодовых векторов набора, соответствующего возбуждению режима перехода.

55. Способ декодирования по п.54, в котором звуковой сигнал содержит речевой сигнал, и в котором упомянутый способ содержит выбор кадра перехода из группы, состоящей из кадра, содержащего вокализованное вступление, и кадра, содержащего переход между двумя различными вокализованными звуками.

56. Способ декодирования по п.54, в котором кадр перехода и/или по меньшей мере один кадр, следующий за переходом, содержат каждый множество подкадров, и в котором упомянутый способ содержит использование кодовой книги режима перехода в первой части подкадров, и кодовой книги с предсказанием во второй части подкадров.

57. Способ декодирования по п.54, в котором кодовая книга форм глоттальных импульсов содержит кодовые векторы, сформированные из формы глоттального импульса, размещенной в заданном положении в кодовом векторе.

58. Способ декодирования по п.57, в котором кодовая книга форм глоттальных импульсов включает в себя предварительно определенное количество различных форм глоттальных импульсов, и в котором упомянутый способ содержит формирование множества различных кодовых векторов кодовой книги форм глоттальных импульсов посредством расположения каждой формы глоттального импульса во множестве различных положений в кодовом векторе.

59. Способ декодирования по п.57, в котором кодовые векторы набора генерируются посредством кодовой книги форм глоттальных импульсов посредством генерирования кодовых векторов, содержащих только один ненулевой элемент, и обработки при помощи формирующего фильтра кодовых векторов, содержащих только один ненулевой элемент, для создания кодовых векторов, представляющих формы глоттальных импульсов, центрированных в различных положениях.

60. Способ декодирования по п.54, дополнительно содержащий:
обеспечение кодовой книги порождений для генерирования набора
кодовых векторов порождения;
подачу индекса кодовой книги порождений на кодовую книгу порождений;
генерирование посредством кодовой книги порождений и в ответ на индекс кодовой книги порождений одного из кодовых векторов порождения набора, соответствующего возбуждению порождения; и
суммирование возбуждения режима перехода и возбуждения порождения для создания глобального возбуждения для синтезирующего звуковой сигнал фильтра.



 

Похожие патенты:

Изобретение относится к устройству и способу кодирования речи, в частности к устройству и способу кодирования речи для выполнения поиска фиксированной кодовой книги.

Изобретение относится к устройству поиска в фиксированной таблице кодирования, которое немного сдерживает увеличение объема операций, даже если фильтр, применяемый к импульсу возбуждения, имеет характеристику, которая не может быть представлена посредством нижней треугольной матрицы, и реализует квазиоптимальный поиск в фиксированной таблице кодирования.

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов.

Изобретение относится к устройству и способу формирования перцепционно взвешенного синтетического сигнала при поиске фиксированной таблицы кодирования. .

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов.

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов.

Изобретение относится к кодированию и декодированию широкополосных сигналов, таких как отдельные аудиосигналы. .

Изобретение относится к кодированию и декодированию аудиосигналов. .

Изобретение относится к способу и устройству квантования усиления для воплощения в методе кодирования дискретизированного звукового сигнала, обработанного в процессе кодирования последовательными кадрами из L выборок, где каждый кадр делится на некоторое число подкадров и каждый подкадр содержит некоторое число N выборок, где N<L.

Изобретение относится к устройствам для микширования множества входных потоков данных для получения потока данных, которые могут применяться, например, в области систем конференц-связи, включая системы видео- и телеконференций

Изобретение относится к способу, устройству и системе для кодирования и декодирования сигналов

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов. Техническим результатом предлагаемого способа является уменьшение скорости передачи данных по каналам связи при эффективном кодировании речевых сигналов с сохранением качественных показателей синтезированного сигнала. Поставленная цель в вокодере с линейным предсказанием достигается посредством отказа от передачи по каналу связи информации о сигнале возбуждения. Сигнал возбуждения идентифицируют непосредственно на приеме по данным о параметрах синтезирующей модели при помощи нейронной сети. По каналу связи передают информацию о коэффициентах формирующей модели, коэффициенте усиления, параметрах, характеризующих кодируемый речевой сигнал, которые рассчитывают на каждом квазистационарном сегменте анализа речевого сигнала. 3 ил.

Изобретение относится к способу кодирования и более конкретно к способу кодирования периода основного тона. Технический результат заключается в повышении эффективности компрессии периодов основного тона. В ходе кодирования вычисляются периоды основного тона для сигналов временной последовательности в заранее заданном временном интервале и выводится код, соответствующий таковым. В этом кодировании разрешающие способности для выражения периодов основного тона и/или режима кодирования периода основного тона переключаются в соответствии с тем, удовлетворяет ли индекс, указывающий уровень периодичности и/или стационарности сигналов временной последовательности, условию, указывающему высокую или низкую периодичность и/или стационарность. В этом декодировании в соответствии с тем, удовлетворяет ли индекс, указывающий уровень периодичности и/или стационарности, индекс, включаемый во входной код или получаемый исходя из входного кода, соответствующего заранее заданному временному интервалу, условию, указывающему высокую периодичность и/или стационарность, режим декодирования для кода, включенного во входной код, соответствующего периодам основного тона, переключается для декодирования кода, соответствующего периодам основного тона, чтобы получать периоды основного тона, соответствующие заранее заданному временному интервалу. 14 н. и 18 з.п. ф-лы, 28 ил., 9 табл.

Изобретение относится к средствам кодирования и декодирования. Технический результат заключается в повышении качества кодированного и декодированного сигналов при пониженной скорости передачи данных. Система аудикодирования содержит блок линейного предсказания для фильтрации входного сигнала на основе адаптивного фильтра; блок преобразования для преобразования кадра отфильтрованного входного сигнала в область преобразования; блок квантования для квантования сигнала в области преобразования. На основе характеристик входного сигнала блок квантования принимает решение кодировать сигнал в области преобразования с помощью устройства квантования, основанного на статистической модели, или устройства квантования, не основанного на статистической модели. Предпочтительно решение основывается на размере кадра, примененном блоком преобразования. 5 н. и 13 з.п. ф-лы, 34 ил.

Изобретение относится к средствам оптимизации одного и более параметров для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации. Технический результат заключается в уменьшении акустических искажений при повышающем микшировании аудиосигнала. Средство включает в себя регулятор параметров. Регулятор параметров принимает один или более входных параметров, на основе которых генерирует один или более скорректированных параметров. Регулятор параметров генерирует один или более скорректированных параметров с использованием одного или более входных параметров и объектно-ориентированной параметрической информации таким образом, что искажение представления сигнала повышающего микширования, вызванного использованием неоптимальных параметров, уменьшается по крайней мере для входных параметров, отклоняющихся от оптимальных параметров на величину, превышающую заданный предел отклонений.13 н. и 23 з.п. ф-лы, 12 ил.

Изобретение относится к области коррекции коэффициента усиления при кодировании аудиосигналов, основанном на схемах квантования, и может использоваться для обработки различных типов аудиосигналов. Технический результат - осуществление регулировки коэффициента усиления при декодировании аудиосигналов, которые были закодированы с раздельными представлениями коэффициента усиления и вектора формы. Способ регулировки коэффициента усиления при декодировании аудиосигналов, которые были закодированы с раздельными представлениями коэффициента усиления и вектора формы, характеризуется тем, что оценивают показатель точности представления вектора формы, определяют коррекцию коэффициента усиления на основе оценочного показателя точности, регулируют представление коэффициента усиления на основе определенной коррекции коэффициента усиления. 4 н. и 24 з.п. ф-лы, 21 ил., 2 табл.

Изобретение относится к области шумоподавления в принимаемом многоканальном FM-радиосигнале и может использоваться, в частности в стереофоническом FM-радиоприемнике. Достигаемый технический результат - повышение качества звука путем повышения подавления шума в принимаемом многоканальном FM-радиосигнале. Устройство для подавления шума в принимаемом многоканальном FM-радиосигнале представлено как принимаемый средний сигнал и принимаемый побочный сигнал, содержит модуль определения параметров, сконфигурированный для определения одного или нескольких параметров, служащих признаками корреляции и/или декорреляции между принимаемым средним сигналом и принимаемым побочным сигналом, и модуль шумоподавления, сконфигурированный для генерирования побочного сигнала с подавленным шумом из принимаемого среднего сигнала с использованием одного или нескольких параметров. 3 н. и 29 з.п. ф-лы, 6 ил.

Изобретение относится к средствам обработки речевого/аудио сигнала. Технический результат заключается в обеспечении комфортного воспроизведения звука во время переключения полосы пропускания речевых/аудио сигналов. Способ обработки речевого/аудио сигнала включает в себя этапы, на которых при переключении полосы пропускания речевого/аудио сигнала получают исходный высокочастотный сигнал, соответствующий текущему кадру речевого/аудио сигнала; получают глобальный параметр усиления исходного высокочастотного сигнала во временной области; выполняют обработку взвешивания для отношения энергий и глобального параметра усиления во временной области и используют полученное взвешенное значение в качестве предсказанного глобального параметра усиления, причем отношение энергий представляет собой отношение между энергией архивного кадра высокочастотного сигнала во временной области и энергией текущего кадра исходного высокочастотного сигнала; корректируют исходный высокочастотный сигнал с помощью предсказанного глобального параметра усиления для получения скорректированного высокочастотного сигнала во временной области; синтезируют текущий кадр узкополосного сигнала во временной области и скорректированный высокочастотный сигнал во временной области и выводят синтезированный сигнал. 4 н. и 19 з.п. ф-лы, 10 ил.
Наверх