Способ кодирования широкополосного речевого сигнала

Авторы патента:

Рыболовлев Александр Аркадьевич (RU)

G10L19 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2419169:

Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) (RU)

Изобретение относится к системе электросвязи и предназначено для кодирования широкополосного речевого сигнала (ШРС) с диапазоном частот от 50 до 7000 Гц. Техническим результатом является повышение качества восстановленных речевых сообщений при фиксированной скорости передачи. Указанный технический результат достигается тем, что перед оцениванием субполосных порогов маскирования обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов М, выбирают один из М блоков мультиполосных кодовых книг, а затем оценивают субполосные пороги маскирования, при этом количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала. После определения величины перцептуальной энтропии формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания. 3 ил.

Предлагаемое техническое решение относится к системе электросвязи, предназначено для кодирования широкополосного речевого сигнала (ШРС) с диапазоном частот от 50 до 7000 Гц и может быть использовано в устройствах анализа-синтеза речи.

Известен способ адаптивного кодирования речевых сигналов на основе системы с переменной структурой (Патент №2343564, от 20.06.2008), заключающийся в осуществлении классификации входных кадров речевого сигнала (PC) и двухконтурной адаптации процедуры кодирования для каждого кадра: первый контур производит оптимизацию структуры кодирующего устройства, а второй - оптимизацию передаваемых параметров для выбранной системы компрессии.

Недостатком указанного способа является недостаточная степень учета процесса слуховой перцепции речевого сигнала аудиторной системой человека, так как способ рассчитан на обработку PC с традиционной полосой частот (от 300 до 3400 Гц). Данный факт не создает необходимых условий для максимального использования имеющейся априорной информации о PC, что предопределяет недостаточно высокое качество восстановления сигнала на приеме.

Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является способ кодирования ШРС на основе линейного предсказания (Лившиц М.З. Широкополосный CELP-кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой // Цифровая обработка сигналов. - 2005. - №2. - С.20-35), заключающийся в том, что берут последовательно локально-стационарные участки обрабатываемого речевого сигнала, оценивают субполосные пороги маскирования путем вычисления коэффициентов сжатого дискретного преобразования Фурье, затем определяют величину перцептуальной энтропии кодируемых субполос для текущего фрейма сигнала, формируют вектор, содержащий глубину поиска в субполосных кодовых книгах, затем по значению индекса вектора возбуждения из блока мультиполосных кодовых книг выбирают сигнал возбуждения, обеспечивающий наилучшее приближение синтезированного широкополосного речевого сигнала к входному оригинальному широкополосному речевому сигналу, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.

Недостатком способа-прототипа является недостаточно высокое качество восстановления сигнала на приеме при фиксированной скорости передачи, определяемое следующим:

1) фиксированным объемом кодовых книг на каждом уровне квантования во всех субполосах сигнала возбуждения;

2) отсутствием адаптации к типу (вокализованный, слабо вокализованный/переходный, невокализованный, пауза и т.д.) речевого кадра.

При существующих требованиях к качеству восстанавливаемого на приеме PC (ГОСТ Р51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - Введ. 1998.01.01. - М.: Госстандарт России, 1997. - 10 с.) необходима его более тщательная обработка. В данных условиях способы, частично учитывающие статистическую и перцептуальную избыточности ШРС, становятся неприемлемыми и не обеспечивают достаточного качества речепреобразования при его кодировании.

Задачей изобретения является разработка способа кодирования широкополосного речевого сигнала, позволяющего обеспечить повышение качества синтезируемого широкополосного речевого сигнала без увеличения скорости передачи за счет оптимизации объема кодовых книг различных уровней и субполос блока мультиполосных кодовых книг с учетом априорных сведений о перцептуальной значимости субполос сигнала возбуждения и типе кадра PC.

Для оценки качества синтезируемого PC принято использовать субъективные и объективные методы. В общем случае корректность критериев объективной оценки качества PC характеризуется корреляцией оценок, вычисленных с их использованием, с оценками, полученными субъективными методами.

Превалирование интересов абонентов среди факторов, определяющих тенденции развития речевых служб в системе электросвязи, делает более актуальными методы субъективной оценки, характерной особенностью которых является участие в них бригад дикторов и аудиторов с определением последними качества звучания речи. Рекомендациями сектора стандартизации в области телефонии Международного союза электросвязи введена шкала средней субъективной оценки MOS (Mean Opinion Score), определяющая пять классов качества синтезированного PC. В Российской Федерации методы измерений и нормы качества передачи (воспроизведения) речи регламентированы ГОСТ Р50840-95 и Р51061-97. Данные документы устанавливают пять классов качества звучания речи на основе измерения разборчивости речи артикуляционным методом, что обусловлено высокой коррелированностью общей оценки качества звучания речи и степени разборчивости.

Критериальный аппарат объективной оценки качества речи достаточно обширен и отличается от субъективных методов оперативностью измерений, стабильностью результатов и экономической эффективностью. Наибольшее распространение для оценки качества восстановления ШРС получила величина искажения спектра барков BSD (Bark Spectral Distortion) (W. Yang, M. Dixon, R. Yantomo. "A modified bark spectral distortion measure whish uses noise masking threshold," IEEE Speech Coding Workshop, pp.55-56, Pocono Manor, 1997).

В заявленном способе задача изобретения решается тем, что в известном способе кодирования широкополосного речевого сигнала, заключающемся в том, берут последовательно локально-стационарные участки обрабатываемого речевого сигнала, оценивают субполосные пороги маскирования путем вычисления коэффициентов сжатого дискретного преобразования Фурье, затем определяют величину перцептуальной энтропии кодируемых субполос для текущего фрейма сигнала, формируют вектор, содержащий глубину поиска в субполосных кодовых книгах, затем по значению индекса вектора возбуждения из блока мультиполосных кодовых книг выбирают сигнал возбуждения, обеспечивающий наилучшее приближение синтезированного широкополосного речевого сигнала к входному оригинальному широкополосному речевому сигналу, дополнительно перед оцениванием субполосных порогов маскирования обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов M, выбирают один из М блоков мультиполосных кодовых книг, а затем оценивают субполосные пороги маскирования. Количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала. Кроме того, после определения величины перцептуальной энтропии формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения. Выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.

Новая совокупность существенных признаков позволяет достичь указанного технического результата за счет того, что обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов М, выбирают один из М блоков мультиполосных кодовых книг. При этом количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа кодирования широкополосного речевого сигнала, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности «новизна».

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Заявленные объекты изобретения поясняются чертежами, на которых показаны:

фиг.1 - структурная схема устройства кодирования широкополосного речевого сигнала;

фиг.2 - схема блока мультиполосных кодовых книг;

фиг.3 - диаграмма качества восстановления ШРС по пятибалльной шкале MOS, достигаемого прототипом и предлагаемым способом кодирования широкополосного речевого сигнала.

Заявленный способ кодирования широкополосного речевого сигнала рассмотрим на примере его реализации в устройстве кодирования широкополосного речевого сигнала (фиг.1).

Берут последовательно локально-стационарные участки обрабатываемого речевого сигнала и в блоке 101 производят аналого-цифровое преобразование при помощи 16 бит/отсчет с частотой дискретизации f_d=16 кГц. Процесс аналого-цифрового преобразования достаточно подробно описан в (Попов О.Б., Рихтер С.Г. Цифровая обработка сигналов в трактах звукового вещания: Учебное пособие для вузов. - М.: Горячая линия - Телеком, 2007. - С.74-80; Радзишевский А.Ю. Основы аналогового и цифрового звука. - М.: Издательский дом "Вильямс", 2006. - С.157-171). После этого речевой сигнал подают на блок формирования и начальной обработки сегмента анализа ШРС 102. В данном блоке оцифрованный речевой сигнал подвергают сегментированию на одинаковые кадры, равные периоду квазистационарности. Функционирование блока 102 описано в (Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. Шелухина О.И. - М.: Радио и связь, 2000. - С.135). С выхода блока 102 речевые сегменты подают на блок WDFT - анализа 104 (Warped Discrete Fourier Transform), реализованного на базе дискретного преобразования Фурье с неравномерным разложением коэффициентов Фурье по частотной шкале, блок CELP - анализа (Code Excited Linear Prediction) с многоуровневым векторным квантованием 109 и идентификатор типа кадра речевого сигнала (блок 103), в котором кадры PC классифицируют на конечное число непересекающихся классов М.

Варианты классификации сегментов речи, реализуемой в блоке 103, на основе которой будет происходить изменение структуры кодирующего устройства, описаны в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С.96-109). Используемый в предлагаемом способе кодирования широкополосного речевого сигнала вариант классификации PC на конечное количество типов кадров отражен в (Патент №2343564, от 20.06.2008).

Результаты классификации блоком 103 подают на блок 104 и блок выбора блока мультиполосных кодовых книг (блок 106), осуществляющий выбор одного из четырех блоков мультиполосных кодовых книг (блоки 108.1 …, 108.M) и управление работой векторного квантователя (блок 107).

Каждому типу речевого кадра ставят в соответствие свой блок мультиполосных кодовых книг (блоки 108.1-108.М), причем количество субполос в мультиполосной кодовой книги выбирают в зависимости от характера речевого сегмента. Структура блока мультиполосных кодовых книг представлена на фиг.2. Количество уровней и глубину каждого уровня в кодовых книгах (блоки 201.1 …, 201.N) выбирают в зависимости от перцептуальной значимости анализируемой субполосы SPE_b.

Функционирование блоков 104, 105, 106, 108.1…108М и последовательность вычисления величины SPE_b описана в (Лившиц, М.З. Широкополосный CELP-кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой // Цифровая обработка сигналов. - 2005. - №2. - С.23-31).

Далее оценивают субполосные пороги маскирования в каждой из восьми частотных полос, на которые анализируемый речевой сегмент разбивают в блоке 104. После определения величины перцептуальной энтропии SPE_b формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения.

Информационные сигналы, полученные в результате векторного квантования (блок 107) и работы блока CELP-анализа с многоуровневым векторным квантованием (блок 109), подают на вход блока формирования кадра передачи 110, в котором формируют выходную битовую последовательность кодера путем объединения индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.

Функционирование блока 107 достаточно подробно описано в (Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. Шелухина О.И. - М.: Радио и связь, 2000. - С.113-122).

Функционирование блока 109 достаточно подробно описано в (Петровский А.А., Лившиц М.З. Многоуровневое векторное квантование речевого сигнала по мультиполосной кодовой книге в широкополосном CELP-кодере с психоакустической мотивацией // Цифровая обработка сигналов и ее применение, труды РНТОРЭС им. А.С.Попова. Москва, 2005 - С.120-121).

Процедура декодирования на приемной стороне заключается в выделении из принятой последовательности кадра передачи информации о типе структуры и параметрах кодированного ШРС, выборе соответствующего блока мультиполосных кодовых книг и восстановлении ШРС по принятым сигналу возбуждения и параметрам синтезирующего устройства.

Заявленный способ кодирования широкополосного речевого сигнала обеспечивает повышение качества синтезируемого широкополосного речевого сигнала без увеличения скорости передачи за счет оптимизации объема кодовых книг различных уровней и субполос блока мультиполосных кодовых книг с учетом априорных сведений о перцептуальной значимости субполос сигнала возбуждения и типе кадра PC.

Правомерность теоретических предпосылок проверялась с помощью имитационной модели устройства кодирования широкополосного речевого сигнала при следующих условиях:

- тестовый материал - речевые данные с частотой дискретизации f_д=16 кГц и квантованием 16 бит/отсчет из базы данных TIMIT;

- длительность речевого материала - 5 мин;

- скорость потока - 23,5 кбит/с.

Оценка качества восстановленного ШРС осуществлялась по методике, описанной в (А.А.Петровский. Объективная оценка качества восстановленного аудиосигнала перцептуальным ПДВП-кодером на базе периферийной модели уха человека, труды РНТОРЭС им. А.С.Попова, т.2, стр.123-126, Москва, 2003). Сравнительный анализ оценки качества восстановленного ШРС по критерию BSD для прототипа и предлагаемого способа кодирования ШРС приведен на фиг.3. Следует отметить высокую степень корреляции величины BSD с субъективной оценкой качества, проводимой по методике MOS.

Из приведенных данных следует, что после оптимизации объема кодовых книг различных уровней в каждой из полос с учетом априорных знаний о перцептуальной значимости субполос сигнала возбуждения и типе речевого кадра качество восстановленного ШРС повысилось на 0,24 балла по пятибалльной шкале MOS.

Способ кодирования широкополосного речевого сигнала, заключающийся в том, что берут последовательно локально-стационарные участки обрабатываемого речевого сигнала, оценивают субполосные пороги маскирования путем вычисления коэффициентов сжатого дискретного преобразования Фурье, затем определяют величину перцептуальной энтропии кодируемых субполос для текущего фрейма сигнала, формируют вектор, содержащий глубину поиска в субполосных кодовых книгах, затем по значению индекса вектора возбуждения из блока мультиполосных кодовых книг выбирают сигнал возбуждения, обеспечивающий наилучшее приближение синтезированного широкополосного речевого сигнала к входному оригинальному широкополосному речевому сигналу, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания, отличающийся тем, что перед оцениванием субполосных порогов маскирования обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов М, выбирают один из М блоков мультиполосных кодовых книг, а затем оценивают субполосные пороги маскирования, при этом количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала, кроме того, после определения величины перцептуальной энтропии формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.

Изобретение относится к способу и устройству для обработки аудиосигнала, в частности широковещательного сигнала или т.п. .

Система, способы и устройство для восстановления при стирании кадра // 2419167

Изобретение относится к обработке речевых сигналов. .

Кодирование и декодирование звука // 2418385

Изобретение относится к кодированию и/или декодированию звука с использованием структур иерархического кодирования и/или структур иерархического декодирования. .

Поддиапазонный речевой кодекс с многокаскадными таблицами кодирования и избыточным кодированием // 2418324

Изобретение относится к аудиокодекам, в частности к поддиапазонному кодированию, таблицам кодирования и/или избыточному кодированию. .

Системы и способы для изменения окна с кадром, ассоциированным с аудио сигналом // 2418323

Изобретение относится к технологии обработки речевых сигналов, в частности система и способы относятся к изменению окна с кадром, ассоциированным с аудио сигналом.

Аудиокодер, аудиодекодер и аудиопроцессор, имеющий динамически изменяющуюся характеристику перекоса // 2418322

Изобретение относится к обработке аудиоданных с использованием фильтров с перекошенной характеристикой и, в частности, к многоцелевому кодированию аудиоданных. .

Способ и устройство для обработки аудиосигнала // 2417549

Изобретение относится к способу и устройству для декодирования аудиосигнала, принятого на цифровом носителе, например сигнала вещания. .

Способ и устройство для декодирования аудиосигнала // 2417459

Изобретение относится к способу и устройству для декодирования аудиосигнала, предназначено для обеспечения способа декодирования аудиосигнала посредством использования информации об объекте, включающей в себя информацию об уровне объекта и информацию о коэффициенте усиления объекта, для модифицирования сигнала понижающего смешивания аудиосигнала в виде изменения вклада объекта в каждый канал понижающего смешивания.

Генерирование многоканальных звуковых сигналов // 2417458

Изобретение относится к генерированию многоканальных звуковых сигналов из матрично-кодированного стереосигнала объемного звука. .

Способ конкатенации кадров в системе связи // 2417457

Изобретение относится к телекоммуникационным системам, в частности к способу и устройству конкатенации кадров в системе связи. .

Системы, способы и устройство для широкополосного кодирования и декодирования активных кадров // 2419170

Изобретение относится к обработке речевых сигналов

Способ переключения скорости передачи битов при аудиодекодировании с масштабированием скорости передачи битов и масштабированием полосы пропускания // 2419171

Изобретение относится к способу переключения скорости передачи битов при декодировании аудиосигнала, кодированного с помощью системы аудиокодирования, причем упомянутое декодирование содержит этап последующей обработки, зависящий от скорости передачи битов

Способ и устройство эффективной маскировки стирания кадров в речевых кодеках // 2419891

Изобретение относится к способу цифрового кодирования звукового сигнала

Способы и устройства для кодирования и декодирования аудиосигналов на основе объектов // 2420026

Изобретение относится к декодированию аудиосигналов

Аудиодекодирование // 2420814

Изобретение относится к аудиодекодированию и в особенности к декодированию сигналов MPEG Surround

Устройство и способ для генерации значений подполос звукового сигнала и устройство и способ для генерации отсчетов звукового сигнала во временной области // 2420815

Изобретение относится к кодированию и декодированию звука

Способ двоичного кодирования показателей квантования огибающей сигнала, способ декодирования огибающей сигнала и соответствующие модули кодирования и декодирования // 2420816

Изобретение относится к способам передачи и хранения цифровых звуковых сигналов, в частности, к способам двоичного кодирования показателей квантования, определяющих огибающую сигнала

Системы и способы для включения идентификатора в пакет, ассоциативно связанный с речевым сигналом // 2421828

Изобретение относится к технологии обработки речи

Способ компрессии аудиоданных // 2421829

Изобретение относится к технике цифровой обработки сигналов и может быть использовано в системах сжатия звуковых сигналов

Устройство и способ для обработки действительного сигнала поддиапазона для ослабления эффектов наложения спектров // 2421830

Изобретение относится к обработке аудио- или видеосигналов и, в частности, к банкам фильтров для преобразования сигнала в спектральное представление