Устройство и способ для выполнения кодирования методом хаффмана

Авторы патента:

ОСИКИРИ Масахиро (JP)

ЧУН Кок Сэн (SG)

ЛЮ Цзунсянь (SG)

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

Владельцы патента RU 2585990:

Панасоник Интеллекчуал Проперти Корпорэйшн оф Америка (US)

Изобретение относится к беспроводной связи и предназначено для кодирования и декодирования звука/речи. Технический результат - повышение точности кодирования и декодирования звукового сигнала. Для этого таблица Хаффмана может быть создана автономно при помощи большой базы данных входных последовательностей. В способе определяют интервал значений индексов квантования (или разностных индексов) для кодирования методом Хаффмана. Для каждого значения из этого интервала собирают все входные сигналы, имеющие один и тот же интервал значений, и вычисляют распределение вероятности каждого значения индексов квантования (или разностных индексов) в пределах этого интервала. Для каждого значения из этого интервала создают одну таблицу Хаффмана в соответствии с вероятностью появления каждого возможного значения входного сигнала. 4 н. и 3 з.п. ф-лы, 14 ил.

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к устройству кодирования звука/речи, к устройству декодирования звука/речи и к способам кодирования и декодирования звука/речи с использованием кодирования методом Хаффмана (Huffman).

УРОВЕНЬ ТЕХНИКИ

При сжатии сигнала для кодирования входного сигнала широко используется кодирование методом Хаффмана с использованием таблицы кодов переменной длины (VL-кодов) (таблицы Хаффмана). Кодирование методом Хаффмана является более эффективным, чем кодирование входного сигнала, имеющего неравномерное статистическое распределение, кодами фиксированной длины (FL-кодами).

При кодировании методом Хаффмана таблицу Хаффмана получают особым способом на основании оцененной вероятности появления каждого возможного значения входного сигнала. Во время кодирования каждое значение входного сигнала ставят в соответствие конкретному коду переменной длины в таблице Хаффмана.

Посредством кодирования значений сигнала, которые статистически встречаются с большей вероятностью, с использованием относительно коротких VL-кодов (с использованием относительно малого количества битов), и, наоборот, кодирования значений сигнала, которые статистически встречаются редко, с использованием относительно длинных VL-кодов (с использованием относительно большего количества битов) может быть уменьшено общее количество битов, используемых для кодирования входного сигнала.

СПИСОК ЦИТАТ

[Непатентный документ 1] ITU-T Recommendation G.719 (06/2008) “Low-complexity, full-band audio coding for high-quality, conversational applications”

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Техническая задача

Однако в некоторых применениях, например при кодировании звукового сигнала, статистика данных сигнала может существенно изменяться от одного набора звукового сигнала до другого набора звукового сигнала. И даже в пределах одного и того же набора звукового сигнала.

Если статистика звукового сигнала существенно расходится со статистикой из заранее заданной таблицы Хаффмана, то не может быть реализовано оптимальное кодирование сигнала. И происходит то, что для кодирования звукового сигнала, имеющего различную статистику, при кодировании методом Хаффмана расходуется намного больше битов, чем количество битов, расходуемое при кодировании с фиксированной длиной кода.

Одним возможным решением является включение в кодирование как кодирования методом Хаффмана, так и кодирования с фиксированной длиной кода, и выбор способа кодирования, который расходует меньше битов. К стороне декодера передают один сигнал флага для указания того, какой способ кодирования выбран в кодере. Это решение используется в недавно стандартизованном посредством ITU-T кодеке G.719 речи.

Это решение решает проблему для некоторых очень экстремальных последовательностей, в которых кодирование методом Хаффмана использует больше битов, чем кодирование с фиксированной длиной кода. Но для других входных сигналов, которые имеют статистику, отличающуюся от таблицы Хаффмана, но которые, тем не менее, выбрали кодирование методом Хаффмана, оно все же не является оптимальным.

В стандартизованном ITU-T кодеке G.719 речи кодирование методом Хаффмана используется при кодировании индексов квантования нормировочных коэффициентов.

Структура кодека G.719 проиллюстрирована на Фиг. 1.

На стороне кодера производят обработку входного сигнала, дискретизированного с частотой 48 кГц, посредством детектора (101) обнаружения нестационарного состояния. Для кадра входного сигнала применяют преобразование (102) с высокой разрешающей способностью по частоте или с низкой разрешающей способностью по частоте в зависимости от обнаружения нестационарного состояния. Полученные спектральные коэффициенты группируют в полосы частот неравной длины. Оценивают (103) норму каждой полосы частот, и выполняют квантование и кодирование (104) полученной в результате этого огибающей спектра, состоящей из норм всех полос частот. Затем нормируют коэффициенты по квантованным нормам (105). Квантованные нормы дополнительно корректируют (106) на основании адаптивного спектрального взвешивания и используют в качестве входных данных для распределения битов (107). Нормированные спектральные коэффициенты квантуют по векторам решетки и кодируют (108) на основании распределенных битов для каждой полосы частот. Производят оценку уровня незакодированных спектральных коэффициентов, выполняют его кодирование (109) и передачу в декодер. Кодирование методом Хаффмана применяют для индексов квантования как для закодированных спектральных коэффициентов, так и для закодированных норм.

На стороне декодера сначала декодируют флаг нестационарного состояния, который указывает конфигурацию кадра, то есть, является ли он стационарным или нестационарным. Декодируют огибающую спектра, и в декодере используют те же самые алгоритмы регулирования норм и распределения битов с точностью до бита для повторного вычисления распределения битов, что является существенным для декодирования индексов квантования нормированных коэффициентов преобразования. После обращения квантования (112) восстанавливают низкочастотные незакодированные спектральные коэффициенты (распределенные нулевые биты) с использованием кодовой книги с заполнением спектра, построенной из принятых спектральных коэффициентов (спектральных коэффициентов с распределением ненулевых битов) (113). Используют индекс регулирования уровня шума для регулирования уровня восстановленных коэффициентов. Высокочастотные незакодированные спектральные коэффициенты восстанавливают с использованием расширения полосы частот. Декодированные спектральные коэффициенты и восстановленные спектральные коэффициенты смешивают и приводят к нормированному спектру. Применяют декодированную огибающую спектра, что приводит к декодированному спектру во всей полосе частот (114). Наконец, применяют обратное преобразование (115) для восстановления декодированного сигнала во временной области. Это выполняют путем применения либо модифицированного обратного дискретного косинусного преобразования для стационарных режимов, либо обратного преобразования с более высоким разрешением по времени для нестационарного режима.

В кодере (104) нормировочные коэффициенты спектральных поддиапазонов подвергают скалярному квантованию логарифмическим скалярным квантователем с равномерным шагом с 40 шагами по 3 дБ. Записи кодовой книги логарифмического квантователя показаны на Фиг. 2. Из этой кодовой книги видно, что интервал значений нормировочных коэффициентов равен [2^-2,5,2¹⁷] и что значение уменьшается с увеличением индекса.

Кодирование индексов квантования для нормировочных коэффициентов проиллюстрировано на Фиг. 3. Всего имеется 44 поддиапазона частот и, соответственно, 44 нормировочных коэффициента. Для первого поддиапазона частот нормировочный коэффициент квантуют с использованием первых 32 записей (301) кодовой книги, тогда как другие нормировочные коэффициенты подвергают скалярному квантованию с использованием 40 записей кодовой книги (302), показанных на Фиг. 2. Индекс квантования для нормировочного коэффициента для первого поддиапазона частот непосредственно закодирован 5 битами (303), тогда как индексы для других поддиапазонов частот закодированы способом разностного кодирования. Разностные индексы получают с использованием приведенной ниже формулы (304):

. (уравнение 1)

А разностные индексы кодируют двумя возможными способами: кодирования с фиксированной длиной кода (305) и кодирования методом Хаффмана (306). Таблица Хаффмана для разностных индексов показана на Фиг. 4. В этой таблице имеется всего 32 записи, от 0 до 31, которые учитывают возможность резкого изменения энергии между соседними поддиапазонами частот.

Однако для входного аудиосигнала существует физическое явление, именуемое слуховой маскировкой. Слуховая маскировка происходит тогда, когда на восприятие одного звука воздействует наличие другого звука. В качестве примера, если имеются два сигнала со сходными частотами, существующие в одно и то же время: один мощный пик на частоте 1 кГц и один тональный сигнал с более низким уровнем на частоте 1,1 кГц, то тональный сигнал с более низким уровнем на частоте 1,1 кГц будет маскирован (будет неслышимым) вследствие существования мощного пика на частоте 1 кГц.

Уровень звукового давления, необходимый для того, чтобы сделать звук воспринимаемым в присутствии другого звука (маскирующего сигнала), задан в кодировании звука как порог маскирующего эффекта. Порог маскирующего эффекта зависит от частоты, уровня звукового давления маскирующего сигнала. Если два звука имеют сходную частоту, то маскирующий эффект является сильным, и порог маскирующего эффекта также является высоким. Если маскирующий сигнал имеет высокий уровень звукового давления, то он оказывает сильное маскирующее влияние на другой звук, и порог маскирующего эффекта также является высоким.

Согласно описанной выше теории слуховой маскировки, если один поддиапазон частот имеет очень большую энергию, то он оказывает сильное маскирующее влияние на другие поддиапазоны частот, в особенности, на соседние с ним поддиапазоны частот. В таком случае порог маскирующего эффекта для других поддиапазонов частот, в особенности для соседнего поддиапазона частот, является высоким.

Если составляющая аудиосигнала в соседнем поддиапазоне частот имеет малые ошибки квантования (меньшие, чем порог маскирующего эффекта), то слушатели не способны ощущать ухудшение составляющей аудио сигнала в этом поддиапазоне частот.

Отсутствует необходимость кодирования нормировочного коэффициента для этого поддиапазона частот с очень высоким разрешением, если ошибки квантования являются меньшими, чем порог маскирующего эффекта.

РЕШЕНИЕ ЗАДАЧИ

В этом изобретении предложены устройство и способы анализа свойств аудиосигнала для генерации таблиц Хаффмана и для выбора таблиц Хаффмана из набора заданных таблиц во время кодирования аудио сигнала.

В кратком изложении, исследованы свойства слуховой маскировки для сужения интервала значений разностных индексов, в результате чего может быть разработана таблица Хаффмана, имеющая меньшее количество кодовых слов, и использована для кодирования. Поскольку таблица Хаффмана имеет меньшее количество кодовых слов, то могут быть разработаны коды с более короткой длиной кода (с использованием меньшего количества битов). Посредством этого может быть сокращено общее количество битов, расходуемых для кодирования разностных индексов.

ПОЛЕЗНЫЕ ЭФФЕКТЫ ИЗОБРЕТЕНИЯ

Посредством применения кодов Хаффмана, использующих меньшее количество битов, может быть уменьшено общее количество битов, расходуемых для кодирования разностных индексов.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

На Фиг. 1 проиллюстрирована структура кодека ITU-T G.719;

на Фиг. 2 показана кодовая книга для квантования нормировочных коэффициентов;

на Фиг. 3 проиллюстрирован способ квантования и кодирования нормировочных коэффициентов;

на Фиг. 4 показана таблица Хаффмана, используемая для кодирования индексов нормировочных коэффициентов;

на Фиг. 5 показана инфраструктура, в которой применено это изобретение;

на Фиг. 6A и Фиг. 6B показаны примеры заданных таблиц Хаффмана;

на Фиг. 7 проиллюстрировано получение кривой маскирования;

на Фиг. 8 проиллюстрировано то, как сужают интервал значений разностных индексов;

на Фиг. 9 показана схема последовательности операций того, как выполняют модифицирование индексов;

на Фиг. 10 проиллюстрировано то, как могут быть созданы таблицы Хаффмана;

на Фиг. 11 проиллюстрирована структура второго варианта осуществления этого изобретения;

на Фиг. 12 проиллюстрирована структура третьего варианта осуществления этого изобретения;

на Фиг. 13 проиллюстрирован кодер из четвертого варианта осуществления этого изобретения;

на Фиг. 14 проиллюстрирован декодер из четвертого варианта осуществления этого изобретения.

ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

В этом разделе приведено описание основного принципа из настоящего изобретения со ссылкой на чертежи с Фиг. 5 по Фиг. 12. Специалисты в данной области техники способны видоизменять и адаптировать это изобретение, не отклоняясь от сущности настоящего изобретения. Иллюстрации приведены для облегчения объяснения.

(Первый вариант осуществления изобретения)

На Фиг. 5 проиллюстрирован предложенный в изобретении кодек, который содержит кодер и декодер, в которых применяется предложенная в изобретении схема кодирования методом Хаффмана.

В кодере, проиллюстрированном на Фиг. 5, выполняют обработку значений энергии поддиапазонов частот методом психоакустического моделирования (501) для получения порога Mask(n) маскирующего эффекта. Согласно полученному Mask(n), модифицируют (502) индексы квантования нормировочных коэффициентов для тех поддиапазонов частот, ошибки квантования которых являются меньшими, чем порог маскирующего эффекта для того, чтобы интервал значений разностных индексов мог быть уменьшен.

Разностные индексы для модифицированных индексов вычисляют согласно приведенному ниже уравнению:

. (уравнение 2)

Интервал значений разностных индексов для кодирования методом Хаффмана определяют так, как показано в приведенном ниже уравнении (504).

. (уравнение 3)

Согласно величине интервала значений, из набора заданных таблиц Хаффмана выбирают (505) таблицу Хаффмана, предназначенную для конкретного интервала значений, для кодирования разностных индексов (506). В качестве примера, если среди всех разностных индексов для входного кадра минимальное значение равно 12, а максимальное значение равно 18, то в этом случае интервал значений =[12,18]. В качестве таблицы Хаффмана для кодирования выбирают таблицу Хаффмана, предназначенную для интервала [12,18].

Набор заранее заданных таблиц Хаффмана создают (подробности будут объяснены в дальнейшей части описания) и упорядочивают в соответствии с интервалом значений разностных индексов. Сигнал флага для указания выбранной таблицы Хаффмана и закодированных индексов передают в декодер.

Другим способом выбора таблицы Хаффмана является вычисление расходования всех битов с использованием каждой таблицы Хаффмана, а затем выбор той таблицы Хаффмана, которая расходует наименьшее количество битов.

В качестве примера на Фиг. 6A и Фиг. 6B показан набор из четырех заранее заданных таблиц Хаффмана. В этом примере приведены 4 заранее заданные таблицы Хаффмана, охватывающие интервал значений, соответственно, из [13,17], [12,18], [11,19] и [10,20]. В таблице 6.1 показан сигнал флага и соответствующий интервал значений для таблицы Хаффмана. В таблице 6.2 показаны коды Хаффмана для всех значений в интервале [13,17]. В таблице 6.3 показаны коды Хаффмана для всех значений в интервале [12,18]. В таблице 6.4 показаны коды Хаффмана для всех значений в интервале [11,19]. В таблице 6.5 показаны коды Хаффмана для всех значений в интервале [10,20].

Сравнивая длину кода Хаффмана на Фиг. 6A и Фиг. 6B с исходной таблицей Хаффмана, показанной на Фиг. 4, можно заметить, что длина кода Хаффмана для одних и тех же значений расходует меньше битов. Это объясняет экономию битов.

В декодере, проиллюстрированном на Фиг. 5, соответствующую таблицу Хаффмана для декодирования разностных индексов (508) выбирают (507) согласно сигналу флага. Для восстановления индексов квантования нормировочных коэффициентов используют разностные индексы согласно приведенному ниже уравнению:

. (уравнение 4)

На Фиг. 7 проиллюстрировано получение кривой маскирования входного сигнала. Сначала вычисляют значения энергии поддиапазонов частот, и по этим значениям энергии получают кривую маскирования входного сигнала. При получении кривой маскирования могут быть использованы некоторые существующие технологии из предшествующего уровня техники, например, способ получения кривой маскирования в кодеке MPEG AAC.

На Фиг. 8 проиллюстрировано то, как сужают интервал значений разностных индексов. Сначала производят сравнение между порогом маскирующего эффекта и энергией ошибки квантования поддиапазона частот. Для поддиапазонов частот, в которых энергия ошибок квантования является более низкой, чем порог маскирующего эффекта, их индексы модифицируют в значение, являющееся более близким к соседнему поддиапазону частот, но это модифицирование гарантирует, что соответствующая энергия ошибки квантования не превышает порог маскирующего эффекта, вследствие чего она не влияет на качество звука. После модифицирования интервал значений индексов может являться более узким. Объяснение этого приведено ниже.

Как показано на Фиг. 8, для поддиапазонов частот 0, 2 и 4 их индексы модифицируют так, чтобы они были более близкими к соседним с ними индексам, поскольку значения энергии их ошибки квантования являются более низкими, чем порог маскирующего эффекта.

Модифицирование индексов может быть выполнено так, как описано ниже (с использованием поддиапазона частот 2 в качестве примера). Как показано на Фиг. 2, большой индекс соответствует меньшей энергии, и в этом случае индекс является меньшим, чем индекс . Модифицирование индекса фактически уменьшает его значение. Это может быть выполнено так, как показано на Фиг. 9.

Для поддиапазонов частот 1 и 3 их индексы не изменяют, поскольку их значения энергии превышают порог маскирующего эффекта. В этом случае разностные индексы находятся ближе к центру. Используя поддиапазон частот 1 в качестве примера:

, (уравнение 5)

. (уравнение 6)

. (уравнение 7)

В этом изобретении таблица Хаффмана может быть создана автономно при помощи большой базы данных входных последовательностей. Этот способ проиллюстрирован на Фиг. 10.

Значения энергии поддиапазонов частот обрабатывают методом психоакустического моделирования (1001) для получения порога маскирующего эффекта Mask(n). Согласно полученному Mask(n), индексы квантования нормировочных коэффициентов для тех поддиапазонов частот, в которых энергия ошибок квантования является более низкой, чем порог маскирующего эффекта, модифицируют (1002) так, чтобы интервал значений разностных индексов мог быть меньшим.

Вычисляют (1003) разностные индексы для модифицированных индексов.

Определяют (1004) интервал значений разностных индексов для кодирования методом Хаффмана. Для каждого значения из этого интервала собирают все входные сигналы, имеющие один и тот же интервал значений, и вычисляют распределение вероятности каждого значения разностного индекса в пределах этого интервала.

Для каждого значения из этого интервала создают одну таблицу Хаффмана в соответствии с вероятностью. Здесь для создания таблицы Хаффмана могут использоваться некоторые традиционные методы создания таблицы Хаффмана.

(Второй вариант осуществления изобретения)

В этом варианте осуществления изобретения представлен способ, который может сохранять экономию битов, но восстанавливать значения разностных индексов, более близкие к исходному значению.

Как показано на Фиг. 11, после выбора таблицы Хаффмана при операции 1105, вычисляют разностные индексы между исходными индексами квантования. Исходные разностные индексы и новые разностные индексы сравнивают относительно того, расходуют ли они то же самое количество битов в выбранной таблице Хаффмана.

Если они расходуют одинаковое количество битов в выбранной таблице Хаффмана, то модифицированные разностные индексы восстанавливают равными исходным разностным индексам. Если же они не расходуют одинаковое количество битов, в качестве восстановленных разностных индексов выбирают кодовые слова из той таблицы Хаффмана, которая является ближайшей к исходным разностным индексам и расходует то же самое количество битов.

Преимуществом этого варианта осуществления изобретения является то, что ошибка квантования нормировочного коэффициента может быть меньшей, тогда как расходование битов является тем же самым, как и в первом варианте осуществления изобретения.

(Третий вариант осуществления изобретения)

В этом варианте осуществления изобретения представлен способ, в котором избегают использования психоакустической модели, но используют только лишь некоторый порог отношения энергий.

Как показано на Фиг. 12, вместо использования психоакустической модели для получения порога маскирующего эффекта для определения того, следует ли модифицировать индекс квантования конкретного поддиапазона частот (1201), используют значения энергии поддиапазонов частот и заранее заданный порог отношения энергий. Как показано в приведенном ниже уравнении, если отношение энергий между текущим поддиапазоном частот и соседним поддиапазоном частот является меньшим, чем порог (), то текущий поддиапазон частот считают не столь важным, и в этом случае индекс квантования текущего поддиапазона частот может быть модифицирован.

. (уравнение 8)

Модифицирование индекса квантования может быть выполнено так, как показано в приведенном ниже уравнении:

(уравнение 9)

где

означает нормировочный коэффициент для поддиапазона частот , декодированный с использованием модифицированного индекса квантования;

означает нормировочный коэффициент для поддиапазона частот , декодированный с использованием исходного индекса квантования;

означает энергию для поддиапазона частот ;

означает энергию для поддиапазона частот .

Преимущество этого варианта осуществления изобретения состоит в том, можно избежать очень сложного и очень трудоемкого психоакустического моделирования.

(Четвертый вариант осуществления изобретения)

В этом варианте осуществления изобретения представлен способ, сужающий интервал значений разностных индексов, который способен при этом отлично восстанавливать разностные индексы.

Как показано на Фиг. 13, разностные индексы получают из исходных индексов квантования (1301) согласно приведенному ниже уравнению:

, (уравнение 10)

где

означает разностный индекс для поддиапазона частот

означает индекс квантования для поддиапазона частот

Для уменьшения интервала значений разностных индексов, реализован модуль, модифицирующий значения некоторых разностных индексов (1302).

Это модифицирование выполняют согласно значению разностного индекса для предыдущего поддиапазона частот и порогового значения.

Один из способов модифицирования разностного индекса (когда n≥1) может быть реализован так, как показано в приведенном ниже уравнении, первый разностный индекс не был модифицирован для обеспечения точного восстановления в декодере:

где

n≥1;

Diff_index(n) означает разностный индекс для поддиапазона частот n;

Diff_index(n-1) означает разностный индекс для поддиапазона частот n-1;

Diff_index_new(n) означает новый разностный индекс для поддиапазона частот n;

Threshold означает значение, анализируемое для определения того, следует ли выполнять модифицирование разностного индекса.

Причина того, почему это модифицирование может уменьшить интервал значений разностных индексов, объясняется следующим образом: для аудио/речевого сигнала справедливо утверждение, что энергия изменяется от одной полосы частот до другой полосы частот. Однако замечено, что обычно отсутствует какое-либо резкое изменение энергии между соседними полосами частот. Энергия постепенно увеличивается или уменьшается от одной полосы частот до другой полосы частот. Нормировочные коэффициенты, которые отображают энергию, также изменяются постепенно. Индексы квантования нормировочных коэффициентов также изменяются постепенно, и в этом случае разностные индексы изменяются в небольшом интервале.

Резкое изменение энергии происходит только тогда, когда некоторые основные составляющие аудио сигнала, которые имеют большую энергию, начинают проявлять влияние в полосе частот или их влияние начинает ослабляться. Нормировочные коэффициенты, которые отображают энергию, также имеют резкое изменение относительно предыдущей полосы частот, индексы квантования нормировочных коэффициентов также внезапно увеличиваются или уменьшаются на большую величину. Затем это приводит к очень большому или к очень малому разностному индексу.

В качестве примера предположим, что имеется одна основная составляющая звукового сигнала, которая имеет большую энергию в поддиапазоне частот . При этом, в поддиапазонах частот и основная составляющая звукового сигнала отсутствует. В этом случае согласно таблице Хаффмана, показанной на Фиг. 2, значение будет очень малым, тогда как значения и будут очень большими. В таком случае согласно уравнению (10) является очень малым (меньшим, чем ), а является очень большим. Если в Уравнении (11) произведено модифицирование, то, согласно приведенному ниже уравнению (12), верхняя граница разностных индексов, вероятно, может быть уменьшена, следовательно, интервал значений разностных индексов может быть сужен.

(уравнение 12)

Как показано на Фиг. 14, для точного восстановления разностных индексов в декодере реализован один модуль, именуемый "восстановлением разностных индексов" (1403). Восстановление производят согласно значению разностного индекса для предыдущего поддиапазона частот и пороговому значению. Пороговое значение в декодере является тем же самым, что и пороговое значение, используемое в кодере.

Способ восстановления разностного индекса (когда ), который соответствует модифицированию в кодере, может быть реализован так, как показано в приведенном ниже уравнении, первый разностный индекс принимают непосредственно, поскольку он не модифицирован в кодере:

(уравнение 13)

где

;

означает разностный индекс для поддиапазона частот ;

означает новый разностный индекс для поддиапазона частот ;

означает значение, анализируемое для определения того, следует ли восстанавливать разностный индекс.

Как показано в приведенных выше уравнениях: в уравнении (11) и в уравнении (13), то, следует ли выполнять модифицирование разностного индекса и насколько его следует модифицировать, полностью зависит от разностного индекса для предыдущей полосы частот. Если разностный индекс для предыдущей полосы частот может быть точно восстановлен, то текущий разностный индекс также может быть точно восстановлен.

Как показано в приведенных выше уравнении (11) и в уравнении (13), первый разностный индекс не модифицируют в кодере, его принимают непосредственно, и он может быть точно восстановлен, затем может быть восстановлен второй разностный индекс согласно значению первого разностного индекса; затем третий разностный индекс, четвертый разностный индекс и т.д., придерживаясь той же самой процедуры, могут быть точно восстановлены все разностные индексы.

Преимущество этого варианта осуществления изобретения состоит в том, что интервал значений разностных индексов может быть уменьшен, при этом разностные индексы могут быть по-прежнему точно восстановлены в декодере. Следовательно, эффективность использования битов может быть улучшена с одновременным сохранением точности битов индексов квантования.

Кроме того, несмотря на то, что в приведенных выше вариантах осуществления изобретения были описаны случаи, когда настоящее изобретение сконфигурировано аппаратными средствами, настоящее изобретение может быть реализовано при помощи программного обеспечения в комбинации с аппаратными средствами.

Каждый функциональный блок, используемый в описании вышеупомянутого варианта осуществления изобретения, обычно может быть реализован в виде большой интегральной схемы (БИС), составленной из интегральных схем. Ими могут являться отдельные микросхемы, или они могут частично или полностью содержаться на одном кристалле. Здесь применен термин "большая интегральная схема" (БИС), но она также может именоваться "интегральной схемой" (ИС), "системной БИС", "БИС со сверхвысокой степенью интеграции" или "БИС с ультравысокой степенью интеграции" в зависимости от отличающихся степеней интегрирования.

Кроме того, способ интеграции схемы не ограничен большими интегральными схемами (БИС), и также возможна реализация с использованием специализированных схем или универсальных процессоров. После изготовления БИС также возможно использование программируемой пользователем вентильной матрицы (ППВМ) или реконфигурируемого процессора, в котором может быть произведена реконфигурация соединений и установочных параметров ячеек схемы внутри БИС.

Кроме того, если в результате развития полупроводниковой технологии или иной технологии, производной от нее, на замену БИС выходит иная технология создания интегральных схем, то, естественно, что интеграция функциональных блоков также может быть выполнена с использованием этой технологии. Также возможно применение биотехнологии.

Раскрытие сущности заявок на патенты Японии № 2011-94295, поданной 20 апреля 2011 г., и № 2011-133432, поданной 15 июня 2011 г., включая описание, чертежи и реферат, включено сюда в полном объеме путем ссылки.

ПРОМЫШЛЕННАЯ ПРИМЕНИМОСТЬ

Устройство кодирования, устройство декодирования и способы кодирования и декодирования согласно настоящему изобретению применимы для устройства, представляющего собой терминал беспроводной связи, устройства, представляющего собой базовую станцию в системе мобильной связи, устройства, представляющего собой терминал для телеконференций, устройства, представляющего собой терминал для видеоконференций и устройства, представляющего собой терминал речевой связи по протоколу IP (VOIP).

ПЕРЕЧЕНЬ ОБОЗНАЧЕНИЙ ССЫЛОЧНЫХ ПОЗИЦИЙ

101 - детектор обнаружения нестационарного состояния

102 - преобразование

103 - оценка нормы

104 - квантование и кодирование нормы

105 - нормировка спектра

106 - корректировка нормы

107 - распределение битов

108 - квантование и кодирование на сетке

109 - регулирование уровня шума

110 - мультиплексирование

111 - демультиплексирование

112 - декодирование на сетке

113 - генератор заполнения спектра

114 - формирование огибающей

115 - обратное преобразование

301 - скалярное квантование (32 шага)

302 - скалярное квантование (40 шагов)

303 - прямая передача (5 бит)

304 - разность

305 - кодирование с фиксированной длиной кода

306 - кодирование методом Хаффмана

501 - психоакустическая модель

502 - модифицирование индекса

503 - разность

504 - проверка интервала значений

505 - выбор таблицы кодов Хаффмана

506 - кодирование методом Хаффмана

507 - выбор таблицы Хаффмана

508 - декодирование методом Хаффмана

509 - сумма

1001 - психоакустическая модель

1002 - модифицирование индекса

1003 - разность

1004 - проверка интервала значений

1005 - вероятность

1006 - получение кода Хаффмана

1101 - психоакустическая модель

1102 - модифицирование индекса

1103 - разность

1104 - проверка интервала значений

1105 - выбор таблицы кодов Хаффмана

1106 - разность

1107 - восстановление разностных индексов

1108 - кодирование методом Хаффмана

1201 - модифицирование индекса

1202 - разность

1203 - проверка интервала значений

1204 - выбор таблицы кодов Хаффмана

1205 - кодирование методом Хаффмана

1301 - разность

1302 - модифицирование разностных индексов

1303 - проверка интервала значений

1304 - выбор таблицы кодов Хаффмана

1305 - кодирование методом Хаффмана

1401 - выбор таблицы кодов Хаффмана

1402 - кодирование методом Хаффмана

1403 - восстановление разностных индексов

1404 - сумма

1. Устройство кодирования аудио/речи, содержащее:
преобразователь, который осуществляет преобразование входного сигнала аудио/речи во временной области в частотный спектр;
разделитель полосы частот, который разделяет спектр частот на множество полос частот;
вычислитель энергии, который вычисляет уровень значений энергии для каждой полосы частот;
квантователь, который выполняет квантование значений энергий для каждой полосы частот;
вычислитель разностного индекса, который вычисляет разностные индексы между индексом N-й полосы частот и индексом (N-1)-й полосы частот (N - целое число, равное 1 или больше);
модификатор разностного индекса, который модифицирует диапазон разностных индексов для N-й полосы частот, когда N есть целое число, равное 2 или больше, и заменяет разностный индекс на модифицированный разностный индекс;
кодировщик Хаффмана, который кодирует разностные индексы, используя выбранную таблицу Хаффмана, из числа заранее заданных таблиц Хаффмана; и
передатчик, который передает кодированные разностные индексы и сигнал флага для указания выбранной таблицы Хаффмана устройству декодирования аудио/речи;
причем если вычисленный разностный индекс (N-1)-й полосы частот больше, чем верхний предел, то модификатор разностного индекса модифицирует разностный индекс для N-й полосы частот путем добавления значения вычитания, полученного от вычитания верхнего предела из разностного индекса для (N-1)-й полосы частот, и
если вычисленный разностный индекс (N-1)-й полосы частот меньше, чем нижний предел, то модификатор разностного индекса модифицирует разностный индекс для N-й полосы частот путем добавления значения вычитания, полученного от вычитания нижнего предела из разностного индекса для (N-1)-й полосы частот.

2. Устройство кодирования аудио/речи по п. 1, в котором
значения верхнего предела и нижнего предела являются теми же значениями, что и сохраненные в устройстве декодирования аудио/речи.

3. Устройство декодирования аудио/речи, содержащее:
селектор таблицы Хаффмана, который выбирает таблицу Хаффмана в соответствии с сигналом флага для указания выбранной таблицы Хаффмана посредством устройства кодирования аудио/речи;
декодер Хаффмана, который декодирует разностные индексы между индексом N-й полосы частот и индексом (N-1)-й полосы частот (N - целое число, равное 1 или больше), полученные устройством кодирования аудио/речи, используя выбранную таблицу Хаффмана,
восстановитель разностных индексов, который восстанавливает N-й различный индекс, декодированный с использованием выбранной таблицы Хаффмана, когда N - целое число, равное 2 или больше, и заменяет разностный индекс на восстановленный разностный индекс;
вычислитель индекса, который вычисляет индексы квантования с использованием восстановленных разностных индексов;
деквантователь, который выполняет обратное квантование энергий для каждой полосы частот; и
преобразователь, который преобразует декодированный спектр, который генерируется с использованием энергий для каждой полосы частот в частотной области, в сигнал временной области,
при этом если декодированный разностный индекс (N-1)-й полосы частот больше, чем верхний предел, то восстановитель разностных индексов восстанавливает разностный индекс для N-й полосы частот путем добавления значения вычитания, полученного от вычитания верхнего предела из разностного индекса для (N-1)-й полосы частот, и
если декодированный разностный индекс (N-1)-й полосы частот меньше, чем нижний предел, то восстановитель разностных индексов восстанавливает разностный индекс для N-й полосы частот путем добавления значения вычитания, полученного от вычитания нижнего предела из разностного индекса для (N-1)-й полосы частот.

4. Устройство декодирования аудио/речи по п. 3, в котором
значения верхнего предела и нижнего предела являются теми же, что и значения, сохраненные в устройстве кодирования аудио/речи.

5. Устройство декодирования аудио/речи по п. 3, в котором
восстановитель разностных индексов восстанавливает N-й различный индекс, начиная с меньшего, и по порядку.

6. Способ кодирования аудио/речи, содержащий этапы, на которых:
преобразуют посредством преобразователя входной сигнал аудио/речи во временной области в частотный спектр;
разделяют частотный спектр на множественные полосы частот;
вычисляют уровень энергий для каждой полосы частот;
квантуют энергии для каждой полосы частот;
вычисляют разностные индексы между индексом N-й полосы частот и индексом (N-1)-й полосы частот (N - целое число, равное 1 или больше);
модифицируют диапазон разностных индексов для N-й полосы частот, когда N - целое число, равное 2 или больше, и заменяют разностный индекс на модифицированный разностный индекс;
кодируют разностные индексы, используя выбранную таблицу Хаффмана из числа заранее заданных таблиц Хаффмана; и
передают кодированные разностные индексы и сигнал флага для указания выбранной таблицы Хаффмана устройству декодирования аудио/речи,
при этом если вычисленный разностный индекс (N-1)-й полосы частот больше, чем верхний предел, то разностный индекс для N-й полосы частот модифицируется путем добавления значения вычитания, полученного от вычитания верхнего предела из разностного индекса для (N-1)-й полосы частот, и
если вычисленный разностный индекс (N-1) полосы частот меньше, чем нижний предел, то разностный индекс для N-й полосы частот модифицируется путем добавления значения вычитания, полученного от вычитания нижнего предела из разностного индекса для (N-1)-й полосы частот.

7. Способ декодирования аудио/речи, содержащий этапы, на которых:
выбирают таблицу Хаффмана в соответствии с сигналом флага, чтобы указывать выбранную таблицу Хаффмана устройством кодирования аудио/речи;
декодируют разностные индексы между индексом N-й полосы частот и индексом (N-1)-й полосы частот (N - целое число, равное 1 или больше), полученные устройством кодирования аудио/речи, используя выбранную таблицу Хаффмана;
восстанавливают N-й различный индекс, декодированный, используя выбранную таблицу Хаффмана, когда N - целое число, равное 2 или больше, и заменяют разностный индекс на восстановленный разностный индекс;
вычисляют индексы квантования, используя восстановленные разностные индексы;
обратно квантуют энергии для каждой полосы частот; и
преобразуют декодированный спектр, который генерируется, используя энергии для каждой полосы частот в частотной области, в сигнал временной области,
при этом
если декодированный разностный индекс (N-1)-й полосы частот больше, чем верхний предел, то разностный индекс для N-й полосы частот восстанавливается путем добавления значения вычитания, полученного от вычитания верхнего предела из разностного индекса для (N-1)-й полосы частот, и
если декодированный разностный индекс (N-1)-й полосы частот меньше, чем нижний предел, то разностный индекс для N-й полосы частот восстанавливается путем добавления значения вычитания, полученного от вычитания нижнего предела из разностного индекса для (N-1)-й полосы частот.

Изобретение относится к средствам кодирования цифрового звукового сигнала. Технический результат заключается в сокращении количества бит, необходимого для передачи закодированного сигнала без изменения качества кодирования.

Способ и система кодирования аудиоданных с адаптивной низкочастотной коррекцией // 2583717

Изобретение относится к вычислительной технике. Технический результат заключается в адаптивном применении низкочастотной коррекции в ходе кодирования звуковых сигналов, содержащих выраженные низкочастотные тональные составляющие, без изменения декодера.

Способ расширения ширины полосы, устройство расширения ширины полосы, программа, интегральная схема и устройство декодирования аудио // 2582061

Изобретение относится к средствам расширения ширины полосы. Технический результат заключается в обеспечении возможности уменьшения объема вычислений при расширении ширины полосы и подавления ухудшения качества в ширине полосы, которая должна быть расширена.

Представление информационного сигнала с использованием преобразования с перекрытием // 2580924

Изобретение относится к средствам представления информационных сигналов с использованием преобразования с перекрытием. Технический результат заключается в повышении эффективности кодирования.

Устройство кодирования и способ кодирования // 2579663

Изобретение относится к средствам кодирования, используемым в системе связи. Технический результат заключается в повышении качества звучания декодированного сигнала.

Устройство кодирования и способ кодирования // 2579662

Основанная на линейном предсказании схема кодирования, использующая формирование шума в спектральной области // 2575993

Изобретение относится к способу кодирования аудио сигнала и средствам для осуществления этого способа. Технический результат изобретения заключается в создании концепции кодирования, позволяющей уменьшить сложность при сопоставимой или даже увеличенной эффективности кодирования.

Кодер, использующий прямое подавление помех дискретизации // 2575809

Изобретение относится к кодеку, поддерживающему переключение между режимом кодирования с преобразованием с подавлением помех дискретизации во временной области и режимом кодирования временной области.

Устройство и способ для кодирования/декодирования для расширения диапазона высоких частот // 2575680

Изобретение относится к кодированию и декодированию входного сигнала. Технический результат - повышение точности кодирования и декодирования сигнала в режимах с расширением диапазона высоких частот.

Генерирование шума в аудиокодеках // 2585999

Изобретение относится к средствам генерирования шума в аудиокодеках. Технический результат заключается в обеспечении уменьшения скорости передачи битов и в повышении качества генерируемого шума. Аудиокодер содержит модуль оценки фонового шума, выполненный с возможностью определять параметрическую оценку фонового шума на основе представления в форме спектрального разложения входного аудиосигнала таким образом, что параметрическая оценка фонового шума спектрально описывает спектральную огибающую фонового шума входного аудиосигнала. Аудиокодер содержит кодер для кодирования входного аудиосигнала в поток данных в течение активной фазы. Аудиокодер содержит детектор, выполненный с возможностью обнаруживать вход в неактивную фазу после активной фазы на основе входного сигнала. Аудиокодер выполнен с возможностью кодировать в поток данных параметрическую оценку фонового шума в неактивной фазе. 7 н. и 11 з.п. ф-лы, 13 ил.

Устройство и способ кодирования, устройство и способ декодирования и программа // 2586011

Изобретение относится к устройству кодирования и способу кодирования, устройству декодирования и способу декодирования и может использоваться для получения высококачественного аудиосигнала. Достигаемый технический результат - повышение качества звука при уменьшении объема кодирования. Устройство кодирования содержит модуль разделения на подполосы, модуль вычисления квазимощности подполос высокой и низкой частот, модуль вычисления характерной величины, выполненный с возможностью вычисления числа участков для определения числа непрерывных участков фреймов, для которых выбран одинаковый коэффициент оценки, модуль выбора коэффициента оценки фрейма, входящего в состав непрерывного участка фреймов, модуль кодирования сигнала низкой частоты входного сигнала, модуль мультиплексирования для генерирования выходной строки кода. Устройство декодирования содержит модуль демультиплексирования входной строки кода на данные для получения коэффициента оценки выбранного участка фреймов. 6 н. и 13 з.п. ф-лы, 14 ил.

Устройство и способ обработки входного звукового сигнала с помощью каскадированного банка фильтров // 2586846

Изобретение относится к средствам для обработки входного звукового сигнала на основе каскадированного банка фильтров. Технический результат заключается в повышении качества обработанного звукового сигнала. Устройство содержит банк фильтров синтеза для синтеза промежуточного звукового сигнала из входного аудиосигнала, входного аудиосигнала, представленного множеством первых сигналов поддиапазонов, сгенерированных в банке фильтров анализа, причем число каналов в банке фильтров синтеза меньше, чем количество каналов в банке фильтров анализа. Кроме того, устройство содержит дополнительный банк фильтров анализа для генерации множества вторых сигналов поддиапазонов из промежуточного аудиосигнала, причем дополнительный банк фильтров анализа имеет число каналов, отличающееся от числа каналов в банке фильтров синтеза, так что частота дискретизации сигнала поддиапазона из множества вторых сигналов поддиапазонов отличается от частоты дискретизации первого сигнала поддиапазона из множества первых сигналов поддиапазонов. 6 н. и 17 з.п. ф-лы, 52 ил., 2 табл.

Декодер звукового сигнала, кодирующее устройство звукового сигнала, способы и компьютерная программа, использующие зависящее от частоты выборки кодирование контура деформации времени // 2586848

Изобретение относится к средствам кодирования и декодирования звукового сигнала. Технический результат заключается в повышении эффективности кодирования. Декодер звукового сигнала, сформированный для обеспечения декодированного представления звукового сигнала на основе кодированного представления звукового сигнала, включающего информацию о частоте дискретизации, кодированную информацию о деформации времени и кодированное представление спектра, включает вычислитель деформации времени и декодер деформации. Вычислитель деформации времени формируется, чтобы адаптировать правило отображения для отображения кодовых слов кодированной информации о деформации времени на декодированных значениях деформации времени, описывающих декодированную информацию о деформации времени в зависимости от информации о частоте дискретизации. Декодер деформации, сформированный, чтобы обеспечить декодированное представление звукового сигнала на основе кодированного представления спектра и в зависимости от декодированной информации о деформации времени. 6 н. и 11 з.п. ф-лы, 35 ил.

Устройство и способ кодирования, устройство и способ декодирования и программа // 2589293

Изобретение относится к средствам кодирования и декодирования аудиосигналов. Технический результат заключается в повышении качества звучания кодированного звукового сигнала. Полосовой фильтр делит входной сигнал на множество сигналов поддиапазонов, схема вычисления характеристической величины вычисляет характеристическую величину с использованием по меньшей мере одного из множества полученных при делении сигналов поддиапазонов и входного сигнала, схема оценки мощности поддиапазона высоких частот вычисляет значение оценки мощности поддиапазона высоких частот на основе вычисленной характеристической величины, а схема выработки высокочастотного сигнала вырабатывает высокочастотный компонент сигнала на основе множества сигналов поддиапазонов, выделенных полосовым фильтром, и значения оценки мощности поддиапазона высоких частот, вычисленного схемой оценки мощности поддиапазона высоких частот. Устройство расширения диапазона частот расширяет диапазон частот входного сигнала с использованием высокочастотного компонента сигнала, выработанного схемой выработки высокочастотного сигнала. Настоящее изобретение может быть применено, например, в устройстве расширения диапазона частот, устройстве кодирования, устройстве декодирования и так далее. 6 н. и 10 з.п. ф-лы, 34 ил.

Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке // 2589298

Изобретение относится к средствам повышения разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке. Технический результат заключается в повышении разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке за счет снижения эффекта маскирования полезного звукового сигнала нестационарными акустическими шумами при помощи использования частотно-зависимого адаптивного усиления. Полезный сигнал, поступающий в блок обработки, и шумовой сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы. В блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию измененных амплитудных зависимостей полезного сигнала после обработки компрессором. При субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала и сигнала шума акустической обстановки. В качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона (АКДД), которым изменяют динамический диапазон полезного сигнала. Сигналы в субполосах полезного сигнала умножают на коэффициенты усиления. 2 з.п. ф-лы, 13 ил.

Система и способ перевода речевого сигнала в транскрипционное представление с метаданными // 2589851

Данное изобретение относится к технологиям распознавания речи, т.е. перевода звукового сигнала, содержащего речь, в транскрипционное представление. Технический результат заключается в повышении точности распознавания звуков речи. Производят прием и предварительную обработку речевого сигнала, далее преобразуют речевой сигнал группой цифровых фильтров в частотные зоны, превышение относительной энергии в которых во времени создает ощущение звуков языка, затем нормализуют полученные частотные зоны с учетом характеристик чувствительности улитки уха по частоте, амплитуде и времени, после чего определяют акустические признаки речевого сигнала и типы звуков, в конечном итоге нормализуют временные параметры и отображают обработанный речевой сигнал. 2 н. и 16 з.п. ф-лы, 7 ил.

Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров) // 2591011

Группа изобретений относится к устройствам и способам кодирования и декодирования аудиосигнала с удалением алиасинга (наложения спектров). Техническим результатом является нейтрализация артефактов алиасинга при прохождении через декодер аудиосигнала. Способ включает этапы: преобразования из временной области в частотную область представления входных звуковых данных с формированием в частотной области представления аудиоконтента; формирования спектра частотного представления аудиоконтента или его предварительно обработанной модификации в зависимости от набора параметров области линейного предсказания для фрагмента аудиоконтента, кодируемого в области линейного предсказания, с получением частотного представления аудиоконтента, рассчитанного по форме спектра; и формирования представления сигнала стимуляции антиалиасинга с получением в результате фильтрации сигнала стимуляции антиалиасинга при учете, по меньшей мере, некоторого множества параметров области линейного предсказания сигнала безалиасингового синтеза с нейтрализацией артефактов наложения спектров (алиасинга) на стороне аудиодекодера. 6 н. и 12 з.п. ф-лы, 25 ил., 8 табл.

Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона // 2591012

Изобретение относится к средствам для обработки аудио сигнала. Технический результат заключается в уменьшении влияния переходных процессов на качество звука. Устройство включает манипулятор времени для индивидуальной обработки во времени множества поддиапазонов звукового сигнала. Манипулятор времени состоит из этапа перекрытия и суммирования для перекрытия и суммирования блоков, по крайней мере, одного из множества сигналов поддиапазонов с использованием значения перекрытия и суммирования, которое отличается от улучшенного значения в модуле извлечения, детектора переходных процессов для обнаружения переходного процесса в звуковом сигнале или поддиапазонах сигнала, и множества сумматоров переходных процессов для сложения обнаруженных переходных процессов с множеством сигналов, генерируемых на этапе перекрытия и суммирования. Этап перекрытия и суммирования настроен на снижение влияния обнаруженных переходных процессов или для исключения обнаруженных переходных процессов при сложении. 3 н. и 14 з.п. ф-лы, 19 ил.