Способ компрессии аудиоданных

Авторы патента:

Стефанов Михаил Александрович (RU)

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

Владельцы патента RU 2421829:

Стефанов Михаил Александрович (RU)

Изобретение относится к технике цифровой обработки сигналов и может быть использовано в системах сжатия звуковых сигналов. Техническим результатом предлагаемого способа является увеличение коэффициента сжатия при сохранении высокого качества субъективного восприятия звука за счет кодирования величины и положения на оси частот первого из немаскируемых коэффициентов вещественного дискретного ортогонального преобразования и расстояний между смежными немаскируемыми коэффициентами. Таким образом, из выходного цифрового потока исключается информации о маскируемых коэффициентах преобразования. 6 ил.

Данное изобретение относится к технике цифровой обработки сигналов и может быть использовано в системах сжатия звуковых сигналов.

Известен [1-3] способ сжатия цифровых аудиоданных, в котором рабочую полосу звуковых сигналов (ЗС) разделяют на субполосы. В каждой из субполос с учетом абсолютного порога слышимости и эффекта взаимной маскировки [4] (подавление тонов меньшей интенсивности тоном большей интенсивности) слухового анализатора человека определяют допустимое число уровней квантования для кодирования временных отсчетов (MPEG layer 1, 2) или коэффициентов дискретного ортогонального преобразования (ATSC Dolby AC-3, MPEG layer 3).

Наиболее близким по технической сущности является способ [1-3] (MPEG layer 3), в котором для каждой выборки из N временных отсчетов ЗС с помощью вещественного частотного дискретного ортогонального преобразования (ВЧДОП) получают N коэффициентов преобразования. С учетом абсолютного порога слышимости и эффекта взаимной маскировки слухового анализатора из этих коэффициентов выделяют немаскируемые, на основании интенсивности которых определяют число бит для кодирования всех коэффициентов ВЧДОП.

Однако известный способ предполагает передачу информации обо всех коэффициентах ВЧДОП данной выборки, в том числе и маскируемых. То есть эффект маскировки слухового анализатора используется не достаточно эффективно, что приводит к повышению скорости цифрового потока на выходе системы сжатия. Кроме того, для кодирования коэффициентов ВЧДОП в зависимости от их величины отводится различное число двоичных бит, вследствие чего, как показывают последние исследования [5], снижается качество субъективного восприятия сжатого звука.

Техническим результатом предлагаемого способа является увеличение коэффициента сжатия при сохранении высокого качества субъективного восприятия звука за счет исключения из выходного цифрового потока информации о маскируемых коэффициентах ВЧДОП и использовании малого (при кодировании коэффициентов ВЧДОП в MPEG layer 3 используется от 2 до 16 бит) числа бит для кодирования частотных расстояний (от 1 до 7 бит).

Сущность способа компрессии аудиоданных заключается в следующем.

1. На последовательности временных отсчетов исходного сигнала формируют выборки длиной N.

2. Для каждой временной выборки определяют N коэффициентов ВЧДОП.

3. Из N коэффициентов ВЧДОП определяют коэффициенты, не маскируемые абсолютным порогом слышимости. При этом если каждый модуль коэффициента ВЧДОП отличен от нуля на частоте f_k, в соответствии с аналитическим описанием абсолютного порога слышимости A(f) вычисляют соответствующее значение абсолютного порога слышимости A(f_k), полученное значение которого сравнивают с модулем текущего коэффициента ВЧДОП в отношении «больше», положительный результат сравнения означает маскировку данного коэффициента абсолютным порогом слышимости, вследствие чего его обнуляют, в результате определяют вектор коэффициентов ВЧДОП, не маскируемых абсолютным порогом слышимости.

4. Для вектора коэффициентов ВЧДОП, не маскируемых абсолютным порогом слышимости, определяют первый ненулевой коэффициент Y_k, как последний определенный локально маскирующий, а каждый следующий ненулевой коэффициент ВЧДОП сравнивают по величине с уровнем кривой маскировки (КМ) последнего определенного локально маскирующего коэффициента ВЧДОП, и если уровень КМ больше текущего коэффициента ВЧДОП, то его обнуляют, в противном случае определяют величину, на которую он превышает величину КМ, если она больше рассчитанного коэффициента маскировки a_m, то вычисляют разницу между номерами текущего и последнего определенного немаскируемого коэффициента и вычисляют частотное расстояние до точки пересечения КМ текущего и последнего определенного локально маскирующего коэффициентов ВЧДОП, после чего текущему коэффициенту ВЧДОП придают статус локально маскирующего, если же обрабатываемый коэффициент ВЧДОП превышает КМ локально маскирующего на величину, меньшую a_m, то определяют разницу между номерами текущего и последнего определенного немаскируемого коэффициента, а текущий коэффициент ВЧДОП немаскирующим и формируют номера коэффициентов ВЧДОП.

5. Кодируют величину постоянной составляющей.

6. Кодируют величину и номер первого локально маскирующего коэффициента ВЧДОП.

7. Кодируют разницу между номерами смежных немаскируемых коэффициентов.

8. Кодируют разницы между номерами соседних немаскирующих и локально маскирующих коэффициентов ВЧДОП.

9. Кодируют разницы между частотами локально маскирующих коэффициентов ВЧДОП и точкой пересечения их КМ с КМ соседнего локально маскирующего.

На фигуре 1 приведены известные [4] экспериментальные кривые абсолютного порога слышимости.

На фигуре 2 показан пример алгоритма исключения коэффициентов ВЧДОП, маскируемых абсолютным порогом слышимости.

На фигуре 3 показан пример алгоритма исключения взаимно маскируемых коэффициентов ВЧДОП.

На фигуре 4 приведено схематичное изображение спектра выборки ЗС.

На фигуре 5 показаны кодируемые параметры выборки коэффициентов ВЧДОП.

На фигуре 6 показан пример восстановления коэффициентов ВЧДОП выборки звукового сигнала.

Способ осуществляется следующим образом.

На последовательности временных отсчетов ЗС формируют выборки длиной N. Над каждой временной выборкой производят ВЧДОП. Указанные операции можно выполнить, как предложено в [1 - З].

Далее в блоке из N коэффициентов ВЧДОП определяют и обнуляют коэффициенты, маскируемые абсолютным порогом слышимости (фигура 1). Структурная схема алгоритма реализации этой операции на примере моноканала приведена на фигуре 2. Входом алгоритма (блок 1) является вектор коэффициентов ВЧДОП и частотное расстояние Δf между коэффициентами ВЧДОП. Процесс обработки выборки коэффициентов ВЧДОП носит циклический характер (блок 2). Тело цикла начинается с вычисления частоты f_k k-го коэффициента (блок 3). Если модуль этого коэффициента отличен от нуля (блок 4) на частоте f_k, в соответствии с аналитическим описанием [6] абсолютного порога слышимости A(f), вычисляют (блок 5) соответствующее значение абсолютного порога слышимости A(f_k). Полученное значение сравнивают с модулем текущего коэффициента ВЧДОП в отношении «больше» (блок 6). Положительный результат сравнения означает маскировку данного коэффициента абсолютным порогом слышимости, вследствие чего его обнуляют (блок 8). В результате выходом алгоритма является вектор коэффициентов ВЧДОП, не маскируемых абсолютным порогом слышимости.

После этого определяют взаимно немаскируемые коэффициенты ВЧДОП и производят кодирование их местоположения на оси частот. Для этого определим два типа таких коэффициентов.

1. Локально маскирующие, кривые маскировки (КМ) [4] которых не прерываются КМ соседних коэффициентов ВЧДОП. Таким образом, локально маскирующий коэффициент ВЧДОП определяет текущий участок порога слышимости на данной спектральной выборке.

2. Немаскирующие коэффициенты ВЧДОП, которые не маскируются локально маскирующими коэффициентами ВЧДОП и не прерывают их КМ. То есть, уровень этих коэффициентов превышает уровень КМ соответствующего локально маскирующего коэффициента ВЧДОП не более чем на величину коэффициента маскировки a _m, аналитическое описание которого приведено в работе [6].

Взаимно немаскируемые коэффициенты ВЧДОП определяются следующим образом (фигура 3). Входом алгоритма (блок 1) является вектор немаскируемых абсолютным порогом слышимости коэффициентов ВЧДОП и частотное расстояние Δf между коэффициентами ВЧДОП. Первый коэффициент определяем как локально маскирующий (блок 2). Процесс обработки носит циклический характер (блок 3). Тело цикла начинается с вычисления частоты f_k k-го коэффициента (блок 4). Далее на этой частоте вычисляется уровень кривой маскировки КМ_i(k) локально маскирующей компоненты (блок 5). Соответствующие аналитические выражения приведены в [6]. Если величина k-го коэффициента ВЧДОП не превышает уровень КM_i(k) (блок 6), значит, этот коэффициент маскируется, и его обнуляют (блок 7). В противном случае (блок 8) определяется, является ли текущий коэффициент немаскируемым (блок 9) или локально маскирующим (блок 10). В результате выходом алгоритма является вектор коэффициентов ВЧДОП той же размерности, что и , в котором нулевые элементы соответствуют маскируемым, а не нулевые - немаскируемым и локально маскирующим коэффициентам ВЧДОП.

Определив множество немаскируемых коэффициентов ВЧДОП (фигура 4) и зная аналитическое описание кривых маскировки, достаточно передать информацию о величине нулевого коэффициента ВЧДОП (постоянная составляющая), величине и номере первого немаскируемого коэффициента, о номерах остальных немаскируемых коэффициентов и точках пересечения КМ смежных локально маскирующих коэффициентов ВЧДОП (Фигура 5).

При этом величина и номер первого немаскируемого коэффициента есть не что иное, как первый элемент вектора коэффициентов ВЧДОП, не равный нулю.

Действительно, по известному номеру i-го локально маскирующего коэффициента ВЧДОП с помощью аналитического описания [6] кривых маскировки на приеме не трудно вычислить уровень правой ветви КМ_i в точке пересечения с левой ветвью

КM_i+1 следующего локально маскирующего коэффициента ВЧДОП. Поскольку в точке пересечения уровни правой ветви КM_i и левой ветви КM_i+1 равны, по известному номеру (i+1)-го локально маскирующего коэффициента ВЧДОП с помощью аналитического описания КМ однозначно восстанавливается его величина.

Уровень любого немаскирующего коэффициента ВЧДОП можно определить суммой соответствующего уровня КМ (порога слышимости) и половины коэффициента маскировки a _m (фигура 5). При этом искажения округления не превысят 3 дБ, что меньше их допустимого значения.

Последовательность данных для передачи по каналам связи может быть следующей. Первым элементом вектора является нулевой коэффициент ВЧДОП (постоянная составляющая). Вторым элементом - величина первого локально маскирующего коэффициента ВЧДОП, а третьим - его номер. Следующие элементы представляют собой разницу номеров соседних коэффициентов ВЧДОП, а также информацию о точках пересечения КМ смежных локально маскирующих коэффициентов ВЧДОП.:

L₀, L₁, ϖ₀, δ_1,1, δ_1,2,…, δ_1,M, ϖ₁, σ₁, δ_2,1,…, δ_2,М, ϖ₂, σ₂,…, δ_N1,1,…, δ_N1,M

где:

L₀ - величина постоянной составляющей;

L₁ - величина первого локально маскирующего коэффициента ВЧДОП;

ϖ₀ - номер первого локально маскирующего коэффициентов ВЧДОП;

δ_i,m - разница между номерами m-го немаскирующего и последнего немаскируемого коэффициента ВЧДОП (m=2…М);

ϖ_i - разница между номерами последнего немаскирующего (находящегося между i-м и i+1-м локально маскирующими коэффициентами) и i+1-м локально маскирующего коэффициентами ВЧДОП;

σ_i - частотное расстояние между точкой пересечения КМ смежных (i-й и i+1-й) локально маскирующих и последнего (i+1-го) локально маскирующего коэффициента ВЧДОП;

N1 - число локально маскирующих коэффициентов ВЧДОП выборки звукового сигнала;

М - максимально возможное число немаскирующих коэффициентов ВЧДОП, находящихся между двумя смежными локально маскирующими коэффициентами ВЧДОП.

Частоту того или иного коэффициента ВЧДОП можно вычислить следующим образом:

f_i=K·Δf,

где:

K - номер коэффициента ВЧДОП;

F_s - верхняя граница рабочей полосы частот звукового сигнала.

Кодирование первых трех элементов вектора выполняют с максимальной, а остальных - с заданной (в зависимости от необходимого качества сжатого звука) точностью.

Список используемой литературы

1. International Standard ISO/EEC 11172-3. Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s. Part 3: Audio, 1993.

2. International Standard ISO/IEC 13818-3. Information technology - Generic coding of moving pictures and associated audio information. Part 3: Audio, 1998.

3. International Standard ISO/IEC 14496-3. Information technology - Coding of audio-visual objects. Part 3: Audio, 2005.

4. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. / Пер. с немец. Под ред. Б.Г.Белкина. М.: Связь, 1971. С.255.

5. Стефанова, И.А. Оценка допустимой степени округления спектральных компонент звуковых сигналов / И.А. Стефанова. // 6 Междунар. науч.-техн. конф. «Проблемы техники и технологий телекоммуникаций»: сб. докладов. - Уфа, 2005. - С.36-38.

6. Стефанова, И.А. Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных: дис.… канд. тех. наук: 05.12.13: защищена 07.12.07 / И.А.Стефанова; ПГАТИ. - Самара, 2007. - 144 с.

7. Электроакустика и звуковое вещание. Учебное пособие для вузов / И.А.Алдошина, Э.И.Вологдин, А.П.Ефимов и др. / Под ред. Ю.А.Ковалгина. М.: Горячая линия - Телеком, Радио и связь, 2007.

8. Цифровая обработка сигналов в трактах звукового вещания. Учебное пособие для вузов. - М.: Горячая линия - Телеком, 2007.

Способ компрессии аудиоданных, заключающийся в формировании временных выборок длиной N, определении для каждой временной выборки N коэффициентов вещественного частотного дискретного ортогонального преобразования (ВЧДОП), определении коэффициентов ВЧДОП,
немаскируемых абсолютным порогом слышимости и взаимно немаскируемых, при этом если каждый модуль коэффициента ВЧДОП отличен от нуля на частоте f_к, в соответствии с аналитическим описанием абсолютного порога слышимости A (f) вычисляют соответствующее значение абсолютного порога слышимости A(f_k), полученное значение которого сравнивают с модулем текущего коэффициента ВЧДОП в отношении «больше», положительный результат сравнения означает маскировку данного коэффициента абсолютным порогом слышимости, вследствие чего его обнуляют, в результате определяют вектор коэффициентов ВЧДОП, не маскируемых абсолютным порогом слышимости, а для вектора коэффициентов ВЧДОП, не маскируемых абсолютным порогом слышимости, определяют первый не нулевой коэффициент Y_к как последний определенный локально маскирующий, а каждый следующий не нулевой коэффициент ВЧДОП сравнивают по величине с уровнем кривой маскировки (КМ) последнего определенного локально маскирующего коэффициента ВЧДОП и, если уровень КМ больше текущего коэффициента ВЧДОП, то его обнуляют, в противном случае определяют величину, на которую он превышает величину КМ, если она больше рассчитанного коэффициента маскировки a_m, то вычисляют разницу между номерами текущего и последнего определенного немаскируемого коэффициента, и вычисляют частотное расстояние до точки пересечения КМ текущего и последнего определенного локально маскирующего коэффициентов ВЧДОП, после чего текущему коэффициенту ВЧДОП придают статус локально маскирующего, если же обрабатываемый коэффициент ВЧДОП превышает КМ локально маскирующего на величину, меньшую a_m, то определяют разницу между номерами текущего и последнего определенного немаскируемого коэффициента, а текущий коэффициент ВЧДОП немаскирующим, и формируют номера коэффициентов ВЧДОП, затем кодируют величину постоянной составляющей, отличающийся тем, что кодируют величину и номер первого локально маскирующего компонента ВЧДОП, разницу между номерами смежных немаскируемых коэффициентов ВЧДОП, разницу между номерами соседних немаскирующих и локально маскирующих коэффициентов ВЧДОП и разницу между частотами локально маскирующих коэффициентов ВЧДОП и пересечения их КМ с КМ соседнего локально маскирующего.

Изобретение относится к способам передачи и хранения цифровых звуковых сигналов, в частности, к способам двоичного кодирования показателей квантования, определяющих огибающую сигнала.

Устройство и способ для генерации значений подполос звукового сигнала и устройство и способ для генерации отсчетов звукового сигнала во временной области // 2420815

Изобретение относится к кодированию и декодированию звука. .

Аудиодекодирование // 2420814

Изобретение относится к аудиодекодированию и в особенности к декодированию сигналов MPEG Surround. .

Системы и способы для изменения окна с кадром, ассоциированным с аудио сигналом // 2418323

Изобретение относится к технологии обработки речевых сигналов, в частности система и способы относятся к изменению окна с кадром, ассоциированным с аудио сигналом.

Кодирование информационного сигнала // 2413312

Изобретение относится к кодированию информационных сигналов, например, аудиокодированию, в частности, к кодированию с копированием спектральных полос (SBR). .

Устройство и способ для генерации значений субполос звукового сигнала и устройство и способ для генерации аудиоотсчетов временной области // 2411645

Изобретение относится к устройству и способу для генерации значений субполос звукового сигнала, к устройству и способу для генерации отсчетов временной области. .

Способ обнаружения пауз в речевых сигналах и устройство его реализующее // 2399103

Изобретение относится к области цифровой обработки речевых данных и может быть использовано в различных приложениях, например в IР-телефонии. .

Способ, устройство, кодирующее устройство, декодирующее устройство и аудиосистема // 2396608

Изобретение относится к обработке стереосигнала, полученного от кодировщика. .

Способы и устройства для кодирования и декодирования стереосигнала // 2392671

Изобретение относится к способам кодирования данных, например к способу кодирования аудиоданных и/или видеоданных, используя переменные углы поворота для компонентов данных.

Кодер, декодер, способ кодирования и способ декодирования // 2387024

Изобретение относится к устройству кодирования, устройству декодирования, способу кодирования и способу декодирования. .

Устройство и способ для обработки действительного сигнала поддиапазона для ослабления эффектов наложения спектров // 2421830

Изобретение относится к обработке аудио- или видеосигналов и, в частности, к банкам фильтров для преобразования сигнала в спектральное представление

Банк фильтров анализа, банк фильтров синтеза, кодер, декодер, смеситель и система конференц-связи // 2426178

Изобретение относится к банку фильтров анализа, банку фильтров синтеза и системам, включающим в себя любой из вышеупомянутых банков фильтров, которые могут быть применены, например, в современном аудиокодировании, аудиодекодировании или иных областях, связанных с трансляцией звуковых сигналов

Параметрическое многоканальное декодирование // 2433489

Изобретение относится к параметрическим многоканальным декодерам типа стереодекодера, в частности к устройствам и способам для синтезирования звука, который может быть представлен наборами параметров, каждый из которых содержит характеристики синусоид, представляющие синусоидальные составляющие звука, и характеристики, представляющие другие компоненты

Аудиопроцессор и способ обработки звука с высококачественной коррекцией частоты основного тона (варианты) // 2436174

Изобретение относится к аудиопроцессору и способу для цифровой обработки звукового сигнала в последовательность фреймов посредством дискретизации и повторной дискретизации сигнала в зависимости от частоты основного тона

Способ и устройство для обработки звукового сигнала // 2439720

Изобретение относится к кодированию и декодированию звуковых сигналов с использованием спектральных данных сигнала

Системы и способы затенения первого пакета, соответствующего первой битовой скорости, во втором пакете, соответствующем второй битовой скорости // 2440628

Изобретение относится к технологии обработки речи, в частности к затенению первого пакета

Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов // 2441286

Эффективная реализация наборов фильтров анализа и синтеза для кодеров/декодеров mpeg aac и mpeg aac eld // 2442232

Изобретение относится к кодерам и декодерам, в частности, к реализации набора фильтров для перспективного аудиокодирования (ААС) и усовершенствованного с низкой задержкой (ELD) ААС

Кодер, декодер и методы кодирования и декодирования сегментов данных, представляющих собой поток данных временной области // 2444071

Изобретение относится к кодированию данных для случаев, когда различные характеристики данных, подлежащих кодированию, используются для кодирования скоростей, как, например, в видео- и звуковом кодировании

Эффективный способ проектирования набора фильтров для mdct/imdct в приложениях для кодирования речи и аудиосигналов // 2451998

Изобретение относится к кодирующим устройствам и декодерам