Устройство и способ определения оценочного значения

Авторы патента:

ШУГ Михель (DE)

ХИЛЬПЕРТ Йоханнес (DE)

НОЙЕНДОРФ Макс (DE)

ГЕИЭРСБЕРГЕР Штефан (DE)

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

Владельцы патента RU 2337414:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к кодеру и к кодированию сигнала, содержащего аудио- и/или видеоинформацию, в частности к оценке потребности в информационных блоках для кодирования этого сигнала. Для определения оценочного значения для потребности в информационных блоках для кодирования сигнала, наряду с разрешенной помехой для частотного диапазона и энергией частотного диапазона, дополнительно учитывается мера nl(b)) для распределения энергии в частотном диапазоне. Технический результат при реализации изобретения достигается за счет того, что обеспечивается получение лучшего оценочного значения для потребности в информационных блоках, что позволяет выполнять кодирование более эффективно и более точно. 3 н. и 8 з.п. ф-лы, 8 ил.

Настоящее изобретение относится к кодеру и к кодированию сигнала, содержащего аудио- и/или видеоинформацию, в частности к оценке потребности в информационных блоках для кодирования этого сигнала.

Ниже представлен известный кодер. На вход 1000 подается подлежащий кодированию аудиосигнал. Он сначала подается на блок 1002 масштабирования, в котором проводится так называемое ААС-управление усилением, чтобы установить уровень аудиосигнала. Информация разностного стереосигнала из блока масштабирования подается на блок 1004 форматирования битового потока, как это показано стрелкой между блоком 1002 и блоком 1004. Масштабированный аудиосигнал подается затем на блок 1006 фильтров модифицированного дискретного косинусного преобразования (МДКТ). В случае ААС-кодера блок фильтров реализует МДКП с перекрывающимися на 50% окнами, причем длина окна определяется посредством блока 1008.

Вообще говоря, блок 1008 применяется для того, чтобы сигналы переходных процессов подвергать взвешиванию с использованием более коротких окон, а более стационарные сигналы - с использованием более длинных окон. Это служит тому, что на основе более коротких окон для сигналов переходных процессов достигается более высокое разрешение по времени (ценой разрешения по частоте), в то время как для более стационарных сигналов за счет более длинных окон достигается более высокое разрешение по частоте (ценой разрешения по времени), причем традиционно более длинные окна считаются более предпочтительными, так как с ними связывается более высокий выигрыш от кодирования. На выходе блока 1006 фильтров, при рассмотрении во временной области, имеются следующие друг за другом блоки спектральных значений, которые, в зависимости от формы выполнения блока фильтров, могут являться коэффициентами МДКП, коэффициентами Фурье или сигналами поддиапазонов, причем каждый сигнал поддиапазона имеет определенную ограниченную ширину полосы, которая устанавливается посредством соответствующего канала поддиапазона в блоке 1006 фильтров, и каждый сигнал поддиапазона имеет определенное число значений выборок поддиапазона.

Ниже для примера представлен случай, в котором блок фильтров выдает, при рассмотрении во времени, следующие друг за другом блоки спектральных коэффициентов МДКП, которые, вообще говоря, представляют следующие друг за другом кратковременные спектры кодируемого аудиосигнала на входе 1000. Блок спектральных значений МДКП вводится затем в блок 1010 обработки, реализующей временное преобразование шумов (TNS). Метод TNS применяется для того, чтобы выполнить формирование временного представления шумов квантователя внутри каждого окна преобразования. Это достигается тем, что применяется процесс фильтрации на частях спектральных данных каждого канала. Кодирование проводится на основе окон. В частности, осуществляются следующие этапы, чтобы механизм TNS применить к окну спектральных данных, то есть к блоку спектральных значений.

Прежде всего выбирается частотный диапазон для механизма TNS. Подходящий выбор состоит в том, чтобы частотный диапазон 1,5 кГц до наивысшего возможного диапазона коэффициентов масштабирования перекрыть одним фильтром. Следует отметить, что этот частотный диапазон зависит от частоты дискретизации, как это определено стандартом AAC (ISO/IEC 14496-3: 2001 (E)).

Затем проводится вычисление на основе кодирования с линейным предсказанием (LPC), а именно со спектральными коэффициентами МДКП, которые лежат в выбранном целевом частотном диапазоне. Для повышенной устойчивости коэффициенты, которые соответствуют частотам ниже 2,5 кГц, исключаются из этого процесса обработки. Обычные процедуры LPC, как это известно из обработки речевых сигналов, могут применяться для вычисления на основе LPC, например известный алгоритм Левинсона-Дарбина. Вычисление выполняется для максимально допустимого порядка фильтра преобразования шумов.

В качестве результата вычисления на основе LPC получают ожидаемый выигрыш предсказания PG. Кроме того, получают коэффициенты отображения или Parcor-коэффициенты.

Если выигрыш предсказания не превышает определенный порог, то механизм TNS не применяется. В этом случае в битовый поток записывается управляющая информация, чтобы в кодере было известно, что обработка на основе механизма TNS не выполнялась.

Однако если выигрыш предсказания превышает определенный порог, то обработка на основе механизма TNS применяется.

На следующем этапе производится квантование коэффициентов отображения. Порядок применяемого фильтра преобразования шумов определяется путем удаления всех коэффициентов отражения с абсолютным значением меньшим, чем порог, из «хвоста» массива коэффициентов отражения. Число оставшихся коэффициентов отображения имеет порядок величины фильтра преобразования шумов. Подходящий порог составляет примерно 0,1.

Оставшиеся коэффициенты отображения преобразуются в типовом случае в коэффициенты линейного предсказания, причем этот метод также известен как процедура ступенчатого увеличения.

Вычисленные коэффициенты линейного предсказания (LPC) применяются затем как коэффициенты фильтра преобразования шумов, таким образом, как коэффициенты фильтра предсказания. Этот FIR-фильтр (с конечным импульсным откликом) проводится через определенный целевой частотный диапазон. При декодировании применяется авторегрессионный фильтр, в то время как при кодировании применяется так называемый фильтр со скользящим средним. Наконец, для механизма TNS на блок форматирования битового потока еще подводится информация разностного стереосигнала, как показано на фиг. 3 стрелкой между блоком 1010 TNS-обработки и блоком 1004 форматирования битового потока.

Затем реализуются непоказанные факультативные механизмы обработки, такие как механизм долговременного прогнозирования, механизм интенсивности/связи, механизм прогнозирования, механизм шумовой подстановки, пока, наконец, обработка не дойдет до кодера 1012 центрального/боковых сигналов. Кодер 1012 центрального/боковых сигналов активизируется в том случае, если кодируемый аудиосигнал представляет собой многоканальный сигнал, то есть стереосигнал с левым каналом и правым каналом. До сих пор, то есть в направлении обработки от блока 1012 на фиг. 3, левый и правый стереоканалы обрабатывались отдельно друг от друга, то есть масштабировались, преобразовывались блоком фильтров, подвергались TNS-обработке или пропускали ее и т.д.

Затем в кодере центрального/боковых сигналов сначала проверяется, целесообразно ли проводить кодирование центрального/боковых сигналов, то есть обеспечивает ли оно вообще выигрыш от кодирования. Кодирование центрального/боковых сигналов обеспечивает выигрыш кодирования в том случае, если левый и правый каналы подобны, так как тогда центральный канал, то есть сумма левого и правого каналов, примерно равен левому или правому каналу, без учета масштабирования посредством коэффициента ½, в то время как разностный стереосигнал имеет всего лишь малые значения, так как равен разности между левым и правым каналом. Тем самым можно видеть, что в том случае, когда левый и правый каналы приближенно одинаковы, разность приближенно равна нулю или имеет очень малые значения, которые, можно надеяться, в последующем квантователе 1014 будут квантованы к нулю и тем самым могут передаваться очень эффективным образом, так как за квантователем 1014 включен энтропийный кодер 1016.

На квантователь 1014 из психоакустической модели 1020 подается разрешенная помеха, приходящаяся на диапазон коэффициентов масштабирования. Квантователь работает итеративным способом, то есть сначала опрашивается внешний итерационный контур, который затем опрашивает внутренний итерационный контур. Вообще говоря, сначала, исходя из величины шага и начальных значений квантователя, предпринимается квантование блока значений на входе квантователя 1014. В частности, внутренний контур квантует коэффициенты МДКП, при этом применяется определенное количество битов. Внешний контур рассчитывает искажения и модифицированную энергию коэффициентов с применением коэффициента масштабирования, чтобы снова обратиться к внутреннему контуру. Этот процесс итеративно повторяется до тех пор, пока не будет выполнено определенное условие. Для каждой итерации во внешнем итерационном контуре при этом реконструируется сигнал, чтобы вычислить помеху, обусловленную квантованием, и сравнить с разрешенной помехой, выдаваемой из психоакустической модели 1020. Кроме того, коэффициенты масштабирования частотных диапазонов увеличиваются от итерации к итерации на одну ступень, а именно для каждой итерации внешнего итерационного контура.

Затем, если достигнута ситуация, при которой помеха квантователя, введенная вследствие квантования, ниже разрешенной помехи, определенной психоакустической моделью, и если одновременно выполняются требования к битам, а именно максимальная скорость битов не превышена, то итерация, то есть способ анализа через синтез, завершается, и полученные коэффициенты масштабирования кодируются, как это выполняется в блоке 1014, и в кодированной форме подаются на блок 1004 форматирования битового потока, как показано стрелкой между блоком 1014 и блоком 1004. Квантованные значения подаются затем на энтропийный кодер 1016, который в типовом случае с применением множества таблиц кодов Хафмана проводит энтропийное кодирование для различных диапазонов коэффициентов масштабирования, чтобы перевести квантованные значения в двоичный формат. Известно, что при энтропийном кодировании в форме кодирования Хафмана осуществляется обращение к кодовым таблицам, которые формируются на основе ожидаемой статистики сигналов, и в которых часто встречающиеся значения становятся более короткими кодовыми словами, чем более редко встречающиеся значения. Энтропийно кодированные значения затем также подаются в качестве собственно основной информации на блок 1004 форматирования битового потока, который затем выдает на выходе кодированный аудиосигнал, соответствующий определенному синтаксису битового потока.

Сокращение данных адудиосигналов является известным методом, который лежит в основе ряда международных стандартов (например, ISO-MPEG-1, MPEG-2 AAC, MPEG-4).

Общим для вышеназванных способов является то, что входной сигнал посредством так называемого кодера с использованием эффектов восприятия (психоакустика, психооптика) приводится в компактное представление на основе сокращенного объема данных. Для этого обычно применяется спектральный анализ сигнала, и соответствующие сигнальные составляющие с учетом модели восприятия квантуются и затем максимально возможным компактным способом кодируются в виде так называемого битового потока.

Чтобы перед собственно квантованием оценить, насколько много битов требуется определенному, подлежащему кодированию фрагменту сигнала, может использоваться так называемая перцептуальная энтропия (РЕ). Параметр РЕ представляет также меру того, насколько затруднительным для кодера является кодирование определенного сигнала или его частей.

Решающим для качества оценки является отклонение РЕ от числа действительно необходимых битов.

Кроме того, перцептуальная энтропия или каждое оценочное значение для потребности в информационных блоках может применяться при кодировании сигнала для того, чтобы оценить, является ли сигнал переходным или стационарным, так как переходные сигналы также требуют для кодирования больше битов, чем стационарные сигналы. Оценка переходного свойства сигнала применяется, например, для того, чтобы выполнить решение относительно длины окна, как это показано блоком 1008 на фиг. 3.

На фиг. 6 представлена перцептуальная энтропия, вычисленная согласно ISO/IEC IS 13818-7 (усовершенствованное аудиокодирование согласно стандарту MPEG-2 (AAC)). Для вычисления этой перцептуальной энтропии, то есть диапазонной перцептуальной энтропии, применяется уравнение, представленное на фиг. 6. В этом уравнении параметр ре обозначает перцептуальную энтропию. Кроме того, параметр width (b) обозначает число спектральных коэффициентов в соответствующем диапазоне b. Кроме того, e(b) обозначает энергию сигнала в этом диапазоне. Наконец, nb(b) обозначает подходящий для этого порог маскирования или, в общем, разрешенную помеху, которая может вводиться в сигнал, например, за счет квантования, чтобы, однако, слушатель не услышал помехи или услышал исчезающее малую помеху.

Диапазоны могут определяться распределением диапазонов психоакустической модели (блок 1020 на фиг. 3), или речь идет о применяемых при квантовании так называемых диапазонах коэффициентов масштабирования (scfb). Психоакустический порог маскирования представляет собой значение энергии, которое не должна превышать ошибка квантования.

Показанное на фиг. 6 представление иллюстрирует, насколько хорошо определенная таким образом перцептуальная энтропия функционирует в качестве оценки для числа битов, необходимых для кодирования. Для этого на примере ААС-кодера при различных битовых скоростях для каждого отдельного блока показана соответствующая перцептуальная энтропия в зависимости от требующихся битов. Применяемый тестовый фрагмент содержит типичную смесь из музыки, разговора и отдельных инструментов.

Идеальным образом, точки должны были бы сконцентрироваться вдоль прямой, проходящей через нулевую точку. Расширение последовательности точек с отклонениями от идеальной линии свидетельствует о неточной оценке.

Недостатком принципа, показанного на фиг. 6, является, таким образом, отклонение, которое выражается в том, что возникает, например, слишком большое значение для перцептуальной энтропии, что, в свою очередь, означает, что квантователю сигнализируется, что применяется больше битов, чем собственно требуется. Это ведет к тому, что квантователь осуществляет квантование с чрезмерно малым шагом квантования, что он, таким образом, не исчерпал меру разрешенной помехи, результатом чего является понижение выигрыша от кодирования. С другой стороны, если значение для перцептуальной энтропии определяется как чрезмерно малое, то квантователю сигнализируется, что для кодирования сигнала применяется меньше битов, чем собственно требуется. Это, в свою очередь, ведет к тому, что квантователь осуществляет квантование с чрезмерно грубым шагом квантования, что могло бы привести к непосредственно прослушиваемой помехе в сигнале, если бы не принимались меры противодействия. Такие меры противодействия могут состоять в том, что квантователь использует еще один или более дополнительных итерационных контуров, что обуславливает увеличение времени вычислений кодера.

Для улучшения вычисления перцептуальной энтропии можно было бы, как показано на фиг. 7, ввести постоянный член, как, например, 1,5, в логарифмическое выражение. Тогда получается уже лучший результат, то есть меньшее отклонение вверх или вниз, хотя еще можно видеть, что учет постоянного члена в логарифмическом выражении приводит к сокращению случаев, когда перцептуальная энтропия сигнализирует о чрезмерно оптимистической потребности в битах. С другой стороны, из фиг. 7 можно четко видеть, что в значительной степени сигнализируется о слишком большом числе битов, что приводит к тому, что квантователь всегда выполняет квантование со слишком малым шагом квантования, то есть принимается большая потребность в битах, чем она есть на самом деле, что вновь приводит к снижению выигрыша от кодирования. Постоянная в логарифмическом выражении представляет грубую оценку битов, необходимых для информации разностного стереосигнала.

Таким образом, добавление члена в логарифмическое выражение обеспечивает улучшение диапазонной перцептуальной энтропии, как это представлено на фиг. 6, так как диапазоны с очень незначительным расстоянием между энергией и порогом маскирования учитываются в большей степени, так как и для передачи квантованных в нуль спектральных коэффициентов требуется определенное количество битов.

Другой, очень затратный с точки зрения времени вычислений, метод вычисления перцептуальной энтропии показан на фиг. 8. На фиг. 8 показан случай, при котором перцептуальная энтропия вычисляется для каждой спектральной линии. Однако недостатком данного метода являются высокие вычислительные затраты. Здесь вместо энергии используются спектральные коэффициенты X(k), причем параметр kOffset(b) обозначает первый индекс диапазона b. Если сравнить фиг. 8 с фиг. 7, то в диапазоне от 2000 до 3000 битов отчетливо видно сокращение «выбросов» вверх. Оценка РЕ будет при этом точнее, то есть не будет оцениваться слишком пессимистично, а скорее будет соответствовать оптимуму, так что выигрыш от кодирования по сравнению со способами вычисления, иллюстрируемыми на фиг. 6 и 7, может повыситься, или число итераций в квантователе может уменьшиться.

Недостатком вычисления по линиям перцептуальной энтропии является, однако, время вычислений, требуемое, чтобы оценить показанное на фиг. 8 уравнение.

Такие недостатки, связанные с временем вычисления, не играют, решающей роли, если кодер реализуется на высокопроизводительном персональном компьютере или высокопроизводительной рабочей станции. Однако совсем по другому это представляется в том случае, когда кодер находится в портативном приборе, например телефонной трубке системы UMTS, который должен, с одной стороны, быть малогабаритным и дешевым и, с другой стороны, должен иметь низкое потребление тока, и который также должен работать с высоким быстродействием, чтобы обеспечить возможность кодирования аудиосигналов и видеосигналов, передаваемых по соединению стандарта UMTS.

Задача настоящего изобретения заключается в том, чтобы создать эффективный и вместе с том точный принцип определения оценочного значения для потребности в информационных блоках для кодирования сигнала.

Эта задача в соответствии с изобретением решается устройством согласно пункту 1 формулы изобретения, способом согласно пункту 12 формулы изобретения или компьютерной программой согласно пункту 13 формулы изобретения.

В основе изобретения лежит знание того, что при вычислении для каждого частотного диапазона оценочного значения для потребности в информационных блоках из соображений, связанных с временем вычисления, следует придерживаться того, что для получения точного определения оценочного значения должно учитываться распределение энергии в частотном диапазоне, для которого должны проводиться диапазонные вычисления.

Тем самым, до известной степени, неявным образом следующий за квантователем энтропийный кодер «включается» в определение оценочного значения для потребности в информационных блоках. Энтропийное кодирование обеспечивает, в частности, возможность того, что для передачи меньших спектральных значений требуется меньшее число битов, чем для передачи больших спектральных значений. Особенно эффективным энтропийный кодер является в тех случаях, когда могут передаваться квантованные в нуль спектральные значения. Так как они в типовом случае появляются чаще всего, то кодовое слово для передачи квантованной в нуль спектральной линии является самым коротким кодовым словом, а кодовое слово для передачи все больших квантованных спектральных линий является все более длинным. Помимо этого, для обеспечения особенно эффективного принципа, для передачи последовательности квантованных в нуль спектральных значений можно даже прибегнуть к кодированию длин последовательностей, следствием чего является то, что в случае последовательности нулей, приходящейся на квантованное в нуль спектральное значение, в среднем зачастую требуется один единственный бит.

Было найдено, что применение известного из уровня техники диапазонного вычисления перцептуальной энтропии для определения оценочного значения для потребности в информационных блоках полностью не учитывает подключенный далее энтропийный кодер, если распределение энергии в частотном диапазоне отклоняется от полностью равномерного распределения.

В соответствии с изобретением, таким образом, для сокращения неточностей диапазонного вычисления принимается во внимание, каким образом распределена энергия в пределах диапазона.

В зависимости от реализации, мера для распределения энергии в частотном диапазоне может определяться на основе действительных амплитуд или путем оценки частотных линий, которые не квантуются в нуль посредством квантователя. Эта мера, которая также обозначается как "nl", где nl - число активных линий, то есть соответствует количеству активных спектральных линий, является предпочтительной ввиду обеспечиваемой эффективности по затратам времени на вычисления. Однако также может учитываться число квантуемых в нуль спектральных линий или более точное подразделение, причем эта оценка становится тем более точной, чем больше информации подключенного далее энтропийного кодера принимается во внимание. Если энтропийный кодер строится на основе кодовых таблиц Хафмана, то свойства этих кодовых таблиц могут включаться особенно эффективным образом, так как кодовые таблицы вычисляются не на основе сигнальной статистики в известной степени оперативным способом, а потому, что кодовые таблицы и без того определяются независимо от фактического сигнала.

В зависимости от ограничений по времени вычислений, в случае особенно эффективного вычисления, получение меры распределения энергии в частотном диапазоне проводится через определение оставшихся после квантования спектральных линий, то есть количества активных линий.

Настоящее изобретение является предпочтительным в том смысле, что определяется оценочное значение для потребности в информационном содержании, которое, с одной стороны, является более точным, а с другой стороны, более эффективным, чем согласно предшествующему уровню техники.

Кроме того, заявленное изобретение является масштабируемым для различных применений, так как, в зависимости от желательной точности оценочного значения, больше свойств энтропийного кодера, однако ценой увеличения времени вычислений, может включаться в оценку потребности в битах.

Предпочтительные примеры выполнения заявленного изобретения далее поясняются более подробно со ссылками на чертежи, на которых представлено следующее:

Фиг. 1 - блок-схема соответствующего изобретению устройства для определения оценочного значения;

Фиг. 2а - предпочтительная форма выполнения устройства для вычисления меры распределения энергии в частотном диапазоне;

Фиг. 2b - предпочтительная форма выполнения устройства для вычисления оценочного значения для потребности в битах;

Фиг. 3 - блок-схема известного аудиокодера;

Фиг. 4 - принципиальное представление для пояснения влияния распределения энергии внутри диапазона на определение оценочного значения;

Фиг. 5 - диаграмма для вычисления оценочного значения согласно заявленному изобретению;

Фиг. 6 - диаграмма для вычисления оценочного значения согласно ISO/IEC IS 13818-7(ACC);

Фиг. 7 - диаграмма для вычисления оценочного значения с постоянным членом;

Фиг. 8 - диаграмма для вычисления оценочного значения с постоянным членом по каждой спектральной линии.

Далее со ссылкой на фиг. 1 описывается соответствующее изобретению устройство для определения оценочного значения для потребности в информационных блоках для кодирования сигнала. Сигнал, который может представлять собой аудио- и/или видеосигнал, вводится через вход 100. Предпочтительным образом, сигнал имеется уже в виде спектрального представления со спектральными значениями. Однако это не является обязательно необходимым, так как за счет соответствующей, например полосовой, фильтрации могут проводится также соответствующие вычисления с временным сигналом.

Сигнал подается на устройство 102 для выработки меры разрешенной помехи для частотного диапазона сигнала. Разрешенная помеха может определяться, например, посредством психоакустической модели, как это поясняется с помощью фиг. 3 (блок 1020). Устройство 102, кроме того, действует для того, чтобы выработать меру для энергии сигнала в частотном диапазоне. Предпосылка для диапазонного вычисления заключается в том, что частотный диапазон, для которого указывается разрешенная помеха или энергия сигнала, содержит, по меньшей мере, две или более спектральные линии спектрального представления сигнала. В случае типовых стандартизованных кодеров частотным диапазоном будет, предпочтительно, диапазон коэффициентов масштабирования, так как оценка потребности в битах требуется непосредственно квантователем, чтобы установить, выполняет осуществляемое квантование некоторый критерий в отношении битов или нет.

Устройство 102 выполнено таким образом, чтобы как разрешенную помеху nb(b), так и энергию сигнала e(b) в диапазоне подать на устройство 104 для вычисления оценочного значения для потребности в битах.

В соответствии с изобретением устройство 104 для вычисления оценочного значения для потребности в битах выполнено таким образом, чтобы, наряду с разрешенной помехой и энергией сигнала, принять во внимание меру nl(b) для распределения энергии в частотном диапазоне, причем распределение энергии в частотном диапазоне отклоняется от полностью равномерного распределения. Мера для распределения энергии вычисляется в устройстве 106, причем устройству 106 требуется, по меньшей мере, один диапазон, а именно рассматриваемый частотный диапазон аудио- или видеосигнала либо как полосовой сигнал, либо непосредственно как последовательность спектральных линий, чтобы например, иметь возможность выполнить спектральный анализ диапазона, чтобы получить меру для распределения энергий в частотном диапазоне.

Разумеется, аудио- или видеосигнал устройства 106 может подаваться как временной сигнал, причем устройство 106 тогда проводит полосовую фильтрацию, а также анализ в соответствующем частотном диапазоне. Альтернативно, аудио- или видеосигнал, который подается на устройство 106, может уже быть представлен в частотном диапазоне как, например, коэффициенты МДКП, или как полосовой сигнал в блоке фильтров с меньшим, по сравнению с блоком фильтров МДКП, числом полосовых фильтров.

В предпочтительном примере выполнения устройство 106 выполнено с возможностью вычисления таким образом, чтобы для вычисления оценочного значения учитывать реальные вклады, вносимые спектральными значениями в частотном диапазоне.

Кроме того, устройство для вычисления меры для распределения энергии может быть выполнено таким образом, чтобы в качестве меры для распределения энергии определять число спектральных значений, вносимый вклад которых больше или равен предварительно определенному пороговому значению вклада, или вносимый вклад которых меньше или равен пороговому значению вклада, причем пороговое значение вклада предпочтительно представляет собой оценку шага квантователя, который в квантователе обуславливает то, что значения, меньшие или равные шагу квантователя, квантуются в нуль. В этом случае мера для энергии равна числу активных линий, то есть числу линий, которые остались после квантования или которые не равны нулю.

На фиг. 2а показан предпочтительный пример выполнения устройства 106 для вычисления меры для распределения энергии в частотном диапазоне. Мера для распределения энергии в частотном диапазоне обозначена на фиг. 2а как nl(n). Коэффициент формы ffac(b) уже является мерой для распределения энергии в частотном диапазоне. Как это видно из блока 106, мера спектрального распределения nl определяется из коэффициента формы ffac(b) путем взвешивания корнем четвертой степени из энергии сигнала e(b), деленной на ширину диапазона width(b), или числом линий в диапазоне b коэффициентов масштабирования. В этой связи следует отметить, что коэффициент формы также является примером для величины, которая указывает меру для распределения энергий, в то время как параметр nl(b), в противоположность этому, является примером величины, которая представляет оценочное значение для числа линий, релевантных для квантования.

Коэффициент формы ffac(b) вычисляется посредством формирования вклада спектральной линии и последующего формирования корня из этой спектральной линии с последующим суммированием корней из вкладов спектральных линий в диапазоне.

На фиг. 2b показана предпочтительная форма выполнения устройства 104 для вычисления оценочного значения ре, причем на фиг. 2b еще проводится отличие случая, когда логарифм по основанию 2 отношения энергии к разрешенной помехе больше, чем постоянный коэффициент c1, и или равен постоянному коэффициенту. В этом случае применяется альтернативный вариант, показанный сверху в блоке 104, то есть мера для спектрального распределения nl перемножается с логарифмическим выражением.

Если, напротив, устанавливается, что логарифм по основанию 2 отношения энергии к разрешенной помехе меньше, чем постоянный коэффициент c1, то применяется альтернативный вариант, показанный снизу в блоке 104, который дополнительно еще содержит аддитивную постоянную с2, а также мультипликативную постоянную с3, которая вычисляется из постоянных с2 и с1.

Далее, со ссылками на фиг. 4а и 4b представлен принцип, соответствующий изобретению. Так на фиг. 4а показан диапазон, в котором имеются четыре спектральные линии, которые все имеют одинаковую величину. Энергия в этом диапазоне, таким образом, равномерно распределена по диапазону. Напротив, фиг. 4b иллюстрирует ситуацию, когда энергия в диапазоне сосредоточена на одной спектральной линии, в то время как другие три спектральные линии равны нулю. Показанный на фиг. 4b диапазон мог бы, например, иметь место перед квантованием или мог бы быть получен после квантования, когда установленные в нуль на фиг. 4b спектральные линии перед квантованием меньше, чем первый шаг квантования, и поэтому устанавливаются квантователем в нуль, то есть «не выживают» после квантования.

Число активных линий на фиг. 4b, таким образом, равно 1, причем параметр nl на фиг. 4b вычисляется как квадратный корень из 2. Напротив, значение nl, то есть мера для спектрального распределения энергии на фиг. 4а, вычисляется как 4. Это означает, что спектральное распределение энергии является более равномерным, если мера для распределения спектральной энергии больше по величине.

Следует отметить, что диапазонное вычисление перцептуальной энтропии, согласно уровню техники, не устанавливает различия между этими обоими случаями. В частности, не устанавливается никакого различия, если в обоих диапазонах, как показано на фиг. 4а и фиг. 4b, имеется одна и та же энергия.

Однако очевидно, что показанный на фиг. 4b случай может кодироваться с учетом только одной релевантной линии с использованием меньшего числа битов, так как три установленные в нуль спектральные линии могут передаваться очень эффективным образом. Вообще говоря, более простая квантуемость для случая, показанного на фиг. 4b, основывается на том факте, что после квантования и кодирования без потерь меньшие значения и, в частности, квантованные в нуль значения требуют для передачи меньшего числа битов.

Таким образом, в соответствии с изобретением учитывается, каким образом энергия распределена внутри диапазона. Это осуществляется, как изложено выше, путем замены числа линий, приходящихся на диапазон, в известном уравнении (фиг. 6) оценкой числа линий, которые не равны нулю после квантования. Эта оценка представлена на фиг. 2а.

Кроме того, следует отметить, что показанный на фиг. 2а коэффициент формы необходим и в другом месте в кодере, например в блоке квантования 1014, для определения величины шага квантования. Затем, когда коэффициент формы уже вычислен в другом месте, он не должен вновь вычисляться для оценки битов, так что принцип, соответствующий изобретению, для улучшенной оценки меры для требуемого числа битов реализуется с минимальными дополнительными затратами на вычисления.

Как уже изложено выше, в случае X(k) речь идет о спектральных коэффициентах, которые позже должны квантоваться, в то время как переменная kOffset(b) обозначает первый индекс в диапазоне b.

Как можно видеть из фиг. 4А и 4b, спектр на фиг. 4а дает значение nl=4, в то время как спектр на фиг. 4b дает значение 1,41. С помощью коэффициента формы, таким образом, обеспечивается мера для характеристики спектральной структуры поля в соответствующем диапазоне.

Новая формула для вычисления улучшенной диапазонной перцептуальной энтропии базируется, таким образом, на перемножении меры спектрального распределения энергии и логарифмического выражения, при этом сигнальная энергия e(b) указывается в числителе, а разрешенная помеха - в знаменателе, причем в зависимости от потребности, в логарифм может вводиться дополнительный член, как это представлено на фиг. 7. Этот член может быть равен, например, 1,5, но может также быть установлен в нуль, как в случае на фиг. 4b, причем это может определяться, например, эмпирически.

Здесь еще раз следует сослаться на фиг.5, на которой иллюстрируется вычисленная в соответствии с изобретением перцептуальная энтропия, а именно представленная соответственно требуемым битам. Можно явно видеть более высокую точность оценки по сравнению со сравнительными примерами на фиг. 6, 7 и 8. Также, по сравнению с вычислением по спектральным линиям, сокращается соответствующее изобретению модифицированное диапазонное вычисление, по меньшей мере, на ту же величину.

В зависимости от конкретных условий применения соответствующий изобретению способ может быть реализован аппаратными средствами или программным обеспечением. Реализация может осуществляться на цифровом носителе для хранения данных, например на дискете или на компакт-диске (CD) с электронным способом считываемыми управляющими сигналами, которые могут взаимодействовать с программируемой компьютерной системой таким образом, чтобы выполнить способ. Таким образом, изобретение также относится к компьютерному программному продукту с сохраненным на машиночитаемом носителе программным кодом для выполнения соответствующего изобретению способа, если компьютерный программный продукт выполняется на вычислительном устройстве. Иными словами, изобретение также может быть реализовано как компьютерная программа с программным кодом для выполнения способа, когда компьютерная программа выполняется на компьютере.

1. Устройство для определения оценочного значения (ре) для потребности в информационных блоках для кодирования сигнала, который содержит аудио- или видеоинформацию, причем сигнал содержит множество частотных диапазонов, содержащее

средство (102) для выработки меры (nb(b)) для разрешенной помехи для частотного диапазона (b) сигнала, причем частотный диапазон (b) содержит, по меньшей мере, два спектральных значения спектрального представления сигнала, и меры (е(b)) для энергии сигнала в частотном диапазоне;

средство (106) для вычисления меры (nl(b)) для распределения энергии (е(b)) в частотном диапазоне (b), причем распределение энергии в частотном диапазоне отклоняется от полностью равномерного распределения,

причем средство (106) для вычисления меры (nl(b)) для распределения энергии (е(b)) выполнено с возможностью определения, в качестве меры для распределения энергии, оценочного значения для числа спектральных значений, величины которых больше или равны предварительно определенному пороговому значению величины, или величины которых меньше или равны пороговому значению величины, причем пороговое значение величины является точной или оцененной величиной шага квантователя, которая в квантователе (1014) ведет к тому, что значения, меньшие или равные величине шага квантователя, квантуются в значение, равное нулю; и

средство (104) для вычисления оценочного значения (ре) с использованием меры (nb(b)) для помехи и меры для энергии, подаваемыми средством (102) для выработки меры (nb(b)) для разрешенной помехи и меры (е(b)) для энергии сигнала в частотном диапазоне, и меры для распределения энергии, подаваемой средством (106) для вычисления меры (nl(b)) для распределения энергии (е(b)).

2. Устройство по п.1, в котором средство (106) для вычисления выполнено таким образом, чтобы при вычислении меры для распределения энергии учитывать величины спектральных значений в частотном диапазоне.

3. Устройство по п.1 или 2, в котором средство (106) для вычисления выполнено с возможностью вычисления коэффициента формы ffac(b), который определяется следующей формулой:

где X(k) - спектральное значение для частотного индекса k, kOffset - первое спектральное значение в диапазоне b, и ffac(b) - коэффициент формы для диапазона b.

4. Устройство по п.1 или 2, в котором средство (106) для вычисления выполнено таким образом, чтобы учитывать корень четвертой степени из отношения энергии в частотном диапазоне к ширине частотного диапазона или числу спектральных значений в частотном диапазоне.

5. Устройство по п.1 или 2, в котором средство (106) для вычисления выполнено с возможностью вычисления меры распределения энергии по следующей формуле:

где Х(к) - спектральное значение для частотного индекса k, kOffset - первое спектральное значение в диапазоне b, ffac(b) - коэффициент формы, nl(b) - мера распределения энергии в диапазоне b, е(b) - сигнальная энергия в диапазоне b, width(b) - ширина диапазона.

6. Устройство по п.1 или 2, в котором средство (104) для вычисления оценочного значения выполнено таким образом, чтобы использовать отношение энергии в частотном диапазоне к помехе в частотном диапазоне.

7. Устройство по п.1 или 2, в котором средство (104) для вычисления оценочного значения выполнено с возможностью вычисления оценочного значения с применением следующего выражения:

8. Устройство по п.1 или 2, в котором средство (104) для вычисления оценочного значения выполнено с возможностью вычисления оценочного значения с применением следующего выражения:

где

и где

где ре - оценочное значение, nl(b) - мера распределения энергии в диапазоне b, е(b) - энергия сигнала в диапазоне b, nb(b) - разрешенная помеха в диапазоне b, s - аддитивный член, который предпочтительно равен 1,5, Х(k) - спектральное значение для частотного индекса k, kOffset - первое спектральное значение в диапазоне b, ffac(b) - коэффициент формы, width(b) - ширина диапазона.

9. Устройство по п.1 или 2, в котором сигнал задан как спектральное представление со спектральными значениями.

10. Способ определения оценочного значения для потребности в информационных блоках для кодирования сигнала, который содержит аудио- или видеоинформацию, причем сигнал содержит множество частотных диапазонов, содержащий следующие этапы:

выработка (102) меры (nb(b)) для разрешенной помехи для частотного диапазона (b) сигнала, причем частотный диапазон содержит, по меньшей мере, два спектральных значения спектрального представления сигнала, и меры (е(b)) для энергии сигнала в частотном диапазоне (b);

вычисление (106) меры (nl(b)) для распределения энергии в частотном диапазоне (b), причем распределение энергии в частотном диапазоне отклоняется от полностью равномерного распределения, причем в качестве меры (nl(b)) для распределения энергии определяется оценочное значение для числа спектральных значений, величины которых больше или равны предварительно определенному пороговому значению величины, или величины которых меньше или равны пороговому значению величины, причем пороговое значение величины является точной или оцененной величиной шага квантователя, которая в квантователе (1014) ведет к тому, что значения, меньшие или равные величине шага квантователя, квантуются в значение, равное нулю; и

вычисление (104) оценочного значения (ре) с применением меры (nb(b)) для помехи, меры (е(b)) для энергии и меры (nl(b)) для распределения энергии.

11. Машиночитаемый носитель, предназначенный для взаимодействия с программируемой компьютерной системой под действием считываемых управляющих сигналов в форме программного кода, сохраненного на машиночитаемом носителе, для определения оценочного значения для потребности в информационных блоках для кодирования сигнала с использованием способа по п.10.

Похожие патенты:

Аудиокодирование // 2335809

Изобретение относится к аудиокодированию и, в частности, к аудиокодированию, которое позволяет кодировать аудиосигналы с коротким временем задержки. .

Устройство и способ обработки многоканального сигнала // 2332727

Изобретение относится к звуковым кодерам и в особенности к звуковым кодерам на основе преобразования временного представления в спектральное представление. .

Устройство и способ определения величины шага квантователя // 2329549

Изобретение относится к аудиокодерам, в частности к аудиокодерам, в которых осуществляется преобразование временного представления в спектральное представление. .

Способ передачи аудиосигналов методом приоритетной передачи пикселей // 2322706

Изобретение относится к способу передачи аудиосигналов между передатчиком и, по меньшей мере, одним приемником методом приоритетной передачи пикселей. .

Способ осуществления машинной оценки качества звуковых сигналов // 2312405

Изобретение относится к анализу качества звуковых сигналов и может быть использовано для оценки качества речи, передаваемой по каналам радиосвязи. .

Усовершенствованное преобразование спектра/свертка в области поддиапазонов // 2251795

Изобретение относится к способу и устройству в области высокочастотного восстановления, применяемого в системах кодирования аудиосигналов. .

Способ дикторонезависимого распознавания звуков речи // 2234746

Изобретение относится к распознаванию речи. .

Способ осуществления машинной оценки качества аудиосигналов // 2232434

Изобретение относится к машинной оценке качества передачи аудиосигналов. .

Способ и устройство кодирования информации, способ и устройство для декодирования информации, носитель для записи информации // 2221329

Изобретение относится к области радиотехники, в частности к кодированию информации для расширения формата кодируемых сигналов. .

Способ кодирования речи (варианты), кодирующее и декодирующее устройство // 2214048

Изобретение относится к кодированию и декодированию речи. .

Индивидуальное формирование каналов для схем всс и т.п. // 2339088

Кодирование звука с различными длительностями кадра кодирования // 2344493

Изобретение относится к способу поддержки кодирования звукового сигнала, в котором по меньшей мере один отрезок звукового сигнала необходимо кодировать с помощью модели кодирования, позволяющей использовать различные длительности кадра кодирования, согласно которому предлагается определять на основе характеристик звукового сигнала по меньшей мере один параметр управления

Способ создания представления результата вычисления, линейно зависимого от квадрата значения // 2375743

Изобретение относится к вычислительной технике и может быть использовано в устройствах кодирования звука

Многоканальный кодер // 2382419

Изобретение относится к многоканальным кодерам, например к многоканальным звуковым кодерам, использующим параметрическое описание пространственного звука

Кодер, декодер, способ кодирования и способ декодирования // 2387024

Изобретение относится к устройству кодирования, устройству декодирования, способу кодирования и способу декодирования

Способы и устройства для кодирования и декодирования стереосигнала // 2392671

Изобретение относится к способам кодирования данных, например к способу кодирования аудиоданных и/или видеоданных, используя переменные углы поворота для компонентов данных

Способ, устройство, кодирующее устройство, декодирующее устройство и аудиосистема // 2396608

Изобретение относится к обработке стереосигнала, полученного от кодировщика

Способ обнаружения пауз в речевых сигналах и устройство его реализующее // 2399103

Изобретение относится к области цифровой обработки речевых данных и может быть использовано в различных приложениях, например в IР-телефонии

Устройство и способ для генерации значений субполос звукового сигнала и устройство и способ для генерации аудиоотсчетов временной области // 2411645

Изобретение относится к устройству и способу для генерации значений субполос звукового сигнала, к устройству и способу для генерации отсчетов временной области

Кодирование информационного сигнала // 2413312

Изобретение относится к кодированию информационных сигналов, например, аудиокодированию, в частности, к кодированию с копированием спектральных полос (SBR)